7.3. Сегментеры фраз японского, тайского, корейского и китайского языков

Традиционное японское, корейское, тайское или китайское письмо не предусматривает размещение между словами фразы символов-разделителей, аналогичных пробелу, используемому, например, в европейских языках. Поэтому при индексировании текстов на этих языках необходимо дополнительно производить разбиение фраз на отдельные слова.

Иногда для красоты, текст на китайском, японском, корейском или тайском языке набирается с пробелом между каждым иероглифом. В этом случае для индексирования таких текстов, вы можете использовать команды "ResegmentChinese yes", "ResegmentJapanese yes", "ResegmentKorean yes" or "ResegmentThai yes". При включенном ресегментировании все пробелы между символами в тексте убираются, а затем весь текст целиком обрабатывается сегментерами DataparkSearch (см. ниже).

7.3.1. Сегментер фраз японского языка

Для разбиения на слова фраз японского языка используется система морфологического анализа японского языка ChaSen или морфологический анализатор японского языка MeCab. Поэтому её необходимо установить одну из этих систем до начала сборки и установки DataparkSearch.

Для включения поддержки разбиения фраз японского языка, вам необходимо указать для configure ключ --enable-chasen или --enable-mecab.

7.3.2. Сегментер фраз китайского языка

Для разбиения на слова фраз китайского языка используется частотный словарь китайского языка, а разбиение производится методом динамического программирования чтобы суммарная частота использования всех получаемых слов после разбиения была максимальной.

Для включения поддержки сегментера фраз на китайском языке, необходимо при сборке DataparkSearch включить поддержку кодировки GB2312, если будет использоваться словарь упрощенного китайского mandarin.freq, или кодировки Big5, если будет использоваться словарь традиционного китайского TraditionalChinese.freq, а также указать в indexer.conf при помощи команды LoadChineseList частотный словарь слов китайского языка для загрузки.

LoadChineseList [charset dictionaryfilename]

По умолчанию используется кодировка GB2312 и словарь mandarin.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadChineseList

Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2>.

7.3.3. Сегментер фраз тайского языка

Для разбиения на слова фраз тайского языка используется тот же метод, что и для китайского языка, оличие заключается в использовании частотного словаря тайского языка.

Для включения поддержки сегментера фраз на тайском языке, необходимо указать в indexer.conf при помощи команды LoadThaiList частотный словарь слов тайского языка для загрузки.

LoadThaiList [charset dictionaryfilename]

По умолчанию используется кодировка tis-620 и словарь thai.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadThaiList

Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2>.

7.3.4. Сегментер фраз корейского языка

Для разбиения на слова фраз корейского языка используется тот же метод, что и для китайского языка, оличие заключается в использовании частотного словаря корейского языка.

Для включения поддержки сегментера фраз на корейском языке, необходимо указать в indexer.conf при помощи команды LoadKoreanList частотный словарь слов корейского языка для загрузки.

LoadKoreanList [charset dictionaryfilename]

По умолчанию используется кодировка euc-kr и словарь korean.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadKoreanList

Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2>.