3.4. Стопслова

Стопслова -- наиболее часто используемые слова, т.е слова, встречающиеся почти в каждом документе коллекции. Стопслова удаляются перед созданием индекса, что посзволяет сократить размер индекса без сколько-нибудь значимой потери в качестве поиска.

3.4.1. Команда StopwordFile

Загружает стоп-слова из указаного файла. Вы можете задать как абсолютный, так и относительный путь. Относительный путь задаётся от директории etc. Можно использовать несколько команд StopwordFile.

StopwordFile stopwords/en.sl

Вы должны использовать один и тот же надор команд StopwordFile в indexer.conf и search.htm (searchd.conf если используется searchd).

3.4.2. Формат файла стопслов

Вы можете создавать свои файлы стоп-слов. В качестве примера, вы можете использовать файл английских стоп-слов etc/stopwords/en.sl. В начале листа поместите следующие две команды:

Language: en
Charset:  us-ascii

Затем следует список слов, по одному на строку. Каждое слово записывается в кодировке, указанной выше командой Charset:.

Вы можете использовать дополнительную команду Match: для задания шаблона, любое слово подпадающее под который будет считаться стоп-словом. Например:

Match: regex ^\$##

По этой команде любое слово, начинающееся с $## будет рассматриваться как стоп-слово.

Опции команды Match: аналогичны опциям команды Allow (см. Разд. 3.10.14>). Аргументы записываются в кодировке, указанной командой Charset:. Регулярные выражения в данный момент ограничены (например, не поддерживаются интервалы).

3.4.3. Команда FillDictionary.

При помощи команды "FillDictionary yes" в indexer.conf вы можете включить сохранение всех индексируемых слов в таблице "dict" для способа хранения cache. Это может пригодиться для отслеживания, какие слова могут быть стопсловами для вашей инсталляции.

3.4.4. Команда StopwordsLoose.

Если в indexer.conf и в search.htm указана команада "StopwordsLoose yes", только стопслова того же языка, что и индексируемый документ или языка поискового запроса считаются таковыми, т.е. стопслова для других языков обрабатываются как обычные слова для текущего индексируемого документа или исполняемого поискового запроса.