Настройка Elasticsearch-синонимов для поиска 1С-Битрикс
Пользователь ищет «мобильник» — ничего. Вводит «сотовый» — тоже пусто. Каталог полон смартфонов, но в названиях товаров используется только слово «телефон». Синонимы в Elasticsearch — это связка между пользовательским словарём и реальными терминами в индексе. Без них полнотекстовый поиск работает только для тех, кто угадал точное слово.
Где синонимы в цепочке Elasticsearch
Синонимы добавляются как token filter в анализатор. Они могут работать двумя способами:
Expansion — «мобильник» превращается в «мобильник телефон смартфон». Все три токена попадают в запрос. Выдача шире, но релевантность размывается.
Contraction — «мобильник», «сотовый», «телефон» → все превращаются в «телефон». В индексе и в поиске — один термин. Выдача точная, но нужно единообразие при индексации.
Для Битрикс-каталога предпочтительнее contraction на этапе поиска: индексируем как есть, при поиске схлопываем синонимы в базовую форму.
Файл синонимов и его формат
Синонимы хранятся в файле на сервере Elasticsearch или передаются inline в настройках индекса. Файловый подход гибче — можно обновлять словарь без пересоздания индекса.
Файл /etc/elasticsearch/analysis/synonyms_ru.txt:
# Мобильные телефоны
мобильник, сотовый, смартфон => телефон
iPhone, айфон => телефон
Galaxy, галакси => телефон
# Ноутбуки
ноутбук, лэптоп, laptop => ноутбук
MacBook, макбук => ноутбук
# Брендовые синонимы
Samsung, самсунг, самsung => samsung
LG, элджи => lg
# Общие термины
ТВ, телик, теле => телевизор
холодильник, холодос => холодильник
# Аббревиатуры
ПК, персональный компьютер => компьютер
ОЗУ, оперативка, RAM => память
Формат файла: term1, term2, term3 => canonical_form для contraction, или term1, term2, term3 для expansion.
Настройка индекса с синонимами
curl -X PUT http://localhost:9200/bitrix_search_s1 \
-H "Content-Type: application/json" \
-d '{
"settings": {
"analysis": {
"filter": {
"russian_stemmer": {
"type": "stemmer",
"language": "russian"
},
"russian_synonyms": {
"type": "synonym",
"synonyms_path": "analysis/synonyms_ru.txt",
"updateable": true
}
},
"analyzer": {
"bitrix_search": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"lowercase",
"russian_stemmer",
"russian_synonyms"
]
},
"bitrix_index": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"lowercase",
"russian_stemmer"
]
}
}
}
},
"mappings": {
"properties": {
"title": {
"type": "text",
"analyzer": "bitrix_index",
"search_analyzer": "bitrix_search"
},
"body": {
"type": "text",
"analyzer": "bitrix_index",
"search_analyzer": "bitrix_search"
}
}
}
}'
Ключевое: analyzer (для индексации) и search_analyzer (для поиска) разные. Синонимы только в search_analyzer — это правильная практика. При индексации лишние токены не нужны, расширяем выдачу только при поиске.
Обновление синонимов без переиндексации
Параметр updateable: true в фильтре синонимов (Elasticsearch 7.3+) позволяет обновить словарь без пересоздания индекса:
# Редактируем файл синонимов
nano /etc/elasticsearch/analysis/synonyms_ru.txt
# Перезагружаем анализаторы без переиндексации
curl -X POST "http://localhost:9200/bitrix_search_s1/_reload_search_analyzers"
Это работает только для search_analyzer. Если синонимы в index analyzer — нужна полная переиндексация.
Синонимы через API (без файла)
Для небольших словарей — inline-синонимы прямо в маппинге:
"russian_synonyms": {
"type": "synonym",
"synonyms": [
"мобильник, сотовый => телефон",
"ноутбук, лэптоп => ноутбук",
"телик, ТВ => телевизор"
]
}
Минус: для обновления нужно пересоздать индекс и переиндексировать данные.
Проверка работы синонимов
# Проверить, как search_analyzer обрабатывает запрос
curl -X POST "http://localhost:9200/bitrix_search_s1/_analyze" \
-H "Content-Type: application/json" \
-d '{
"analyzer": "bitrix_search",
"text": "мобильник самсунг"
}'
# Ожидаемый ответ: токены "телефон", "samsung"
Если синонимы работают правильно, поисковый запрос «мобильник» найдёт документы с токеном «телефон» в индексе.
Управление синонимами из Битрикс
Файл синонимов удобно редактировать через административный интерфейс. Для этого создать простую страницу в /bitrix/admin/ с формой, которая записывает в файл и вызывает API _reload_search_analyzers. Стандартных инструментов для этого в Битрикс нет — нужна кастомная разработка или ручное редактирование через SSH.







