Реализация классификации обращений клиентов по тематике
Классификация обращений — автоматическое определение темы входящего запроса клиента. Входящий поток писем, чатов, звонков (после транскрипции) распределяется по тематическим категориям без участия оператора.
Проектирование таксономии тематик
До обучения модели нужно создать правильную иерархию. Типичные ошибки: слишком мало классов (всё попадает в «Прочее»), слишком много (500+ классов плохо обучаются), нечёткие границы между классами.
Двухуровневая иерархия работает хорошо:
Технические проблемы
├── Проблема с подключением
├── Медленная скорость
└── Ошибки в личном кабинете
Финансовые вопросы
├── Оплата и тарифы
├── Возврат средств
└── Задолженность
Договорные вопросы
...
Первый уровень: 5–15 категорий — высокий recall. Второй уровень: детализация для маршрутизации к нужному специалисту.
Обучение классификатора
Этап 1 — сбор данных: 200–500 примеров на класс из архива обращений с историческими метками операторов. Важно: операторы часто метят неточно → нужен этап контроля качества разметки.
Этап 2 — baseline: TF-IDF + Logistic Regression. Быстро обучается, интерпретируемо, хорошо для начала. Accuracy на типовых задачах: 82–88%.
Этап 3 — BERT fine-tuning: DeepPavlov/rubert-base-cased. Accuracy: 90–95% при наличии 500+ примеров на класс.
Этап 4 — LLM zero/few-shot: GPT-4o-mini с описанием классов — для новых категорий без переобучения.
Обработка многотематических обращений
«У меня не работает подключение и я хочу сменить тариф» — два класса. Стратегии:
- Multilabel классификация (sigmoid + порог 0.5)
- Разбивка на предложения, классификация каждого
- Выбор primary + secondary класса
Мониторинг и дрейф
Распределение тематик меняется при акциях, сезонах, инцидентах. Мониторинг: chi-square тест на отклонение от исторического распределения. Алерт при значительном отклонении → переоценка актуальности классификатора.







