Что такое Intent Detection?

Intent Detection — задача классификации сообщения пользователя по одному из предопределённых намерений (интентов). Например, фразы «хочу заказать пиццу» и «положить в корзину» относятся к интенту order, а «как вернуть деньги» — к refund. Без такой классификации чат-бот не поймёт, что делать с запросом.

Какой подход лучше: BERT или LLM?

Выбор зависит от требований к скорости и гибкости. BERT (fine-tuned) даёт скорость <10 мс на запрос, но требует 50–200 размеченных примеров на интент и не адаптируется без переобучения. LLM (GPT-4o-mini с few-shot) не требует обучения, легко меняет таксономию, но медленнее (200–500 мс) и дороже. Оптимальный вариант — гибрид: BERT для быстрых ответов, LLM как fallback при низкой уверенности.

Сколько интентов нужно для чат-бота?

Для стандартного бизнес-бота — 20–50 интентов. Более 100 — признак плохой архитектуры: избыточная детализация усложняет поддержку и разметку. Лучше пересмотреть иерархию, объединить похожие намерения и использовать слоты для уточнения.

Как обрабатывать нестандартные запросы?

Необходим отдельный класс out_of_scope (OOS). Все сообщения, не попадающие ни в один интент, классифицируются как OOS. Регулярно анализируйте логи OOS — это источник новых интентов. Для повышения точности используйте негативные примеры (confusing negatives) из похожих, но разных интентов.

Что входит в вашу услугу по разработке Intent Detection?

Мы предлагаем полный цикл: аудит текущей таксономии, проектирование иерархии интентов, сбор и разметку датасета (включая confusing negatives), выбор и обучение модели (BERT/LLM/гибрид), интеграцию с вашим ботом, настройку fallback-схем, развёртывание и мониторинг. В результате — снижение ошибок интерпретации на 30–70%.

Что такое Intent Detection?

Intent Detection — задача классификации сообщения пользователя по одному из предопределённых намерений (интентов). Например, фразы «хочу заказать пиццу» и «положить в корзину» относятся к интенту order, а «как вернуть деньги» — к refund. Без такой классификации чат-бот не поймёт, что делать с запросом.

Какой подход лучше: BERT или LLM?

Выбор зависит от требований к скорости и гибкости. BERT (fine-tuned) даёт скорость <10 мс на запрос, но требует 50–200 размеченных примеров на интент и не адаптируется без переобучения. LLM (GPT-4o-mini с few-shot) не требует обучения, легко меняет таксономию, но медленнее (200–500 мс) и дороже. Оптимальный вариант — гибрид: BERT для быстрых ответов, LLM как fallback при низкой уверенности.

Сколько интентов нужно для чат-бота?

Для стандартного бизнес-бота — 20–50 интентов. Более 100 — признак плохой архитектуры: избыточная детализация усложняет поддержку и разметку. Лучше пересмотреть иерархию, объединить похожие намерения и использовать слоты для уточнения.

Как обрабатывать нестандартные запросы?

Необходим отдельный класс out_of_scope (OOS). Все сообщения, не попадающие ни в один интент, классифицируются как OOS. Регулярно анализируйте логи OOS — это источник новых интентов. Для повышения точности используйте негативные примеры (confusing negatives) из похожих, но разных интентов.

Что входит в вашу услугу по разработке Intent Detection?

Мы предлагаем полный цикл: аудит текущей таксономии, проектирование иерархии интентов, сбор и разметку датасета (включая confusing negatives), выбор и обучение модели (BERT/LLM/гибрид), интеграцию с вашим ботом, настройку fallback-схем, развёртывание и мониторинг. В результате — снижение ошибок интерпретации на 30–70%.

Intent Detection для чат-бота: таксономия, модель, мониторинг

Q: Сколько интентов нужно для чат-бота?

Для стандартного бизнес-бота — 20–50 интентов. Более 100 — признак плохой архитектуры: избыточная детализация усложняет поддержку и разметку. Лучше пересмотреть иерархию, объединить похожие намерения и использовать слоты для уточнения.

Q: Как обрабатывать нестандартные запросы?

Необходим отдельный класс out_of_scope (OOS). Все сообщения, не попадающие ни в один интент, классифицируются как OOS. Регулярно анализируйте логи OOS — это источник новых интентов. Для повышения точности используйте негативные примеры (confusing negatives) из похожих, но разных интентов.

Q: Что входит в вашу услугу по разработке Intent Detection?

Мы предлагаем полный цикл: аудит текущей таксономии, проектирование иерархии интентов, сбор и разметку датасета (включая confusing negatives), выбор и обучение модели (BERT/LLM/гибрид), интеграцию с вашим ботом, настройку fallback-схем, развёртывание и мониторинг. В результате — снижение ошибок интерпретации на 30–70%.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Intent Detection для чат-бота: таксономия, модель, мониторинг

Средний

~3-5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1360
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Как внедрить Intent Detection: таксономия, модель и мониторинг

«Хочу заказать пиццу», «статус моего заказа», «как вернуть деньги» — три разных интента. Если чат-бот не отличит их, пользователь уходит. Без качественного intent detection бот не сможет корректно маршрутизировать запрос, обрабатывать ошибки и поддерживать диалог. Неверная классификация намерений приводит к потере клиентов и увеличению нагрузки на операторов. Мы решаем эту задачу, проектируя таксономию, выбирая модель (BERT, LLM или гибридный подход) и внедряя мониторинг.

Результат — точность >90% на целевых интентах, p99 latency <200 мс. Наши решения по intent detection протестированы на реальных нагрузках: до 10 000 запросов в сутки, спад качества не более 3% через полгода. Опыт — 7+ лет в NLP, более 20 проектов, включая ботов для e-commerce, финтеха и техподдержки. Экономия на обработке запросов для клиентов: до 60% снижения затрат на ручную поддержку. Быстрая окупаемость — уже через 2–3 месяца.

Проектирование таксономии интентов

Правило: каждый интент — одно конкретное намерение с чётким обработчиком. Типичные ошибки:

Слишком широкий интент: help — неясно, что делать.
Дублирование: order_status и check_my_order — один интент.
Нечёткие границы: complaint vs negative_feedback — часто неочевидны.

Для чат-бота средней сложности: 20–50 интентов. Более 100 — признак плохой архитектуры; пересмотрите иерархию.

Почему гибридный подход лучше классического?

Классический подход (Rasa NLU, Dialogflow) обучается на labeled примерах: детерминированный, быстрый (<10 ms), но требует 50–200 примеров на интент и не адаптируется без переобучения. LLM-based (GPT-4o-mini с few-shot) не требует обучения, гибкий, но медленнее (200–500 ms) и дороже по cost per token. Гибрид — BERT как первый проход (быстрый, дешёвый), LLM как fallback для low-confidence и нестандартных случаев. В наших проектах мы используем именно такую схему: она даёт баланс скорости и покрытия.

Подход	Скорость (p50)	Обучение	Гибкость	Стоимость инференса
BERT fine-tuned	<10 ms	50–200 примеров/интент	Низкая	<$0.0001/запрос
LLM (GPT-4o-mini)	200–500 ms	zero-shot	Высокая	$0.002/запрос
Гибрид (BERT→LLM)	<15 ms (BERT) / fallback	Комбинированный	Средняя	$0.0003/запрос

Сравнение по ключевым метрикам: гибрид в 10 раз быстрее чистого LLM при сопоставимом покрытии. Подробнее о модели BERT.

Как мы реализуем гибридный классификатор?

Аудит и проектирование таксономии. Анализируем историю диалогов, выделяем частые темы, строим карту намерений. Проводим воркшоп с вашей командой, чтобы определить границы интентов. Результат — документ с иерархией, слотами и правилами fallback.
Разметка датасета. Собираем 100–300 примеров на интент (реальные пользовательские фразы). Добавляем confusion matrix-негативные примеры — фразы из похожих интентов, чтобы «растянуть» границы классов. Пример: «я хочу изменить заказ» vs «я хочу отменить заказ» — разные интенты, но в датасете должны быть оба.
Обучение и калибровка. Fine-tuning BERT (например, DeepPavlov/rubert-base-cased) с кросс-энтропией. Калибруем confidence threshold (обычно 0.6): при меньшей уверенности — отдаём запрос LLM.

from transformers import pipeline

intent_classifier = pipeline(
    "text-classification",
    model="./intent_classifier",
    tokenizer="DeepPavlov/rubert-base-cased",
    top_k=3
)

def detect_intent(text: str) -> IntentResult:
    results = intent_classifier(text)
    top = results[0]

    if top["score"] < 0.6:
        # Fallback к LLM
        return llm_classify_intent(text)

    return IntentResult(intent=top["label"], confidence=top["score"])

Интеграция и деплой. Деплоим модель через Triton Inference Server или ONNX Runtime — latency p99 <50 ms на GPU. Настраиваем мониторинг: confusion matrix раз в неделю, логи OOS, пайплайн обратной связи. Гарантируем, что модель не «проседает» на новых данных: если метрика accuracy падает ниже 85% — автоматический триггер на дообучение.

Мониторинг confusion matrix и предотвращение дрейфа

Confusion matrix — главный инструмент для выявления проблемных пар интентов. Если, например, order_status и change_order часто путаются, добавляем в датасет больше confusing negatives. Регулярный анализ OOS-логов помогает обнаружить новые намерения пользователей, которые стоит вынести в отдельные интенты. В результате точность классификации не падает со временем.

Метрика	Без мониторинга	С мониторингом
Accuracy через 6 мес.	82%	88%
Доля OOS-запросов	15%	8%

Deliverables проекта

Документация таксономии интентов (Google Docs / Confluence)
Датасет с разметкой (формат JSONL, CSV)
Обученная модель + Docker-образ для деплоя
Интеграция с вашим ботом (REST API, gRPC)
Нагрузочное тестирование (результат: p99 latency <200 ms)
Мониторинг и алертинг (Grafana dashboards)
Обучение двух ваших инженеров работе с пайплайном

Сроки и как заказать

Сроки разработки — от 2 до 6 недель в зависимости от сложности таксономии и объёма датасета. Стоимость рассчитывается индивидуально после аудита. Оценим ваш проект бесплатно — свяжитесь с нами для консультации. Закажите разработку intent detection и получите снижение ошибок интерпретации на 30–70%. Получите консультацию — мы подберём оптимальный стек под ваш бюджет.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.