Реализация AI-распознавания намерений пользователя (Intent Recognition) в мобильном приложении
Intent Recognition — это классификация того, что пользователь хочет сделать, на основе его текстового или голосового ввода. В контексте мобильного приложения это фундамент диалоговых интерфейсов, умных поисков, голосовых команд и чат-ботов. Без точной классификации намерений любая NLU-логика превращается в набор хрупких регулярных выражений.
Чем Intent Recognition отличается от обычной классификации текста
Обычная классификация: «этот отзыв позитивный или негативный». Intent Recognition: «пользователь хочет оформить заказ, отменить заказ, узнать статус доставки, найти товар, получить консультацию, или говорит что-то нерелевантное».
Классы неравномерны по частоте, могут перекрываться («хочу вернуть товар» = return_request или complaint?), а пользователи формулируют одно намерение десятками разных способов. Плюс необходимость обработки out-of-scope запросов без галлюцинаций «я умею всё».
Технические подходы
Fine-tuned BERT/RoBERTa для production
Дообучение языковой модели на размеченном датасете интентов — стандарт индустрии. Для русскоязычных приложений: DeepPavlov/rubert-base-cased или cointegrated/rubert-tiny2 (компактная, ~29 МБ, подходит для on-device).
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
# Fine-tuning на кастомных интентах
model = AutoModelForSequenceClassification.from_pretrained(
"cointegrated/rubert-tiny2",
num_labels=len(INTENT_LABELS)
)
# Inference
classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
return_all_scores=True
)
def classify_intent(text: str) -> IntentResult:
scores = classifier(text)[0]
top = max(scores, key=lambda x: x["score"])
if top["score"] < 0.65:
return IntentResult(intent="out_of_scope", confidence=top["score"])
return IntentResult(intent=top["label"], confidence=top["score"])
Порог 0.65 — граница out-of-scope. Ниже этого — не угадываем, честно говорим «не понял». Это критично: угаданный неверно интент хуже, чем признание непонимания.
Типичный набор интентов для e-commerce мобильного приложения
| Интент | Примеры фраз |
|---|---|
search_product |
«найди кроссовки nike», «хочу купить телефон» |
order_status |
«где мой заказ», «когда доставят» |
return_request |
«хочу вернуть», «не подошёл размер» |
complaint |
«товар сломан», «не то привезли» |
payment_issue |
«не могу оплатить», «не прошёл платёж» |
promo_inquiry |
«есть скидки», «промокод» |
out_of_scope |
всё остальное |
Slot Filling: извлечение параметров намерения
После классификации интента нужно извлечь параметры (slots). Для search_product — что именно ищут, категория, характеристики. Для order_status — номер заказа или период.
Slots извлекаются через NER (Named Entity Recognition) или шаблонный парсер. Для структурированных доменов regex + кастомный NER работает надёжнее общей NER-модели:
import re
def extract_order_id(text: str) -> Optional[str]:
# форматы: #123456, №123456, ORD-123456, заказ 123456
patterns = [r'#(\d{5,8})', r'№(\d{5,8})', r'ORD-(\d+)', r'заказ[а-я\s]+?(\d{5,8})']
for pattern in patterns:
match = re.search(pattern, text, re.IGNORECASE)
if match:
return match.group(1)
return None
def fill_order_status_slots(text: str) -> OrderStatusSlots:
return OrderStatusSlots(
order_id=extract_order_id(text),
period=extract_period(text) # «за прошлую неделю», «в ноябре»
)
Android: интеграция в диалоговый интерфейс
class IntentViewModel(private val intentApi: IntentApi) : ViewModel() {
fun processUserInput(text: String) {
viewModelScope.launch {
val result = intentApi.classify(text)
when (result.intent) {
"search_product" -> {
val query = result.slots["product_query"] ?: text
navigateToSearch(query)
}
"order_status" -> {
val orderId = result.slots["order_id"]
if (orderId != null) navigateToOrder(orderId)
else requestOrderId() // ask for clarification
}
"return_request" -> navigateToReturnFlow()
"out_of_scope" -> showFallbackMessage()
else -> handleGenericIntent(result)
}
}
}
}
LLM как альтернатива
Для приложений с небольшим числом интентов (< 20) и гибкими формулировками — structured output через GPT-4o-mini или Gemini Flash дешевле и точнее дообученной модели. Prompt с JSON schema и few-shot примерами:
INTENT_SYSTEM_PROMPT = """
Classify user intent. Return JSON: {"intent": "...", "confidence": 0.0-1.0, "slots": {...}}
Valid intents: search_product, order_status, return_request, complaint, out_of_scope
If unclear, use out_of_scope with low confidence.
"""
LLM-подход проще в обновлении (меняем промпт, не переобучаем модель), но дороже при высоком трафике.
Процесс работы
Составление таксономии интентов совместно с продуктовой командой.
Сбор и разметка обучающего датасета (минимум 100–200 примеров на интент).
Обучение классификатора и baseline-оценка по accuracy/F1.
Интеграция в мобильный диалоговый интерфейс с обработкой out-of-scope.
Мониторинг: доля out-of-scope запросов, confusion matrix по интентам.
Ориентиры по срокам
Fine-tuned BERT-классификатор с базовым slot filling — 2–3 недели. LLM-based Intent Recognition с structured output — 3–5 дней на реализацию.







