Реализация AI-извлечения сущностей из текста (NER) в мобильном приложении
NER (Named Entity Recognition) — это извлечение структурированных данных из неструктурированного текста. Пользователь вводит «доставить завтра к 18:00 по улице Ленина 5, квартира 12» — NER извлекает дату, время, адрес и квартиру как отдельные поля. Без NER это или ручной ввод в 5 полей, или хрупкий regex, который ломается на первом нестандартном формате.
Где NER используется в мобильных приложениях
Умные формы и автозаполнение. Пользователь пишет сообщение курьеру — приложение парсит адрес и время доставки без отдельных полей формы.
Поиск с фильтрами. «iPhone 15 Pro 256GB чёрный» → {бренд: Apple, модель: iPhone 15 Pro, объём: 256GB, цвет: чёрный}. Структурированный запрос точнее полнотекстового поиска.
Чат-боты и голосовые ассистенты. Экстракция параметров из свободной речи или текста для заполнения слотов диалога.
Обработка чеков и документов. OCR-текст с чека → {магазин, сумма, дата, позиции}.
Технические подходы
spaCy + кастомная NER-модель
spaCy — стандарт для production NER. Для русского языка базовая модель ru_core_news_lg распознаёт персоны, организации, локации, даты. Для доменно-специфичных сущностей (размеры одежды, артикулы товаров, медицинские термины) нужно дообучение.
import spacy
from spacy.training import Example
# Загрузка базовой русской модели
nlp = spacy.load("ru_core_news_lg")
# Добавление кастомных типов сущностей
ner = nlp.get_pipe("ner")
ner.add_label("PRODUCT_SIZE") # "42", "XL", "M/L"
ner.add_label("PRODUCT_COLOR") # "чёрный", "navy blue"
ner.add_label("ARTICLE") # "арт. 12345", "SKU-ABC"
# Пример обучения
TRAIN_DATA = [
("Хочу найти кроссовки размер 42 в синем цвете артикул 98765",
{"entities": [(33, 35, "PRODUCT_SIZE"), (43, 49, "PRODUCT_COLOR"), (59, 64, "ARTICLE")]}),
]
# Обучение на кастомных данных
optimizer = nlp.resume_training()
for text, annotations in TRAIN_DATA:
doc = nlp.make_doc(text)
example = Example.from_dict(doc, annotations)
nlp.update([example], sgd=optimizer)
Трансформерная NER через Hugging Face
Для высокой точности на сложных доменах: дообученный DeepPavlov/rubert-base-cased с NER head. Работает медленнее spaCy (50–200 мс vs 5–20 мс), но лучше обрабатывает сложные контексты и длинные сущности.
from transformers import pipeline
ner_pipeline = pipeline(
"token-classification",
model="DeepPavlov/rubert-base-cased-ner",
aggregation_strategy="simple" # объединяет B- и I- токены в одну сущность
)
def extract_entities(text: str) -> list[Entity]:
raw_entities = ner_pipeline(text)
return [
Entity(
text=e["word"],
label=e["entity_group"],
confidence=e["score"],
start=e["start"],
end=e["end"]
)
for e in raw_entities
if e["score"] > 0.7
]
Regex + NER: гибрид для структурированных доменов
Для типизированных сущностей с предсказуемым форматом regex надёжнее ML. Телефоны, email, артикулы, даты в конкретном формате — regex. Организации, локации, свободные описания — NER. Гибрид работает лучше каждого подхода в отдельности.
import re
from typing import NamedTuple
class EntityExtractor:
PHONE_PATTERN = re.compile(r'(?:\+7|8)[\s\-]?\(?\d{3}\)?[\s\-]?\d{3}[\s\-]?\d{2}[\s\-]?\d{2}')
EMAIL_PATTERN = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
DATE_PATTERN = re.compile(r'\b(\d{1,2})[./](\d{1,2})(?:[./](\d{2,4}))?\b')
def extract_all(self, text: str) -> dict:
# Regex для структурированных форматов
phones = self.PHONE_PATTERN.findall(text)
emails = self.EMAIL_PATTERN.findall(text)
# NER для свободных сущностей
ner_entities = extract_entities(text)
locations = [e.text for e in ner_entities if e.label in ("LOC", "GPE")]
persons = [e.text for e in ner_entities if e.label == "PER"]
return {
"phones": phones,
"emails": emails,
"locations": locations,
"persons": persons
}
Мобильная интеграция
iOS: NER для умного заполнения формы
// iOS: NER через серверный API с автозаполнением формы
class AddressFormViewModel: ObservableObject {
@Published var street = ""
@Published var building = ""
@Published var apartment = ""
@Published var deliveryTime = ""
func parseFromText(_ userText: String) {
Task {
let entities = try await nerApi.extract(text: userText)
await MainActor.run {
if let address = entities.first(where: { $0.label == "ADDRESS" }) {
parseAddressComponents(address.text)
}
if let time = entities.first(where: { $0.label == "TIME" }) {
deliveryTime = time.text
}
}
}
}
}
On-device NER через CoreNLP или TFLite
Для простых доменных сущностей (артикулы, размеры, цвета в каталоге конкретного магазина) можно развернуть компактную TFLite NER-модель (< 20 МБ) прямо на устройстве. Это снимает latency и работает офлайн.
Apple NaturalLanguage.framework с NLTagger умеет базовые типы сущностей из коробки: имена, организации, места — без внешних зависимостей:
let tagger = NLTagger(tagSchemes: [.nameType])
tagger.string = userInput
tagger.enumerateTags(in: userInput.startIndex..<userInput.endIndex,
unit: .word,
scheme: .nameType,
options: [.omitWhitespace]) { tag, range in
if let tag = tag {
print("Entity: \(userInput[range]), type: \(tag.rawValue)")
}
return true
}
Для русского языка NLTagger работает заметно хуже, чем для английского — используем только как предфильтр или для приложений с латинским текстом.
Процесс работы
Определение целевых типов сущностей под домен приложения.
Сбор и разметка обучающих данных в BIO-формате.
Выбор между spaCy, трансформерной моделью и regex-гибридом.
Интеграция NER API в мобильный клиент: умные формы, поиск, диалог.
Ориентиры по срокам
Базовая NER с готовой русской моделью + API — 3–5 дней. Дообучение на кастомных доменных сущностях — 1–2 недели. Полная интеграция в мобильный UI с умным заполнением форм — 2–3 недели.







