Реализация AI-извлечения сущностей из текста (NER) в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.
Разработка и поддержка любых видов мобильных приложений:
Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Предлагаемые услуги
Показано 1 из 1 услугВсе 1735 услуг
Реализация AI-извлечения сущностей из текста (NER) в мобильном приложении
Средняя
~3-5 рабочих дней
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    756
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    624
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1054
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    947
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    874
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    445

Реализация AI-извлечения сущностей из текста (NER) в мобильном приложении

NER (Named Entity Recognition) — это извлечение структурированных данных из неструктурированного текста. Пользователь вводит «доставить завтра к 18:00 по улице Ленина 5, квартира 12» — NER извлекает дату, время, адрес и квартиру как отдельные поля. Без NER это или ручной ввод в 5 полей, или хрупкий regex, который ломается на первом нестандартном формате.

Где NER используется в мобильных приложениях

Умные формы и автозаполнение. Пользователь пишет сообщение курьеру — приложение парсит адрес и время доставки без отдельных полей формы.

Поиск с фильтрами. «iPhone 15 Pro 256GB чёрный» → {бренд: Apple, модель: iPhone 15 Pro, объём: 256GB, цвет: чёрный}. Структурированный запрос точнее полнотекстового поиска.

Чат-боты и голосовые ассистенты. Экстракция параметров из свободной речи или текста для заполнения слотов диалога.

Обработка чеков и документов. OCR-текст с чека → {магазин, сумма, дата, позиции}.

Технические подходы

spaCy + кастомная NER-модель

spaCy — стандарт для production NER. Для русского языка базовая модель ru_core_news_lg распознаёт персоны, организации, локации, даты. Для доменно-специфичных сущностей (размеры одежды, артикулы товаров, медицинские термины) нужно дообучение.

import spacy
from spacy.training import Example

# Загрузка базовой русской модели
nlp = spacy.load("ru_core_news_lg")

# Добавление кастомных типов сущностей
ner = nlp.get_pipe("ner")
ner.add_label("PRODUCT_SIZE")  # "42", "XL", "M/L"
ner.add_label("PRODUCT_COLOR")  # "чёрный", "navy blue"
ner.add_label("ARTICLE")        # "арт. 12345", "SKU-ABC"

# Пример обучения
TRAIN_DATA = [
    ("Хочу найти кроссовки размер 42 в синем цвете артикул 98765",
     {"entities": [(33, 35, "PRODUCT_SIZE"), (43, 49, "PRODUCT_COLOR"), (59, 64, "ARTICLE")]}),
]

# Обучение на кастомных данных
optimizer = nlp.resume_training()
for text, annotations in TRAIN_DATA:
    doc = nlp.make_doc(text)
    example = Example.from_dict(doc, annotations)
    nlp.update([example], sgd=optimizer)

Трансформерная NER через Hugging Face

Для высокой точности на сложных доменах: дообученный DeepPavlov/rubert-base-cased с NER head. Работает медленнее spaCy (50–200 мс vs 5–20 мс), но лучше обрабатывает сложные контексты и длинные сущности.

from transformers import pipeline

ner_pipeline = pipeline(
    "token-classification",
    model="DeepPavlov/rubert-base-cased-ner",
    aggregation_strategy="simple"  # объединяет B- и I- токены в одну сущность
)

def extract_entities(text: str) -> list[Entity]:
    raw_entities = ner_pipeline(text)
    return [
        Entity(
            text=e["word"],
            label=e["entity_group"],
            confidence=e["score"],
            start=e["start"],
            end=e["end"]
        )
        for e in raw_entities
        if e["score"] > 0.7
    ]

Regex + NER: гибрид для структурированных доменов

Для типизированных сущностей с предсказуемым форматом regex надёжнее ML. Телефоны, email, артикулы, даты в конкретном формате — regex. Организации, локации, свободные описания — NER. Гибрид работает лучше каждого подхода в отдельности.

import re
from typing import NamedTuple

class EntityExtractor:
    PHONE_PATTERN = re.compile(r'(?:\+7|8)[\s\-]?\(?\d{3}\)?[\s\-]?\d{3}[\s\-]?\d{2}[\s\-]?\d{2}')
    EMAIL_PATTERN = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
    DATE_PATTERN = re.compile(r'\b(\d{1,2})[./](\d{1,2})(?:[./](\d{2,4}))?\b')

    def extract_all(self, text: str) -> dict:
        # Regex для структурированных форматов
        phones = self.PHONE_PATTERN.findall(text)
        emails = self.EMAIL_PATTERN.findall(text)

        # NER для свободных сущностей
        ner_entities = extract_entities(text)
        locations = [e.text for e in ner_entities if e.label in ("LOC", "GPE")]
        persons = [e.text for e in ner_entities if e.label == "PER"]

        return {
            "phones": phones,
            "emails": emails,
            "locations": locations,
            "persons": persons
        }

Мобильная интеграция

iOS: NER для умного заполнения формы

// iOS: NER через серверный API с автозаполнением формы
class AddressFormViewModel: ObservableObject {
    @Published var street = ""
    @Published var building = ""
    @Published var apartment = ""
    @Published var deliveryTime = ""

    func parseFromText(_ userText: String) {
        Task {
            let entities = try await nerApi.extract(text: userText)

            await MainActor.run {
                if let address = entities.first(where: { $0.label == "ADDRESS" }) {
                    parseAddressComponents(address.text)
                }
                if let time = entities.first(where: { $0.label == "TIME" }) {
                    deliveryTime = time.text
                }
            }
        }
    }
}

On-device NER через CoreNLP или TFLite

Для простых доменных сущностей (артикулы, размеры, цвета в каталоге конкретного магазина) можно развернуть компактную TFLite NER-модель (< 20 МБ) прямо на устройстве. Это снимает latency и работает офлайн.

Apple NaturalLanguage.framework с NLTagger умеет базовые типы сущностей из коробки: имена, организации, места — без внешних зависимостей:

let tagger = NLTagger(tagSchemes: [.nameType])
tagger.string = userInput

tagger.enumerateTags(in: userInput.startIndex..<userInput.endIndex,
                     unit: .word,
                     scheme: .nameType,
                     options: [.omitWhitespace]) { tag, range in
    if let tag = tag {
        print("Entity: \(userInput[range]), type: \(tag.rawValue)")
    }
    return true
}

Для русского языка NLTagger работает заметно хуже, чем для английского — используем только как предфильтр или для приложений с латинским текстом.

Процесс работы

Определение целевых типов сущностей под домен приложения.

Сбор и разметка обучающих данных в BIO-формате.

Выбор между spaCy, трансформерной моделью и regex-гибридом.

Интеграция NER API в мобильный клиент: умные формы, поиск, диалог.

Ориентиры по срокам

Базовая NER с готовой русской моделью + API — 3–5 дней. Дообучение на кастомных доменных сущностях — 1–2 недели. Полная интеграция в мобильный UI с умным заполнением форм — 2–3 недели.