Какие форматы текстов поддерживаются?

Мы обрабатываем PDF, Word, HTML, plain text, а также изображения с таблицами (через OCR). Для каждого формата подбирается оптимальный парсер — от PyMuPDF до Tesseract.

Какой подход точнее: LLM или классический pipeline?

Для чётко структурированных документов (отчёты, договоры) классический pipeline даёт 90–95% F1 с задержкой менее 100 мс. Для свободного текста LLM (GPT-4o, LLaMA 3) показывают 75–85% F1, но гибче — не требуют разметки.

Можно ли интегрировать решение с существующей CRM?

Да, мы предоставляем REST API и готовые модули для Bitrix24, 1С и других систем. Результат извлечения сразу попадает в вашу базу.

Какой объём данных вы обрабатываете?

От 100 документов в день до 100 000+. Для высоких нагрузок используем асинхронные очереди (Celery) и распределённые вычисления (Ray).

Есть ли гарантия качества извлечения?

Да, для каждого проекта мы фиксируем целевые метрики Precision/Recall/F1 в договоре. Достижение этих метрик — обязательное условие сдачи.

Какие форматы текстов поддерживаются?

Мы обрабатываем PDF, Word, HTML, plain text, а также изображения с таблицами (через OCR). Для каждого формата подбирается оптимальный парсер — от PyMuPDF до Tesseract.

Какой подход точнее: LLM или классический pipeline?

Для чётко структурированных документов (отчёты, договоры) классический pipeline даёт 90–95% F1 с задержкой менее 100 мс. Для свободного текста LLM (GPT-4o, LLaMA 3) показывают 75–85% F1, но гибче — не требуют разметки.

Можно ли интегрировать решение с существующей CRM?

Да, мы предоставляем REST API и готовые модули для Bitrix24, 1С и других систем. Результат извлечения сразу попадает в вашу базу.

Какой объём данных вы обрабатываете?

От 100 документов в день до 100 000+. Для высоких нагрузок используем асинхронные очереди (Celery) и распределённые вычисления (Ray).

Есть ли гарантия качества извлечения?

Да, для каждого проекта мы фиксируем целевые метрики Precision/Recall/F1 в договоре. Достижение этих метрик — обязательное условие сдачи.

Автоматическое извлечение фактов: LLM и NLP пайплайны

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Автоматическое извлечение фактов: LLM и NLP пайплайны

Средний

~5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Каждый день компании обрабатывают тысячи документов: договоры, счета, отчёты, новости. Ручной поиск сущностей — сторон, сумм, сроков — занимает часы и даёт 70–80% точности. Типичная ошибка: пропуск даты или неправильная привязка контрагента — ведёт к штрафам и срыву сроков. Information extraction (IE) решает эту проблему: извлекает сущности, отношения и события с точностью до 95%. Извлечение фактов из текста перестаёт быть рутиной.

Мы автоматизируем полный цикл: от парсинга до нормализации. Используем LLM (GPT-4o, Claude, LLaMA 3) и классические NLP-пайплайны. Выбираем подход под задачу — или комбинируем. Гибридная архитектура позволяет достичь F1 до 95% при задержке менее 200 мс. Средняя экономия на ручной обработке — до 60% затрат или 500 человеко-часов в месяц.

Какие типичные ошибки допускают при извлечении данных?

При извлечении из договоров часто путают названия компаний из-за опечаток или сокращений — «ООО Ромашка» и «Ромашка ООО» считаются разными. Нормализация с помощью edit distance (Levenshtein) и synonym dictionaries решает проблему. Дубликаты сущностей — одна и та же информация встречается в разных документах с разными атрибутами. Используем entity linking через граф знаний. Наконец, неоднозначность контекста: слово «счёт» может быть банковским счётом или счётом на оплату. Disambiguation через LLM с few-shot примерами.

Почему LLM выигрывает у классических пайплайнов?

LLM со structured output (Pydantic, OpenAI function calling) справляются с извлечением без тонкой настройки. Пример:

from pydantic import BaseModel
from openai import OpenAI

class CompanyInfo(BaseModel):
    name: str
    revenue: float | None
    revenue_year: int | None
    ceo: str | None
    headquarters: str | None
    employees_count: int | None

client = OpenAI()
response = client.beta.chat.completions.parse(
    model="gpt-4o-mini",
    messages=[{
        "role": "user",
        "content": f"Извлеки информацию о компании из текста:\n{text}"
    }],
    response_format=CompanyInfo,
)
result = response.choices[0].message.parsed

Этот код работает для любых текстов — от финансовых отчётов до новостей. Без разметки, без pipeline. Но для >1000 док/час и latency <100 мс классический pipeline дешевле и быстрее. Недавно на проекте с маркетплейсом мы извлекли 500k+ товарных карточек из 1 млн PDF. Использовали комбинацию OCR (Tesseract) + LayoutLM для таблиц + GPT-4o для извлечения атрибутов. F1 на тестовой выборке — 93%.

Сравнение подходов

Характеристика	LLM-based	Classic pipeline
Точность (F1)	75–95%	85–95%
Задержка	1–10 с на запрос	<100 мс
Гибкость	Высокая	Низкая
Стоимость на 10k док	Средняя	Низкая
Необходимость данных	Нет	Есть (размеченные данные)
Интеграция	REST API	Можно embed

Как извлечение фактов из текста решает проблему обработки документов?

Извлечение фактов из текста — ключевой этап построения баз знаний. В типичном проекте мы проходим пять этапов:

Этап	Длительность	Результат
Аналитика	2–5 дней	Выделение целевых сущностей и отношений
Проектирование	2–10 дней	Выбор архитектуры (LLM, BERT, spaCy)
Реализация	1–4 недели	Написание кода, настройка пайплайнов
Тестирование	1 неделя	Расчёт метрик, A/B-тесты
Деплой	2–5 дней	Контейнеризация, REST API, документация

Сроки: от 2 недель до 2 месяцев в зависимости от сложности. Стоимость рассчитывается индивидуально.

Что входит в работу?

Аналитический отчёт с выделенными сущностями и отношениями
Обученная модель или пайплайн (LLM или классический)
REST API с документацией (OpenAPI)
Интеграция с CRM (Bitrix24, 1С и др.)
Обучение сотрудников (до 5 дней)
Техническая поддержка на 3 месяца

Пошаговый процесс внедрения

Аудит данных — сбор образцов документов, определение целевых сущностей и метрик качества
Выбор архитектуры — тестирование LLM, BERT, spaCy на ваших данных, фиксация baseline
Разработка пайплайна — написание кода, настройка inference, оптимизация latency
Тестирование — расчёт Precision/Recall/F1, A/B-тесты, корректировка
Деплой — контейнеризация, развёртывание на вашей инфраструктуре или в облаке
Сопровождение — мониторинг метрик, дообучение при изменении данных

Оценка качества извлечения

Метрики Precision/Recall/F1 считаются по каждому типу сущностей. Для отношений — relation-level F1, для слотов — accuracy заполнения. Типичные результаты: 90–95% F1 на отчётах, 75–85% на новостях.

Детальнее про метрики: F1 — гармоническое среднее Precision и Recall. Для каждого типа сущности считаем отдельно. Если важна полнота (например, поиск всех упоминаний), настраиваем пайплайн с приоритетом Recall (до 98%) за счёт точности.

Гарантируем: фиксированные метрики качества в договоре, сертифицированные инженеры с опытом 10+ проектов (NLP, Computer Vision, LLM), поддержка после внедрения. Если вы хотите автоматизировать извлечение данных из ваших документов, свяжитесь с нашими инженерами для консультации. Закажите пилотный проект без предоплаты — оценим ваш кейс за 2 дня.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.