В чем разница между extractive QA и RAG?

Extractive QA возвращает точный фрагмент текста из документа — ответ буквально вырезается. RAG (Retrieval-Augmented Generation) сначала находит релевантные документы, затем LLM синтезирует ответ на их основе. RAG позволяет обобщать информацию из нескольких источников и отвечать на вопросы, ответ на которые не содержится дословно.

Какая модель лучше подходит для QA по русскоязычным документам?

Для extractive QA хорошо работают RuBERT и sberbank-ai/rubert-base-cased-qa. Для RAG используем GPT-4o-mini или Claude 3.5 Haiku — они дают качественные ответы на русском. Если важна стоимость, можно взять YandexGPT или Qwen. Выбор зависит от бюджета и требуемой точности.

Как бороться с галлюцинациями в ответах LLM?

Мы применяем многоуровневый контроль: 1) каждый факт подкрепляется ссылкой на источник, 2) отдельный faithfulness-check промпт проверяет соответствие ответа контексту, 3) при отсутствии данных система явно сообщает «В документах нет ответа». Также используем confidence scoring на основе logprobs.

Сколько времени занимает внедрение QA-системы?

Сроки зависят от объема документов и сложности интеграции. Для базы до 10 000 страниц — 2-4 недели. Если нужна интеграция с Confluence, SharePoint или 1С — добавьте 1-2 недели. Стоимость рассчитывается индивидуально после аудита данных.

Какие форматы документов поддерживаются?

Система обрабатывает PDF, DOCX, TXT, HTML, Markdown, а также таблицы (XLSX, CSV). Для изображений с текстом используем OCR (Tesseract или AWS Textract). Поддерживаем сканы и фотографии документов. Главное — преобразовать все в текстовый формат с сохранением структуры.

В чем разница между extractive QA и RAG?

Extractive QA возвращает точный фрагмент текста из документа — ответ буквально вырезается. RAG (Retrieval-Augmented Generation) сначала находит релевантные документы, затем LLM синтезирует ответ на их основе. RAG позволяет обобщать информацию из нескольких источников и отвечать на вопросы, ответ на которые не содержится дословно.

Какая модель лучше подходит для QA по русскоязычным документам?

Для extractive QA хорошо работают RuBERT и sberbank-ai/rubert-base-cased-qa. Для RAG используем GPT-4o-mini или Claude 3.5 Haiku — они дают качественные ответы на русском. Если важна стоимость, можно взять YandexGPT или Qwen. Выбор зависит от бюджета и требуемой точности.

Как бороться с галлюцинациями в ответах LLM?

Мы применяем многоуровневый контроль: 1) каждый факт подкрепляется ссылкой на источник, 2) отдельный faithfulness-check промпт проверяет соответствие ответа контексту, 3) при отсутствии данных система явно сообщает «В документах нет ответа». Также используем confidence scoring на основе logprobs.

Сколько времени занимает внедрение QA-системы?

Сроки зависят от объема документов и сложности интеграции. Для базы до 10 000 страниц — 2-4 недели. Если нужна интеграция с Confluence, SharePoint или 1С — добавьте 1-2 недели. Стоимость рассчитывается индивидуально после аудита данных.

Какие форматы документов поддерживаются?

Система обрабатывает PDF, DOCX, TXT, HTML, Markdown, а также таблицы (XLSX, CSV). Для изображений с текстом используем OCR (Tesseract или AWS Textract). Поддерживаем сканы и фотографии документов. Главное — преобразовать все в текстовый формат с сохранением структуры.

Разработка Question Answering (ответы на вопросы по документам)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка Question Answering (ответы на вопросы по документам)

Средний

~5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Клиент жалуется: «У нас 10 000 документов в Confluence, но найти ответ — лотерея». Типичная ситуация: сотрудники тратят до 30% рабочего времени на поиск информации. Мы решаем это с помощью вопросно-ответной системы на базе RAG (Retrieval-Augmented Generation) — подхода, сочетающего ретривэл и генерацию. Она позволяет задавать вопросы на естественном языке и получать точные ответы с цитированием источников. За 5+ лет мы реализовали более 50 NLP-проектов, и RAG — основной инструмент для корпоративных баз знаний и интеллектуального поиска. Согласно Question Answering, задача QA состоит в извлечении или синтезе ответа из набора документов.

RAG превосходит extractive QA в задачах обобщения — точность на 15% выше, а галлюцинации снижены вдвое. Для юридической компании с 5000+ договоров мы добились F1 82% и времени поиска 30 секунд. Экономия на поиске информации составляет порядка 300 000 рублей в месяц для компании с 500+ сотрудниками. Для компании с 2000+ сотрудников экономия достигает 1 млн рублей в месяц. RAG также дешевле Long-context LLM в 10 раз при сопоставимом качестве.

Почему RAG — лучший подход для Question Answering?

Extractive QA (модели deepset/roberta-base-squad2, sberbank-ai/rubert-base-cased-qa) хороша, когда ответ — точная цитата. Но если вопрос требует обобщения или информации из нескольких документов — extractive не справляется. Long-context LLM (Claude 3.5, 200K токенов) проще, но дорого и не масштабируется свыше 500 страниц. RAG — золотая середина: дешёвый поиск по векторным индексам + синтез ответа LLM. Мы используем его в 90% проектов.

Подход	Точность	Галлюцинации	Стоимость	Масштабируемость
Extractive	Высокая (EM ~80%)	Минимум	Низкая	Высокая
RAG	Средняя (F1 ~75%)	Умеренные	Средняя	Очень высокая
Long-context	Высокая	Есть	Высокая	Низкая

Какие проблемы решаем?

На типичном проекте клиенты сталкиваются с тремя проблемами:

Данные в разных системах. Confluence, SharePoint, Google Drive, 1С — документы разрозненны. Мы строим единый индексатор через Airbyte или кастомные ETL-пайплайны.
Таблицы и сканы. LLM плохо понимает сложные таблицы. Используем Text2SQL или serialization в Markdown. Для сканов — Tesseract + layout-parser, что обеспечивает качественное распознавание документов.
Высокая latency. Пользователи не хотят ждать >5 секунд. Оптимизируем: кэширование эмбеддингов, batch-инференс, vLLM для GPU.

Как мы это делаем: кейс юридической компании

Для одной юридической компании (5000+ договоров в PDF) мы запустили RAG-систему за 3 недели. Стек: LangChain + Qdrant + GPT-4o-mini. Результат: время поиска сократилось с 15 минут до 30 секунд, точность ответов — 82% (F1). Ключевое — добавили Faithfulness check: отдельный промпт проверяет, что каждый факт в ответе подтверждается хотя бы одним документом. Если нет — система пишет «В документах нет информации».

Параметры chunking подбирали экспериментально:

Размер чанка	Перекрытие	F1 на тестовом сете
256 токенов	32	78%
512 токенов	64	82%
1024 токенов	128	80%

Для повышения точности используем гибридный поиск: dense embeddings (OpenAI text-embedding-3-small) комбинируются с BM25, а затем re-ranking через Cohere rerank v3. Это даёт прирост F1 ещё на 3-5 процентных пункта.

Как мы оцениваем качество ответов?

Мы создаём тестовый датасет из 100+ вопросов, покрывающих типовые сценарии. Метрики: F1, EM (exact match), faithfulness (доля ответов без галлюцинаций), latency p95. Целевой порог — F1 ≥ 75% и faithfulness ≥ 95%. При необходимости донастраиваем retriever (настройка k, выбор модели эмбеддингов) или LLM (few-shot промпты).

Пример конфигурации индексатора

from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant
from langchain.chains import RetrievalQA

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Qdrant.from_existing_collection(
    embeddings=embeddings,
    url="http://localhost:6333",
    collection_name="docs"
)

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    return_source_documents=True,
)

result = qa_chain.invoke({"query": "Каков порядок расторжения договора?"})

Сколько стоит внедрение QA-системы?

Базовый проект (до 10 000 страниц, 1 источник) — от 3 до 5 недель. Сложный (множество источников, таблицы, сканы) — от 6 до 10 недель. Точную стоимость называем после аудита данных — пишите, оценим ваш кейс бесплатно. Типовой проект окупается за 3-6 месяцев благодаря сокращению времени поиска.

Процесс работы

Аналитика: аудит источников данных, типов документов, объёмов, частоты запросов.
Проектирование: выбор архитектуры (RAG / hybrid / multi-agent), определение пайплайна chunking, embedding, retrieval.
Реализация: индексация данных, настройка LLM, интеграция с корпоративными системами (Confluence, SharePoint, Telegram bot).
Тестирование: создание тестового датасета из 100+ вопросов, оценка метрик (F1, EM, faithfulness, latency).
Деплой и мониторинг: развёртывание на Kubernetes или Managed ML (SageMaker, Vertex AI), логирование ответов, A/B тестирование.

Что входит в deliverables

Индексатор документов с поддержкой инкрементального обновления
REST API для вопросов (Swagger-документация)
Веб-интерфейс (simple chat UI)
Интеграция с мессенджерами (Telegram, Slack) — опционально
Дашборд метрик (количество запросов, latency p95, процент отказов)
Документация по эксплуатации
Обучение команды (2-3 часа)
Гарантия 3 месяца на баги

Наши инженеры сертифицированы по AWS и GCP, гарантируем точность не ниже 75% F1 на ваших данных. Закажите аудит — мы оценим объём, типы документов и сроки внедрения. Получите консультацию и коммерческое предложение за 1-2 дня.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.