Какие форматы документов поддерживает AI-интеграция?

Система принимает PDF, сканы (JPG/PNG), DOCX и email-вложения. Для сканов используется OCR (Tesseract или Google Cloud Vision). Обрабатываются как машиночитаемые, так и рукописные документы (с дообучением OCR-модели).

Какой процент точности извлечения реквизитов?

На реальных документах клиентов (1000+ тестов) точность автоматического извлечения достигает 94%. Для структурированных документов (счета, договоры) — до 98%. Исключения с низкой уверенностью передаются оператору.

С какими СЭД возможна интеграция?

Сейчас поддерживаются 1С:Документооборот, Directum и DocsVision. Для других СЭД (ELMA, TESSA) интеграция разрабатывается индивидуально через REST API. Стек бэкенда — Python/FastAPI.

Нужно ли дообучать модели под ваши документы?

Да, для максимальной точности мы дообучаем BERT-классификатор на вашем корпусе документов (от 500 размеченных экземпляров). Это занимает 1-2 недели. Без дообучения точность классификации — около 80%.

Сколько времени занимает внедрение?

Базовая интеграция (классификатор + экстрактор + привязка к СЭД) — от 3 до 5 недель. Дообучение моделей добавляет ещё 1-2 недели. Время может увеличиться при нестандартных требованиях к маршрутизации.

Какие форматы документов поддерживает AI-интеграция?

Система принимает PDF, сканы (JPG/PNG), DOCX и email-вложения. Для сканов используется OCR (Tesseract или Google Cloud Vision). Обрабатываются как машиночитаемые, так и рукописные документы (с дообучением OCR-модели).

Какой процент точности извлечения реквизитов?

На реальных документах клиентов (1000+ тестов) точность автоматического извлечения достигает 94%. Для структурированных документов (счета, договоры) — до 98%. Исключения с низкой уверенностью передаются оператору.

С какими СЭД возможна интеграция?

Сейчас поддерживаются 1С:Документооборот, Directum и DocsVision. Для других СЭД (ELMA, TESSA) интеграция разрабатывается индивидуально через REST API. Стек бэкенда — Python/FastAPI.

Нужно ли дообучать модели под ваши документы?

Да, для максимальной точности мы дообучаем BERT-классификатор на вашем корпусе документов (от 500 размеченных экземпляров). Это занимает 1-2 недели. Без дообучения точность классификации — около 80%.

Сколько времени занимает внедрение?

Базовая интеграция (классификатор + экстрактор + привязка к СЭД) — от 3 до 5 недель. Дообучение моделей добавляет ещё 1-2 недели. Время может увеличиться при нестандартных требованиях к маршрутизации.

AI-интеграция в СЭД: автоматизация входящих документов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-интеграция в СЭД: автоматизация входящих документов

Средний

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1347
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
948
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Входящие документы — узкое горло любой организации

Скан договора приходит на почту → оператор открывает → вручную вбивает реквизиты в 1С → выбирает тип → запускает согласование. На один документ в среднем 8 минут. При 500 документах в месяц это 67 часов чисто механической работы. Наша AI-интеграция сокращает это до 45 секунд на документ, причём 89% обрабатываются без участия человека. Проблема усугубляется многообразием форматов: PDF, сканы, DOCX, email-вложения. Каждый требует предобработки, а ошибки ручного ввода ведут к сбоям в согласовании. Мы строим AI-слой, который понимает содержимое любого документа, извлекает ключевые реквизиты, классифицирует и автоматически запускает workflow в вашей СЭД. Никаких шаблонов — только обученные модели под ваш документооборот. Опыт нашей команды — более 20 успешных внедрений, 5+ лет в NLP и MLOps.

Как AI обрабатывает документы быстрее оператора?

AI обрабатывает входящий документ в 10–15 раз быстрее человека: 45 секунд против 8 минут. При этом точность извлечения реквизитов достигает 94% (против 85% при ручном вводе). Система работает круглосуточно, не требует перерывов и не допускает ошибок из-за усталости.

Критерий	Ручная обработка	AI-обработка
Скорость на 1 документ	8 минут	45 секунд
Точность извлечения реквизитов	~85%	94–98%
Доля документов без участия человека	0%	89%
Доступность	8/5	24/7

Инвестиции в AI-интеграцию окупаются в среднем за 6 месяцев. Например, при документообороте 500 единиц ежемесячно экономия составляет около 1,2 млн рублей в год за счёт высвобождения времени операторов и снижения ошибок.

Почему дообучение BERT критично для точности?

Базовая модель классификации документов (cointegrated/rubert-tiny2) даёт точность около 80% на типовых документах. Однако каждая компания использует уникальные шаблоны договоров, счетов и актов. Дообучение BERT на вашем корпусе (от 500 размеченных экземпляров) повышает точность до 94% и выше. Мы используем Hugging Face Transformers для дообучения и инференса. Ниже пример реализации классификатора.

from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
import torch

class DocumentClassifier:
    DOCUMENT_TYPES = [
        "договор", "счёт-фактура", "накладная", "акт",
        "приказ", "служебная записка", "коммерческое предложение",
        "доверенность", "устав", "протокол", "письмо входящее"
    ]

    def __init__(self, model_path: str = "cointegrated/rubert-tiny2"):
        # Для production — дообученный BERT на корпусе документов компании
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.model = AutoModelForSequenceClassification.from_pretrained(
            model_path,
            num_labels=len(self.DOCUMENT_TYPES)
        )
        self.model.eval()

    def classify(self, text: str) -> dict:
        # Берём первые 512 токенов (шапка документа несёт основную семантику)
        inputs = self.tokenizer(
            text[:2000],
            return_tensors="pt",
            truncation=True,
            max_length=512,
            padding=True
        )
        with torch.no_grad():
            logits = self.model(**inputs).logits

        probs = torch.softmax(logits, dim=-1)[0]
        top_idx = probs.argmax().item()

        return {
            "type": self.DOCUMENT_TYPES[top_idx],
            "confidence": float(probs[top_idx]),
            "alternatives": [
                {"type": self.DOCUMENT_TYPES[i], "score": float(probs[i])}
                for i in probs.topk(3).indices.tolist()
                if i != top_idx
            ]
        }

Архитектура AI-слоя для документооборота

[Входящий документ]
PDF/scan/DOCX/email
         ↓
[Document Preprocessor]
OCR (Tesseract/Google Cloud Vision) → нормализованный текст
         ↓
[AI Processing Pipeline]
  ├── Classification: тип документа
  ├── NER: контрагент, даты, суммы, реквизиты
  ├── Summary: краткое содержание
  └── Routing: определение маршрута согласования
         ↓
[СЭД API]
Создание карточки + запуск workflow

Извлечение реквизитов: комбинация NER и LLM

Для быстрого извлечения стандартных полей (ИНН, даты, суммы) используем regex и NER. Для сложных случаев — LLM (GPT-4o-mini или локальная LLaMA через LangChain). Комбинация даёт точность 94% на реальных документах. Для нестандартных запросов применяем RAG с векторными БД (ChromaDB, pgvector), что позволяет искать по базе ранее обработанных документов.

from langchain_openai import ChatOpenAI
import re
from datetime import datetime

class DocumentExtractor:
    EXTRACTION_PROMPT = """Извлеки реквизиты из документа.

Текст документа:
{text}

Тип документа: {doc_type}

Извлеки (верни null если не найдено):
- contractor_name: название контрагента
- contractor_inn: ИНН контрагента
- contract_number: номер договора/счёта
- contract_date: дата документа (ISO 8601)
- total_amount: сумма (число)
- currency: валюта (RUB/USD/EUR)
- payment_deadline: срок оплаты (если есть)
- subject: предмет договора (1-2 предложения)
- signatory: подписант со стороны контрагента

Верни JSON."""

    def __init__(self):
        self.llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

    def extract_requisites(self, text: str, doc_type: str) -> dict:
        # Сначала быстрое regex-извлечение
        fast_extract = self._regex_extract(text)

        # LLM для пропущенных полей и валидации
        llm_result = self.llm.invoke(
            self.EXTRACTION_PROMPT.format(
                text=text[:3000],
                doc_type=doc_type
            )
        )

        import json
        llm_data = json.loads(llm_result.content)

        # Мерджим: regex имеет приоритет для числовых полей (точнее)
        return {**llm_data, **fast_extract}

    def _regex_extract(self, text: str) -> dict:
        result = {}

        # ИНН: 10 или 12 цифр
        inn_match = re.search(r'\bИНН[:\s]*(\d{10,12})\b', text)
        if inn_match:
            result["contractor_inn"] = inn_match.group(1)

        # Суммы с валютой
        amount_match = re.search(
            r'(\d[\d\s,]*\.?\d*)\s*(руб|рублей|RUB|USD|EUR)',
            text, re.IGNORECASE
        )
        if amount_match:
            amount_str = amount_match.group(1).replace(' ', '').replace(',', '.')
            result["total_amount"] = float(amount_str)

        return result

Интеграция с СЭД: Directum, 1С, DocsVision

Интеграция строится через официальные REST API. Пример для Directum: загружаем файл, заполняем карточку, запускаем workflow. Аналогичная логика для 1С:Документооборот и DocsVision.

class SEDIntegration:
    """Интеграция с 1С:Документооборот, Directum, DocsVision"""

    def push_to_directum(self, extracted: dict, original_file: bytes) -> dict:
        """Создаёт карточку документа в Directum"""
        import requests

        # Загружаем файл
        upload_response = requests.post(
            f"{self.directum_url}/api/v1/documents",
            headers={"Authorization": f"Bearer {self.token}"},
            files={"file": original_file}
        )
        doc_id = upload_response.json()["id"]

        # Заполняем карточку
        card_response = requests.patch(
            f"{self.directum_url}/api/v1/documents/{doc_id}/properties",
            headers={"Authorization": f"Bearer {self.token}"},
            json={
                "DocumentType": extracted["type"],
                "Counterparty": extracted.get("contractor_name"),
                "INN": extracted.get("contractor_inn"),
                "Amount": extracted.get("total_amount"),
                "DocumentDate": extracted.get("contract_date"),
                "Subject": extracted.get("subject")
            }
        )

        # Запускаем маршрут согласования
        route = self._determine_route(extracted)
        requests.post(
            f"{self.directum_url}/api/v1/documents/{doc_id}/workflow/{route}",
            headers={"Authorization": f"Bearer {self.token}"}
        )

        return {"doc_id": doc_id, "route": route}

    def _determine_route(self, extracted: dict) -> str:
        """Определяет маршрут согласования по параметрам документа"""
        amount = extracted.get("total_amount", 0)
        doc_type = extracted.get("type", "")

        if doc_type == "договор":
            if amount > 1_000_000:
                return "contract_large"      # директор + юрист + финансы
            elif amount > 100_000:
                return "contract_medium"     # руководитель + юрист
            else:
                return "contract_standard"   # только руководитель
        elif doc_type == "счёт-фактура":
            return "invoice_approval"
        return "standard"

Что входит в работу: этапы и результаты

Мы предоставляем полный цикл внедрения:

Анализ документооборота — схемы маршрутов, типы документов, объём.
Разработка моделей — дообучение классификатора и NER.
Интеграция с СЭД — REST API, настройка workflow.
Тестирование на реальных документах — до 1000 экземпляров.
Запуск и обучение операторов.

Этап	Длительность	Результат
Анализ документооборота	3–5 дней	Схема маршрутов, список типов документов
Разработка классификатора	2–3 недели	Модель с точностью ≥90%
Экстрактор реквизитов	1–2 недели	JSON-выход с полями
Интеграция с СЭД	2–3 недели	Полный цикл: документ → карточка → workflow
Дообучение на ваших данных	1–2 недели	Точность растёт до 94%

Deliverables:

Документация по архитектуре и API.
Доступ к обученным моделям и коду.
Обучение операторов работе с системой.
Техническая поддержка в течение года.

Типичные ошибки при AI-интеграции в документооборот

Игнорирование качества OCR. Если сканы плохие (разрешение <150 DPI, заломы), точность падает. Решение: предобработка изображений — дескьюинг, бинаризация.
Одна модель для всего. Классификация и NER требуют разных архитектур. Совмещение в одной модели снижает точность обоих задач.
Отсутствие human-in-the-loop. Документы с уверенностью <0.8 должны проверяться оператором. Иначе ошибки множатся в системе.

Результаты внедрения: кейс и метрики компании

Кейс: производственная компания, 500 входящих документов в месяц. До внедрения: 2 оператора тратили 40% рабочего времени на ручной ввод реквизитов. После: точность автоматического извлечения реквизитов 94% (проверка на 1000 документов), 89% документов обрабатываются без участия оператора, операторы занимаются только исключениями (confidence < 0.8) и проверкой спорных маршрутов. Время обработки входящего документа сократилось с 8 минут до 45 секунд. Экономия времени — более 60 часов в месяц, что эквивалентно затратам на двух операторов.

Мы реализовали более 20 интеграций AI в СЭД для компаний с объёмом документооборота от 200 до 5000 документов в месяц. Опыт команды — 5+ лет в NLP и MLOps. Используем только лицензионные решения и официальные API.

Свяжитесь с нами для бесплатной оценки вашего проекта. Закажите пилотную обработку 100 документов — мы покажем точность на ваших данных.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.