Какая точность распознавания юридической лексики?

На дообученной модели Whisper large-v3 мы достигаем WER <2% на типовых заседаниях и <5% на сложных делах с множеством участников. Учитываются статьи УПК, имена судей и процессуальные формулы.

Как обеспечивается диаризация при перебивании?

Используем pyannote/speaker-diarization-3.1 с постобработкой: алгоритм кластеризации учитывает паузы и тембр голоса. При перебивании реплики маркируются как 'одновременно' и требуют ручной проверки.

Какие форматы вывода поддерживаются?

DOCX с таблицей (время, говорящий, текст), XML для СЭД судов, PDF с электронной подписью и хэшем. Также возможен экспорт в JSON для интеграции.

Нужно ли обучать модель на наших данных?

Рекомендуем дообучение на 5–10 часов аудиозаписей ваших заседаний — это повышает точность на 2–4%. Модель адаптируется под дикцию судей и местную лексику.

Какие сроки внедрения системы?

Базовая версия — 4–6 недель. С дообучением и интеграцией в ГАС 'Правосудие' — до 12 недель. Свяжитесь с нами для точной оценки вашего проекта.

Какая точность распознавания юридической лексики?

На дообученной модели Whisper large-v3 мы достигаем WER <2% на типовых заседаниях и <5% на сложных делах с множеством участников. Учитываются статьи УПК, имена судей и процессуальные формулы.

Как обеспечивается диаризация при перебивании?

Используем pyannote/speaker-diarization-3.1 с постобработкой: алгоритм кластеризации учитывает паузы и тембр голоса. При перебивании реплики маркируются как 'одновременно' и требуют ручной проверки.

Какие форматы вывода поддерживаются?

DOCX с таблицей (время, говорящий, текст), XML для СЭД судов, PDF с электронной подписью и хэшем. Также возможен экспорт в JSON для интеграции.

Нужно ли обучать модель на наших данных?

Рекомендуем дообучение на 5–10 часов аудиозаписей ваших заседаний — это повышает точность на 2–4%. Модель адаптируется под дикцию судей и местную лексику.

Какие сроки внедрения системы?

Базовая версия — 4–6 недель. С дообучением и интеграцией в ГАС 'Правосудие' — до 12 недель. Свяжитесь с нами для точной оценки вашего проекта.

Автоматическое транскрибирование судебных заседаний: точность >98%

Q: Как обеспечивается диаризация при перебивании?

Используем pyannote/speaker-diarization-3.1 с постобработкой: алгоритм кластеризации учитывает паузы и тембр голоса. При перебивании реплики маркируются как 'одновременно' и требуют ручной проверки.

Q: Какие форматы вывода поддерживаются?

DOCX с таблицей (время, говорящий, текст), XML для СЭД судов, PDF с электронной подписью и хэшем. Также возможен экспорт в JSON для интеграции.

Q: Нужно ли обучать модель на наших данных?

Рекомендуем дообучение на 5–10 часов аудиозаписей ваших заседаний — это повышает точность на 2–4%. Модель адаптируется под дикцию судей и местную лексику.

Q: Какие сроки внедрения системы?

Базовая версия — 4–6 недель. С дообучением и интеграцией в ГАС 'Правосудие' — до 12 недель. Свяжитесь с нами для точной оценки вашего проекта.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Автоматическое транскрибирование судебных заседаний: точность >98%

Сложный

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Реализация автоматического транскрибирования судебных заседаний

Секретарь тратит до 40% времени на расшифровку: каждая минута аудио — 5-10 минут ручной работы. Ошибка в протоколе — риск отмены решения. Мы решаем это через on-premise ASR с диаризацией и юридическим словарём, который снижает WER ниже 2% на чистых записях. Модель дообучена на корпусе из 100+ часов судебных заседаний, включая региональные особенности. Это не просто распознавание — это полноценный ML-пайплайн для судов, обеспечивающий конфиденциальность и точность, недоступную облачным сервисам.

Почему on-premise безопаснее облака?

Облачные сервисы передают аудио третьей стороне — нарушение тайны совещательной комнаты (ст. 241 УПК). On-premise архитектура гарантирует, что данные не покидают контур суда. К тому же, коммерческие STT дают WER 10-15% на юридической лексике, а наше решение — <2% (в 5-10 раз точнее).

Как мы добиваемся точности >98%

Берём Whisper large-v3 и дообучаем на корпусе судебных заседаний (100+ часов, 20+ судов). Используем LoRA-адаптеры для быстрой адаптации под конкретный голос диктора. Словарь включает 5000+ юридических терминов и шаблонов: «статья сто пятьдесят вторая» → «ст. 152», «часть первая статьи» → «ч. 1 ст.». Нормализатор также обрабатывает даты, имена, аббревиатуры (УПК, ГПК, АПК).

class LegalTextNormalizer:
    def normalize(self, text: str) -> str:
        text = re.sub(r'статья (\d+)', r'ст. \1', text)
        text = re.sub(r'часть (\w+)', lambda m: f'ч. {ROMAN_TO_INT[m.group(1)]}', text)
        return text

Дополнительно используем Voice Activity Detection (VAD) для фильтрации шумов и пауз — это снижает WER ещё на 1-2%. Без VAD модель «слышит» фоновые разговоры и порождает фантомные фразы.

Сколько можно сэкономить на транскрибации?

Метрика	Ручная расшифровка	Наша система
Время на 1 час аудио	5-10 часов	15-20 минут (постредактирование)
Точность	100% (но медленно)	>98% (WER<2%)
Нагрузка на секретаря	40% времени	5-10% (только контроль)

Экономия на ФОТ при типовой нагрузке — сотни тысяч рублей в год. Точное значение зависит от объёма заседаний и региона.

Как работает диаризация при перебивании?

Используем pyannote/speaker-diarization-3.1 с порогом 0.6. При перебивании метка SPEAKER_00+SPEAKER_01 — реплика уходит на ручную проверку. Точность атрибуции 92% на 2-4 участника, 85% на 5+.

Что входит в работу

Дообучение Whisper на ваших записях (5-10 часов, 2-3 недели).
Развертывание on-premise на сервер с GPU (NVIDIA A10G, L40S и др.).
Интеграция с ГАС «Правосудие» через REST API или XML-обмен.
Обучение секретарей постредактированию (1 день).
Передача исходных кодов модели, конфигов, документации.

On-premise vs облачные STT: ключевые различия

Параметр	On-premise (наше решение)	Облачные STT
Конфиденциальность	Данные не покидают контур	Аудио передаётся третьей стороне
WER на юридической лексике	<2%	10-15%
Дообучение под заказчика	Да	Нет
Диаризация	PyAnnote 3.1 (92% точность)	Базовая (70-80%)
Интеграция с ГАС	Сертифицированный модуль	Требуется адаптер

Типичные ошибки и как их избежать

Пропуск VAD-фильтрации: модель «слышит» шумы и порождает фантомные фразы — WER растёт до 20%. Наш VAD отсекает тишину и шумы, оставляя только речь.
Использование модели без дообучения: стандартный Whisper не адаптирован к юридической лексике, даёт WER 10-15%. Дообучение обязательно для получения заявленной точности.
Игнорирование постредактирования: даже при 98% точности нужен ручной контроль сложных участков. Включаем интерфейс постредактирования с подсветкой неуверенных фрагментов — это ускоряет проверку в 2-3 раза.

Процесс внедрения

Аудит инфраструктуры и сбор 5+ часов аудио.
Разметка данных и дообучение (3-4 недели).
Разработка интеграционных модулей (2-3 недели).
Тестирование на контрольной выборке (1 неделя).
Деплой и обучение персонала (1 неделя).
Опытная эксплуатация с нашей поддержкой (2 недели).

Сроки и как начать

Базовая система — от 4 недель. Полный цикл с дообучением и ГАС — до 12 недель. Свяжитесь с нами для индивидуального предложения — оценим ваш проект, подготовим КП под ключ. Закажите демо-доступ и убедитесь в точности на своих записях — получите консультацию инженера бесплатно.

Архитектура описана в Whisper и pyannote/speaker-diarization-3.1. Наша компания — 5+ лет опыта в NLP, 20+ проектов транскрибации для судов и юрфирм.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.