Какой WER у SaluteSpeech на русском языке?

SaluteSpeech показывает WER 10–14% на разговорной речи. Для деловой лексики точность выше — до 8%. Это лучший показатель среди российских STT-сервисов.

Как интегрировать потоковое распознавание в реальном времени?

Для потокового распознавания используйте gRPC streaming API. Задержка составляет 200–400 мс. Мы предоставляем готовый код на Python и Go для буферизации аудиопотока и автоматического восстановления соединения.

Можно ли развернуть SaluteSpeech on-premise?

Да, предусмотрено on-premise развертывание в контуре заказчика. Это важно для госсектора и финансовых организаций, где нужна полная изоляция данных. Развертывание занимает 2–3 дня.

Какие форматы аудио поддерживаются?

SaluteSpeech принимает PCM 8/16 kHz, 16 bit, mono. Также поддерживаются контейнеры WAV, MP3, Ogg/Opus через автоматическую конвертацию. Для потокового режима — только PCM.

Сколько стоит транскрибация аудио через SaluteSpeech?

Стоимость рассчитывается индивидуально в зависимости от объема, необходимой точности и режима (offline/online). Средний диапазон — от 15 до 25 рублей за час аудио. Для больших объемов действуют скидки.

Какой WER у SaluteSpeech на русском языке?

SaluteSpeech показывает WER 10–14% на разговорной речи. Для деловой лексики точность выше — до 8%. Это лучший показатель среди российских STT-сервисов.

Как интегрировать потоковое распознавание в реальном времени?

Для потокового распознавания используйте gRPC streaming API. Задержка составляет 200–400 мс. Мы предоставляем готовый код на Python и Go для буферизации аудиопотока и автоматического восстановления соединения.

Можно ли развернуть SaluteSpeech on-premise?

Да, предусмотрено on-premise развертывание в контуре заказчика. Это важно для госсектора и финансовых организаций, где нужна полная изоляция данных. Развертывание занимает 2–3 дня.

Какие форматы аудио поддерживаются?

SaluteSpeech принимает PCM 8/16 kHz, 16 bit, mono. Также поддерживаются контейнеры WAV, MP3, Ogg/Opus через автоматическую конвертацию. Для потокового режима — только PCM.

Сколько стоит транскрибация аудио через SaluteSpeech?

Стоимость рассчитывается индивидуально в зависимости от объема, необходимой точности и режима (offline/online). Средний диапазон — от 15 до 25 рублей за час аудио. Для больших объемов действуют скидки.

Интеграция SaluteSpeech (Сбер) для распознавания речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Интеграция SaluteSpeech (Сбер) для распознавания речи

Простой

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1349
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Мы часто сталкиваемся с ситуацией: компания уже использует SaluteSpeech, но интеграция сделана «на коленке» — токен истекает посреди диалога, аудио не проходит по длительности, диаризация не настроена. Клиент теряет до 25% стенограмм из-за ошибок в конвейере. Задача — выстроить надёжный пайплайн распознавания с гарантированным качеством. Мы специализируемся на встраивании SaluteSpeech в высоконагруженные системы: колл-центры, голосовые ассистенты, автоматическая расшифровка совещаний. Наш опыт — более 30 проектов по интеграции речевых технологий. Предлагаем готовые модули для Python, Go, Java с поддержкой асинхронного и потокового режимов.

Что SaluteSpeech даёт русскоязычному STT

SaluteSpeech от Сбера — не просто «ещё один» распознаватель. Это полноценная платформа с сертификацией ФСТЭК, пригодная для критической инфраструктуры. Основные сильные стороны:

WER на разговорной речи: 10–14%. Для сравнения: у открытых моделей (Vosk, Coqui) WER 20–25%, у Yandex SpeechKit — 12–16%. SaluteSpeech точнее Vosk в два раза на русской разговорной речи.
Задержка потокового распознавания: 200–400 мс (p99 <500 мс) — подходит для real-time диалогов.
Диаризация: до 10 говорящих с точностью 85–90%.
On-premise развёртывание: без передачи данных вовне, полный контроль.
Поддержка 8 и 16 кГц, одноканального аудио, а также контейнеров WAV, MP3, Ogg.

Параметр	SaluteSpeech	Yandex SpeechKit	Vosk (open-source)
WER (рус. разг.)	10–14%	12–16%	20–25%
Латенси (stream)	200–400 мс	300–600 мс	800–1500 мс
On-premise	Да	Нет	Да
Диаризация	До 10	До 5	До 2 (эксперим.)

Сравните: задержка SaluteSpeech в 3–7 раз меньше, чем у Vosk, а точность выше в два раза. SaluteSpeech становится популярной альтернативой Yandex SpeechKit для задач, требующих on-premise и высокой точности.

Как мы интегрируем SaluteSpeech: реальный кейс

Клиент — крупный банк. Требовалось распознавать записи разговоров операторов колл-центра и в реальном времени подсказывать ответы. Мы выбрали SaluteSpeech по двум причинам: on-premise (конфиденциальность) и WER <12% на банковской лексике.

Архитектура решения:

Входной поток: аудио с ATS (Avaya) через SIP-транк, конвертация в PCM 16 кГц.
Backend: Python aiohttp + gRPC streaming. Токен обновляется за 5 секунд до истечения (таймер 25 мин) — реализовано автоматическое обновление токена авторизации.
Векторная база: pgvector для хранения embeddings ключевых фраз (RAG для подсказок).
Мониторинг: Prometheus + Grafana — метрики latency, WER, количество диаризированных спикеров.

Результат: точность распознавания 93% на деловой лексике, задержка <300 мс, система работает без сбоев. Сократили время на поиск информации операторами на 40%.

«Система работает без сбоев уже полгода, точность устраивает» — отзыв руководителя проекта.

Почему стоит выбрать on-premise развертывание?

Во-первых, данные остаются в контуре компании — нет риска утечки через облако. Во-вторых, не нужно платить за каждый запрос (лицензия бессрочная). При переходе на on-premise вы экономите до 40% на транскрибации в долгосрочной перспективе. On-premise развёртывание окупается за 6–12 месяцев за счёт фиксированной стоимости лицензии. И наконец, полный контроль над версиями моделей — можно обновлять по собственному графику. Для госсектора и финансов это часто обязательное требование.

Как мы обеспечиваем точность распознавания?

Мы используем адаптацию модели под предметную область: fine-tuning на ваших данных (при наличии) или калибровку словаря. Для ключевых терминов и имён собственных добавляем custom vocabulary. Постобработка включает нормализацию чисел, дат и аббревиатур. Всё это позволяет снизить WER дополнительно на 2–3 процентных пункта. Мы также помогаем оптимизировать стоимость транскрибации за счёт правильного выбора режима (offline/online).

Пример конфигурации для gRPC streaming

import grpc
import audio_stream_pb2_grpc

stub = audio_stream_pb2_grpc.SpeechToTextStub(channel)
responses = stub.StreamingRecognize(iter(audio_chunks))
for response in responses:
    if response.result.is_final:
        print(response.result.alternatives[0].transcript)

Процесс работы: от запроса до деплоя

Аналитика: аудит текущей инфраструктуры (телефония, аудиоформаты, нагрузка). Определяем сценарии: offline транскрибация, real-time ассистент, поиск по архиву.
Проектирование: выбираем API (REST или gRPC), способ авторизации, схему auto-refresh токенов. Проектируем отказоустойчивый пайплайн (retry, circuit breaker).
Реализация: пишем модуль интеграции на Python/Go — буферизация, отправка чанков, обработка ответов. Настраиваем диаризацию и постобработку.
Тестирование: замеряем WER на тестовом датасете (1000+ фраз), проверяем latency p99 под нагрузкой. Сравниваем с альтернативами.
Деплой: разворачиваем в вашем контуре (on-premise или VPC), настраиваем мониторинг, CI/CD, документацию.

Что входит в работу

Аналитический отчёт с выбором режима (offline/online) и рекомендациями по архитектуре.
Готовый код интеграции (Python, Go, Java) с поддержкой auto-refresh токенов, retry-логики и диаризации.
Docker-образы для развёртывания в Kubernetes или bare-metal.
Postman-коллекция для REST API и тестовый скрипт для gRPC.
Документация по эксплуатации (runbook).
Поддержка в течение 3 месяцев: помощь при инцидентах, обновление библиотек.

Режим	Задержка	Применение
Offline (REST)	1–10 сек	Расшифровка записей, аналитика
Online (gRPC)	200–400 мс	Голосовые ассистенты, live-подсказки

Сроки и стоимость

Сроки: от 3 до 10 рабочих дней в зависимости от сложности (базовый REST — 3 дня, gRPC streaming с диаризацией — 7–10 дней). Стоимость рассчитывается индивидуально после анализа вашей инфраструктуры.

Оценим ваш проект за 1 день — достаточно прислать описание задачи. Мы предоставляем гарантию качества: если WER не достигнет оговорённого порога, доработаем бесплатно.

Закажите бесплатную оценку вашего проекта — мы подготовим прототип за 1 день. Свяжитесь с нами, чтобы получить пример кода интеграции.

Рекомендация: ознакомьтесь с википедийной статьёй о распознавании речи для понимания терминологии.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.