Интеграция Azure Speech Services для распознавания речи
Azure Cognitive Services Speech — enterprise-решение Microsoft с дата-центрами в России (до 2022), Германии и других регионах. Поддержка 100+ языков, HIPAA-совместимость, SLA 99.9%.
Ключевые возможности
- Custom Speech: дообучение под корпоративный словарь без ML-экспертизы
- Диаризация (до 20 говорящих в Azure Speech)
- Потоковое распознавание с задержкой 150–300 мс
- Пакетная транскрипция через REST API для больших объёмов
SDK-интеграция
import azure.cognitiveservices.speech as speechsdk
speech_config = speechsdk.SpeechConfig(
subscription=os.environ["AZURE_SPEECH_KEY"],
region="westeurope"
)
speech_config.speech_recognition_language = "ru-RU"
speech_config.enable_dictation()
audio_config = speechsdk.AudioConfig(filename="audio.wav")
recognizer = speechsdk.SpeechRecognizer(
speech_config=speech_config,
audio_config=audio_config
)
result = recognizer.recognize_once_async().get()
Custom Speech
Загрузка доменных данных через Azure Portal: добавляем текстовые данные (для языковой модели) и аудио+транскрипции (для акустической модели). При 10 часах данных улучшение WER на 20–35% на целевом домене.
Стоимость: $1/час аудио для стандартной транскрипции, Custom Speech endpoint — $1.42/час работы эндпоинта.
Сроки интеграции: 1–2 дня (SDK), 3–5 дней с Custom Speech.







