Интеграция Yandex SpeechKit для распознавания речи
Yandex SpeechKit — российский STT-сервис с оптимизацией под русский язык, русские имена и реалии. Инфраструктура в РФ — данные не покидают страну. WER на русском разговорном аудио: 10–15%, на чистой речи: 5–8%.
Преимущества для русскоязычных задач
- Лучшее качество на русском по сравнению с Whisper в условиях телефонии
- Распознавание имён и toponyms РФ без дополнительной настройки
- ФСТЭК-совместимость при on-premise развёртывании (SpeechKit Enterprise)
- Интеграция с Yandex Cloud экосистемой: Object Storage, API Gateway
Потоковое распознавание через gRPC
import grpc
from yandex.cloud.ai.stt.v3 import stt_pb2, stt_pb2_grpc, stt_service_pb2
channel = grpc.secure_channel('stt.api.cloud.yandex.net:443',
grpc.ssl_channel_credentials())
stub = stt_pb2_grpc.RecognizerStub(channel)
recognize_options = stt_pb2.StreamingOptions(
recognition_model=stt_pb2.RecognitionModelOptions(
audio_format=stt_pb2.AudioFormatOptions(
raw_audio=stt_pb2.RawAudio(
audio_encoding=stt_pb2.RawAudio.LINEAR16_PCM,
sample_rate_hertz=16000,
audio_channel_count=1
)
),
language_restriction=stt_pb2.LanguageRestrictionOptions(
restriction_type=stt_pb2.LanguageRestrictionOptions.WHITELIST,
language_code=['ru-RU']
),
text_normalization=stt_pb2.TextNormalizationOptions(
text_normalization=stt_pb2.TextNormalizationOptions.TEXT_NORMALIZATION_ENABLED,
profanity_filter=False,
literature_text=True
)
)
)
Тарификация
Потоковое распознавание: 16 руб./час аудио (без НДС). Асинхронное: 20 руб./час. Безлимитный Enterprise-тариф доступен при объёме от 10 000 часов/месяц.
Сроки интеграции: 1–2 дня.







