Интеграция Google Cloud Speech-to-Text API
Google Cloud STT — зрелое API с поддержкой 125+ языков, адаптивным словарём и нативной интеграцией с другими сервисами GCP. WER на английском: 4–6%, на русском чистом аудио: 8–12%.
Модели и их применение
| Модель | Латентность | Лучший сценарий |
|---|---|---|
| latest_long | высокая | Длинные записи, подкасты |
| latest_short | низкая | Короткие команды, поиск |
| telephony | средняя | Колл-центры, 8kHz аудио |
| medical_dictation | средняя | Медицинские диктовки |
| chirp | низкая | Universal, все домены |
Базовая интеграция
from google.cloud import speech
client = speech.SpeechClient()
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=16000,
language_code="ru-RU",
model="latest_long",
enable_automatic_punctuation=True,
enable_word_time_offsets=True,
use_enhanced=True,
)
Ключевые возможности
- Адаптивный словарь (до 5 000 фраз) для повышения точности на терминологии
- Диаризация говорящих из коробки (до 6 спикеров)
- Потоковое распознавание через gRPC с задержкой 200–400 мс
- Интеграция с Cloud Storage для batch-обработки
Стоимость: $0.004–0.006/минута в зависимости от модели. Бесплатный тариф — 60 минут/месяц.
Сроки интеграции
Базовая интеграция: 1–2 дня. С адаптивным словарём и диаризацией — 3–4 дня.







