Интеграция OpenAI Whisper для распознавания речи
OpenAI Whisper — open-source модель распознавания речи, обученная на 680 000 часов мультиязычного аудио. WER на английском датасете LibriSpeech — 2,7%, что соответствует уровню профессиональных транскрипторов. Для русского языка на чистом аудио — 8–12% WER.
Что даёт интеграция Whisper
- Локальная обработка без отправки данных в сторонние облака
- Поддержка 99 языков из коробки
- Работа с форматами MP3, WAV, FLAC, M4A, OGG, WebM
- Автоматическое определение языка
- Вывод временных меток на уровне слов (с
--word_timestamps True)
Варианты развёртывания
| Модель | Параметры | VRAM | Скорость (RTX 3090) |
|---|---|---|---|
| tiny | 39M | 1 GB | ~32x realtime |
| base | 74M | 1 GB | ~16x realtime |
| small | 244M | 2 GB | ~6x realtime |
| medium | 769M | 5 GB | ~2x realtime |
| large-v3 | 1550M | 10 GB | ~1x realtime |
Для большинства production-задач достаточно small или medium — приемлемое качество при разумных ресурсах.
Стек интеграции
Подключаем через openai-whisper (PyPI) или через HTTP API OpenAI (/v1/audio/transcriptions). Для высоких нагрузок — faster-whisper на базе CTranslate2: ускорение в 4x при том же качестве.
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for segment in segments:
print(f"[{segment.start:.2f}s] {segment.text}")
Типовые сроки
Базовая интеграция API — 1–2 дня. Self-hosted с очередью задач (Celery + Redis) — 3–5 дней. Полный pipeline с хранением транскрипций и веб-интерфейсом — 1–2 недели.







