Интеграция OpenAI Whisper Large v3 для распознавания речи
Whisper Large v3 — актуальная флагманская модель OpenAI для ASR, выпущена в ноябре 2023. По сравнению с Large v2 снизила WER на 10–20% на большинстве языков. На русском чистом аудио — 6–9% WER, на телефонии — 15–20% WER.
Ключевые улучшения v3 vs v2
- Обучена на более широком наборе языков с улучшенными данными
- Меньше галлюцинаций на тишине и шуме
- Лучшая пунктуация из коробки
- Улучшенная обработка кодового переключения (code-switching)
Требования к инфраструктуре
Для комфортной работы в реальном времени нужен GPU с ≥10 GB VRAM. Оптимальный выбор — NVIDIA A10G или RTX 4090. На CPU модель работает, но со скоростью 0.1–0.3x реального времени — только для оффлайн-задач.
Через faster-whisper с квантизацией int8 модель умещается в 6–7 GB VRAM при скорости 1.5–2x реального времени:
pip install faster-whisper
from faster_whisper import WhisperModel
model = WhisperModel(
"large-v3",
device="cuda",
compute_type="int8_float16"
)
segments, info = model.transcribe(
"meeting.wav",
language="ru",
vad_filter=True,
vad_parameters={"min_silence_duration_ms": 500}
)
Сценарии применения
- Транскрибация совещаний и интервью
- Автоматические субтитры к видео
- Архивная обработка аудиобаз колл-центров
Интеграция через OpenAI API (без self-hosting) занимает 1 день. Self-hosted с оптимизацией под конкретное железо — 3–5 дней.







