Интеграция OpenAI Whisper для распознавания речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Интеграция OpenAI Whisper для распознавания речи
Простая
от 1 рабочего дня до 3 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Интеграция OpenAI Whisper для распознавания речи

OpenAI Whisper — open-source модель распознавания речи, обученная на 680 000 часов мультиязычного аудио. WER на английском датасете LibriSpeech — 2,7%, что соответствует уровню профессиональных транскрипторов. Для русского языка на чистом аудио — 8–12% WER.

Что даёт интеграция Whisper

  • Локальная обработка без отправки данных в сторонние облака
  • Поддержка 99 языков из коробки
  • Работа с форматами MP3, WAV, FLAC, M4A, OGG, WebM
  • Автоматическое определение языка
  • Вывод временных меток на уровне слов (с --word_timestamps True)

Варианты развёртывания

Модель Параметры VRAM Скорость (RTX 3090)
tiny 39M 1 GB ~32x realtime
base 74M 1 GB ~16x realtime
small 244M 2 GB ~6x realtime
medium 769M 5 GB ~2x realtime
large-v3 1550M 10 GB ~1x realtime

Для большинства production-задач достаточно small или medium — приемлемое качество при разумных ресурсах.

Стек интеграции

Подключаем через openai-whisper (PyPI) или через HTTP API OpenAI (/v1/audio/transcriptions). Для высоких нагрузок — faster-whisper на базе CTranslate2: ускорение в 4x при том же качестве.

from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for segment in segments:
    print(f"[{segment.start:.2f}s] {segment.text}")

Типовые сроки

Базовая интеграция API — 1–2 дня. Self-hosted с очередью задач (Celery + Redis) — 3–5 дней. Полный pipeline с хранением транскрипций и веб-интерфейсом — 1–2 недели.