Интеграция OpenAI Whisper для распознавания речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1566 услуг

Простая

от 1 рабочего дня до 3 рабочих дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1240
Разработка веб-приложения для компании FEEDME
1167
Разработка веб-сайта для компании БЕЛФИНГРУПП
867
Разработка интернет магазина для компании FURNORO
1084
Разработка логотипа компании B2B Advance
563
Разработка веб-приложения для компании Enviok
829

Показать больше работ

Интеграция OpenAI Whisper для распознавания речи

OpenAI Whisper — open-source модель распознавания речи, обученная на 680 000 часов мультиязычного аудио. WER на английском датасете LibriSpeech — 2,7%, что соответствует уровню профессиональных транскрипторов. Для русского языка на чистом аудио — 8–12% WER.

Что даёт интеграция Whisper

Локальная обработка без отправки данных в сторонние облака
Поддержка 99 языков из коробки
Работа с форматами MP3, WAV, FLAC, M4A, OGG, WebM
Автоматическое определение языка
Вывод временных меток на уровне слов (с --word_timestamps True)

Варианты развёртывания

Модель	Параметры	VRAM	Скорость (RTX 3090)
tiny	39M	1 GB	~32x realtime
base	74M	1 GB	~16x realtime
small	244M	2 GB	~6x realtime
medium	769M	5 GB	~2x realtime
large-v3	1550M	10 GB	~1x realtime

Для большинства production-задач достаточно small или medium — приемлемое качество при разумных ресурсах.

Стек интеграции

Подключаем через openai-whisper (PyPI) или через HTTP API OpenAI (/v1/audio/transcriptions). Для высоких нагрузок — faster-whisper на базе CTranslate2: ускорение в 4x при том же качестве.

from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for segment in segments:
    print(f"[{segment.start:.2f}s] {segment.text}")

Типовые сроки

Базовая интеграция API — 1–2 дня. Self-hosted с очередью задач (Celery + Redis) — 3–5 дней. Полный pipeline с хранением транскрипций и веб-интерфейсом — 1–2 недели.