Интеграция Deepgram для распознавания речи
Deepgram — один из самых быстрых облачных STT-провайдеров: задержка при потоковом распознавании 100–200 мс. Модель Nova-2 показывает WER 5–8% на английском, для русского — модель в beta, WER около 12–18%.
Модели Deepgram
| Модель | Языки | Скорость | Сценарий |
|---|---|---|---|
| Nova-2 | 30+ | 30x RT | Общее назначение |
| Enhanced | 36+ | 50x RT | Колл-центры |
| Base | 36+ | 100x RT | Требовательные к скорости |
| Whisper | 99+ | 10x RT | Мультиязычные задачи |
Интеграция через WebSocket (streaming)
import asyncio
import websockets
import json
async def transcribe_stream():
url = "wss://api.deepgram.com/v1/listen"
headers = {"Authorization": f"Token {DEEPGRAM_API_KEY}"}
params = "?model=nova-2&language=ru&punctuate=true&diarize=true"
async with websockets.connect(url + params, extra_headers=headers) as ws:
async def send_audio():
with open("audio.wav", "rb") as f:
while chunk := f.read(4096):
await ws.send(chunk)
await ws.send(json.dumps({"type": "CloseStream"}))
async def receive_results():
async for message in ws:
result = json.loads(message)
if result.get("is_final"):
transcript = result["channel"]["alternatives"][0]["transcript"]
print(transcript)
await asyncio.gather(send_audio(), receive_results())
Стоимость
Nova-2: $0.0043/минута. Enhanced: $0.0145/минута. Бесплатный лимит: $200 кредитов при регистрации.
Интеграция: 1 день (REST), 2 дня (WebSocket streaming).







