Интеграция Vosk (офлайн STT) для распознавания речи
Vosk — open-source offline speech recognition toolkit на базе Kaldi. Работает без интернета, поддерживает 20+ языков включая русский, занимает 50–500 MB в зависимости от модели. Идеален для приватных и offline-первых приложений.
Возможности Vosk
- Streaming recognition (real-time, не ждёт конца фразы)
- Speaker identification (кто говорит)
- Partial results для отображения текста в процессе речи
- Кастомный словарь для специализированной терминологии
- Биндинги: Python, Java (Android), JavaScript (Node.js/Browser), C#, Go
Модели для русского языка
vosk-model-ru-0.42 (1.5 GB) — лучшее качество для русского. WER ~12% на чистой речи, ~20% в шуме. vosk-model-small-ru-0.22 (45 MB) — для embedded устройств, WER ~20%.
Интеграция
from vosk import Model, KaldiRecognizer
import pyaudio
model = Model("vosk-model-ru-0.42")
recognizer = KaldiRecognizer(model, 16000)
# streaming recognition через PyAudio или WebSocket
Когда Vosk vs Whisper
Vosk лучше: real-time streaming, embedded устройства (Pi, microcontroller), строгие требования к приватности, низкие latency requirements. Whisper лучше: высшее качество распознавания, работа с плохой акустикой, широкий языковой охват.







