Интеграция SaluteSpeech (Сбер) для распознавания речи
SaluteSpeech — речевые технологии Сбербанка с фокусом на русский язык. Инфраструктура в РФ, ГОСТ-совместимость, возможность on-premise развёртывания. Особенно хорош для банковского, финансового и государственного секторов.
Технические характеристики
- WER на русском разговорном: 10–14%
- Задержка потокового распознавания: 200–400 мс
- Поддержка 8kHz и 16kHz аудио
- Диаризация до 10 говорящих
REST API интеграция
import requests
import base64
# Получение токена
def get_token():
response = requests.post(
"https://ngw.devices.sberbank.ru:9443/api/v2/oauth",
headers={
"Authorization": f"Basic {base64.b64encode(f'{CLIENT_ID}:{CLIENT_SECRET}'.encode()).decode()}",
"RqUID": "unique-request-id",
"Content-Type": "application/x-www-form-urlencoded"
},
data={"scope": "SALUTE_SPEECH_PERS"}
)
return response.json()["access_token"]
# Транскрипция
def transcribe(audio_bytes: bytes, token: str):
response = requests.post(
"https://smartspeech.sber.ru/rest/v1/speech:recognize",
headers={
"Authorization": f"Bearer {token}",
"Content-Type": "audio/x-pcm;bit=16;rate=16000"
},
data=audio_bytes
)
return response.json()["result"][0]["normalized_text"]
Особенности
Формат токена истекает каждые 30 минут — необходима реализация автообновления. gRPC Streaming API доступен для задержки <300 мс.
Стоимость: тарифы доступны по запросу, от ~15–25 руб./час аудио.
Интеграция: 1–2 дня.







