Интеграция SaluteSpeech (Сбер) для распознавания речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Интеграция SaluteSpeech (Сбер) для распознавания речи
Простая
от 1 рабочего дня до 3 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Интеграция SaluteSpeech (Сбер) для распознавания речи

SaluteSpeech — речевые технологии Сбербанка с фокусом на русский язык. Инфраструктура в РФ, ГОСТ-совместимость, возможность on-premise развёртывания. Особенно хорош для банковского, финансового и государственного секторов.

Технические характеристики

  • WER на русском разговорном: 10–14%
  • Задержка потокового распознавания: 200–400 мс
  • Поддержка 8kHz и 16kHz аудио
  • Диаризация до 10 говорящих

REST API интеграция

import requests
import base64

# Получение токена
def get_token():
    response = requests.post(
        "https://ngw.devices.sberbank.ru:9443/api/v2/oauth",
        headers={
            "Authorization": f"Basic {base64.b64encode(f'{CLIENT_ID}:{CLIENT_SECRET}'.encode()).decode()}",
            "RqUID": "unique-request-id",
            "Content-Type": "application/x-www-form-urlencoded"
        },
        data={"scope": "SALUTE_SPEECH_PERS"}
    )
    return response.json()["access_token"]

# Транскрипция
def transcribe(audio_bytes: bytes, token: str):
    response = requests.post(
        "https://smartspeech.sber.ru/rest/v1/speech:recognize",
        headers={
            "Authorization": f"Bearer {token}",
            "Content-Type": "audio/x-pcm;bit=16;rate=16000"
        },
        data=audio_bytes
    )
    return response.json()["result"][0]["normalized_text"]

Особенности

Формат токена истекает каждые 30 минут — необходима реализация автообновления. gRPC Streaming API доступен для задержки <300 мс.

Стоимость: тарифы доступны по запросу, от ~15–25 руб./час аудио.

Интеграция: 1–2 дня.