Интеграция Yandex SpeechKit для распознавания речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Интеграция Yandex SpeechKit для распознавания речи
Простая
от 1 рабочего дня до 3 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1240
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1167
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    867
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1084
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    563
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    829

Интеграция Yandex SpeechKit для распознавания речи

Yandex SpeechKit — российский STT-сервис с оптимизацией под русский язык, русские имена и реалии. Инфраструктура в РФ — данные не покидают страну. WER на русском разговорном аудио: 10–15%, на чистой речи: 5–8%.

Преимущества для русскоязычных задач

  • Лучшее качество на русском по сравнению с Whisper в условиях телефонии
  • Распознавание имён и toponyms РФ без дополнительной настройки
  • ФСТЭК-совместимость при on-premise развёртывании (SpeechKit Enterprise)
  • Интеграция с Yandex Cloud экосистемой: Object Storage, API Gateway

Потоковое распознавание через gRPC

import grpc
from yandex.cloud.ai.stt.v3 import stt_pb2, stt_pb2_grpc, stt_service_pb2

channel = grpc.secure_channel('stt.api.cloud.yandex.net:443',
    grpc.ssl_channel_credentials())
stub = stt_pb2_grpc.RecognizerStub(channel)

recognize_options = stt_pb2.StreamingOptions(
    recognition_model=stt_pb2.RecognitionModelOptions(
        audio_format=stt_pb2.AudioFormatOptions(
            raw_audio=stt_pb2.RawAudio(
                audio_encoding=stt_pb2.RawAudio.LINEAR16_PCM,
                sample_rate_hertz=16000,
                audio_channel_count=1
            )
        ),
        language_restriction=stt_pb2.LanguageRestrictionOptions(
            restriction_type=stt_pb2.LanguageRestrictionOptions.WHITELIST,
            language_code=['ru-RU']
        ),
        text_normalization=stt_pb2.TextNormalizationOptions(
            text_normalization=stt_pb2.TextNormalizationOptions.TEXT_NORMALIZATION_ENABLED,
            profanity_filter=False,
            literature_text=True
        )
    )
)

Тарификация

Потоковое распознавание: 16 руб./час аудио (без НДС). Асинхронное: 20 руб./час. Безлимитный Enterprise-тариф доступен при объёме от 10 000 часов/месяц.

Сроки интеграции: 1–2 дня.