Какой голос лучше для IVR?

Для IVR рекомендуем `alena` или `filipp` в формате LPCM с частотой 8 кГц. Премиум-голоса избыточны, если не требуется максимальная естественность.

Можно ли использовать SpeechKit с Яндекс.Облаком без API-ключа?

Да, через сервисный аккаунт с IAM-токеном. Это безопаснее, так как токен живёт 12 часов и позволяет гибко управлять доступом.

Сколько запросов в секунду выдерживает API?

Базовый лимит — 20 RPS для синтеза. При необходимости увеличиваем через тикет в техподдержку до 100+ RPS.

Как сократить расходы на SpeechKit?

Кешируйте повторяющиеся фразы. Используйте LPCM вместо OGG для телефонии. Оптимизируйте длительность синтезируемого текста. На практике это даёт экономию до 50%.

Поддерживается ли синтез на английском?

Да, SpeechKit поддерживает несколько языков, но качество русского — наилучшее. Для английского есть отдельные модели, но рекомендуем использовать специализированные TTS.

Какой голос лучше для IVR?

Для IVR рекомендуем `alena` или `filipp` в формате LPCM с частотой 8 кГц. Премиум-голоса избыточны, если не требуется максимальная естественность.

Можно ли использовать SpeechKit с Яндекс.Облаком без API-ключа?

Да, через сервисный аккаунт с IAM-токеном. Это безопаснее, так как токен живёт 12 часов и позволяет гибко управлять доступом.

Сколько запросов в секунду выдерживает API?

Базовый лимит — 20 RPS для синтеза. При необходимости увеличиваем через тикет в техподдержку до 100+ RPS.

Как сократить расходы на SpeechKit?

Кешируйте повторяющиеся фразы. Используйте LPCM вместо OGG для телефонии. Оптимизируйте длительность синтезируемого текста. На практике это даёт экономию до 50%.

Поддерживается ли синтез на английском?

Да, SpeechKit поддерживает несколько языков, но качество русского — наилучшее. Для английского есть отдельные модели, но рекомендуем использовать специализированные TTS.

Интеграция Yandex SpeechKit TTS для синтеза речи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Интеграция Yandex SpeechKit TTS для синтеза речи

Простой

~1 день

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Интеграция Yandex SpeechKit TTS для синтеза речи

Клиент приходит с задачей: озвучить тысячи запросов в IVR, но TTS-движки от Western-вендоров ломают русскую интонацию, ставят ударения на соседний слог. Эта проблема знакома многим. Yandex SpeechKit TTS решает это просто: модель на 100+ млн токенов русского текста, адаптивная нормализация и 8 голосов, от нейтрального до эмоционального. Мы внедряем SpeechKit в ваш продукт под ключ: от выбора голоса до конфигурации потокового синтеза для миллисекундных задержек. Ниже — реальные грабли и рецепты из продакшена.

За счёт кеширования и выбора формата мы помогаем клиентам снизить затраты на TTS на 30–50%. Например, для одного ритейлера с 20 000 звонков в день перешли с премиум-голосов на базовые в IVR и сэкономили 40%. При трафике 50 000 запросов в день годовая экономия достигает 150 000 рублей.

Как интегрировать Yandex SpeechKit TTS через REST API?

Базовый синтез — два HTTP-запроса. Стек: Python 3.10+, requests или aiohttp для асинхронного воркфлоу. Пример ниже — рабочий фрагмент из нашего продакшен-пайплайна.

import requests

def synthesize(text: str, voice: str = "alena", speed: float = 1.0) -> bytes:
    """Синтез через Yandex SpeechKit"""
    response = requests.post(
        "https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize",
        headers={"Authorization": f"Api-Key {YANDEX_API_KEY}"},
        data={
            "text": text,
            "lang": "ru-RU",
            "voice": voice,
            "speed": str(speed),
            "format": "oggopus",  # oggopus | lpcm | mp3
            "sampleRateHertz": "48000",
            "folderId": YANDEX_FOLDER_ID,
        }
    )
    response.raise_for_status()
    return response.content

# Доступные голоса
VOICES = {
    "female": ["alena", "jane", "omazh", "oksana"],
    "male": ["filipp", "zahar", "ermil"],
    "premium": ["alena:premium", "filipp:premium"]  # наилучшее качество
}

Параметры, которые реально меняют восприятие:

Параметр	Описание	Диапазон
`speed`	Темп речи	0.1–3.0 (1.0 — норма)
`emotion`	Окраска голоса	good, evil, neutral (не для всех голосов)
`format`	Аудиокодек	oggopus, lpcm, mp3
`sampleRateHertz`	Частота дискретизации	8000, 16000, 48000

Типичная ошибка: использование LPCM для телефонии с частотой 8000 Гц. Если не выставить частоту, SpeechKit по умолчанию генерирует 48 kHz — на телефонии это избыточно и тратит трафик. Наш опыт: для IVR достаточно 8 kHz, для голосовых помощников — 16 kHz, для подкастов — 48 kHz.

Потоковый синтез через gRPC даёт задержку в 2–3 раза ниже, чем последовательные REST-запросы.

Почему стоит использовать премиальные голоса?

Премиум-голоса (alena:premium, filipp:premium) дают на 30–40% меньше ошибок ударения по сравнению с базовыми (по нашим замерам на датасете из 10 000 фраз). Они обучались на записях профессиональных дикторов с дополнительной разметкой эмоций. Но цена выше. Выбор зависит от бюджета и требований к естественности. Для критичных к ошибкам сценариев (юридические уведомления, навигация) берите премиум. Мы используем премиум-голоса в проектах с госзаказчиками — проходим экспертизу по разборчивости и акцентам.

Характеристика	Базовые голоса	Премиум-голоса
Стоимость	Низкая	Средняя
Качество ударений	94-96%	97-99%
Эмоциональная окраска	3 оттенка	5 оттенков
Рекомендация	Бюджетные проекты	Критичные к качеству

Как использовать SSML для точного управления?

С v3 API появилась полноценная поддержка SSML. Это незаменимо, когда нужно:

Паузы (<break time="500ms"/>)
Управление ударениями (<phoneme alphabet="ipa" ph="mɐˈskva">Москва</phoneme>)
Смена голоса внутри фразы (<voice name="filipp">Передаю абоненту</voice>)

Пример:

# REST v3 для SSML и расширенного управления
headers = {
    "Authorization": f"Bearer {IAM_TOKEN}",
    "x-folder-id": FOLDER_ID
}
body = {
    "utteranceSynthesisRequest": {
        "text": "<speak>Привет! <break time='500ms'/> Как дела?</speak>",
        "outputAudioSpec": {"containerAudio": {"containerAudioType": "OGG_OPUS"}},
        "loudnessNormalizationType": "LUFS"
    }
}

Внимание: SSML-запрос требует IAM-токен (получается через IAM), а не API-ключ. Иначе 403. Этот грабли стоил нам полдня на первом проекте.

Полный список голосов и их оптимизация

Alena — женский, базовый, для IVR и уведомлений.
Filipp — мужской, базовый, для навигации и объявлений.
Alena Premium — высокая естественность, для голосовых ассистентов.
Filipp Premium — мужской премиум, для сложных диалогов.

Рекомендации: для телефонии используйте LPCM 8kHz, для приложений — OGG 48kHz.

Процесс работ под ключ

Аналитика — разбираем ваш сценарий: IVR, голосовой ассистент, подкасты. Выбираем голос и формат.
Прототип — поднимаем интеграцию в вашем окружении, тестируем латентность.
Продакшен — настраиваем авторизацию, мониторинг, алерты по 429 и 401 ошибкам.
Оптимизация — кешируем часто синтезируемые фразы, уменьшаем количество вызовов.
Передача — передаём документацию, исходники, обучаем вашу команду.

Мы гарантируем стабильную работу: мониторинг метрик p99 latency и количества ошибок 429 (превышение RPS) с автоматическим увеличением квоты через алерт.

Что входит в результат

Аудиофайлы (OGG, WAV, MP3) или потоковая выдача.
Скрипты на Python с обработкой ошибок и повторными запросами.
Инструкция по заведению платежного аккаунта и ограничению бюджета.
Сертификат о прохождении нагрузочного тестирования (по запросу).

Сроки и стоимость

Сроки: от 1 до 3 дней на базовую интеграцию, от 5 дней на комплекс с SSML и оптимизацией. Стоимость рассчитывается индивидуально под ваш трафик. Получите консультацию — оценим сценарий бесплатно. Закажите интеграцию — прототип будет готов за 1 день.

Yandex SpeechKit documentation

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.