Интеграция Bark для генерации речи (Open Source)
Bark от Suno AI — генеративная TTS-модель на архитектуре Transformer (не традиционный синтез). Способна генерировать смех, вздохи, пение, эмоциональную речь — то, что обычные TTS не умеют. Полностью open-source (MIT).
Возможности и ограничения
Умеет:
- Эмоциональная речь через текстовые подсказки
[laughs],[sighs],[gasps] - Пение:
♪ текст песни ♪ - Нелингвистические звуки: кашель, смех, пауза
- 13 языков из коробки, включая русский
- Клонирование стиля голоса через voice presets
Не умеет:
- Потоковый синтез (только batch)
- Детерминированный вывод (каждый запрос даёт разный результат)
- Работа на CPU с приемлемой скоростью (нужен GPU)
Установка и базовое использование
from bark import SAMPLE_RATE, generate_audio, preload_models
import soundfile as sf
import numpy as np
preload_models() # Загружает ~6 GB моделей
text = """
Добро пожаловать! [laughs] Рад вас видеть.
Ваш заказ готов. [clears throat] Подождите минуту.
"""
audio_array = generate_audio(
text,
history_prompt="v2/ru_speaker_3", # предустановленные голоса
)
sf.write("output.wav", audio_array, SAMPLE_RATE)
Требования
- GPU: минимум 8 GB VRAM (RTX 3070+)
- RAM: 16 GB
- Скорость: ~30 секунд для 10 секунд аудио на RTX 3090
- Параметры: ~1.2 GB (text encoder) + ~1.5 GB (coarse + fine codec)
Кастомные голосовые пресеты
from bark.generation import codec_decode, generate_coarse, generate_fine, generate_text_semantic
# Создание нового пресета из референсного аудио
# Требует тонкой настройки через semantic tokens
Bark хорош для творческих проектов, где нужна выразительность. Для production IVR или голосовых ботов — не оптимален из-за недетерминированности и скорости.
Сроки: 3–5 дней (установка, настройка, кастомные голоса).







