Обучение модели Text-to-Speech (VITS, YourTTS)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1Все 1566 услуг
Обучение модели Text-to-Speech (VITS, YourTTS)
Сложный
~5 дней
Часто задаваемые вопросы

Направления AI-разработки

Этапы разработки AI-решения

Последние работы

  • image_website-b2b-advance_0.webp
    Разработка сайта компании B2B ADVANCE
    1288
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1198
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    902
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1123
  • image_logo-advance_0.webp
    Разработка логотипа компании B2B Advance
    590
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    860

Обучение TTS-модели на основе VITS/XTTS

Обучение собственной TTS-модели даёт полный контроль над голосом, языком и стилем — без зависимости от внешних API и без recurring costs. Актуально для создания уникального брендового голоса, синтеза на редких языках/диалектах, edge-деплоя без интернета.

Выбор архитектуры

Модель Тип Данные для обучения Качество MOS Скорость инференса
VITS End-to-end (текст→аудио) 2–5 ч 4.2/5 Realtime ×30 на GPU
XTTS v2 (Coqui) Zero-shot + fine-tune 3–6 мин (few-shot) 4.4/5 Realtime ×10 на GPU
YourTTS Multilingual VITS 1–3 ч 4.0/5 Realtime ×20
MATCHA-TTS Flow-matching 2–4 ч 4.3/5 Realtime ×50
StyleTTS2 Style-based 1–2 ч 4.5/5 Realtime ×15

Для большинства задач: XTTS v2 для быстрого запуска с минимумом данных, VITS для полного обучения с чистым датасетом.

Подготовка датасета

Минимальные требования для качественного результата:

Формат: 22050 Hz, 16-bit, mono WAV
Длина записей: 2–15 секунд каждая
Минимум: 1000 записей (≈2 часа) для разборчивого TTS
Рекомендуется: 3000–5000 записей (≈8–12 часов) для высокого качества
Текстовый скрипт: UTF-8, одна реплика на строку

Структура датасета:

dataset/
├── wavs/
│   ├── speaker_001.wav
│   ├── speaker_002.wav
│   └── ...
├── metadata.csv          # filename|transcription
└── metadata_val.csv      # 10% для валидации

Предобработка и нормализация:

import librosa
import soundfile as sf
import numpy as np
from pathlib import Path

def preprocess_audio_for_tts(
    input_dir: str,
    output_dir: str,
    target_sr: int = 22050
) -> dict:
    stats = {"processed": 0, "skipped": 0, "errors": []}
    Path(output_dir).mkdir(parents=True, exist_ok=True)

    for wav_path in Path(input_dir).glob("*.wav"):
        audio, sr = librosa.load(str(wav_path), sr=target_sr, mono=True)

        # Обрезаем тишину
        audio_trimmed, _ = librosa.effects.trim(audio, top_db=20)

        # Проверяем длину
        duration = len(audio_trimmed) / target_sr
        if duration < 1.5 or duration > 15.0:
            stats["skipped"] += 1
            continue

        # Нормализация амплитуды
        audio_normalized = audio_trimmed / (np.max(np.abs(audio_trimmed)) + 1e-8)
        audio_normalized *= 0.9  # peak -0.9 дБ

        output_path = Path(output_dir) / wav_path.name
        sf.write(str(output_path), audio_normalized, target_sr, subtype="PCM_16")
        stats["processed"] += 1

    return stats

Обучение VITS

Конфигурация config.json для VITS (Coqui TTS):

{
    "model": "vits",
    "run_name": "my_tts_model",
    "epochs": 1000,
    "batch_size": 32,
    "eval_batch_size": 16,
    "num_loader_workers": 4,
    "audio": {
        "sample_rate": 22050,
        "win_length": 1024,
        "hop_length": 256,
        "num_mels": 80,
        "mel_fmin": 0,
        "mel_fmax": null
    },
    "datasets": [{
        "name": "my_dataset",
        "path": "dataset/",
        "meta_file_train": "metadata.csv",
        "meta_file_val": "metadata_val.csv"
    }]
}

Запуск обучения:

from TTS.bin.train_tts import main as train_tts
from TTS.config.shared_configs import BaseDatasetConfig
from TTS.tts.configs.vits_config import VitsConfig
from TTS.tts.datasets import load_tts_samples
from TTS.tts.models.vits import Vits, VitsAudioConfig
from TTS.trainer import Trainer, TrainerArgs

audio_config = VitsAudioConfig(
    sample_rate=22050,
    win_length=1024,
    hop_length=256,
    num_mels=80,
    mel_fmin=0,
    mel_fmax=None
)

config = VitsConfig(
    audio=audio_config,
    run_name="brand_voice_v1",
    batch_size=32,
    eval_batch_size=16,
    epochs=1000,
    text_cleaner="phoneme_cleaners",
    use_phonemes=True,
    phoneme_language="ru-ru",
    phoneme_cache_path="phoneme_cache/",
    output_path="checkpoints/",
    datasets=[BaseDatasetConfig(
        formatter="ljspeech",
        meta_file_train="metadata.csv",
        path="dataset/"
    )]
)

train_samples, eval_samples = load_tts_samples(
    config.datasets,
    eval_split=True,
    eval_split_size=0.1
)

model = Vits(config, ap=None, tokenizer=None, speaker_manager=None)

trainer = Trainer(
    TrainerArgs(),
    config,
    output_path="checkpoints/",
    model=model,
    train_samples=train_samples,
    eval_samples=eval_samples
)
trainer.fit()

XTTS v2 fine-tuning (few-shot)

XTTS v2 поддерживает fine-tuning с 3–6 минутами аудио:

from TTS.demos.xtts_ft_demo.xtts_demo import train_gpt

# Датасет: минимум 100 записей по 2–6 секунд каждая
train_gpt(
    language="ru",
    num_epochs=6,
    batch_size=4,
    grad_acumm=1,
    train_csv="dataset/metadata_train.csv",
    eval_csv="dataset/metadata_eval.csv",
    output_path="xtts_ft_checkpoints/"
)

После fine-tuning инференс с кастомным голосом:

from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
    text="Добро пожаловать в нашу компанию.",
    speaker_wav="reference_voice.wav",  # 3–10 сек эталонного аудио
    language="ru",
    file_path="output.wav",
    model_path="xtts_ft_checkpoints/best_model.pth"
)

Мониторинг качества обучения

# Ключевые метрики в tensorboard
# tensorboard --logdir checkpoints/

metrics_to_watch = {
    "loss/train_loss": "должен монотонно убывать",
    "loss/val_loss": "параллельно train, без расхождения",
    "loss/kl_loss": "KL-дивергенция латентного пространства",
    "loss/disc_loss": "дискриминатор (GAN-компонент)",
    "grad_norm": "должен быть < 10, иначе взрыв градиентов"
}

Звуковой контроль качества каждые 100 эпох:

def evaluate_checkpoint(checkpoint_path: str, test_texts: list[str]) -> None:
    tts = TTS(model_path=checkpoint_path)
    for i, text in enumerate(test_texts):
        tts.tts_to_file(text=text, file_path=f"eval/epoch_{i}.wav")
    # Прослушиваем и оцениваем разборчивость, натуральность, артефакты

Инфраструктура обучения

GPU Время обучения (1000 эпох, VITS) VRAM
RTX 3090 (24 GB) ~12 часов 18 GB
A100 (40 GB) ~5 часов 22 GB
2× A10G ~3 часа 2×24 GB
CPU (нет GPU) Не рекомендуется

Облачные варианты: RunPod ($1.5/ч для A100), Lambda Cloud ($1.1/ч), Vast.ai (~$0.5–0.8/ч для A100).

Post-training: деплой модели

# ONNX экспорт для edge-деплоя
from TTS.utils.synthesizer import Synthesizer

synthesizer = Synthesizer(
    tts_checkpoint="checkpoints/best_model.pth",
    tts_config_path="checkpoints/config.json"
)

# Инференс
wav = synthesizer.tts("Тестовая фраза для синтеза")
synthesizer.save_wav(wav, "test_output.wav")

Сроки: подготовка датасета (запись + разметка) — 2–4 недели. Обучение VITS-модели — 1–2 недели (GPU). Интеграция в production-сервис с API — 1 неделя. Полный цикл «с нуля до брендового голоса» — 4–6 недель.