Чем отличается text-dependent от text-independent верификации?

Text-dependent требует фиксированной фразы (пароля), даёт EER 0.5–1.5%, но уязвим к replay-атакам. Text-independent работает с любой речью, EER 1–3%, практичнее для реальных сценариев.

Какой порог верификации выбрать?

Порог определяет баланс между безопасностью (FAR) и удобством (FRR). Для высокозащищённых систем (банки) используют порог 0.4 с FAR 0.1%, для обычных приложений — 0.25 с FAR 1%.

Как защититься от синтезированного голоса?

Anti-spoofing модуль на основе CQCC-LCNN проверяет, является ли запись естественной. Он отсекает синтезированные и записанные голоса, добавляя дополнительный слой безопасности.

Сколько эталонных фраз нужно для регистрации?

Рекомендуем 3–5 фраз. Усреднение эмбеддингов снижает EER на 30% по сравнению с одной фразой. Обновлять эталон раз в 3–6 месяцев из-за изменений голоса.

Какие сроки внедрения Speaker Verification?

Базовая система (только верификация) — около 1 недели. С anti-spoofing, управлением профилями и интеграцией — 2–3 недели. Время зависит от сложности инфраструктуры и требований к точности.

Чем отличается text-dependent от text-independent верификации?

Text-dependent требует фиксированной фразы (пароля), даёт EER 0.5–1.5%, но уязвим к replay-атакам. Text-independent работает с любой речью, EER 1–3%, практичнее для реальных сценариев.

Какой порог верификации выбрать?

Порог определяет баланс между безопасностью (FAR) и удобством (FRR). Для высокозащищённых систем (банки) используют порог 0.4 с FAR 0.1%, для обычных приложений — 0.25 с FAR 1%.

Как защититься от синтезированного голоса?

Anti-spoofing модуль на основе CQCC-LCNN проверяет, является ли запись естественной. Он отсекает синтезированные и записанные голоса, добавляя дополнительный слой безопасности.

Сколько эталонных фраз нужно для регистрации?

Рекомендуем 3–5 фраз. Усреднение эмбеддингов снижает EER на 30% по сравнению с одной фразой. Обновлять эталон раз в 3–6 месяцев из-за изменений голоса.

Какие сроки внедрения Speaker Verification?

Базовая система (только верификация) — около 1 недели. С anti-spoofing, управлением профилями и интеграцией — 2–3 недели. Время зависит от сложности инфраструктуры и требований к точности.

Реализация верификации говорящего (Speaker Verification) под ключ

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация верификации говорящего (Speaker Verification) под ключ

Средний

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Финтех-компания, где голосовой бот обрабатывал переводы, столкнулась с мошенничеством: поддельные голосовые команды генерировались через WaveNet и беспрепятственно проходили проверку. Потери достигали 15% от объёма транзакций. Потребовалась система верификации говорящего (speaker verification) с anti-spoofing, способная отсекать синтезированные аудиозаписи в реальном времени. Наш стек — ECAPA-TDNN для извлечения эмбеддингов и CQCC-LCNN для детекции подделок.

Проблемы, которые решаем

Первая — replay-атаки: злоумышленник просто проигрывает запись. Text-dependent режим здесь бессилен, нужен anti-spoofing. Вторая — высокая вариативность голоса из-за простуды, усталости или шума. Без адаптивного порога FRR может превысить 10%. Третья — скорость: система должна отвечать за <200 мс, иначе UX страдает. Кроме того, синтезированные голоса на базе WaveNet и Tacotron становятся всё реалистичнее, и традиционные методы не справляются.

Атаки на голосовые системы

Различают три основных типа: replay (повтор записи), синтез (WaveNet, Tacotron) и конверсия (преобразование голоса в другой). Replay блокируется добавлением nonce и timestamp в запрос. Синтез и конверсию выявляет CQCC-LCNN, обученный на ASVspoof 2021 — точность 98% при FAR 1%. Защита от replay-атак снижает потери до 90%.

Как мы подбираем порог верификации?

Порог определяет баланс между FAR (пропустили чужого) и FRR (отклонили своего). Для банковских сценариев нужен FAR <0.5%, для авторизации в приложении — достаточно 1%. Мы подбираем порог под ваш сценарий с помощью ROC-кривой на ваших данных. В таблице ниже показаны типичные пороги:

Порог	FAR	FRR	Применение
0.1	5%	1%	Низкий риск (авторизация в приложении)
0.25	1%	5%	Балансированный (обычные сценарии)
0.4	0.1%	15%	Высокая безопасность (банки, платежи)

Подробнее о метриках

FAR (False Acceptance Rate) — доля ошибок, когда система принимает чужого. FRR (False Rejection Rate) — доля, когда отклоняет своего. EER (Equal Error Rate) — точка пересечения FAR и FRR, стандартная метрика качества. Средний EER на наших внедрениях — 1.2%.

Сравнение архитектур: ECAPA-TDNN даёт EER в 1.2 раза ниже, чем x-vectors (0.87% vs 1.05% на VoxCeleb1). Для ресурсо-ограниченных сценариев используем ResNetSE34L с INT8 квантизацией — инференс на CPU за 50 мс.

Архитектура	EER (%)	Инференс (GPU/CPU)	Размер модели
ECAPA-TDNN	0.87	80 мс / 200 мс	20 MB
x-vectors	1.05	60 мс / 150 мс	15 MB
ResNetSE34L (INT8)	1.10	30 мс / 50 мс	5 MB

Реализация на ECAPA-TDNN

Используем предобученную модель из SpeechBrain: ECAPA-TDNN. Она выдаёт эмбеддинги 192-мерного пространства. Скорость инференса — 80 мс на GPU, 200 мс на CPU. Код:

from speechbrain.pretrained import SpeakerRecognition
import torchaudio

verifier = SpeakerRecognition.from_hparams(
    source="speechbrain/spkrec-ecapa-voxceleb",
    savedir="tmp_verification"
)

def verify_speaker(
    enrollment_audio: str,
    test_audio: str,
    threshold: float = 0.25
) -> tuple[bool, float]:
    """
    enrollment_audio: эталонная запись зарегистрированного пользователя
    threshold: порог для Accept/Reject (подбирается под нужный FAR/FRR)
    """
    score, prediction = verifier.verify_files(enrollment_audio, test_audio)
    is_same = float(score) >= threshold
    return is_same, float(score)

Почему нужен anti-spoofing?

Без него система уязвима: синтезированный голос (WaveNet, Tacotron) проходит верификацию. Мы добавляем дополнительный классификатор на основе CQCC-LCNN, который различает записи и живую речь. Он срабатывает до основного сравнения, блокируя 98% атак. Средняя стоимость проекта с anti-spoofing — 350 000 руб., а экономия от внедрения достигает 1 200 000 руб. в месяц за счёт предотвращения мошенничества.

from speechbrain.pretrained import EncoderClassifier

antispoofing = EncoderClassifier.from_hparams(
    source="speechbrain/asvspoof-cqcc-lcnn",
    savedir="tmp_antispoofing"
)

def is_genuine(audio_path: str) -> bool:
    signal, _ = torchaudio.load(audio_path)
    prediction = antispoofing.classify_batch(signal)
    return prediction[3][0] == "genuine"

Типичные ошибки при внедрении

Собирать одну эталонную фразу — плохо. Нужно 3–5, усреднение даёт -30% EER.
Не обновлять эталон — голос меняется. Раз в 3–6 месяцев перезаписывайте.
Игнорировать replay — добавляйте nonce и timestamp в запрос.
Использовать дефолтный порог — всегда калибруйте под свои данные.
Забыть про шум — минимальный SNR 15 дБ, иначе accuracy падает.

Процесс внедрения

Аналитика: собираем требования по FAR/FRR, типы атак, интеграционные точки.
Прототип: за 2 дня ставим модель, тестируем на ваших записях, подбираем порог.
Интеграция: встраиваем в бота/приложение через REST API или gRPC.
Нагрузочное тестирование: проверяем latency p99 < 300 мс при 500 RPS.
Деплой и мониторинг: ставим на Kubernetes с автоскейлингом, логируем метрики.

Что входит в работу?

Документация по архитектуре и API спецификации (OpenAPI).
Docker-образ с моделью (версия для GPU/CPU).
Инструкция по развёртыванию и эксплуатации.
Обучение вашей команды (2-3 дня).
Гарантия на модель 6 месяцев с возможностью дообучения.

Мы занимаемся голосовой биометрией более 5 лет, завершили более 30 проектов для финтеха и телекома. Средний EER на наших внедрениях — 1.2%.

Сроки

Базовая система (верификация + пороги) — от 1 недели. С anti-spoofing и управлением профилями — 2–3 недели. Стоимость зависит от количества инстансов и нагрузки. Оцениваем проект за 1 день.

Хотите протестировать speaker verification на своих данных? Закажите пилотный проект — мы адаптируем модель за 1 день. Получите консультацию по вашему проекту — пришлём предварительную оценку.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.