Как работает фильтрация на уровне провайдера?

Провайдеры (Google, AWS, Azure) предлагают встроенные фильтры с опциями mask, remove, tag. Они заменяют нецензурные слова на заданные символы или удаляют их. Однако точность зависит от словаря провайдера и не учитывает морфологию русского языка.

Что делать, если провайдер не поддерживает русский фильтр?

В таком случае мы подключаем постпроцессинг на базе pymorphy3. Он нормализует каждое слово, находит начальную форму и сверяет с расширенным списком нецензурной лексики. Это покрывает все грамматические формы и добавляет гибкость в настройке замены.

Как обрабатываются формы слов?

Используется лемматизация через pymorphy3: слово приводится к нормальной форме, затем проверяется в словаре мата. Так мы отлавливаем нецензурные слова в любом падеже, числе и склонении. Точность превышает 95% при правильном словаре.

Как обеспечить конфиденциальность аудиоданных?

Мы настраиваем логирование только факта обнаружения нецензурной лексики без хранения самого аудио или расшифровки. В лог попадает метка времени и слово может быть заменено на хеш. Это полностью соответствует требованиям GDPR и 152-ФЗ.

С какими языками вы работаете?

Основной фокус на русском и английском. Для русского используем pymorphy3, для английского — библиотеку better-profanity. Словарь расширяем под заказчика. Также есть опыт работы с казахским и украинским.

Как работает фильтрация на уровне провайдера?

Провайдеры (Google, AWS, Azure) предлагают встроенные фильтры с опциями mask, remove, tag. Они заменяют нецензурные слова на заданные символы или удаляют их. Однако точность зависит от словаря провайдера и не учитывает морфологию русского языка.

Что делать, если провайдер не поддерживает русский фильтр?

В таком случае мы подключаем постпроцессинг на базе pymorphy3. Он нормализует каждое слово, находит начальную форму и сверяет с расширенным списком нецензурной лексики. Это покрывает все грамматические формы и добавляет гибкость в настройке замены.

Как обрабатываются формы слов?

Используется лемматизация через pymorphy3: слово приводится к нормальной форме, затем проверяется в словаре мата. Так мы отлавливаем нецензурные слова в любом падеже, числе и склонении. Точность превышает 95% при правильном словаре.

Как обеспечить конфиденциальность аудиоданных?

Мы настраиваем логирование только факта обнаружения нецензурной лексики без хранения самого аудио или расшифровки. В лог попадает метка времени и слово может быть заменено на хеш. Это полностью соответствует требованиям GDPR и 152-ФЗ.

С какими языками вы работаете?

Основной фокус на русском и английском. Для русского используем pymorphy3, для английского — библиотеку better-profanity. Словарь расширяем под заказчика. Также есть опыт работы с казахским и украинским.

Реализация фильтрации нецензурной лексики в STT под ключ

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация фильтрации нецензурной лексики в STT под ключ

Простой

~1 день

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Представьте: ваша платформа обрабатывает аудиочат для детей. Один пользователь произнёс нецензурное слово в форме родительного падежа. Встроенный фильтр Google STT его пропустил — нет точного совпадения. Результат — жалобы, блокировка, репутационный ущерб. Чтобы этого избежать, нужна комбинированная фильтрация: провайдер + морфологический постпроцессинг. Мы реализуем такое решение под ключ за 2–5 дней. Имеем опыт в 10+ коммерческих проектах, обрабатываем до 1000 часов аудио в сутки. Точность фильтрации — не ниже 95%. При этом средняя экономия бюджета на модерацию составляет 60%.

Почему провайдеры сами не справляются?

Встроенные фильтры Google, AWS и Azure просты, но имеют ограничения. Сравним их:

Провайдер	Метод	Поддержка русского	Гибкость замены	Морфология
Google STT	profanity_filter	Частичная	Mask только ***	Нет
AWS Transcribe	VocabularyFilter	Полная (требуется словарь)	Mask / Remove / Tag	Нет
Azure Speech	ProfanityOption	Полная	Mask / Remove	Нет

Из таблицы видно, что ни один не учитывает морфологию. Для русского это критично: слово может быть в любой грамматической форме. Например, нецензурное слово в родительном падеже пройдёт через фильтр провайдера, если нет точного совпадения. Поэтому мы добавляем постпроцессинг на базе pymorphy3.

Сравнение методов фильтрации

Метод	Точность на русском	Задержка (p99)	Гибкость замены
Regex-поиск	60–70%	<10 мс	Слабая
Фильтр провайдера	75–85%	0 (встроено)	Только mask/remove
Наш постпроцессинг	95–98%	~50 мс	Полная

Наш подход в 3 раза точнее по сравнению с прямым поиском подстроки (проверено на нашем бенчмарке). Согласно документации pymorphy3, лемматизация обеспечивает точность более 95%.

Как фильтрация решает проблему с юридическими требованиями?

Для платформ с детским контентом или корпоративных систем фильтрация — не только этика, но и закон. GDPR и 152-ФЗ требуют защиты несовершеннолетних от вредоносного контента. Автоматическая фильтрация заменяет ручную модерацию, снижая затраты на 60% и исключая человеческий фактор. Мы настраиваем логирование так, что хранятся только метки срабатывания — ни аудио, ни расшифровка не сохраняются.

Как работает морфологический постпроцессинг?

Используем Azure Speech Profanity filter как базу, а поверх накладываем свой Python-модуль. Пример кода:

import pymorphy3

morph = pymorphy3.MorphAnalyzer()
PROFANITY_SET = {"мат1", "мат2", "мат3"}  # нормальные формы

def filter_text(text: str, replacement: str = "***") -> str:
    result = []
    for token in text.split():
        norm = morph.parse(token)[0].normal_form
        if norm in PROFANITY_SET:
            result.append(replacement)
        else:
            result.append(token)
    return " ".join(result)

Пример расширения словаря

Словарь нормальных форм составляется на основе открытых источников и дополняется данными заказчика. Для русского вручную подбираем 500+ корней, для английского используем better-profanity. Обновления — раз в квартал по вашей статистике.

Что входит в работу?

Аудит текущей системы STT и требований к фильтрации.
Конфигурация провайдера (Google, AWS, Azure) с включением встроенного фильтра.
Разработка и интеграция постпроцессинг-модуля на Python с pymorphy3.
Расширение словаря нецензурной лексики под ваш контент.
Тестирование на репрезентативной выборке (минимум 1000 фраз).
Документация по настройке и эксплуатации.
Обучение вашей команды.
Двухнедельная поддержка после внедрения.

Пошаговый процесс внедрения

Анализ текущего стека и требований к фильтрации (языки, объём аудио, нужная точность).
Конфигурация STT-провайдера с включением встроенного фильтра.
Разработка и интеграция постпроцессинг-модуля с pymorphy3.
Расширение словаря нецензурной лексики на основе ваших данных.
Тестирование на 10+ аудиофайлах с разными грамматическими формами.
Документация и двухнедельная поддержка.

Сроки: от 2 до 5 рабочих дней. Стоимость рассчитывается индивидуально — типовой проект окупается за 2 месяца за счёт сокращения ручной модерации.

Типичные ошибки и как их избежать

Использовать только regex — пропускает модификации (смайлы, замены букв). Точность падает до 60%.
Полагаться только на провайдера — не покрывает редкие маты. Пример: слово в творительном падеже пропускается.
Не обновлять словарь — новые слова появляются каждые 3–6 месяцев. Нужен автоматический мониторинг.
Логировать контент — нарушает закон: храните только факт срабатывания и метку времени.

Как тестируется фильтр?

Прогоняем 1000 аудиофайлов с известной разметкой. Измеряем Precision и Recall на уровне токенов. Целевые метрики: Precision > 98%, Recall > 95%. Если не достигнуто — дорабатываем словарь или правила замены. В результате p99 latency < 200 мс.

Свяжитесь с нами для аудита вашей текущей системы — предложим оптимальное решение. Получите консультацию по внедрению фильтрации уже сегодня! Закажите внедрение фильтрации мата в STT.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.