Реализация AI-улучшения качества аудио (Audio Enhancement)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Реализация AI-улучшения качества аудио (Audio Enhancement)
Простая
~2-3 рабочих дня
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1240
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1167
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    867
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1084
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    563
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    829

Реализация AI-улучшения качества аудио

AI-апскейлинг аудио восстанавливает потерянные частоты в сжатых или деградированных записях: повышает частоту дискретизации (8→44.1 kHz), расширяет полосу (телефонная запись → студийное звучание), убирает артефакты кодеков.

AudioSR — суперрезолюция аудио

from audiosr import build_model, super_resolution
import soundfile as sf

def enhance_audio_quality(
    input_path: str,
    output_path: str,
    target_sr: int = 48000
) -> None:
    audiosr = build_model(model_name="basic", device="cuda")

    waveform, _ = super_resolution(
        audiosr,
        input_path,
        seed=42,
        guidance_scale=3.5,
        ddim_steps=50,
        latent_t_per_second=12.8
    )

    sf.write(output_path, waveform[0], target_sr)

AudioSR поднимает частоту дискретизации с 8/16/24 kHz до 48 kHz, восстанавливая высокочастотные компоненты (4–24 kHz) через диффузионную модель.

Bandwidth Extension через FFmpeg + AI

import subprocess

def restore_telephone_audio(input_path: str, output_path: str) -> None:
    """8 kHz телефонная запись -> широкополосная"""
    subprocess.run([
        "ffmpeg", "-i", input_path,
        "-af", (
            "aresample=48000,"       # апсемплинг
            "firequalizer=gain_entry='entry(0,0);entry(3000,0);entry(8000,6);entry(20000,6)',"  # boost HF
            "anlmdn=s=7:p=0.002"     # лёгкое шумоподавление
        ),
        "-ar", "48000", output_path
    ], check=True)

Восстановление артефактов mp3

from resemble_enhance.enhancer.inference import denoise, enhance
import torchaudio

def remove_codec_artifacts(audio_path: str, output_path: str) -> None:
    dwav, sr = torchaudio.load(audio_path)

    # resemble-enhance: денойз + улучшение
    denoised, sr_out = denoise(dwav, sr, device="cuda")
    enhanced, sr_out = enhance(dwav, sr, device="cuda", nfe=64, solver="midpoint")

    torchaudio.save(output_path, enhanced, sr_out)

Метрики качества

Метрика Описание Норма
PESQ Качество речи (ITU-T P.862) > 3.5/4.5
STOI Разборчивость речи > 0.85
MOS-LQO Субъективное качество > 4.0/5.0
SI-SNR Signal-to-noise > 15 dB

Применяется для улучшения записей колл-центров перед STT, подготовки аудиодатасетов для TTS fine-tuning, ремастера архивных материалов. Сроки подключения в пайплайн — 3–5 дней.