Реализация AI-улучшения качества аудио
AI-апскейлинг аудио восстанавливает потерянные частоты в сжатых или деградированных записях: повышает частоту дискретизации (8→44.1 kHz), расширяет полосу (телефонная запись → студийное звучание), убирает артефакты кодеков.
AudioSR — суперрезолюция аудио
from audiosr import build_model, super_resolution
import soundfile as sf
def enhance_audio_quality(
input_path: str,
output_path: str,
target_sr: int = 48000
) -> None:
audiosr = build_model(model_name="basic", device="cuda")
waveform, _ = super_resolution(
audiosr,
input_path,
seed=42,
guidance_scale=3.5,
ddim_steps=50,
latent_t_per_second=12.8
)
sf.write(output_path, waveform[0], target_sr)
AudioSR поднимает частоту дискретизации с 8/16/24 kHz до 48 kHz, восстанавливая высокочастотные компоненты (4–24 kHz) через диффузионную модель.
Bandwidth Extension через FFmpeg + AI
import subprocess
def restore_telephone_audio(input_path: str, output_path: str) -> None:
"""8 kHz телефонная запись -> широкополосная"""
subprocess.run([
"ffmpeg", "-i", input_path,
"-af", (
"aresample=48000," # апсемплинг
"firequalizer=gain_entry='entry(0,0);entry(3000,0);entry(8000,6);entry(20000,6)'," # boost HF
"anlmdn=s=7:p=0.002" # лёгкое шумоподавление
),
"-ar", "48000", output_path
], check=True)
Восстановление артефактов mp3
from resemble_enhance.enhancer.inference import denoise, enhance
import torchaudio
def remove_codec_artifacts(audio_path: str, output_path: str) -> None:
dwav, sr = torchaudio.load(audio_path)
# resemble-enhance: денойз + улучшение
denoised, sr_out = denoise(dwav, sr, device="cuda")
enhanced, sr_out = enhance(dwav, sr, device="cuda", nfe=64, solver="midpoint")
torchaudio.save(output_path, enhanced, sr_out)
Метрики качества
| Метрика | Описание | Норма |
|---|---|---|
| PESQ | Качество речи (ITU-T P.862) | > 3.5/4.5 |
| STOI | Разборчивость речи | > 0.85 |
| MOS-LQO | Субъективное качество | > 4.0/5.0 |
| SI-SNR | Signal-to-noise | > 15 dB |
Применяется для улучшения записей колл-центров перед STT, подготовки аудиодатасетов для TTS fine-tuning, ремастера архивных материалов. Сроки подключения в пайплайн — 3–5 дней.







