Реализация AI-генерации звуковых эффектов в мобильном приложении
Звуковые эффекты по описанию — это отдельный класс задач от генерации музыки. Нужен не трек с мелодией, а короткий (0.5–5 сек) конкретный звук: удар меча, шум дождя, нажатие кнопки. ElevenLabs Sound Effects и AudioCraft (EnCodec + AudioGen) — основные инструменты.
ElevenLabs Sound Effects API
Лучший по качеству и простоте интеграции вариант. Принимает текстовое описание, возвращает mp3 за 2–8 секунд:
POST https://api.elevenlabs.io/v1/sound-generation
xi-api-key: <key>
Content-Type: application/json
{
"text": "A heavy metal sword hitting a stone floor with a sharp clang and short reverb",
"duration_seconds": 2.0,
"prompt_influence": 0.3
}
prompt_influence от 0 до 1: чем выше, тем буквальнее интерпретация промпта. Для коротких эффектов (< 1 сек) ставим 0.7–0.9.
Ответ — бинарный mp3 в теле ответа (не JSON с URL). На мобиле:
// iOS: прямое скачивание бинарного ответа
func generateSoundEffect(description: String, duration: Double) async throws -> Data {
var request = URLRequest(url: URL(string: "https://api.elevenlabs.io/v1/sound-generation")!)
request.httpMethod = "POST"
request.setValue("audio/mpeg", forHTTPHeaderField: "Accept")
request.setValue("application/json", forHTTPHeaderField: "Content-Type")
request.setValue(apiKey, forHTTPHeaderField: "xi-api-key")
request.httpBody = try JSONEncoder().encode(SoundGenRequest(
text: description, duration_seconds: duration, prompt_influence: 0.4
))
let (data, response) = try await URLSession.shared.data(for: request)
guard (response as? HTTPURLResponse)?.statusCode == 200 else {
throw SoundGenError.apiError
}
return data // mp3 bytes
}
Время генерации небольшое — достаточно простого activity indicator, не нужен сложный асинхронный polling.
Кеширование сгенерированных звуков
Один и тот же звуковой эффект пользователь может использовать многократно — регенерировать каждый раз дорого и медленно. Кеш по хешу промпта + длительности:
// Android
class SoundEffectCache(private val cacheDir: File) {
private fun cacheKey(prompt: String, duration: Double): String =
"${prompt.hashCode()}_${(duration * 10).toInt()}.mp3"
fun getCached(prompt: String, duration: Double): File? {
val file = File(cacheDir, "sfx/${cacheKey(prompt, duration)}")
return if (file.exists()) file else null
}
fun saveToCache(prompt: String, duration: Double, data: ByteArray): File {
val dir = File(cacheDir, "sfx").also { it.mkdirs() }
val file = File(dir, cacheKey(prompt, duration))
file.writeBytes(data)
return file
}
}
Ограничиваем размер кеша — не более 50 MB, LRU-вытеснение старых файлов.
AudioGen (Meta) через Replicate как альтернатива
Replicate facebook/audiogen-medium — open-source альтернатива без лицензионных ограничений. Качество немного хуже ElevenLabs на коротких эффектах, но хорошо работает для ambient звуков (природа, атмосфера):
POST https://api.replicate.com/v1/predictions
{
"version": "<audiogen-medium-hash>",
"input": {
"prompt": "Forest with birds and wind",
"duration": 5,
"top_k": 250
}
}
Polling статуса, результат — URL на mp3.
Воспроизведение с низкой задержкой
Для игровых приложений звуковой эффект должен воспроизводиться мгновенно по событию. AVAudioPlayer на iOS — латентность 50–100 ms. Для критичных к задержке сценариев — AVAudioEngine с AVAudioPlayerNode:
let audioEngine = AVAudioEngine()
let playerNode = AVAudioPlayerNode()
audioEngine.attach(playerNode)
audioEngine.connect(playerNode, to: audioEngine.mainMixerNode, format: nil)
try audioEngine.start()
// Загружаем файл заранее, воспроизводим мгновенно
let audioFile = try AVAudioFile(forReading: soundURL)
playerNode.scheduleFile(audioFile, at: nil)
playerNode.play() // Латентность ~10 ms
На Android для игровых задач — Oboe (C++ NDK библиотека от Google) или SoundPool для заранее загруженных эффектов.
Сроки
Базовая интеграция ElevenLabs с воспроизведением и кешем — 2–3 дня. С библиотекой пользовательских звуков, поиском, теггингом и интеграцией в видеоредактор — 1–1.5 недели. Стоимость рассчитывается индивидуально.







