Реализация AI Text-to-Speech с выбором голоса в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.
Разработка и поддержка любых видов мобильных приложений:
Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Предлагаемые услуги
Показано 1 из 1 услугВсе 1735 услуг
Реализация AI Text-to-Speech с выбором голоса в мобильном приложении
Простая
~2-3 рабочих дня
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    756
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    624
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1054
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    947
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    862
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    445

Реализация AI Text-to-Speech с выбором голоса в мобильном приложении

Системный TTS на iOS и Android — AVSpeechSynthesizer и TextToSpeech — решает базовую задачу, но звучит роботизированно. AI TTS от ElevenLabs, OpenAI или Yandex SpeechKit — это голоса, которые трудно отличить от живых. Интеграция требует продуманного кэширования и стримингового воспроизведения, иначе задержка 2–4 секунды перед первым словом убивает UX.

Провайдеры и их особенности

OpenAI TTS — 6 голосов (alloy, echo, fable, onyx, nova, shimmer), модели tts-1 (быстрая) и tts-1-hd (качественная). Поддерживает стриминг. Русский — хорошо. Стоимость: $15/млн символов для tts-1-hd.

ElevenLabs — большая библиотека голосов, voice cloning, multilingual v2. Стриминг через WebSocket. Лучшее качество среди всех провайдеров.

Yandex SpeechKit — лучшие русскоязычные голоса, включая alena, filipp. REST или gRPC. Есть SSML для управления интонацией, паузами, ударением.

Системный TTS — бесплатно, офлайн, нулевая задержка, но роботизированный. Годится как fallback.

Стриминговое воспроизведение

Самое важное в реализации TTS — не ждать полного ответа. 500 символов текста на tts-1-hd синтезируется ~2 секунды. Со стримингом пользователь слышит первые слова через 300–500 мс.

iOS: стриминг через AVPlayer

class StreamingTTSPlayer {
    private var player: AVPlayer?
    private var playerItem: AVPlayerItem?

    func speak(text: String, voice: String = "nova") async throws {
        var request = URLRequest(url: URL(string: "https://api.openai.com/v1/audio/speech")!)
        request.httpMethod = "POST"
        request.setValue("Bearer \(apiKey)", forHTTPHeaderField: "Authorization")
        request.setValue("application/json", forHTTPHeaderField: "Content-Type")

        let body = ["model": "tts-1", "input": text, "voice": voice, "response_format": "mp3"]
        request.httpBody = try JSONEncoder().encode(body)

        // AVPlayer умеет стримить с HTTP-ответа через resourceLoader
        // Используем кастомный AVAssetResourceLoaderDelegate
        let asset = StreamingAudioAsset(request: request)
        playerItem = AVPlayerItem(asset: asset)
        player = AVPlayer(playerItem: playerItem)
        player?.play()
    }
}

Для полноценного стримингового воспроизведения нужен AVAssetResourceLoaderDelegate, который подаёт чанки аудиоданных по мере их получения. Это ~100 строк кода, но это единственный способ начать воспроизведение до получения полного файла на iOS.

Альтернатива — использовать AudioStreamer библиотеки или AVPlayer с data URI через pipe. На практике проще всего — AVAudioPlayerNode + AVAudioEngine с ручной подачей декодированных PCM-буферов.

Android: ExoPlayer со стримингом

class StreamingTTSPlayer(private val context: Context) {
    private val exoPlayer = ExoPlayer.Builder(context).build()

    fun speak(text: String, voice: String = "nova") {
        val url = "https://api.openai.com/v1/audio/speech"
        // ExoPlayer поддерживает стриминг нативно через MediaSource
        val dataSourceFactory = DefaultHttpDataSource.Factory().apply {
            setDefaultRequestProperties(mapOf(
                "Authorization" to "Bearer $apiKey",
                "Content-Type" to "application/json"
            ))
        }
        // Для POST-запросов используем кастомный DataSource
        val mediaItem = MediaItem.fromUri(buildCachedUri(text, voice))
        exoPlayer.setMediaItem(mediaItem)
        exoPlayer.prepare()
        exoPlayer.play()
    }
}

ExoPlayer нативно поддерживает прогрессивный стриминг MP3/AAC. Для POST-запросов нужен кастомный DataSource, который делает POST и отдаёт InputStream — ExoPlayer сам буферизует и начинает воспроизведение после первых нескольких секунд аудио.

Кэширование синтезированного аудио

TTS — дорогой. Одна и та же фраза не должна синтезироваться дважды.

// Android: кэш на диске с ключом sha256
class TTSCache(private val cacheDir: File) {
    fun getKey(text: String, voice: String): String =
        MessageDigest.getInstance("SHA-256")
            .digest("$text|$voice".toByteArray())
            .joinToString("") { "%02x".format(it) }

    fun get(key: String): File? {
        val file = File(cacheDir, "$key.mp3")
        return if (file.exists()) file else null
    }

    fun put(key: String, data: ByteArray) {
        File(cacheDir, "$key.mp3").writeBytes(data)
    }
}

TTL кэша — 30 дней для статичного контента (UI-фразы, обучающий текст), без TTL для пользовательского. Ограничение размера кэша — 50–100 МБ, LRU eviction.

UI выбора голоса

Пользователь должен услышать голос перед выбором. Паттерн:

  1. Список голосов с именем и коротким описанием
  2. Кнопка «Прослушать» — воспроизводит 5-секундный пример (кэшируем предзаписанные семплы, не синтезируем на лету)
  3. Выбранный голос сохраняется в UserDefaults / SharedPreferences

Для ElevenLabs — /v1/voices возвращает список доступных голосов с метаданными: preview_url для предпрослушивания. Не нужно синтезировать — просто воспроизводи готовый preview.

SSML для тонкой настройки

Yandex SpeechKit и Google TTS поддерживают SSML:

<speak>
  Добро пожаловать в <emphasis level="strong">наш сервис</emphasis>.
  <break time="500ms"/>
  Ваш заказ <say-as interpret-as="cardinal">12345</say-as> готов к выдаче.
</speak>

<break>, <prosody rate="slow">, <say-as> для чисел и дат — это то, что отличает естественное звучание от роботизированного. OpenAI TTS SSML не поддерживает — там управление через <pause> в самом тексте или промпт-инструкции.

Сроки

Базовая интеграция одного провайдера с UI выбора голоса — 4–6 дней. Стриминговое воспроизведение + кэш на диске + fallback на системный TTS — ещё 5–7 дней.