Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем
Показано 1 из 1Все 1735 услуг
Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении
Средний
~3-5 дней
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    495

Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении

Пользователь загружает запись совещания на 40 минут — и ждёт текст. Если на сервер уходит сырой MP4 весом 300 МБ, а обратно приходит JSON через 90 секунд, UX сломан ещё до первого слова. Задача — выстроить пайплайн, в котором мобильный клиент не просто отправляет файл, а участвует в подготовке данных: нарезка, конвертация, чанкование — и получает результат постепенно, пока модель ещё работает.

Где ломается наивная реализация

Самая частая ошибка — отправлять файл целиком через обычный URLSession.dataTask или OkHttp с дефолтными таймаутами. На больших файлах это либо NSURLErrorTimedOut (-1001), либо 413 с сервера, либо OOM на Android при буферизации в памяти.

Второй грабель — формат. Whisper и большинство cloud-провайдеров принимают audio/wav, audio/mp3, audio/mp4, audio/ogg, но не все кодеки внутри этих контейнеров. Видеофайл .mov с кодеком pcm_s16le пройдёт, а .mov с ac3 — даст 400 Bad Request без объяснений. На iOS демуксинг через AVAssetExportSession с пресетом AVAssetExportPresetAppleM4A решает 95% случаев. На Android — MediaExtractor + MediaCodec для декодирования в PCM, затем MediaMuxer для упаковки в AAC.

Третья проблема — чанкование по времени без учёта тишины. Если резать по 60 секунд ровно, слово может попасть на границу, и транскрипция разобьёт его на два фрагмента. Используй VAD (Voice Activity Detection) для нарезки по паузам. На iOS есть AVAudioSession + AVAudioEngine для анализа сигнала, на Flutter — пакет voice_activity_detector поверх WebRTC VAD.

Как строится пайплайн на практике

Подготовка файла на устройстве

// iOS: Извлечь аудиодорожку из видео
let asset = AVURLAsset(url: videoURL)
let exportSession = AVAssetExportSession(asset: asset, presetName: AVAssetExportPresetAppleM4A)!
exportSession.outputFileType = .m4a
exportSession.outputURL = tempAudioURL
await exportSession.export()

После экспорта — разбивка на чанки по 25 МБ (лимит Whisper API) с учётом VAD-границ. Каждый чанк загружается через URLSession.uploadTask(with:fromFile:) с фоновой конфигурацией (URLSessionConfiguration.background), чтобы загрузка продолжалась при сворачивании приложения.

На Android аналогично: WorkManager с CoroutineWorker для фоновой обработки, OkHttp с RequestBody.create через File, а не через ByteArray — это критично для экономии памяти на устройствах с 2 ГБ RAM.

Стриминг результата

Вместо polling каждые N секунд — WebSocket или SSE. Если используешь собственный бэкенд поверх Whisper, сервер может стримить partial_transcript по мере обработки чанков. На клиенте это URLSessionWebSocketTask (iOS) или OkHttp WebSocket (Android), который добавляет строки в StateFlow / @Published — UI обновляется в реальном времени.

Для прямой интеграции с OpenAI Whisper API стриминга нет — API синхронный. Поэтому при большом файле разбивай на независимые запросы и мержи результаты на клиенте по индексу чанка, а не по порядку ответов (сеть не гарантирует порядок).

Хранение и постобработка

Сырой транскрипт из Whisper возвращает segments с временными метками — это ценнее, чем просто текст. Храни JSON с start, end, text для каждого сегмента: это позволяет реализовать «тап на слово → перемотка аудио».

Для постобработки — пунктуация и диаризация (кто говорил). Whisper не разделяет спикеров. Для этого нужен отдельный шаг: pyannote.audio через API или AssemblyAI с параметром speaker_labels: true. На клиенте просто мержишь два JSON по временным меткам.

Выбор провайдера под задачу

Провайдер Точность (RU) Стриминг Диаризация Лимит файла
OpenAI Whisper Высокая Нет Нет 25 МБ
AssemblyAI Средняя Да Да 5 ГБ
Deepgram Nova-2 Высокая Да Да Нет лимита
Google Speech-to-Text v2 Средняя Да Да 1 ГБ
On-device (iOS CoreML) Средняя Нет Нет Ограничен RAM

Для русского языка Whisper large-v3 заметно выигрывает у остальных на неформальной речи и техническом жаргоне. Deepgram Nova-2 с параметром language: ru — хороший вариант, если нужен реалтайм.

Процесс работы

Начинаем с аудита: формат файлов, средний размер, языки, нужна ли диаризация, есть ли требования к офлайн-работе. Под это выбираем провайдера и архитектуру пайплайна.

Разработка идёт поэтапно: сначала базовый upload + транскрипция без оптимизаций, затем добавляем чанкование, фоновую загрузку, стриминг UI, постобработку. Каждый этап — отдельная ветка с функциональным тестом на реальных устройствах (не симулятор — CoreML и MediaCodec ведут себя по-разному на реальном железе).

Срок от интеграции простого Whisper API до полноценного пайплайна с диаризацией и фоновой загрузкой — от 2 до 6 недель в зависимости от платформы и требований.