Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1735 услуг

Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
792
Разработка мобильного приложения для компании XOOMER
671
Разработка мобильного приложения для компании RHL
1097
Разработка мобильного приложения для компании ZIPPY
969
Разработка мобильного приложения для компании Affhome
914
Разработка мобильного приложения для компании FLAVORS
495

Показать больше работ

Реализация AI-транскрибации аудио/видеофайлов в мобильном приложении

Пользователь загружает запись совещания на 40 минут — и ждёт текст. Если на сервер уходит сырой MP4 весом 300 МБ, а обратно приходит JSON через 90 секунд, UX сломан ещё до первого слова. Задача — выстроить пайплайн, в котором мобильный клиент не просто отправляет файл, а участвует в подготовке данных: нарезка, конвертация, чанкование — и получает результат постепенно, пока модель ещё работает.

Где ломается наивная реализация

Самая частая ошибка — отправлять файл целиком через обычный URLSession.dataTask или OkHttp с дефолтными таймаутами. На больших файлах это либо NSURLErrorTimedOut (-1001), либо 413 с сервера, либо OOM на Android при буферизации в памяти.

Второй грабель — формат. Whisper и большинство cloud-провайдеров принимают audio/wav, audio/mp3, audio/mp4, audio/ogg, но не все кодеки внутри этих контейнеров. Видеофайл .mov с кодеком pcm_s16le пройдёт, а .mov с ac3 — даст 400 Bad Request без объяснений. На iOS демуксинг через AVAssetExportSession с пресетом AVAssetExportPresetAppleM4A решает 95% случаев. На Android — MediaExtractor + MediaCodec для декодирования в PCM, затем MediaMuxer для упаковки в AAC.

Третья проблема — чанкование по времени без учёта тишины. Если резать по 60 секунд ровно, слово может попасть на границу, и транскрипция разобьёт его на два фрагмента. Используй VAD (Voice Activity Detection) для нарезки по паузам. На iOS есть AVAudioSession + AVAudioEngine для анализа сигнала, на Flutter — пакет voice_activity_detector поверх WebRTC VAD.

Как строится пайплайн на практике

Подготовка файла на устройстве

// iOS: Извлечь аудиодорожку из видео
let asset = AVURLAsset(url: videoURL)
let exportSession = AVAssetExportSession(asset: asset, presetName: AVAssetExportPresetAppleM4A)!
exportSession.outputFileType = .m4a
exportSession.outputURL = tempAudioURL
await exportSession.export()

После экспорта — разбивка на чанки по 25 МБ (лимит Whisper API) с учётом VAD-границ. Каждый чанк загружается через URLSession.uploadTask(with:fromFile:) с фоновой конфигурацией (URLSessionConfiguration.background), чтобы загрузка продолжалась при сворачивании приложения.

На Android аналогично: WorkManager с CoroutineWorker для фоновой обработки, OkHttp с RequestBody.create через File, а не через ByteArray — это критично для экономии памяти на устройствах с 2 ГБ RAM.

Стриминг результата

Вместо polling каждые N секунд — WebSocket или SSE. Если используешь собственный бэкенд поверх Whisper, сервер может стримить partial_transcript по мере обработки чанков. На клиенте это URLSessionWebSocketTask (iOS) или OkHttp WebSocket (Android), который добавляет строки в StateFlow / @Published — UI обновляется в реальном времени.

Для прямой интеграции с OpenAI Whisper API стриминга нет — API синхронный. Поэтому при большом файле разбивай на независимые запросы и мержи результаты на клиенте по индексу чанка, а не по порядку ответов (сеть не гарантирует порядок).

Хранение и постобработка

Сырой транскрипт из Whisper возвращает segments с временными метками — это ценнее, чем просто текст. Храни JSON с start, end, text для каждого сегмента: это позволяет реализовать «тап на слово → перемотка аудио».

Для постобработки — пунктуация и диаризация (кто говорил). Whisper не разделяет спикеров. Для этого нужен отдельный шаг: pyannote.audio через API или AssemblyAI с параметром speaker_labels: true. На клиенте просто мержишь два JSON по временным меткам.

Выбор провайдера под задачу

Провайдер	Точность (RU)	Стриминг	Диаризация	Лимит файла
OpenAI Whisper	Высокая	Нет	Нет	25 МБ
AssemblyAI	Средняя	Да	Да	5 ГБ
Deepgram Nova-2	Высокая	Да	Да	Нет лимита
Google Speech-to-Text v2	Средняя	Да	Да	1 ГБ
On-device (iOS CoreML)	Средняя	Нет	Нет	Ограничен RAM

Для русского языка Whisper large-v3 заметно выигрывает у остальных на неформальной речи и техническом жаргоне. Deepgram Nova-2 с параметром language: ru — хороший вариант, если нужен реалтайм.

Процесс работы

Начинаем с аудита: формат файлов, средний размер, языки, нужна ли диаризация, есть ли требования к офлайн-работе. Под это выбираем провайдера и архитектуру пайплайна.

Разработка идёт поэтапно: сначала базовый upload + транскрипция без оптимизаций, затем добавляем чанкование, фоновую загрузку, стриминг UI, постобработку. Каждый этап — отдельная ветка с функциональным тестом на реальных устройствах (не симулятор — CoreML и MediaCodec ведут себя по-разному на реальном железе).

Срок от интеграции простого Whisper API до полноценного пайплайна с диаризацией и фоновой загрузкой — от 2 до 6 недель в зависимости от платформы и требований.