Работа с медиа в мобильных приложениях: камера, аудио, видео, стриминг
Приложения, где пользователи снимают, слушают или смотрят — технически одни из самых требовательных. Не потому что API сложные, а потому что железо разное: на Pixel 7 всё работает, на Redmi Note 8 с нестандартным Camera HAL — уже нет. На iPhone 14 стабилизация работает через VideoToolbox, на iPhone SE 1-го поколения того же API нет. Эти платформенные различия определяют 80% сложности медиа-разработки.
Камера: CameraX против Camera2 и AVFoundation
На Android долгое время Camera2 API был единственным адекватным вариантом для кастомных камер. Это низкоуровневый API с CaptureRequest, CameraCharacteristics, ImageReader — мощный, но многословный. Один только preview с корректным aspect ratio и правильной ориентацией занимал несколько сотен строк кода.
CameraX (Jetpack) — обёртка поверх Camera2 с адаптацией под устройство. Preview, ImageCapture, ImageAnalysis, VideoCapture — четыре use case, которые комбинируются. CameraX решает за вас проблему ориентации, aspect ratio и lifecycle: привязываете к LifecycleOwner и не думаете о том, что камера не закрылась при сворачивании. В 2023–2024 годах CameraX получил Extensions API для боке, ночного режима, HDR — нативные алгоритмы производителей через единый интерфейс.
Когда нужен Camera2 напрямую: RAW-съёмка через ImageFormat.RAW_SENSOR, ручной контроль ISO/выдержки/фокуса для профессиональных приложений, или когда CameraX Extensions API не поддерживается устройством и нужен кастомный ML-пайплайн в ImageAnalysis.
На iOS AVFoundation — единственный путь для кастомной камеры. AVCaptureSession с AVCaptureDeviceInput и нужным output-ом (AVCapturePhotoOutput, AVCaptureVideoDataOutput, AVCaptureMovieFileOutput). Для приложений с реал-тайм обработкой видео — AVCaptureVideoDataOutput + CVPixelBuffer в captureOutput(_:didOutput:from:) на videoDataOutputQueue. Именно тут CoreML-модели получают кадры для инференса.
Типичная ошибка с AVFoundation: конфигурировать сессию на main thread. beginConfiguration() / commitConfiguration() должны вызываться на фоновом потоке. Если делать на main — preview фризит во время настройки, пользователь видит секундную заморозку интерфейса.
Видео: воспроизведение и стриминг
ExoPlayer (теперь Media3 ExoPlayer) — стандарт для Android. Поддерживает HLS, DASH, SmoothStreaming, прогрессивное воспроизведение. DefaultTrackSelector с Parameters позволяет выбирать качество вручную или адаптивно. DRM через DefaultDrmSessionManager с Widevine L1/L3.
Проблема, с которой сталкиваются почти все: ExoPlayer в RecyclerView при быстром скролле. Нужен PlayerPool — пул переиспользуемых плееров, которые переключаются между видимыми элементами. Без пула каждый новый ExoPlayer создаёт MediaCodec инстанс, что дорого и приводит к MediaCodec$CodecException: Error -19 на некоторых Android 10 устройствах при >3 одновременных инстансах.
AVPlayer / AVPlayerViewController на iOS — для воспроизведения. Для кастомного UI с контролами — AVPlayerLayer + собственные кнопки. HLS стриминг работает нативно через AVPlayer(url:) с m3u8-ссылкой. FairPlay DRM требует серверной части: AVContentKeySession, CKC-ответ от KSM-сервера, кастомный AVAssetResourceLoaderDelegate.
Для Flutter — video_player плагин как базовый слой, chewie для готового UI. Для серьёзных задач — platform channel к нативному ExoPlayer/AVPlayer, потому что video_player не поддерживает DRM и имеет ограничения по субтитрам.
Аудио: запись, воспроизведение, фоновый режим
На iOS AudioSession категории определяют поведение: playback — для плееров (продолжает играть при заблокированном экране), record — для записи с отключением других источников, playAndRecord — для голосовых сообщений и VoIP. Неправильная категория — и приложение заглушает фоновую музыку пользователя при старте, что сразу вызывает негатив.
AVAudioEngine — современный API для обработки аудио: граф нод (микшеры, эквалайзеры, pitch-shifting), tap-ы для захвата аудиобуфера в реальном времени. Для speech recognition в реальном времени — SFSpeechRecognizer + AVAudioEngine.inputNode.installTap.
На Android AudioFocus — механизм координации между приложениями. AudioManager.requestAudioFocus() с OnAudioFocusChangeListener. Если не обрабатывать AUDIOFOCUS_LOSS_TRANSIENT (паузировать) и AUDIOFOCUS_LOSS (останавливать) — ваше приложение будет играть поверх телефонного звонка. Это гарантированный плохой отзыв в Google Play.
Для записи с шумоподавлением на Android — NoiseSuppressor.isAvailable() + NoiseSuppressor.create(audioRecord.audioSessionId). Работает не на всех устройствах, нужен graceful fallback.
Стриминг: RTMP, WebRTC, HLS
| Протокол | Задержка | Применение |
|---|---|---|
| RTMP | 2–5 сек | Стриминг на YouTube/Twitch |
| HLS | 6–30 сек | VOD, широковещательный стриминг |
| DASH | 6–30 сек | VOD с адаптивным битрейтом |
| WebRTC | < 500 мс | Видеозвонки, стримы P2P |
| SRT | 1–4 сек | Профессиональный стриминг |
WebRTC на мобильных — через WebRTC.framework (iOS) и libwebrtc.aar (Android) или flutter_webrtc плагин. Реальная сложность — не в самом WebRTC, а в сигналинге и TURN-серверах. Без TURN клиенты за симметричными NAT не установят соединение — это ≈15–20% трафика. Coturn — стандартный open-source TURN сервер.
RTMP публикация на мобильных: LFLiveKit для iOS (Swift обёртка, поддерживает H264+AAC), HaishinKit как более современная альтернатива. На Android — rtmp-rtsp-stream-client-java или через FFmpeg с JNI-обёрткой. Последнее даёт максимальную гибкость, но размер бинарника растёт на 10–15 МБ.
Обработка медиа: компрессия, транскодирование
Видео, снятое на iPhone 15 Pro в ProRes, может занимать 6 ГБ/минуту. Перед загрузкой нужна компрессия. На iOS — AVAssetExportSession с AVAssetExportPreset1920x1080 или кастомный AVVideoComposition для тонкой настройки. VideoToolbox для аппаратного H264/HEVC кодирования напрямую — быстрее и экономнее по батарее, чем программный кодек.
На Android — MediaCodec напрямую или через Transformer (Media3) — высокоуровневый API для трансформаций видео без написания encoder-decoder pipeline вручную. Transformer умеет обрезку, ресайз, наложение эффектов через GlEffectsFrameProcessor.
Для изображений на Android — BitmapFactory.Options.inSampleSize для загрузки с даунсемплингом, Glide / Coil для кеширования и трансформаций. Coil написан на Kotlin Coroutines, хорошо вписывается в Compose. Загружать оригинал 12 МП в ImageView 200×200dp — классический способ получить OutOfMemoryError на устройствах с 2 ГБ RAM.
Процесс разработки медиафункциональности
Сложность медиа-задач нелинейна: базовое воспроизведение видео — 1–2 дня, кастомная камера с обработкой кадров в реальном времени и стримингом — 3–5 недель. Начинаем с прояснения требований: нужен ли DRM, какие форматы, минимальная версия OS, поддержка фоновых режимов.
Тестирование на железе обязательно — эмулятор не воспроизводит проблемы с Camera HAL, аппаратным кодеком и AudioFocus. Минимальный набор тестовых устройств: последний iPhone, iPhone SE, флагман Samsung, бюджетный Android (Xiaomi/Redmi), Android Go если целевая аудитория — развивающиеся рынки.







