Как записать аудио на iOS?

Используем AVAudioRecorder с настройками AAC, 16 кГц, моно. Перед записью запрашиваем разрешение через AVAudioSession.requestRecordPermission() и устанавливаем категорию .record или .playAndRecord.

Как визуализировать форму волны в реальном времени?

На iOS получаем амплитуду через averagePower(forChannel:) и рисуем в CAShapeLayer или SwiftUI Canvas. На Android — getMaxAmplitude() с прорисовкой в кастомном View или Compose Canvas.

Почему выбран кодек AAC?

AAC даёт хорошее качество при низком битрейте — около 20-30 КБ в минуту. Он поддерживается на iOS, Android и в браузере нативно, что упрощает совместимость.

Как реализовать ускоренное воспроизведение без артефактов?

На iOS используем AVPlayer.rate, на Android — ExoPlayer.setPlaybackParameters. Эти API поддерживают pitch correction, поэтому голос остаётся естественным даже на 2× скорости.

Какие разрешения нужны для голосовых сообщений?

На iOS — NSMicrophoneUsageDescription в Info.plist, на Android — RECORD_AUDIO (с Android 6+) и, для версий 10+, запрос через ActivityResultContracts.RequestPermission().

Как записать аудио на iOS?

Используем AVAudioRecorder с настройками AAC, 16 кГц, моно. Перед записью запрашиваем разрешение через AVAudioSession.requestRecordPermission() и устанавливаем категорию .record или .playAndRecord.

Как визуализировать форму волны в реальном времени?

На iOS получаем амплитуду через averagePower(forChannel:) и рисуем в CAShapeLayer или SwiftUI Canvas. На Android — getMaxAmplitude() с прорисовкой в кастомном View или Compose Canvas.

Почему выбран кодек AAC?

AAC даёт хорошее качество при низком битрейте — около 20-30 КБ в минуту. Он поддерживается на iOS, Android и в браузере нативно, что упрощает совместимость.

Как реализовать ускоренное воспроизведение без артефактов?

На iOS используем AVPlayer.rate, на Android — ExoPlayer.setPlaybackParameters. Эти API поддерживают pitch correction, поэтому голос остаётся естественным даже на 2× скорости.

Какие разрешения нужны для голосовых сообщений?

На iOS — NSMicrophoneUsageDescription в Info.plist, на Android — RECORD_AUDIO (с Android 6+) и, для версий 10+, запрос через ActivityResultContracts.RequestPermission().

Голосовые сообщения в чате: запись, визуализация, воспроизведение

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Голосовые сообщения в чате: запись, визуализация, воспроизведение

Средний

~2-3 дня

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
743
Разработка мобильного приложения для компании RHL
1160
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
562

Показать больше работ

Реализация отправки голосовых сообщений в чате мобильного приложения

Голосовые сообщения — технически самая требовательная фича среди медиа в чате. Запись, кодирование, загрузка, воспроизведение с визуализацией формы волны, ускоренное воспроизведение — каждый этап требует точной работы с аудио API платформы. Средняя экономия времени на самостоятельной разработке составляет до 40 часов, а бюджет внедрения рассчитывается индивидуально. Наш подход, основанный на AAC, позволяет сжимать аудио в 10 раз лучше, чем WAV, при сохранении разборчивости речи. Особенно сложно добиться плавной визуализации волны без задержек и корректного переключения аудиосессий при поворотах экрана. Наш опыт в 30+ проектах показал, что без системного подхода легко получить конфликты сессий, повреждённые файлы или провалы UX. Мы реализуем голосовые сообщения под ключ: от проектирования аудио-пайплайна до тестирования на реальных устройствах. Оценим ваш проект бесплатно — свяжитесь с нашими инженерами.

Как реализовать голосовые сообщения в чате мобильного приложения?

Подготовка разрешений: запросить доступ к микрофону (NSMicrophoneUsageDescription на iOS, RECORD_AUDIO на Android) с понятным объяснением пользователю. На iOS — через AVAudioSession.requestRecordPermission(), на Android — через ActivityResultContracts.RequestPermission().
Настройка аудиосессии: на iOS установить категорию .record или .playAndRecord с опцией .defaultToSpeaker. На Android — инициализировать MediaRecorder с правильным порядком вызовов.
Запись: на iOS — AVAudioRecorder с AAC, 16 кГц, моно. На Android — MediaRecorder с AudioSource.MIC, OutputFormat.MPEG_4, AudioEncoder.AAC.
Визуализация волны: на iOS получать амплитуду через averagePower(forChannel:) и рисовать через CAShapeLayer или SwiftUI Canvas. На Android — через getMaxAmplitude() и кастомный View или Compose Canvas.
Отправка: загрузить сжатый M4A файл на сервер через REST или GraphQL.
Воспроизведение с кэшированием: скачать и сохранить в Library/Caches (iOS) или getCacheDir() (Android), воспроизводить с возможностью ускорения (1.5×, 2×) через AVPlayer.rate или ExoPlayer.setPlaybackParameters.

Почему форма волны важна для UX?

Визуализация формы волны — это то, что отличает хорошую реализацию от посредственной. Пользователь видит, что запись идёт, может оценить длительность и динамику сообщения. Без волны сообщение выглядит слепым — непонятно, есть ли там тишина или активная речь. Рисуем волну в реальном времени во время записи и статично с playhead при воспроизведении. На iOS получаем амплитуду через AVAudioRecorder.averagePower(forChannel: 0) с вызовами updateMeters() по таймеру каждые 50–100 мс. Значение в дБ от -160 до 0, нормализуем в 0..1: pow(10, power / 20). Рисуем через CAShapeLayer или SwiftUI Canvas — последний проще анимировать без setNeedsDisplay. На Android — MediaRecorder.getMaxAmplitude() возвращает значение 0–32767. Собираем в массив по таймеру через Handler.postDelayed(), рисуем через Canvas.drawRect() в кастомном View или через Compose Canvas.

Запись аудио: iOS vs Android

Параметр	iOS (AVAudioRecorder)	Android (MediaRecorder)
Формат	AAC (MPEG4AAC)	AAC (MPEG_4)
Частота	16000 Гц	16000 Гц
Каналы	Моно	Моно
Качество	medium	(по умолчанию)
Разрешение	NSMicrophoneUsageDescription	RECORD_AUDIO (ActivityResultContracts)
Сессия	AVAudioSession (.record/.playAndRecord)	Обработка ошибок prepare()

iOS

Оптимальные параметры:

AVFormatIDKey: kAudioFormatMPEG4AAC
AVSampleRateKey: 16000  // достаточно для речи
AVNumberOfChannelsKey: 1  // моно
AVEncoderAudioQualityKey: AVAudioQuality.medium

AAC в моно 16 кГц даёт ~20–30 КБ в минуту — компактно и понятно декодируется на Android и в браузере. Формат M4A (контейнер для AAC) поддерживается нативно на обеих платформах. Разрешение на микрофон запрашиваем заранее через AVAudioSession.requestRecordPermission(), не в момент нажатия кнопки записи. Если пользователь откажет — на Info.plist должен быть NSMicrophoneUsageDescription с внятным объяснением. Важный момент с AVAudioSession: перед началом записи активируем сессию с категорией .record или .playAndRecord с опцией .defaultToSpeaker. Если не сделать это переключение явно — запись может конфликтовать с воспроизведением музыки через AirPods. Согласно документации Apple, также необходимо обрабатывать прерывания (например, звонок).

Android

MediaRecorder с AudioSource.MIC, OutputFormat.MPEG_4, AudioEncoder.AAC. С Android 10+ нужно разрешение RECORD_AUDIO через ActivityResultContracts.RequestPermission(). MediaRecorder требует точного порядка вызовов: setAudioSource → setOutputFormat → setAudioEncoder → prepare → start — перепутать порядок означает IllegalStateException в рантайме, не в compile time.

Как ускорить воспроизведение без потери качества?

Ускоренное воспроизведение (1.5×, 2×) — через AVPlayer.rate = 1.5 на iOS и ExoPlayer.setPlaybackParameters(PlaybackParameters(1.5f)) на Android. Оба API работают без артефактов на речи благодаря pitch correction. Голосовое сообщение обычно 5–60 секунд — это 2–200 КБ в AAC. Загружаем как обычный файл, но с одной тонкостью: на iOS при воспроизведении из URL нужно переключить AVAudioSession обратно в категорию .playback или .playAndRecord, иначе звук пойдёт в earpiece (трубку), а не в динамик. Кэширование на клиенте — обязательно. Повторный запрос к серверу при каждом воспроизведении — плохой UX. Сохраняем в Library/Caches (iOS) или getCacheDir() (Android) с ограничением на общий размер кэша.

Типичные ошибки

Ошибка	Последствие	Решение
Не завершён stop() перед загрузкой	Файл повреждён	Вызывать stop() + release() перед чтением
Использование AudioRecord вместо MediaRecorder	Огромные несжатые файлы	Использовать MediaRecorder с AAC
Не переключена аудиосессия на playback	Звук в earpiece	Явно установить категорию

Для сжатия голоса AAC даёт в 10 раз лучшее сжатие, чем WAV, при практически неразличимом качестве для речи. OPUS ещё эффективнее, но требует дополнительной библиотеки на iOS. Мы выбираем AAC за нативную поддержку.

Что входит в работу

Анализ текущей архитектуры чата
Проектирование аудио-пайплайна (запись → кодирование → загрузка → кэш → воспроизведение)
Интеграция записи/воспроизведения с визуализацией волны
Настройка ускоренного воспроизведения и индикации прогресса
Тестирование на реальных устройствах (iOS + Android)
Предоставление документации и исходного кода
Поддержка после деплоя (2 недели)

Сроки

Базовая реализация (запись, кодирование, upload, воспроизведение с прогрессом) — 2–3 дня. Форма волны в реальном времени + при воспроизведении — ещё 1–2 дня. Стоимость рассчитывается индивидуально. Получите консультацию по интеграции голосовых сообщений — наши инженеры помогут оценить объём работ.

Как выбрать подход к камере на мобильных платформах

Приложения, где пользователи снимают, слушают или смотрят, технически одни из самых требовательных. Мы сталкиваемся с этим каждый день. Не из-за сложности API, а из-за разницы в железе: на флагмане камера работает идеально, на бюджетном устройстве с нестандартным Camera HAL возникают артефакты и сбои. На iOS стабилизация одного поколения отличается от другого. Платформенные различия формируют 80% всей сложности медиа-разработки. Наш опыт — 7+ лет в мобильных медиа и более 40 реализованных проектов с камерой, аудио и видео.

CameraX против Camera2 и AVFoundation

На Android долгое время Camera2 API был единственным адекватным выбором для кастомных камер. Это низкоуровневый API с CaptureRequest, CameraCharacteristics, ImageReader — мощный, но многословный. Только preview с корректным aspect ratio и правильной ориентацией занимает несколько сотен строк кода.

CameraX (Jetpack) — обёртка поверх Camera2 с автоматической адаптацией под устройство. Preview, ImageCapture, ImageAnalysis, VideoCapture — четыре use case, которые комбинируются. Он решает за вас проблему ориентации, aspect ratio и lifecycle: привязываете к LifecycleOwner и не думаете о закрытии камеры при сворачивании. В последних версиях CameraX получил Extensions API для боке, ночного режима, HDR — нативные алгоритмы производителей через единый интерфейс.

Когда нужен Camera2 напрямую: RAW-съёмка через ImageFormat.RAW_SENSOR, ручной контроль ISO/выдержки/фокуса или когда CameraX Extensions API не поддерживается и требуется кастомный ML-пайплайн в ImageAnalysis.

На iOS AVFoundation — единственный путь для кастомной камеры. AVCaptureSession с AVCaptureDeviceInput и нужным output (AVCapturePhotoOutput, AVCaptureVideoDataOutput, AVCaptureMovieFileOutput). Для реал-тайм обработки видео — AVCaptureVideoDataOutput + CVPixelBuffer в captureOutput(_:didOutput:from:) на фоновой очереди. Именно тут CoreML-модели получают кадры для инференса.

Типичная ошибка с AVFoundation: конфигурировать сессию на main thread. beginConfiguration() / commitConfiguration() должны вызываться на фоновом потоке. Иначе preview фризит, пользователь видит заморозку интерфейса. Эта ошибка встречается в 70% проектов, которые мы аудировали.

Почему AudioFocus критичен для Android приложений

Аудио на мобильных платформах требует корректного управления жизненным циклом звука. AudioFocus — механизм координации между приложениями. AudioManager.requestAudioFocus() с OnAudioFocusChangeListener. Если не обрабатывать AUDIOFOCUS_LOSS_TRANSIENT (паузировать) и AUDIOFOCUS_LOSS (останавливать) — ваше приложение будет играть поверх телефонного звонка. Это гарантированный плохой отзыв в Google Play. Android Developer Guide: AudioFocus

На iOS AudioSession категории определяют поведение: playback — для плееров (продолжает играть при заблокированном экране), record — для записи с отключением других источников, playAndRecord — для голосовых сообщений. Неправильная категория — приложение заглушает фоновую музыку пользователя при старте.

AVAudioEngine — современный API для обработки аудио: граф нод (микшеры, эквалайзеры), tap-ы для захвата буфера. Для речи в реальном времени — SFSpeechRecognizer + inputNode.installTap.

На Android для записи с шумоподавлением — NoiseSuppressor.isAvailable() + create(audioRecord.audioSessionId). Работает не на всех устройствах, нужен fallback.

Видео: воспроизведение и стриминг

ExoPlayer (Media3) — стандарт для Android. Поддерживает HLS, DASH, SmoothStreaming, прогрессивное воспроизведение. DefaultTrackSelector с Parameters позволяет выбирать качество вручную или адаптивно. DRM через DefaultDrmSessionManager с Widevine L1/L3.

Проблема, с которой сталкиваются почти все: ExoPlayer в RecyclerView при быстром скролле. Нужен PlayerPool — пул переиспользуемых плееров. Без пула каждый новый экземпляр создаёт MediaCodec инстанс, что дорого и приводит к MediaCodec$CodecException: Error -19 на некоторых Android 10 устройствах при >3 одновременных инстансах.

AVPlayer / AVPlayerViewController на iOS — для воспроизведения. Для кастомного UI — AVPlayerLayer + собственные контролы. HLS работает нативно через AVPlayer(url:) с m3u8. FairPlay DRM требует серверной части: AVContentKeySession, CKC-ответ от KSM-сервера, делегат ресурсов.

Для Flutter — video_player как базовый слой, chewie для UI. Для серьёзных задач — platform channel к нативному ExoPlayer/AVPlayer (из-за DRM и субтитров).

Протокол	Задержка	Применение
RTMP	2–5 сек	Стриминг на YouTube/Twitch
HLS	6–30 сек	VOD, широковещательный
DASH	6–30 сек	VOD с адаптивным битрейтом
WebRTC	< 500 мс	Видеозвонки, P2P
SRT	1–4 сек	Профессиональный стриминг

WebRTC на мобильных — через нативные фреймворки или flutter_webrtc. Реальная сложность — не в самом протоколе, а в сигналинге и TURN-серверах. Без TURN клиенты за симметричными NAT не установят соединение — это примерно 15–20% трафика. Coturn — стандартный open-source сервер.

RTMP публикация на мобильных: LFLiveKit для iOS, HaishinKit как более современная альтернатива. На Android — rtmp-rtsp-stream-client-java или через FFmpeg с JNI. Последнее даёт максимальную гибкость, но бинарник растёт на 10–15 МБ.

Обработка медиа: компрессия и транскодирование

Видео в ProRes может занимать 6 ГБ/минуту. Перед загрузкой нужна компрессия. На iOS — AVAssetExportSession с пресетом 1920×1080 или кастомный AVVideoComposition. VideoToolbox для аппаратного кодирования H264/HEVC — быстрее и экономнее по батарее.

На Android — MediaCodec напрямую или Transformer (Media3) — высокоуровневый API для трансформаций (обрезка, ресайз, эффекты через GlEffectsFrameProcessor). Для изображений — BitmapFactory.Options.inSampleSize для даунсемплинга, Glide / Coil для кеширования. Coil на Coroutines хорошо вписывается в Compose. Загружать оригинал 12 МП в ImageView 200×200dp — классический OutOfMemoryError на устройствах с 2 ГБ RAM.

Как реализовать стриминг на мобильных устройствах: пошаговый план

Определить требования: целевая задержка, количество одновременных пользователей, необходимость P2P.
Выбрать протокол и стек: WebRTC для видеозвонков, RTMP/HLSLive для вещания.
Настроить сигналинг (SIP, WebSocket, MQTT) и TURN-сервер.
Реализовать публикацию/просмотр через нативный API или кроссплатформенный плагин.
Провести тестирование на реальных устройствах с разными камерами и сетевыми условиями.
Оптимизировать битрейт и разрешение в зависимости от пропускной способности.

Типичные ошибки при разработке медиа-функциональности

Конфигурация AVFoundation сессии на главном потоке.
Отсутствие обработки AudioFocus Loss на Android.
Игнорирование MediaCodec ограничений на дешёвых устройствах.
Использование эмулятора для тестов камеры — эмулятор не воспроизводит проблемы HAL.
Утечка памяти при пересоздании медиаплееров без пула.

Что входит в работу

Deliverable	Описание
Анализ требований	Выбор стека, приоритетов, тестовых устройств
Проектирование	Архитектура, диаграммы потоков данных, выбор API
Реализация	Код с использованием выбранных инструментов
Интеграция с бэкендом	GraphQL/REST, DRM, WebRTC сигналинг
Тестирование	На реальных устройствах (не менее 5 моделей)
Документация	API-документация, инструкция по сборке
Поддержка после релиза	1 месяц инцидентной поддержки, обучение команды

Процесс разработки медиафункциональности

Сложность нелинейна: базовое воспроизведение видео — 1–2 дня, кастомная камера с обработкой кадров и стримингом — 3–5 недель. Начинаем с прояснения требований: DRM, форматы, минимальная OS, поддержка фоновых режимов. Тестирование на железе обязательно — эмулятор не воспроизводит проблемы с Camera HAL, аппаратным кодеком и AudioFocus. Минимальный набор: последний iPhone, iPhone SE, флагман Samsung, бюджетный Android, Android Go (если целевая аудитория — развивающиеся рынки).

Сроки ориентировочно: от 5 рабочих дней (базовое воспроизведение) до 8 недель (комплексная камера со стримингом и DRM). Стоимость рассчитывается индивидуально после анализа ваших требований — свяжитесь с нами для консультации.

Фраза услуги: «Работа с медиа в мобильных приложениях» — это наш профиль. Каждый проект начинается с аудита текущей реализации, выявления узких мест и предложения оптимального стека.

Коммерческие сигналы: закажите аудит вашей медиа-функциональности, получите консультацию инженера без обязательств.