Реализация отправки голосовых сообщений в чате мобильного приложения
Голосовые сообщения — технически самая требовательная фича среди медиа в чате. Запись, кодирование, загрузка, воспроизведение с визуализацией формы волны, ускоренное воспроизведение — каждый этап требует точной работы с аудио API платформы.
Запись аудио
На iOS используем AVAudioRecorder с настройками кодека. Оптимальные параметры для голосовых сообщений:
AVFormatIDKey: kAudioFormatMPEG4AAC
AVSampleRateKey: 16000 // достаточно для речи
AVNumberOfChannelsKey: 1 // моно
AVEncoderAudioQualityKey: AVAudioQuality.medium
AAC в моно 16 кГц даёт ~20–30 КБ в минуту — компактно и понятно декодируется на Android и в браузере. Формат M4A (контейнер для AAC) поддерживается нативно на обеих платформах.
Разрешение на микрофон запрашиваем заранее через AVAudioSession.requestRecordPermission(), не в момент нажатия кнопки записи. Если пользователь откажет — на Info.plist должен быть NSMicrophoneUsageDescription с внятным объяснением.
Важный момент с AVAudioSession: перед началом записи активируем сессию с категорией .record или .playAndRecord с опцией .defaultToSpeaker. Если не сделать этот переключение явно — запись может конфликтовать с воспроизведением музыки через AirPods.
На Android — MediaRecorder с AudioSource.MIC, OutputFormat.MPEG_4, AudioEncoder.AAC. С Android 10+ нужно разрешение RECORD_AUDIO через ActivityResultContracts.RequestPermission(). MediaRecorder требует точного порядка вызовов: setAudioSource → setOutputFormat → setAudioEncoder → prepare → start — перепутать порядок означает IllegalStateException в рантайме, не в compile time.
Визуализация формы волны
Это то, что отличает хорошую реализацию от посредственной. Рисовать волну в реальном времени во время записи — сложнее, чем кажется.
На iOS получаем амплитуду через AVAudioRecorder.averagePower(forChannel: 0) с вызовами updateMeters() по таймеру каждые 50–100 мс. Значение в дБ от -160 до 0, нужно нормализовать в 0..1: pow(10, power / 20). Рисуем через CAShapeLayer или SwiftUI Canvas — последний проще анимировать без setNeedsDisplay.
На Android — MediaRecorder.getMaxAmplitude() возвращает значение 0–32767. Собираем в массив по таймеру через Handler.postDelayed(), рисуем через Canvas.drawRect() в кастомном View или через Compose Canvas.
При воспроизведении форму волны показываем как статичную гистограмму с позицией playhead. Позицию обновляем через AVPlayer.addPeriodicTimeObserver (iOS) или ExoPlayer.addListener с onPlaybackPositionChanged (Android) — не через UI-таймер.
Загрузка и воспроизведение
Голосовое сообщение обычно 5–60 секунд — это 2–200 КБ в AAC. Загружаем как обычный файл, но с одной тонкостью: на iOS при воспроизведении из URL нужно переключить AVAudioSession обратно в категорию .playback или .playAndRecord, иначе звук пойдёт в earpiece (трубку), а не в динамик.
Ускоренное воспроизведение (1.5×, 2×) — через AVPlayer.rate = 1.5 на iOS и ExoPlayer.setPlaybackParameters(PlaybackParameters(1.5f)) на Android. Оба API работают без артефактов на речи благодаря pitch correction.
Кэширование на клиенте — обязательно. Повторный запрос к серверу при каждом воспроизведении — плохой UX. Сохраняем в Library/Caches (iOS) или getCacheDir() (Android) с ограничением на общий размер кэша.
Типичные ошибки
Не завершать AVAudioRecorder.stop() перед попыткой загрузить файл — файл будет неполным или повреждённым. На Android — MediaRecorder.stop() + release() перед открытием файла на чтение.
Использовать AudioRecord вместо MediaRecorder на Android без необходимости — AudioRecord даёт PCM без сжатия, файлы огромные, нужен ручной AAC-энкодер через MediaCodec.
Сроки
Запись, кодирование AAC, upload, воспроизведение с прогрессом — 2–3 дня. Форма волны в реальном времени + при воспроизведении — ещё 1–2 дня. Стоимость рассчитывается индивидуально.







