Реализация AI-модерации контента (видео) в мобильном приложении
Пользователь загружает видео — и у вас есть секунды, чтобы решить, показывать ли его другим. Ручная проверка не масштабируется. Поставить видео в очередь и показать через 10 минут — потерять пользователя. Задача: автоматическая классификация видеоконтента прямо в момент загрузки или до публикации, с минимальным ложнопозитивным процентом.
Где чаще всего возникают проблемы
Модерация в реальном времени vs постобработка
Самый частый архитектурный просчёт — пытаться гнать видео через модель покадрово на клиенте. CoreML на iPhone 14 Pro справится с MobileNet v3 при 30 fps на коротких роликах, но это убивает батарею и нагревает устройство. На Android схожая картина с MediaPipe: обработка каждого кадра в ImageAnalysis.Analyzer при 1080p приводит к ImageProxy backlogs и крэшам с java.lang.IllegalStateException: Image is already closed.
Правильный подход для видео — не покадровый анализ, а выборочный: каждые N кадров или ключевые сцены через AVAssetImageGenerator (iOS) / MediaMetadataRetriever.getFrameAtTime() (Android). Для большинства задач модерации достаточно 1 кадра в секунду.
Серверная модерация через Video Intelligence API
Для приложений с UGC-видео выстраиваем следующую схему: клиент загружает видео в хранилище (S3/GCS), триггерит Cloud Function, которая вызывает Google Video Intelligence API с фичами EXPLICIT_CONTENT и OBJECT_TRACKING. Ответ — JSON с временными метками и confidence-оценками по каждому сегменту.
// Android: запуск загрузки и передача URI на бэкенд
val uploadRef = storageRef.child("uploads/${UUID.randomUUID()}.mp4")
uploadRef.putFile(localUri)
.addOnSuccessListener { taskSnapshot ->
taskSnapshot.storage.downloadUrl.addOnSuccessListener { downloadUri ->
moderationApi.submitVideo(downloadUri.toString(), onComplete = { result ->
when (result.verdict) {
ModerationVerdict.SAFE -> publishVideo()
ModerationVerdict.UNSAFE -> rejectWithReason(result.reason)
ModerationVerdict.REVIEW -> sendToHumanReview()
}
})
}
}
AWS Rekognition Video — альтернатива с аналогичным API: StartContentModeration + polling через GetContentModeration. Для синхронных сценариев (короткие reels до 30 сек) подходит Rekognition Image, применяемый к извлечённым кадрам — ответ за 200–400 мс.
On-device предфильтрация
Перед отправкой на сервер имеет смысл прогнать первый и последний кадры видео через локальную CoreML / TFLite модель. Это отсекает очевидный NSFW ещё на клиенте и экономит траффик. Модель типа NudeNet Lite в TFLite формате занимает около 14 МБ и даёт точность ~92% на бенчмарках NSFW-датасетов. Ложные срабатывания на медицинском контенте — отдельная история, требует whitelist-логики на уровне категории приложения.
Как мы выстраиваем решение
Стек зависит от требований к latency и бюджету. Для стартапов с небольшим трафиком — Google Video Intelligence API: платите только за обработанные минуты, не нужно поднимать инфраструктуру. Для высоконагруженных платформ — собственный inference-сервис на базе CLIP или кастомной ONNX-модели за reverse proxy с кэшированием хэшей уже проверенных видео (perceptual hashing через pHash предотвращает повторную модерацию одного и того же ролика).
На клиенте (iOS/Android/Flutter) реализуем:
- прогресс-бар загрузки с
URLSession.uploadTask/okhttp3.MultipartBody - pending-состояние видео в ленте («на проверке»)
- пуш-уведомление о результате через FCM/APNs
Отдельный кейс — live-стриминг. Здесь Video Intelligence API не подходит из-за latency. Используем потоковую передачу через WebRTC + серверный анализ HLS-сегментов каждые 2–4 секунды с моделью, оптимизированной под скорость (MobileViT-S в TorchScript).
Процесс работы
Аудит требований: тип контента (UGC, Stories, live), допустимая задержка публикации, требования к compliance (GDPR, COPPA).
Выбор стека: on-device предфильтр + облачная модерация vs полностью серверная.
Разработка: интеграция SDK загрузки, webhook/polling для результатов, UI статусов.
Тестирование на датасете edge-cases: мультиязычные субтитры в кадре, медицинский контент, мультипликация.
Ориентиры по срокам
Интеграция с Google Video Intelligence или AWS Rekognition Video — 3–5 дней. Добавление on-device предфильтра на CoreML/TFLite — ещё 2–3 дня. Полное решение с live-стримингом и системой human review — 3–4 недели.







