Реализация AI-перевода через камеру (AR Translation) в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1735 услуг

Реализация AI-перевода через камеру (AR Translation) в мобильном приложении

Сложный

~1-2 недели

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
792
Разработка мобильного приложения для компании XOOMER
671
Разработка мобильного приложения для компании RHL
1097
Разработка мобильного приложения для компании ZIPPY
969
Разработка мобильного приложения для компании Affhome
914
Разработка мобильного приложения для компании FLAVORS
495

Показать больше работ

Реализация AI-перевода через камеру (AR Translation) в мобильном приложении

Google Translate «мгновенный перевод» — это и есть AR Translation: камера видит текст, поверх него в реальном времени отображается перевод на нужный язык, встроенный в изображение как будто он там и был напечатан. Реализовать это самостоятельно сложнее, чем кажется: нужна OCR, перевод, inpainting фона под стёртым исходным текстом и рендер нового текста с правильным шрифтом и размером.

Архитектура AR Translation pipeline

Каждый кадр с камеры проходит через несколько этапов:

Кадр → Text Detection → OCR → Translation → Inpainting → Text Overlay → Render

Text Detection. Находим bounding boxes текста в кадре. На iOS: VNRecognizeTextRequest (Vision framework) с recognitionLevel: .fast для реального времени. На Android: ML Kit Text Recognition v2. Обе библиотеки работают on-device, не требуют сети. Vision framework возвращает VNTextObservation с bounding box в нормализованных координатах — конвертируем в screen coordinates с учётом ориентации буфера.

OCR. VNRecognizeTextRequest с recognitionLevel: .accurate — слишком медленно для каждого кадра. Стратегия: .fast для detection, .accurate только при стабилизации текста (тап пользователя или стационарное положение телефона). Stable frame detection: сравниваем bounding boxes между кадрами — если deviated меньше 5px → текст стабилен → запускаем accurate OCR.

Перевод. Два варианта:

	On-device (ML Kit Translate)	Cloud API (DeepL, Google Cloud)
Latency	10–50 мс	200–800 мс
Качество	Среднее	Высокое (DeepL особенно)
Offline	Да (модель ~30 MB)	Нет
Стоимость	Бесплатно	По запросам

Для лайв-трансляции с камеры — только on-device. Для режима «сфотографировал → перевёл» — cloud API с DeepL для лучшего качества.

Inpainting и наложение текста — самая сложная часть

Простая реализация: рисуем прямоугольник цвета фона поверх исходного текста, пишем переводной текст сверху. Результат — грубый белый прямоугольник, не вписывается в изображение. Правильная реализация:

Определение цвета фона. Берём пиксели вокруг bounding box, вычисляем медианный цвет — заливаем прямоугольник им. Работает для однородных фонов (белая стена, лист бумаги).

Texture inpainting для сложного фона. CoreImage CIInpaintingFilter (iOS 16+) или кастомный convolution kernel для заполнения области текстурой фона. Для реального времени — слишком медленно, используем только в режиме статичного фото.

Соответствие шрифта. Определяем размер исходного текста из bounding box, подбираем UIFont / TextPaint с похожим размером. Определить конкретный шрифт по OCR-результату — нерешённая задача для большинства кейсов. Используем системный sans-serif.

Правый-налево (RTL) языки. Arabic, Hebrew — текст идёт справа налево, UILabel и TextView нужно настраивать semanticContentAttribute: .forceRightToLeft. При наложении на изображение: NSParagraphStyle.writingDirection = .rightToLeft.

Стабилизация и производительность

На каждом кадре 30 FPS запускать полный pipeline нельзя. Throttling:

Text detection: каждые 3–5 кадров
OCR: только при стабилизации или тапе
Перевод: дебаунс 500 мс на изменение текста

На iPhone 12+ Metal Performance Shaders ускоряют Vision pipeline. На Android — GPU Delegate для ML Kit через GpuDelegateV2.

Результаты кешируем по хешу OCR-текста: один и тот же текст не переводим дважды за сессию.

Что входит в работу

Выбор архитектуры: on-device vs cloud, livecam vs photo mode
Реализация OCR + translation pipeline
UI для выбора языков (с автодетектом исходного языка)
Наложение переводного текста на изображение
Offline-режим с загружаемыми языковыми моделями (ML Kit)

Сроки: базовый AR translation для статичных фото — 3–5 недель. Real-time livecam перевод с on-device ML и offline-режимом — 6–10 недель. Стоимость рассчитывается индивидуально.