Реализация бота с распознаванием изображений в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1735 услуг

Реализация бота с распознаванием изображений в мобильном приложении

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
792
Разработка мобильного приложения для компании XOOMER
671
Разработка мобильного приложения для компании RHL
1097
Разработка мобильного приложения для компании ZIPPY
969
Разработка мобильного приложения для компании Affhome
914
Разработка мобильного приложения для компании FLAVORS
495

Показать больше работ

Реализация бота с распознаванием изображений в мобильном приложении

Пользователь фотографирует — бот отвечает. Звучит просто, но между «прикрепить фото» и «получить полезный ответ» лежат выбор модели, управление размером запроса и обработка случаев, когда изображение не содержит того, что ожидается.

Vision API: что использовать

GPT-4o Vision (OpenAI). Передаёте изображение base64 или URL в запрос, получаете текстовый ответ. Понимает сложные сцены, документы, рукопись, схемы. Стоимость — зависит от размера изображения (tile-based pricing). Для детального анализа высокого разрешения — дороже.

Claude 3.5 Sonnet / Haiku. Аналогичная возможность через Anthropic Messages API. Claude хорошо работает с документами и таблицами, показывает сопоставимые результаты с GPT-4o на большинстве задач.

Google Cloud Vision API. Специализированные функции: OCR (TEXT_DETECTION), распознавание объектов (OBJECT_LOCALIZATION), лиц (FACE_DETECTION), логотипов (LOGO_DETECTION), безопасность контента (SAFE_SEARCH_DETECTION). Дешевле LLM для однотипных задач, но нет свободного текстового ответа.

ML Kit (Google) on-device. Полностью на устройстве: распознавание текста, штрих-кодов, лиц, объектов. Нет задержки сети, нет стоимости за запрос. Точность ниже облачных LLM для сложных сцен, но для структурированных задач (QR-код, штрихкод, текст документа) — достаточно.

CoreML + Vision (iOS). MobileNetV3, EfficientNet — классификация изображений на устройстве. VNRecognizeTextRequest для OCR. VNDetectBarcodeRequest для QR/штрихкодов.

Выбор зависит от задачи:

Задача	Рекомендуемое решение
Свободный вопрос по фото	GPT-4o Vision / Claude
OCR документов	Google Vision API / ML Kit
Штрих- и QR-коды	ML Kit / CoreML (on-device)
Классификация товаров	Custom CoreML / TFLite модель
Модерация контента	Google Vision SAFE_SEARCH

Отправка изображения из мобильного приложения

Изображения не отправляются напрямую к Vision API из мобильного клиента — ключ API нельзя хранить в приложении.

Поток данных:

Мобильный клиент → Resize/Compress → Upload to S3/GCS → URL → Ваш сервер → Vision API

Изображение сжимается на устройстве до нужного размера перед загрузкой. GPT-4o с detail: "auto" сам определяет нужное разрешение, но передавать 12-мегапиксельное фото без сжатия — расточительно и дорого.

// Android: сжатие изображения перед загрузкой
fun compressForBot(uri: Uri, maxSizePx: Int = 1024): ByteArray {
    val bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)
    val scale = maxSizePx.toFloat() / maxOf(bitmap.width, bitmap.height)
    val scaled = if (scale < 1f) {
        Bitmap.createScaledBitmap(
            bitmap,
            (bitmap.width * scale).toInt(),
            (bitmap.height * scale).toInt(),
            true
        )
    } else bitmap
    val output = ByteArrayOutputStream()
    scaled.compress(Bitmap.CompressFormat.JPEG, 85, output)
    return output.toByteArray()
}

Сценарии применения

Боты для ритейла. Пользователь фотографирует товар — бот находит его в каталоге, показывает цену и наличие. Поиск по визуальному embedding (CLIP + Qdrant) точнее, чем по тексту из OCR.

Медицинские боты. Фото симптома, рецепта, результата анализа — бот разъясняет (не ставит диагноз). Системный промпт должен явно ограничивать область ответов и включать disclaimer.

Боты для документов. Фото накладной, счёта, паспорта — извлечение структурированных данных. GPT-4o Vision + structured output через JSON Schema даёт высокую точность на типовых документах.

Боты для инспекций. Строитель фотографирует дефект — бот классифицирует тип дефекта и создаёт задачу в системе управления.

Обработка «плохих» фото

Обязательные кейсы для тестирования:

Размытое изображение
Плохое освещение
Фото не по теме (пользователь отправил котика вместо чека)
Изображение с запрещённым контентом

Для последнего — модерация перед отправкой в основную модель. OpenAI Moderation API или Google Safe Search как первый фильтр.

Процесс работы

Определение сценариев использования изображений: что именно нужно распознавать.

Выбор Vision API под задачу и бюджет.

Серверная часть: загрузка изображений, вызов Vision API, формирование ответа.

Мобильный UI: выбор из галереи, камера, предпросмотр перед отправкой.

Тестирование на реальных «полевых» условиях — плохое освещение, углы, частичная видимость.

Ориентиры по срокам

Бот с базовым Vision API (Google Vision или GPT-4o) — 3–5 дней. С кастомной моделью классификации, on-device inference и сложными сценариями — 3–6 недель.