Реализация классификации объектов в мобильном приложении
Классификация объектов отличается от детекции одним ключевым моментом: модель отвечает на вопрос «что это?», а не «где это?». Один выход — вектор вероятностей по классам. Кажется проще детекции, но именно здесь чаще всего получают проблемы с confidence threshold и UX.
Выбор модели под задачу
Для топ-1000 классов (продукты, животные, объекты быта) — MobileNetV3, EfficientNetB0/B1. Работают out-of-the-box через ML Kit Image Labeling или Core ML с моделями из Apple Model Gallery. Для узкой предметной области (конкретный вид продукции, дефекты на производстве) — нужна дообученная модель.
Дообучение (fine-tuning) под кастомный датасет: берём предобученный backbone (MobileNetV2, EfficientNetB0), замораживаем нижние слои, обучаем только верхние на своих данных. Для 10–50 классов достаточно 200–500 примеров на класс при правильной аугментации. Меньше — нужен few-shot подход (Prototypical Networks).
После обучения: конвертация в .mlmodel (iOS) или .tflite (Android), добавление metadata с именами классов и параметрами нормализации.
Пороги уверенности: где теряются продукты
Самая частая ошибка в UX — показывать результат классификации без учёта confidence. Модель всегда возвращает распределение вероятностей, argmax всегда выдаёт «победителя» — даже когда модель в него не верит. Если топ-1 класс имеет score 0.23 при следующем 0.21 — это не классификация, это случайность.
Правильный подход: задать threshold (обычно 0.5–0.7 в зависимости от задачи). Если топ-1 ниже порога — показываем «не удалось определить» или просим переснять. Для критичных задач (медицина, юридические документы) — дополнительно проверяем entropy распределения.
На iOS через VNCoreMLRequest:
request.imageCropAndScaleOption = .centerCrop
let observations = results as? [VNClassificationObservation]
let confident = observations?.filter { $0.confidence > 0.65 }
На Android через ML Kit ImageLabeling:
val options = ImageLabelerOptions.Builder()
.setConfidenceThreshold(0.65f)
.build()
Топ-N и отображение результатов
Показывать топ-3 класса с процентами — правильно для образовательных и consumer-приложений. Для бизнес-приложений (автоматизация, склад) нужен один уверенный результат или ничего.
Кейс: приложение для инвентаризации на складе, классификация 87 SKU через кастомную EfficientNetB0-модель. Исходный порог 0.5 давал 12% ложных срабатываний. После анализа confusion matrix выяснили: 80% ошибок — между SKU с похожей упаковкой. Добавили второй уровень: если топ-2 и топ-3 суммарно больше 0.4, просим оператора подтвердить выбор. Ложные срабатывания упали до 2.1%.
UI результата: не перегружать пользователя числами. Прогресс-бар или цветовая индикация (зелёный/жёлтый/красный) воспринимается лучше, чем «73.4%». Анимация появления результата через withAnimation (SwiftUI) или ObjectAnimator (Android) снижает ощущение «холодного» ответа от модели.
Сроки и процесс
Интеграция готовой модели в существующее приложение — 3–5 дней. Fine-tuning кастомной модели + интеграция — 1–2 недели. Стоимость рассчитывается индивидуально.







