Интеграция AI в мобильное приложение
Мобильный AI делится на два принципиально разных подхода: cloud inference (запрос к серверу) и on-device inference (модель запускается на телефоне). Выбор зависит от требований к latency, приватности и размеру модели.
Cloud AI для мобильного
Простейший путь: мобильное приложение → REST API → LLM/ML модель на сервере → ответ. Подходит для сложных задач, где модель не помещается на устройство. Недостатки: latency (100–2000 мс), зависимость от сети, затраты на сервер.
Стек: iOS (URLSession), Android (Retrofit/OkHttp). Streaming responses для LLM (SSE/WebSocket).
On-Device AI
Модель работает локально — приватность, offline-режим, нулевая latency.
iOS / Core ML:
- Конвертация через coremltools (PyTorch → Core ML)
- Neural Engine на iPhone 12+ — значительное ускорение
- Create ML для training простых моделей прямо в Xcode
Android / TensorFlow Lite:
- TFLite + NNAPI для аппаратного ускорения
- GPU delegate для Vision задач
- Hexagon DSP delegate на Qualcomm
Практические возможности on-device (2025)
| Задача | Платформа | Модель | Производительность |
|---|---|---|---|
| Image classification | iOS/Android | MobileNetV3 | <10 мс |
| Object detection | iOS/Android | YOLOv8n | 20–50 мс |
| Text classification | iOS/Android | DistilBERT quantized | 50–150 мс |
| Small LLM | iOS (Neural Engine) | Llama 3.2 3B | 15–30 token/sec |
| Speech recognition | iOS/Android | Whisper tiny | Real-time |
Пайплайн разработки
Недели 1–3: Выбор подхода (cloud/on-device/hybrid). Прототип inference.
Недели 4–7: Оптимизация модели (quantization, pruning). Native integration.
Недели 8–10: UX для AI-функции. Error handling. Graceful degradation.







