Реализация AI-чат-бота в мобильном приложении
Интегрировать GPT-4o или Claude в мобильный чат — это не «подключить SDK и готово». Настоящая сложность начинается после первого рабочего запроса: управление контекстом диалога, отображение потоковой генерации без дёрганья UI, обработка сети при плохом сигнале, и хранение истории чатов между сессиями без утечки персональных данных.
Управление контекстом диалога
Все LLM — stateless. Каждый запрос к OpenAI, Anthropic, GigaChat или YandexGPT отправляет полную историю диалога. Это значит: хранение и усечение контекста — ваша задача. При наивной реализации после 20 сообщений стоимость токенов вырастает в 3–4 раза, а при контексте 128k — можно получить ответ через 30+ секунд.
Практичное решение — скользящее окно с summarization:
class ConversationManager {
private var messages: [ChatMessage] = []
private let maxMessages = 20
private let summaryThreshold = 15
func addMessage(_ message: ChatMessage) {
messages.append(message)
if messages.count > summaryThreshold {
Task { await compressSummary() }
}
}
private func compressSummary() async {
// Берём сообщения до порога, суммаризируем отдельным запросом к LLM
let toCompress = Array(messages.prefix(10))
let summary = try? await llmClient.summarize(messages: toCompress)
if let summary {
messages = [ChatMessage(role: .system, content: "Контекст: \(summary)")] +
Array(messages.suffix(10))
}
}
}
Системный промпт — отдельная история. Он должен оставаться первым сообщением всегда. При сжатии контекста не трогайте его.
Потоковая генерация и UI
Пользователь не должен ждать полного ответа. Стриминг через SSE — стандарт для всех современных LLM API. На iOS:
// Обновление SwiftUI View через @Published
class ChatViewModel: ObservableObject {
@Published var streamingText = ""
func streamResponse(for prompt: String) {
streamingText = ""
Task {
for try await chunk in llmClient.stream(prompt: prompt) {
await MainActor.run {
streamingText += chunk
}
}
}
}
}
На Android с Compose — StateFlow<String>, обновляемый из collectAsState(). Типичная ошибка: вызов notifyDataSetChanged() или пересоздание RecyclerView Adapter на каждый чанк — это даёт видимое мигание. Обновляйте только текст последнего сообщения, не весь список.
Offline-режим и локальные модели
Для базовых сценариев (FAQ-бот, форматирование данных) — рассмотрите on-device модели. Apple Intelligence API (iOS 18+) даёт доступ к локальной языковой модели через FoundationModels framework без сетевых запросов. Google ML Kit на Android предоставляет SmartReply и EntityExtraction без интернета.
Для более сложного: llama.cpp через Metal/CoreML на iOS или NNAPI на Android — запускает Llama 3 8B int4 прямо на устройстве. На iPhone 15 Pro время генерации ~15 токенов/сек, что приемлемо для вспомогательных функций.
Хранение истории
История чатов — персональные данные. SQLite/Core Data с шифрованием через SQLCipher или iOS Data Protection. Не храните историю в UserDefaults — она синхронизируется в iCloud без шифрования. На Android — Room с EncryptedSharedPreferences для ключей шифрования.
Стратегия очистки: автоудаление диалогов старше N дней, или явное удаление по запросу пользователя — требование GDPR/152-ФЗ.
Типичные проблемы, которые всплывают в продакшене
Повторяющиеся ответы. GPT иногда зацикливается на паттерне. Параметр presence_penalty: 0.6 и frequency_penalty: 0.3 снижают вероятность. Если зациклился — detect-логика на клиенте: если последние 3 сообщения бота содержат > 60% одинаковых н-грамм, сбросить контекст.
Timeout при плохом сети. LLM может генерировать долго. URLSession таймаут по умолчанию — 60 секунд, это мало для длинных ответов в режиме стриминга. Ставьте timeoutIntervalForResource: 120 и дополнительный прогресс-индикатор «думаю...» после 5 секунд ожидания первого чанка.
Moderation. OpenAI Moderation API перед отправкой пользовательского ввода — обязательно для пользовательских приложений. Один POST /v1/moderations дешевле, чем отработка жалобы в App Store Review.
Процесс работы
Проектирование архитектуры: выбор LLM-провайдера, on-device vs cloud, схема авторизации. Разработка бэкенд-прокси с rate limiting. Реализация ConversationManager с управлением контекстом. Чат-UI со стримингом, bubble-layout, typing indicator. История диалогов с шифрованием. Тестирование edge-cases: потеря сети во время генерации, очень длинные ответы, параллельные запросы.
Ориентиры по срокам
Простой чат с одним LLM-провайдером без истории — 5–7 дней. Полноценный чат-бот с историей, сжатием контекста, оффлайн-режимом и moderations — 3–5 недель.







