Реализация AI-чат-бота в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.
Разработка и поддержка любых видов мобильных приложений:
Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Предлагаемые услуги
Показано 1 из 1 услугВсе 1735 услуг
Реализация AI-чат-бота в мобильном приложении
Средняя
~1-2 недели
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    756
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    624
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1054
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    947
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    862
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    445

Реализация AI-чат-бота в мобильном приложении

Интегрировать GPT-4o или Claude в мобильный чат — это не «подключить SDK и готово». Настоящая сложность начинается после первого рабочего запроса: управление контекстом диалога, отображение потоковой генерации без дёрганья UI, обработка сети при плохом сигнале, и хранение истории чатов между сессиями без утечки персональных данных.

Управление контекстом диалога

Все LLM — stateless. Каждый запрос к OpenAI, Anthropic, GigaChat или YandexGPT отправляет полную историю диалога. Это значит: хранение и усечение контекста — ваша задача. При наивной реализации после 20 сообщений стоимость токенов вырастает в 3–4 раза, а при контексте 128k — можно получить ответ через 30+ секунд.

Практичное решение — скользящее окно с summarization:

class ConversationManager {
    private var messages: [ChatMessage] = []
    private let maxMessages = 20
    private let summaryThreshold = 15

    func addMessage(_ message: ChatMessage) {
        messages.append(message)
        if messages.count > summaryThreshold {
            Task { await compressSummary() }
        }
    }

    private func compressSummary() async {
        // Берём сообщения до порога, суммаризируем отдельным запросом к LLM
        let toCompress = Array(messages.prefix(10))
        let summary = try? await llmClient.summarize(messages: toCompress)
        if let summary {
            messages = [ChatMessage(role: .system, content: "Контекст: \(summary)")] +
                       Array(messages.suffix(10))
        }
    }
}

Системный промпт — отдельная история. Он должен оставаться первым сообщением всегда. При сжатии контекста не трогайте его.

Потоковая генерация и UI

Пользователь не должен ждать полного ответа. Стриминг через SSE — стандарт для всех современных LLM API. На iOS:

// Обновление SwiftUI View через @Published
class ChatViewModel: ObservableObject {
    @Published var streamingText = ""

    func streamResponse(for prompt: String) {
        streamingText = ""
        Task {
            for try await chunk in llmClient.stream(prompt: prompt) {
                await MainActor.run {
                    streamingText += chunk
                }
            }
        }
    }
}

На Android с Compose — StateFlow<String>, обновляемый из collectAsState(). Типичная ошибка: вызов notifyDataSetChanged() или пересоздание RecyclerView Adapter на каждый чанк — это даёт видимое мигание. Обновляйте только текст последнего сообщения, не весь список.

Offline-режим и локальные модели

Для базовых сценариев (FAQ-бот, форматирование данных) — рассмотрите on-device модели. Apple Intelligence API (iOS 18+) даёт доступ к локальной языковой модели через FoundationModels framework без сетевых запросов. Google ML Kit на Android предоставляет SmartReply и EntityExtraction без интернета.

Для более сложного: llama.cpp через Metal/CoreML на iOS или NNAPI на Android — запускает Llama 3 8B int4 прямо на устройстве. На iPhone 15 Pro время генерации ~15 токенов/сек, что приемлемо для вспомогательных функций.

Хранение истории

История чатов — персональные данные. SQLite/Core Data с шифрованием через SQLCipher или iOS Data Protection. Не храните историю в UserDefaults — она синхронизируется в iCloud без шифрования. На Android — Room с EncryptedSharedPreferences для ключей шифрования.

Стратегия очистки: автоудаление диалогов старше N дней, или явное удаление по запросу пользователя — требование GDPR/152-ФЗ.

Типичные проблемы, которые всплывают в продакшене

Повторяющиеся ответы. GPT иногда зацикливается на паттерне. Параметр presence_penalty: 0.6 и frequency_penalty: 0.3 снижают вероятность. Если зациклился — detect-логика на клиенте: если последние 3 сообщения бота содержат > 60% одинаковых н-грамм, сбросить контекст.

Timeout при плохом сети. LLM может генерировать долго. URLSession таймаут по умолчанию — 60 секунд, это мало для длинных ответов в режиме стриминга. Ставьте timeoutIntervalForResource: 120 и дополнительный прогресс-индикатор «думаю...» после 5 секунд ожидания первого чанка.

Moderation. OpenAI Moderation API перед отправкой пользовательского ввода — обязательно для пользовательских приложений. Один POST /v1/moderations дешевле, чем отработка жалобы в App Store Review.

Процесс работы

Проектирование архитектуры: выбор LLM-провайдера, on-device vs cloud, схема авторизации. Разработка бэкенд-прокси с rate limiting. Реализация ConversationManager с управлением контекстом. Чат-UI со стримингом, bubble-layout, typing indicator. История диалогов с шифрованием. Тестирование edge-cases: потеря сети во время генерации, очень длинные ответы, параллельные запросы.

Ориентиры по срокам

Простой чат с одним LLM-провайдером без истории — 5–7 дней. Полноценный чат-бот с историей, сжатием контекста, оффлайн-режимом и moderations — 3–5 недель.