Реализация AI-анализа расходов и категоризации транзакций в мобильном приложении
Ручная категоризация транзакций — то, что пользователи делают первую неделю, а потом бросают. Автоматическая категоризация на правилах («если МНЕМОника содержит "ЛЕНТА" — это "Продукты"») работает для крупных ретейлеров, но ломается на «ООО ПЕРСПЕКТИВА» или «ИП Иванов А.В.». ML-категоризатор + LLM-анализ поверх него даёт другой уровень качества.
Категоризация: модель vs LLM
Классификатор на ml (TF-IDF + LightGBM или distilBERT). Обучается на исторических транзакциях с метками. Inference < 10мс, работает офлайн, стоимость — нулевая после обучения. Точность на топ-100 мерчантов — 95%+, на «хвосте» (ИП, мелкие компании) — 60–70%.
LLM для нераспознанных. Транзакции с низкой уверенностью классификатора (confidence < 0.7) направляются в LLM. GPT-4o-mini, temperature=0, один промпт с категориями и примерами — решение за 300–500мс, точность на нестандартных наименованиях 80–90%.
# Серверный пайплайн категоризации
async def categorize_transaction(transaction: Transaction) -> CategoryResult:
# 1. Быстрый классификатор
ml_result = classifier.predict(transaction.description)
if ml_result.confidence >= 0.75:
return CategoryResult(
category=ml_result.category,
confidence=ml_result.confidence,
method="ml_classifier"
)
# 2. LLM для неуверенных предсказаний
llm_category = await llm_categorize(
description=transaction.description,
amount=transaction.amount,
merchant=transaction.merchant_name
)
return CategoryResult(
category=llm_category,
confidence=0.85, # LLM более уверен в сложных случаях
method="llm_fallback"
)
Гибридный подход: 85–90% транзакций обрабатывает быстрый классификатор (бесплатно), 10–15% — LLM. При 1 000 транзакций в день на пользователя стоимость LLM-запросов — копейки.
Обогащение данных мерчантов
Наименование в банковской выписке — грязные данные. «MAGNIT COSMETIC 0001» и «МАГНИТ КОСМЕТИК» — один мерчант. Нормализация через базы мерчантов (Clearbit, Plaid Enrich, или собственный маппинг) значительно повышает точность классификатора.
Дополнительный сигнал — MCC-код (Merchant Category Code), который банк передаёт вместе с транзакцией. MCC 5411 — продуктовые магазины, MCC 5812 — рестораны. Использование MCC как признака в классификаторе даёт +5–10% точности.
AI-анализ паттернов расходов
Категоризация — первый шаг. AI-анализ поверх категоризированных данных — то, что превращает приложение из трекера в советника.
// iOS — Swift: запрос к LLM для анализа расходов за месяц
func generateExpenseInsights(transactions: [CategorizedTransaction]) async -> [Insight] {
let summary = transactions.groupBy(\.category)
.mapValues { txs in (count: txs.count, total: txs.map(\.amount).reduce(0, +)) }
.map { "\($0.key): \($0.value.total) руб. (\($0.value.count) транзакций)" }
.joined(separator: "\n")
let prompt = """
Проанализируй расходы пользователя за месяц и дай 2-3 конкретных наблюдения.
Не общие советы — конкретные паттерны из данных.
Расходы по категориям:\n\(summary)
"""
let response = await llmClient.complete(prompt, maxTokens: 300, temperature: 0.4)
return parseInsights(response)
}
LLM видит: «Расходы на доставку еды выросли с 3 200 до 8 700 рублей по сравнению с прошлым месяцем» и генерирует конкретное наблюдение, а не generic «следите за расходами на еду».
Обучение модели на пользовательских поправках
Пользователи исправляют неверные категории — это золото для переобучения. Каждая поправка — новый labeled пример. Накопив достаточно исправлений (50–100 на пользователя), можно дообучать персонализированную модель или добавить правила, специфичные для пользователя:
// Android — сохранение пользовательской поправки
fun saveUserCorrection(transactionId: String, correctedCategory: Category) {
val correction = UserCorrection(
transactionDescription = getTransaction(transactionId).description,
merchantId = getTransaction(transactionId).merchantId,
correctedCategory = correctedCategory,
timestamp = System.currentTimeMillis()
)
localDatabase.saveCorrection(correction)
// Синхронизируем на сервер для переобучения
syncService.scheduleCorrectionUpload(correction)
}
Ориентиры по срокам
Классификатор на правилах + MCC — 3–5 дней. ML-классификатор с LLM-fallback — 1–2 недели. Полная система с анализом паттернов, инсайтами и обучением на поправках — 2–4 недели.







