Что такое churn prediction?

Churn prediction — задача машинного обучения, направленная на выявление клиентов с высоким риском прекращения использования продукта. Модель анализирует исторические данные (RFM, поведенческие фичи, тикеты поддержки) и присваивает каждому вероятность ухода. Это позволяет бизнесу проактивно удерживать клиентов.

Какие алгоритмы лучше всего подходят для предсказания оттока?

Для табличных данных оптимальны градиентные бустинги — LightGBM, XGBoost, CatBoost. LightGBM даёт хороший баланс скорости и точности. Если важна последовательность событий (например, снижение активности за последние 30 дней), стоит добавить LSTM или Transformer.

Как бороться с несбалансированными классами в churn prediction?

Типичное соотношение 5-10% уходящих к 90% остающихся. Используйте class weights, SMOTE или Focal Loss. Главный совет — оптимизируйте порог классификации по Precision-Recall curve, а не используйте 0.5 по умолчанию.

Сколько времени занимает внедрение churn prediction?

Первая baseline-модель с RFM-фичами — 2-3 недели. Полноценная система с feature store, мониторингом дрейфа и интеграцией в CRM — 8-10 недель. Сроки могут варьироваться в зависимости от качества данных и сложности интеграции.

Как измерить бизнес-эффект от модели оттока?

Лучший способ — uplift modeling. Проведите A/B тест: случайным образом выберите 50% клиентов из high-risk сегмента и примените к ним удержание, остальные 50% — контроль. Разница в churn rate между группами покажет реальный эффект.

Что такое churn prediction?

Churn prediction — задача машинного обучения, направленная на выявление клиентов с высоким риском прекращения использования продукта. Модель анализирует исторические данные (RFM, поведенческие фичи, тикеты поддержки) и присваивает каждому вероятность ухода. Это позволяет бизнесу проактивно удерживать клиентов.

Какие алгоритмы лучше всего подходят для предсказания оттока?

Для табличных данных оптимальны градиентные бустинги — LightGBM, XGBoost, CatBoost. LightGBM даёт хороший баланс скорости и точности. Если важна последовательность событий (например, снижение активности за последние 30 дней), стоит добавить LSTM или Transformer.

Как бороться с несбалансированными классами в churn prediction?

Типичное соотношение 5-10% уходящих к 90% остающихся. Используйте class weights, SMOTE или Focal Loss. Главный совет — оптимизируйте порог классификации по Precision-Recall curve, а не используйте 0.5 по умолчанию.

Сколько времени занимает внедрение churn prediction?

Первая baseline-модель с RFM-фичами — 2-3 недели. Полноценная система с feature store, мониторингом дрейфа и интеграцией в CRM — 8-10 недель. Сроки могут варьироваться в зависимости от качества данных и сложности интеграции.

Как измерить бизнес-эффект от модели оттока?

Лучший способ — uplift modeling. Проведите A/B тест: случайным образом выберите 50% клиентов из high-risk сегмента и примените к ним удержание, остальные 50% — контроль. Разница в churn rate между группами покажет реальный эффект.

Churn Prediction: ML-модель предсказания оттока клиентов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Churn Prediction: ML-модель предсказания оттока клиентов

Средний

~1-2 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Мы столкнулись с задачей: у SaaS-продукта с $1M MRR отток (churn) составлял 5% в месяц. Каждый процент снижения — это $120K дополнительного ARR в год. Но без точной модели удержание превращается в стрельбу вслепую: скидки всем подряд сжигают маржу. Churn prediction решает это — модель выявляет клиентов с высоким риском ухода до того, как они уйдут. Мы строим систему, которая на практике снижает отток на 20%.

Проблемы, которые решаем

Размытый таргет. В non-contractual сценариях (e-commerce, игры) нет явной метки ухода — нужно определить порог неактивности. Например, если клиент не совершал покупку 90 дней — считаем ушедшим. Выбор порога критичен: при 30 днях метка есть у 20% клиентов, при 90 — у 5%.

Несбалансированные классы. 2-10% уходящих против 90% остающихся. Без коррекции модель даёт 90% accuracy, но ноль recall по уходящим.

Feature engineering. RFM-метрики — основа, но нужны ещё тренды (изменение активности за 30 дней), adoption rate фич, тикеты поддержки. Мы используем rolling window агрегации и diff-фичи.

Как мы это делаем: стек и кейс

Стек: LightGBM (baseline) — LightGBM в 10 раз быстрее LSTM на табличных данных при сравнимом качестве. CatBoost для категориальных фич, LSTM если критична последовательность событий. Feature store — PostgreSQL с pgvector для эмбеддингов. MLflow для экспериментов, SHAP для интерпретации.

Развернутый кейс из нашей практики: Клиент — B2B SaaS с 50K юзеров. Baseline LightGBM дал PR-AUC 0.31. После добавления trend features (изменение частоты логинов за 30 дней) — 0.41, +32%. Добавление sequence модели (LSTM на последовательности событий) подняло до 0.49, но на 4x latency. В итоге продакшн — ансамбль LightGBM + LSTM с каскадным скорингом.

Как определить отток в non-contractual сценарии?

Определите пороговый период неактивности, после которого клиент считается ушедшим. Мы выбираем X на основе анализа распределения интервалов между покупками. Типичные значения: 60-90 дней для B2B SaaS, 90-180 для e-commerce. Неверный выбор ведет к шуму в целевой переменной.

Почему LightGBM — хороший baseline для churn prediction?

LightGBM устойчив к пропускам, работает с категориями (при правильном кодировании), учитывает нелинейные зависимости. На стандартных задачах оттока он обгоняет логистическую регрессию по AUC-ROC на 0.15–0.25 и при этом быстрее XGBoost в 2-3 раза.

Разработка и развертывание модели

Feature Engineering

RFM-метрики (наиболее важные предикторы):

Recency: дней с последнего действия/транзакции
Frequency: количество сессий/покупок за 30/90/180 дней
Monetary: сумма трат за период

Поведенческие фичи:

Trend features: рост/снижение активности за последние 30 дней vs. предыдущие 30
Feature adoption rate: какой % ключевых функций продукта использует клиент
Support tickets: количество обращений, тип, NPS после решения

Контрактные/демографические:

Срок с момента онбординга
Тип тарифного плана
Сегмент (SMB / Enterprise)
Канал привлечения

Выбор алгоритма

Алгоритм	Когда использовать	Точность	Интерпретируемость
Logistic Regression	Baseline, нужна интерпретируемость	Средняя	Высокая
LightGBM / XGBoost	Табличные данные, нет time series	Высокая	Средняя (SHAP)
CatBoost	Много категориальных фич	Высокая	Средняя
LSTM / Transformer	Последовательности событий важны	Очень высокая	Низкая

Рекомендация: начать с LightGBM как baseline, добавить Sequence Model если поведенческие паттерны важны.

Работа с несбалансированными классами

Методы борьбы с дисбалансом включают использование class weights (class_weight='balanced' в sklearn) — простейший fix; SMOTE генерирует синтетические примеры minority класса, но может внести шум; Focal Loss в нейросетях downweights easy examples; подбор порога классификации по Precision-Recall curve (не 0.5) — бесплатный способ повысить Precision@K. Для оценки используем F1-score (взвешенный) как основную метрику, AUC-ROC для ранжирования, Precision@K для маркетинга — точность среди топ-K клиентов по риску наиболее важна.

Deployment и использование

Batch scoring: еженедельный запуск модели по всей клиентской базе. Результат — таблица с churn probability для каждого клиента. Сегментация: high risk (>0.7), medium risk (0.4-0.7), low risk (<0.4).

Real-time scoring: API endpoint POST /score, <100 мс ответ, обновление скора в CRM в реальном времени.

Удержание по сегментам:

High risk: личный звонок от Customer Success или скидка
Medium risk: автоматизированная email-кампания с value reminder
Low risk: без действий (не тратить ресурсы)

Оценка бизнес-эффекта

Uplift modeling — правильный способ измерить реальную ценность системы. Обычный A/B тест: 50% high-risk клиентов получают удержание (treatment), 50% — нет (control). Измеряем разницу в churn rate. Компании, использующие churn prediction, снижают отток на 15-20%. Средняя экономия от внедрения — $30–50K на 10K клиентов.

Процесс и сроки работ

Процесс работы

Аналитика: сбор и очистка данных, определение churn-определения, анализ распределения.
Feature engineering: RFM, тренды, адопшен фич, контрактные данные.
Моделирование: baseline (LightGBM), эксперименты (CatBoost, LSTM), подбор порогов.
Тестирование: offline (AUC, F1, Precision@K), online A/B uplift test.
Деплой: batch scoring weekly, real-time API (<100ms), интеграция с CRM.
Мониторинг: дрейф данных, дрейф модели, автоматический перезапуск.

Что входит в работу

Отчёт по определению churn (выбор таргета)
Baseline-модель (LightGBM) + SHAP-отчёт
Документация фичей и пайплайна
Интеграция batch scoring в вашу CRM
Обучение команды (2 часа)
Поддержка 3 месяца после деплоя

Сроки ориентировочно

Первая модель с базовыми RFM-фичами — 2-3 недели. Полноценная система с feature store, мониторингом дрейфа и CRM-интеграцией — 8-10 недель. Мы — команда с 5+ лет опыта в ML-продакшене, 30+ успешных проектов по churn prediction. Свяжитесь, чтобы мы оценили ваш проект и предложили точные сроки. Получите консультацию по внедрению churn prediction.

Пример кода для расчёта RFM-фич

import pandas as pd

def rfm_features(transactions, as_of_date):
    """Расчёт Recency, Frequency, Monetary для каждого клиента."""
    rfm = transactions.groupby('customer_id').agg(
        recency=('transaction_date', lambda x: (as_of_date - x.max()).days),
        frequency=('transaction_id', 'nunique'),
        monetary=('amount', 'sum')
    ).reset_index()
    return rfm

Какие проблемы прогнозирования временных рядов встречаются чаще всего?

Финансовый директор запрашивает прогнозирование временных рядов продаж на квартал. Аналитик строит SARIMA, добивается MAPE 8.3% на тестовой выборке — и с гордостью деплоит. Через два месяца в production метрика падает до 23%. Причина классическая: модель обучалась на данных до COVID, тестировалась на стабильном периоде, а production попал на промо-акцию и сбой поставок. Data leakage + distribution shift = красивые цифры в ноутбуке и неработающий прогноз в реальности. Мы сталкивались с этим десятки раз. Наш опыт — 5+ лет в прогнозировании временных рядов для ритейла, финтеха и IoT, более 50 завершённых проектов.

Неправильная кросс-валидация. Стандартный train_test_split для временных рядов — ошибка. Случайное разбиение создаёт data leakage: модель видит «будущие» значения в обучении. Правильно — TimeSeriesSplit или walk-forward validation с expanding window.

Множественная сезонность. Почасовые данные потребления электроэнергии имеют три сезонности: суточную (24 ч), недельную (168 ч), годовую (8760 ч). SARIMA справляется только с одной. Prophet обрабатывает несколько, но медленно масштабируется на тысячи рядов.

Пропуски и аномалии в данных. Пропуск в сенсорных данных — это информация (датчик отключился), а не просто NaN. Линейная интерполяция убивает этот сигнал. Правильная обработка зависит от природы пропуска.

Cold start при иерархическом прогнозировании. Новый SKU в ассортименте из 50 000 позиций: исторических данных нет, нужен прогноз. Стандартные подходы тут не работают — нужны cross-learning подходы или feature-based методы.

Какие инструменты и когда применять?

Prophet (Meta) — отличный старт для бизнес-данных с понятной сезонностью и праздниками. Быстро настраивается, интерпретируем, встроенная обработка выбросов и пропусков. Падает в точности при нерегулярных паттернах и не масштабируется на десятки тысяч рядов без параллелизации. Prophet (Facebook) — официальная документация.

Gradient boosting на фичах (LightGBM, XGBoost) — часто недооценённый подход. Создаёте фичи вручную: лаги (t-1, t-7, t-28), скользящие средние, категориальные признаки (день недели, месяц), экзогенные переменные. Модель обучается на всех рядах одновременно — решает cold start через похожие ряды. MAPE на ритейл-прогнозировании часто лучше нейронных сетей при правильной feature engineering.

TFT (Temporal Fusion Transformer) — трансформер, специально разработанный для интерпретируемого прогнозирования с ковариатами. Встроенные механизмы: variable selection (какие признаки важны), temporal self-attention (какие временные точки влияют на прогноз), квантильные предсказания. Доступен в pytorch-forecasting. Требует ~10 000+ записей на ряд для стабильного обучения. Temporal Fusion Transformer — академическая публикация.

PatchTST — трансформер, который делит временной ряд на патчи (аналогично ViT для изображений). Лучше захватывает локальные паттерны, чем классические трансформеры. Хорошо работает для long-horizon forecasting (прогноз на 96–720 шагов). Реализация в neuralforecast от Nixtla.

N-HiTS, N-BEATS — нейронные архитектуры без attention, быстрее TFT, конкурентная точность. N-BEATS выигрывает на M4/M5 benchmark для задач без ковариат.

Метод	Ковариаты	Масштаб (рядов)	Интерпретируемость	Сложность
Prophet	Да (регрессоры)	До 10k	Высокая	Низкая
LightGBM + фичи	Да	100k+	Средняя	Средняя
TFT	Да	1k–100k	Высокая	Высокая
PatchTST	Нет/ограничено	Любой	Низкая	Средняя
N-HiTS	Нет	Любой	Низкая	Низкая

Как мы разворачиваем TFT в production?

TFT требует тщательной подготовки данных. Типичный пайплайн через pytorch-forecasting:

training = TimeSeriesDataSet(
    data,
    time_idx="time_idx",
    target="sales",
    group_ids=["store", "sku"],
    min_encoder_length=max_encoder_length // 2,
    max_encoder_length=max_encoder_length,  # 120 дней
    min_prediction_length=1,
    max_prediction_length=max_prediction_length,  # 28 дней
    static_categoricals=["store_type", "category"],
    time_varying_known_reals=["price", "promo_flag"],
    time_varying_unknown_reals=["sales"],
    target_normalizer=GroupNormalizer(groups=["store", "sku"], transformation="softplus"),
)

Частая ошибка: target_normalizer по умолчанию (StandardScaler) ломает предсказания для рядов с нулевыми значениями (нет продаж в выходные). GroupNormalizer с transformation="softplus" — правильный выбор для count-данных.

Пошаговая инструкция по настройке TFT

Сбор и подготовка данных. Обработать пропуски (маркировать NaN, интерполировать только если это технический сбой), агрегировать до нужной частоты, сформировать ковариаты (праздники, промо, цены).
Создание TimeSeriesDataSet. Указать group_ids (например, магазин+SKU), временной индекс, горизонт прогноза. Настроить target_normalizer с учётом распределения таргета.
Обучение baseline. Сначала Prophet или LightGBM — чтобы понять, насколько сложнее задача.
Тренировка TFT. Запустить TemporalFusionTransformer с loss=QuantileLoss(), подобрать learning rate и размеры hidden слоёв. Использовать pytorch_forecasting или neuralforecast.
Валидация и интерпретация. Проверить walk-forward, проанализировать variable selection, построить attention heatmap.

Кейс: прогноз спроса в ритейле. Сеть из 120 магазинов, 8000 SKU, горизонт прогноза 28 дней. Исходная система: SARIMA отдельно для каждого ряда, MAPE 18.4%, полный цикл переобучения — 6 часов. TFT на PyTorch + pytorch-forecasting: одна модель на все ряды, MAPE 11.2%, переобучение — 40 мин на A10G. Дополнительный бонус: feature importance через variable selection — выяснилось, что day_before_holiday влияет сильнее, чем сама дата праздника. Средняя экономия бюджета на инференсе для клиента составила 1.5 млн ₽ в год.

Как правильно оценивать качество прогнозов?

Не используйте RMSE как единственную метрику — она сильно штрафует за большие ошибки на больших значениях. Наш набор метрик для ритейл-прогнозирования:

MAPE — интерпретируема, но нестабильна при значениях близких к нулю
sMAPE — симметричная версия, избегает деления на маленькие числа
MASE (Mean Absolute Scaled Error) — нормализован относительно наивного сезонного прогноза, отлично подходит для сравнения между рядами с разными масштабами
Quantile loss / Pinball loss — для вероятностного прогнозирования, оценка покрытия интервалов

Метрика	Когда использовать	Недостаток
MAPE	Бизнес-отчётность, ряд без нулей	Нестабильна при малых значениях
sMAPE	Сравнение моделей, нулевые значения	Асимметричная интерпретация
MASE	Разномасштабные ряды, бенчмарки	Требует сезонного наивного прогноза
Pinball loss	Вероятностные модели, управление запасами	Много метрик для разных квантилей

Гарантируем: мы предоставляем model card с этими метриками на валидационной выборке и результаты walk-forward теста на истории не менее 6 месяцев.

Что входит в работу

Документация по выбранной архитектуре, обоснование выбора гиперпараметров.
Воспроизводимый пайплайн обучения и инференса (Docker + CI/CD + Airflow/Prefect).
Код с комментариями и модульными тестами на ключевые компоненты.
Обучение вашей команды: как переобучать модель, как интерпретировать выходы, как деплоить новые версии.
Поддержка в течение 3 месяцев после сдачи: консультации, фиксы багов, донастройка.

Детали пайплайна инференса

Модель деплоится через FastAPI или Triton Inference Server. Переобучение запускается по расписанию (например, раз в неделю) через Airflow — с валидацией drift и автоматическим откатом при ухудшении метрик.

Процесс работы

Начинаем с EDA: визуализация, тест ADF на стационарность, STL-декомпозиция, анализ пропусков и выбросов. Это 2–3 дня, но часто выявляет системные проблемы данных, которые блокируют прогнозирование.

Затем: baseline (наивный seasonal, Prophet), feature engineering для LGBM, выбор архитектуры нейронной сети если нужно. Walk-forward validation с реалистичным горизонтом. Деплой через API с автоматическим переобучением по расписанию через Airflow или Prefect.

Сроки ориентировочно: MVP-прогноз на одном типе данных — 3–6 недель. Иерархическая система прогнозирования с автоматизацией — 2–5 месяцев. Стоимость рассчитывается индивидуально.

Наша команда — сертифицированные ML-инженеры (AWS ML Specialty, GCP Professional ML Engineer). За 5 лет на рынке реализовали более 50 проектов по прогнозированию. Свяжитесь с нами для бесплатного анализа ваших данных — мы оценим задачу и дадим первые рекомендации за 1–2 дня. Закажите консультацию и убедитесь, что ваши прогнозы работают в production, а не только в ноутбуке.