Настройка мониторинга производительности модели в продакшене

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Настройка мониторинга производительности модели в продакшене
Средняя
~3-5 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    854
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Настройка мониторинга производительности модели в продакшене

Мониторинг ML-модели в production — это не только отслеживание метрик качества (AUC, F1, RMSE), но и инфраструктурные метрики (latency, throughput, GPU utilization), бизнес-метрики и операционные индикаторы. Без комплексного мониторинга невозможно быстро отреагировать на деградацию.

Уровни мониторинга

Уровень 1 — Инфраструктура:

  • Latency: p50, p95, p99 инференс-запросов
  • Throughput: запросов в секунду
  • Error rate: 5xx ошибки, таймауты
  • Resource utilization: CPU/GPU/RAM, memory bandwidth
  • Queue depth: при использовании батч-инференса

Уровень 2 — Данные и модель:

  • Feature statistics: mean, std, min, max, null rate для каждого входного признака
  • Prediction distribution: гистограмма предсказаний
  • Confidence distribution: для классификаторов
  • Data drift: KS-тест, PSI (подробнее в мониторинге дрифта)

Уровень 3 — Бизнес-метрики:

  • Proxy-метрики: CTR, конверсия, engagement — без ожидания ground truth
  • Downstream business KPIs: revenue impact, churn rate
  • A/B метрики при параллельном тестировании версий

Стек мониторинга

Prometheus + Grafana — стандарт для инфраструктурных метрик. ML-специфичные метрики экспортируются через prometheus_client:

from prometheus_client import Histogram, Counter, Gauge

REQUEST_LATENCY = Histogram(
    'ml_inference_latency_seconds',
    'Inference request latency',
    buckets=[0.01, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5]
)

PREDICTION_DISTRIBUTION = Histogram(
    'ml_prediction_score',
    'Distribution of model prediction scores',
    buckets=[0.1 * i for i in range(11)]
)

@REQUEST_LATENCY.time()
def predict(features):
    score = model.predict_proba(features)[0][1]
    PREDICTION_DISTRIBUTION.observe(score)
    return score

Evidently + Grafana — для мониторинга дрифта с визуализацией. Evidently генерирует метрики в формате, совместимом с Prometheus.

OpenTelemetry — стандартизированный способ инструментирования для трассировки, метрик и логов. Особенно полезен в микросервисных архитектурах, где инференс — один из многих сервисов.

Логирование prediction-пар

Для отложенного вычисления метрик качества (когда ground truth появляется позже) необходимо логировать пары (запрос, предсказание) с уникальным ID:

import uuid

def predict_and_log(request_features):
    prediction_id = str(uuid.uuid4())
    prediction = model.predict(request_features)

    # Логирование в ClickHouse/BigQuery/Kafka
    prediction_store.log({
        'prediction_id': prediction_id,
        'timestamp': datetime.utcnow(),
        'features': request_features.to_dict(),
        'prediction': float(prediction),
        'model_version': MODEL_VERSION
    })

    return prediction, prediction_id

Когда ground truth становится известен (например, пользователь совершил или не совершил покупку), он записывается с тем же prediction_id, и система вычисляет актуальные метрики качества.

Дашборды

Рекомендуемая структура Grafana-дашбордов:

  1. Operational Overview — latency, throughput, error rate в реальном времени
  2. Model Health — prediction distribution, feature statistics, drift metrics
  3. Business Impact — proxy-метрики и downstream KPIs
  4. Model Comparison — сравнение текущей и предыдущей версии при canary deployment

Алертинг

Уровни алертов и каналы:

  • Warning (Slack): drift PSI > 0.15, latency p99 > 500мс
  • Critical (PagerDuty): error rate > 1%, latency p99 > 2с, prediction rate близок к нулю или 100%
  • Fatal (page on-call): инференс-сервис недоступен

Среднее время от обнаружения проблемы до начала расследования при настроенном мониторинге: 5-10 минут против нескольких часов без него.