Настройка кастомных метрик и алертов (Prometheus / CloudWatch)

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.
Разработка и обслуживание любых видов сайтов:
Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Настройка кастомных метрик и алертов (Prometheus / CloudWatch)
Средняя
~2-3 рабочих дня
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1217
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    852
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1046
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    823
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    815

Настройка кастомных метрик и алертов (Prometheus / CloudWatch)

Дефолтные метрики CPU, Memory, Disk — базовый уровень. Они описывают инфраструктуру, но не бизнес-логику. Кастомные метрики отвечают на вопрос «что происходит с приложением», а не «как загружены сервера».

Типы кастомных метрик

Бизнес-метрики:

  • Количество созданных заказов в минуту
  • Конверсия checkout воронки
  • Активные пользовательские сессии

Технические метрики уровня приложения:

  • Размер очереди обработки задач
  • Cache hit rate
  • Время выполнения конкретных операций
  • Количество ошибок по типу

Внешние зависимости:

  • Latency к сторонним API
  • Доступность платёжного шлюза
  • Статус интеграций

Prometheus: кастомные метрики в приложении

Python (FastAPI):

from prometheus_client import Counter, Histogram, Gauge
from prometheus_fastapi_instrumentator import Instrumentator

# Счётчик
order_counter = Counter(
    'orders_created_total',
    'Total orders created',
    ['status', 'payment_method']
)

# Гистограмма (для percentile)
checkout_duration = Histogram(
    'checkout_duration_seconds',
    'Time spent in checkout process',
    buckets=[0.1, 0.5, 1.0, 2.0, 5.0, 10.0]
)

# Gauge (текущее значение)
queue_size = Gauge(
    'task_queue_size',
    'Current size of processing queue'
)

# Использование в коде
async def create_order(order_data: dict):
    with checkout_duration.time():  # Измерить время
        result = await process_order(order_data)
    
    order_counter.labels(
        status=result.status,
        payment_method=order_data['payment_method']
    ).inc()
    
    return result

Node.js (prom-client):

const client = require('prom-client')

const httpDuration = new client.Histogram({
  name: 'http_request_duration_ms',
  help: 'Duration of HTTP requests in ms',
  labelNames: ['method', 'route', 'code'],
  buckets: [1, 5, 15, 50, 100, 200, 500, 1000, 2000]
})

app.use((req, res, next) => {
  const end = httpDuration.startTimer()
  res.on('finish', () => {
    end({ method: req.method, route: req.route?.path, code: res.statusCode })
  })
  next()
})

Prometheus Recording Rules

Pre-compute дорогих запросов для быстрых дашбордов:

groups:
  - name: app_slo
    interval: 30s
    rules:
      - record: job:request_errors:rate5m
        expr: rate(http_requests_total{status=~"5.."}[5m])
      
      - record: job:request_duration_p95:rate5m
        expr: |
          histogram_quantile(0.95,
            sum(rate(http_request_duration_seconds_bucket[5m])) by (le, job)
          )
      
      # Availability за скользящий час
      - record: job:availability:ratio1h
        expr: |
          1 - (
            sum(rate(http_requests_total{status=~"5.."}[1h]))
            / sum(rate(http_requests_total[1h]))
          )

Alerting rules

groups:
  - name: app_alerts
    rules:
      - alert: HighErrorRate
        expr: job:request_errors:rate5m > 0.05
        for: 2m
        labels:
          severity: critical
          team: backend
        annotations:
          summary: "Error rate {{ $value | humanizePercentage }} on {{ $labels.job }}"
          runbook_url: "https://wiki.company.com/runbooks/high-error-rate"
      
      - alert: SlowResponseTime
        expr: job:request_duration_p95:rate5m > 1.0
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "P95 latency {{ $value | humanizeDuration }} > 1s"
      
      - alert: QueueBacklog
        expr: task_queue_size > 1000
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "Task queue has {{ $value }} pending items"

AWS CloudWatch Custom Metrics

import boto3

cw = boto3.client('cloudwatch')

def put_metric(name: str, value: float, unit: str = 'Count', dimensions: dict = None):
    metric_data = {
        'MetricName': name,
        'Value': value,
        'Unit': unit
    }
    
    if dimensions:
        metric_data['Dimensions'] = [
            {'Name': k, 'Value': v} for k, v in dimensions.items()
        ]
    
    cw.put_metric_data(
        Namespace='MyApp/Business',
        MetricData=[metric_data]
    )

# Использование
put_metric('OrdersCreated', 1, 'Count', {'Environment': 'production'})
put_metric('CheckoutDuration', 0.85, 'Seconds', {'PaymentMethod': 'card'})
put_metric('QueueDepth', queue.size(), 'Count')

CloudWatch Alarm на кастомной метрике:

resource "aws_cloudwatch_metric_alarm" "queue_depth" {
  alarm_name          = "high-queue-depth"
  comparison_operator = "GreaterThanThreshold"
  evaluation_periods  = 3
  metric_name         = "QueueDepth"
  namespace           = "MyApp/Business"
  period              = 60
  statistic           = "Maximum"
  threshold           = 1000
  alarm_description   = "Task queue is backed up"
  
  dimensions = {
    Environment = "production"
  }
  
  alarm_actions = [aws_sns_topic.alerts.arn]
  ok_actions    = [aws_sns_topic.alerts.arn]
}

Embedded metrics (Lambda → CloudWatch)

AWS EMF (Embedded Metrics Format) — structured logs, автоматически превращаемые в CloudWatch Metrics без PutMetricData вызовов:

from aws_embedded_metrics import metric_scope

@metric_scope
async def handler(event, context, metrics):
    metrics.set_namespace("MyApp/Lambda")
    metrics.put_dimensions({"FunctionName": context.function_name})
    
    start = time.time()
    result = await process(event)
    
    metrics.put_metric("ProcessingTime", (time.time() - start) * 1000, "Milliseconds")
    metrics.put_metric("ItemsProcessed", len(result), "Count")
    
    return result

Сроки настройки

  • Prometheus метрики в приложении (Python/Node.js) — 1-3 дня
  • Recording rules + alert rules — 1-2 дня
  • CloudWatch custom metrics — 1-2 дня
  • Alertmanager / SNS routing + нотификации — 1 день