Настройка кастомных метрик и алертов (Prometheus / CloudWatch)
Дефолтные метрики CPU, Memory, Disk — базовый уровень. Они описывают инфраструктуру, но не бизнес-логику. Кастомные метрики отвечают на вопрос «что происходит с приложением», а не «как загружены сервера».
Типы кастомных метрик
Бизнес-метрики:
- Количество созданных заказов в минуту
- Конверсия checkout воронки
- Активные пользовательские сессии
Технические метрики уровня приложения:
- Размер очереди обработки задач
- Cache hit rate
- Время выполнения конкретных операций
- Количество ошибок по типу
Внешние зависимости:
- Latency к сторонним API
- Доступность платёжного шлюза
- Статус интеграций
Prometheus: кастомные метрики в приложении
Python (FastAPI):
from prometheus_client import Counter, Histogram, Gauge
from prometheus_fastapi_instrumentator import Instrumentator
# Счётчик
order_counter = Counter(
'orders_created_total',
'Total orders created',
['status', 'payment_method']
)
# Гистограмма (для percentile)
checkout_duration = Histogram(
'checkout_duration_seconds',
'Time spent in checkout process',
buckets=[0.1, 0.5, 1.0, 2.0, 5.0, 10.0]
)
# Gauge (текущее значение)
queue_size = Gauge(
'task_queue_size',
'Current size of processing queue'
)
# Использование в коде
async def create_order(order_data: dict):
with checkout_duration.time(): # Измерить время
result = await process_order(order_data)
order_counter.labels(
status=result.status,
payment_method=order_data['payment_method']
).inc()
return result
Node.js (prom-client):
const client = require('prom-client')
const httpDuration = new client.Histogram({
name: 'http_request_duration_ms',
help: 'Duration of HTTP requests in ms',
labelNames: ['method', 'route', 'code'],
buckets: [1, 5, 15, 50, 100, 200, 500, 1000, 2000]
})
app.use((req, res, next) => {
const end = httpDuration.startTimer()
res.on('finish', () => {
end({ method: req.method, route: req.route?.path, code: res.statusCode })
})
next()
})
Prometheus Recording Rules
Pre-compute дорогих запросов для быстрых дашбордов:
groups:
- name: app_slo
interval: 30s
rules:
- record: job:request_errors:rate5m
expr: rate(http_requests_total{status=~"5.."}[5m])
- record: job:request_duration_p95:rate5m
expr: |
histogram_quantile(0.95,
sum(rate(http_request_duration_seconds_bucket[5m])) by (le, job)
)
# Availability за скользящий час
- record: job:availability:ratio1h
expr: |
1 - (
sum(rate(http_requests_total{status=~"5.."}[1h]))
/ sum(rate(http_requests_total[1h]))
)
Alerting rules
groups:
- name: app_alerts
rules:
- alert: HighErrorRate
expr: job:request_errors:rate5m > 0.05
for: 2m
labels:
severity: critical
team: backend
annotations:
summary: "Error rate {{ $value | humanizePercentage }} on {{ $labels.job }}"
runbook_url: "https://wiki.company.com/runbooks/high-error-rate"
- alert: SlowResponseTime
expr: job:request_duration_p95:rate5m > 1.0
for: 5m
labels:
severity: warning
annotations:
summary: "P95 latency {{ $value | humanizeDuration }} > 1s"
- alert: QueueBacklog
expr: task_queue_size > 1000
for: 10m
labels:
severity: warning
annotations:
summary: "Task queue has {{ $value }} pending items"
AWS CloudWatch Custom Metrics
import boto3
cw = boto3.client('cloudwatch')
def put_metric(name: str, value: float, unit: str = 'Count', dimensions: dict = None):
metric_data = {
'MetricName': name,
'Value': value,
'Unit': unit
}
if dimensions:
metric_data['Dimensions'] = [
{'Name': k, 'Value': v} for k, v in dimensions.items()
]
cw.put_metric_data(
Namespace='MyApp/Business',
MetricData=[metric_data]
)
# Использование
put_metric('OrdersCreated', 1, 'Count', {'Environment': 'production'})
put_metric('CheckoutDuration', 0.85, 'Seconds', {'PaymentMethod': 'card'})
put_metric('QueueDepth', queue.size(), 'Count')
CloudWatch Alarm на кастомной метрике:
resource "aws_cloudwatch_metric_alarm" "queue_depth" {
alarm_name = "high-queue-depth"
comparison_operator = "GreaterThanThreshold"
evaluation_periods = 3
metric_name = "QueueDepth"
namespace = "MyApp/Business"
period = 60
statistic = "Maximum"
threshold = 1000
alarm_description = "Task queue is backed up"
dimensions = {
Environment = "production"
}
alarm_actions = [aws_sns_topic.alerts.arn]
ok_actions = [aws_sns_topic.alerts.arn]
}
Embedded metrics (Lambda → CloudWatch)
AWS EMF (Embedded Metrics Format) — structured logs, автоматически превращаемые в CloudWatch Metrics без PutMetricData вызовов:
from aws_embedded_metrics import metric_scope
@metric_scope
async def handler(event, context, metrics):
metrics.set_namespace("MyApp/Lambda")
metrics.put_dimensions({"FunctionName": context.function_name})
start = time.time()
result = await process(event)
metrics.put_metric("ProcessingTime", (time.time() - start) * 1000, "Milliseconds")
metrics.put_metric("ItemsProcessed", len(result), "Count")
return result
Сроки настройки
- Prometheus метрики в приложении (Python/Node.js) — 1-3 дня
- Recording rules + alert rules — 1-2 дня
- CloudWatch custom metrics — 1-2 дня
- Alertmanager / SNS routing + нотификации — 1 день







