Настройка SLA-мониторинга для веб-приложения

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.
Разработка и обслуживание любых видов сайтов:
Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Настройка SLA-мониторинга для веб-приложения
Средняя
~2-3 рабочих дня
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1214
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    852
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1041
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    823
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    815

Настройка SLA-мониторинга для веб-приложения

SLA-мониторинг — это измерение того, выполняет ли система взятые на себя обязательства по доступности и качеству. Без инструментальной базы SLA остаётся декларацией намерений. С мониторингом — это измеримое и подтверждаемое соглашение.

Что измеряем в SLA

Availability (доступность). Процент времени, в течение которого сервис работает корректно. Формула: (total_time - downtime) / total_time * 100%. Для 99.9% SLA допустимо ~8.7 часов простоя в год. Для 99.99% — 52 минуты.

Response Time. P95 и P99 времени ответа важнее среднего (mean). Среднее скрывает хвост медленных запросов, на который жалуются пользователи. Типичные цели: P95 < 500ms, P99 < 2s для веб-приложения.

Error Rate. Процент ответов с кодами 5xx. Цель: < 0.1% для продакшена.

Throughput. Если в SLA включена пропускная способность — RPS или количество транзакций в единицу времени.

Инструменты сбора метрик

Prometheus + Grafana — стандартный стек для self-hosted. Prometheus scrapes метрики каждые 15-30 секунд. Grafana визуализирует и считает SLI/SLO.

Datadog / New Relic — managed-решения, быстрый старт, встроенные SLO dashboards.

Uptime Robot / Freshping — внешний мониторинг доступности (проверки с разных точек планеты), дополняет внутренний мониторинг.

Настройка SLI/SLO в Prometheus

# Правило для availability SLO (цель: 99.9%)
- record: job:availability:ratio_rate5m
  expr: |
    1 - (
      rate(http_requests_total{status=~"5.."}[5m])
      /
      rate(http_requests_total[5m])
    )

# Алерт: SLO под угрозой (burn rate > 14.4x за 1 час)
- alert: SLOBurnRateTooHigh
  expr: |
    job:availability:ratio_rate5m < 0.999
    and
    rate(http_requests_total{status=~"5.."}[1h]) > 0
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "SLO availability at risk"

Error Budget — ключевая концепция. Для 99.9% SLO за 30 дней error budget = 0.1% = 43.2 минуты. Мониторинг должен показывать: сколько error budget израсходовано, с какой скоростью расходуется (burn rate).

Внешние проверки доступности

Внутренние метрики могут быть зелёными, пока пользователи не могут достучаться — например, сбой DNS или CDN. Внешние HTTP-проверки из нескольких географических точек:

  • Pingdom, Uptime Robot, Checkly — 1-минутные проверки с 5-20 точек мира
  • Blackbox Exporter (Prometheus) — probe-проверки HTTP, TCP, ICMP из собственной инфраструктуры

Минимальный набор проверок: главная страница, страница логина, API health endpoint, страница после авторизации (для проверки БД).

SLA-отчётность

Автоматический ежемесячный отчёт для бизнеса:

  • Фактический uptime vs целевой
  • Список инцидентов с длительностью и причиной
  • Использование error budget
  • Тренд — улучшается или деградирует

Grafana позволяет генерировать PDF-отчёты по расписанию. Для enterprise — Datadog SLO Reports или Statuspage.

Сроки настройки

  • Prometheus + Grafana + базовые SLI — 2-3 дня
  • SLO rules + error budget dashboard — 1-2 дня
  • Внешние проверки + алерты — 1 день
  • Настройка отчётности — 1-2 дня