Настройка Webhook-системы с гарантией доставки (retry/backoff)
Webhook без retry — это просто HTTP-запрос, который вы отправили и забыли. Реальные системы падают: эндпоинт получателя недоступен, таймаут, 500-я ошибка. Гарантия доставки означает, что событие дойдёт до получателя, даже если тот был недоступен несколько часов.
Принципы надёжной доставки
At-least-once delivery: webhook может быть доставлен более одного раза. Получатель должен быть идемпотентен — повторная обработка одного события не должна дублировать эффект.
Очередь как буфер: отправка webhook не происходит напрямую из обработчика события. Событие пишется в очередь, воркер читает и отправляет. Если отправка не удалась — событие возвращается в очередь.
Exponential backoff: интервал между попытками увеличивается экспоненциально, чтобы не атаковать уже перегруженный получателя.
Схема данных
CREATE TABLE webhook_subscriptions (
id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
consumer_id UUID NOT NULL REFERENCES consumers(id),
endpoint_url TEXT NOT NULL,
secret TEXT NOT NULL,
events TEXT[] NOT NULL, -- ['order.created', 'order.paid']
is_active BOOLEAN DEFAULT true,
created_at TIMESTAMPTZ DEFAULT NOW()
);
CREATE TABLE webhook_deliveries (
id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
subscription_id UUID NOT NULL REFERENCES webhook_subscriptions(id),
event_type TEXT NOT NULL,
payload JSONB NOT NULL,
attempt_count INTEGER DEFAULT 0,
max_attempts INTEGER DEFAULT 8,
status TEXT DEFAULT 'pending', -- pending | delivered | failed | cancelled
next_attempt_at TIMESTAMPTZ DEFAULT NOW(),
last_response_code INTEGER,
last_response_body TEXT,
created_at TIMESTAMPTZ DEFAULT NOW(),
delivered_at TIMESTAMPTZ
);
CREATE INDEX idx_deliveries_pending ON webhook_deliveries(next_attempt_at)
WHERE status = 'pending';
Алгоритм retry с backoff
Экспоненциальный backoff с jitter предотвращает synchronized retry storm — ситуацию, когда все воркеры одновременно ломятся к одному эндпоинту:
import random
import math
def next_attempt_delay(attempt: int, base_delay: float = 30.0) -> float:
"""
attempt 1: ~30s
attempt 2: ~60s
attempt 3: ~120s
attempt 4: ~240s
attempt 5: ~480s (~8 мин)
attempt 6: ~960s (~16 мин)
attempt 7: ~1920s (~32 мин)
attempt 8: ~3840s (~64 мин) — финальная попытка
"""
exponential = base_delay * (2 ** attempt)
# Full jitter: случайное значение в диапазоне [0, exponential]
jitter = random.uniform(0, exponential)
# Caps at 1 hour
return min(jitter, 3600)
PHP/Laravel реализация воркера:
class ProcessWebhookDelivery implements ShouldQueue
{
use Dispatchable, InteractsWithQueue, Queueable;
public int $tries = 1; // Retry логика — наша, не Laravel
public function handle(WebhookDelivery $delivery): void
{
$subscription = $delivery->subscription;
$payload = json_encode($delivery->payload);
$signature = hash_hmac('sha256', $payload, $subscription->secret);
try {
$response = Http::timeout(10)
->withHeaders([
'Content-Type' => 'application/json',
'X-Webhook-ID' => $delivery->id,
'X-Webhook-Event' => $delivery->event_type,
'X-Webhook-Timestamp'=> now()->timestamp,
'X-Webhook-Signature'=> 'sha256=' . $signature,
])
->post($subscription->endpoint_url, $delivery->payload);
if ($response->successful()) {
$delivery->update([
'status' => 'delivered',
'last_response_code'=> $response->status(),
'delivered_at' => now(),
]);
return;
}
$this->scheduleRetry($delivery, $response->status(), $response->body());
} catch (ConnectionException | TimeoutException $e) {
$this->scheduleRetry($delivery, null, $e->getMessage());
}
}
private function scheduleRetry(WebhookDelivery $delivery, ?int $code, string $body): void
{
$delivery->increment('attempt_count');
$delivery->update([
'last_response_code' => $code,
'last_response_body' => substr($body, 0, 1000),
]);
if ($delivery->attempt_count >= $delivery->max_attempts) {
$delivery->update(['status' => 'failed']);
// Уведомить владельца подписки
event(new WebhookDeliveryFailed($delivery));
return;
}
$delay = $this->calculateDelay($delivery->attempt_count);
$delivery->update(['next_attempt_at' => now()->addSeconds($delay)]);
// Переставить в очередь
static::dispatch($delivery)->delay(now()->addSeconds($delay));
}
private function calculateDelay(int $attempt): int
{
$base = 30 * (2 ** $attempt);
return min((int)($base * random_int(50, 150) / 100), 3600);
}
}
Идемпотентность на стороне получателя
Получатель webhook обязан обрабатывать повторы. Минимальная защита:
# Django пример
from django.db import IntegrityError
def handle_webhook(request):
webhook_id = request.headers.get('X-Webhook-ID')
try:
# Уникальный ключ по webhook_id — повторная вставка упадёт
ProcessedWebhook.objects.create(webhook_id=webhook_id)
except IntegrityError:
# Уже обработали — возвращаем 200, ничего не делаем
return JsonResponse({'status': 'already_processed'})
# Обработка события
process_event(request.json())
return JsonResponse({'status': 'ok'})
Верификация подписи
Без верификации любой может отправить поддельный webhook:
public function verifySignature(Request $request): bool
{
$signature = $request->header('X-Webhook-Signature');
$payload = $request->getContent();
$secret = config('webhooks.secret');
$expected = 'sha256=' . hash_hmac('sha256', $payload, $secret);
// Используем hash_equals для защиты от timing attack
return hash_equals($expected, $signature ?? '');
}
Мониторинг
Ключевые метрики:
- Delivery rate: процент успешно доставленных / всего попыток
- p95 delivery time: время от создания события до доставки
- Failed deliveries: количество финально упавших — требуют ручного внимания
- Queue depth: если растёт — воркеров не хватает
Сроки
Базовая система с retry/backoff: 3–5 дней. С мониторингом, дашбордом доставок и уведомлениями о сбоях: 1–1.5 недели.







