Настройка автоматического восстановления сайта из резервной копии
Восстановление из backup должно быть задокументировано и протестировано до инцидента. Паника при аварии + незнакомый процесс восстановления = часы простоя. Цель — RTO (Recovery Time Objective) не более 1 часа для типичного веб-приложения.
Скрипт восстановления PostgreSQL
#!/bin/bash
# /usr/local/bin/restore-db.sh
# Использование: restore-db.sh [backup-file|latest] [target-database]
set -euo pipefail
BACKUP_SOURCE="${1:-latest}"
TARGET_DB="${2:-myapp_restore}"
S3_BUCKET="s3://myapp-backups/postgresql"
LOCAL_BACKUP_DIR="/var/backups/postgresql"
echo "[$(date)] Starting database restore"
echo " Source: $BACKUP_SOURCE"
echo " Target: $TARGET_DB"
# Найти файл backup
if [ "$BACKUP_SOURCE" = "latest" ]; then
BACKUP_FILE=$(aws s3 ls "${S3_BUCKET}/" | sort | tail -1 | awk '{print $4}')
echo " Latest backup: $BACKUP_FILE"
# Скачать
aws s3 cp "${S3_BUCKET}/${BACKUP_FILE}" "/tmp/${BACKUP_FILE}"
LOCAL_FILE="/tmp/${BACKUP_FILE}"
else
LOCAL_FILE="$BACKUP_SOURCE"
fi
# Проверить файл
if [ ! -f "$LOCAL_FILE" ]; then
echo "ERROR: Backup file not found: $LOCAL_FILE"
exit 1
fi
# Создать целевую БД (если не существует)
psql -U postgres -c "CREATE DATABASE ${TARGET_DB};" 2>/dev/null || true
# Очистить существующие данные
psql -U postgres -c "
DROP DATABASE IF EXISTS ${TARGET_DB}_old;
ALTER DATABASE ${TARGET_DB} RENAME TO ${TARGET_DB}_old;
CREATE DATABASE ${TARGET_DB};
" 2>/dev/null || true
# Восстановить
echo "[$(date)] Restoring database..."
gunzip -c "$LOCAL_FILE" | psql -U postgres -d "$TARGET_DB" -v ON_ERROR_STOP=1
# Проверить
TABLES=$(psql -U postgres -d "$TARGET_DB" -t -c "SELECT COUNT(*) FROM information_schema.tables WHERE table_schema = 'public';")
echo "[$(date)] Restore completed. Tables restored: $TABLES"
# Очистить
rm -f "$LOCAL_FILE"
psql -U postgres -c "DROP DATABASE IF EXISTS ${TARGET_DB}_old;" 2>/dev/null || true
echo "[$(date)] Database restore finished successfully"
Полное восстановление сайта
#!/bin/bash
# /usr/local/bin/restore-site.sh
# Полное восстановление: БД + файлы + код
DOMAIN="example.com"
APP_DIR="/var/www/myapp"
GIT_REPO="[email protected]:company/myapp.git"
GIT_TAG="${1:-main}"
echo "=== Site Recovery Started ==="
echo "Domain: $DOMAIN"
echo "Deploying: $GIT_TAG"
# 1. Включить maintenance page
cat > /var/www/maintenance/index.html << 'EOF'
<!DOCTYPE html>
<html><body>
<h1>Технические работы</h1>
<p>Сайт временно недоступен. Восстановление займёт не более 60 минут.</p>
</body></html>
EOF
# Nginx: перенаправить на maintenance
nginx -s reload
# 2. Восстановить код из git
if [ -d "$APP_DIR" ]; then
mv "$APP_DIR" "${APP_DIR}.bak.$(date +%s)"
fi
git clone --branch "$GIT_TAG" "$GIT_REPO" "$APP_DIR"
cd "$APP_DIR"
composer install --no-dev --optimize-autoloader
cp .env.production .env
# 3. Восстановить БД
/usr/local/bin/restore-db.sh latest myapp
# 4. Восстановить файлы
aws s3 sync s3://myapp-backups/files/uploads/ \
"${APP_DIR}/storage/app/uploads/"
# 5. Права и кэш
chown -R www-data:www-data "$APP_DIR/storage" "$APP_DIR/bootstrap/cache"
php artisan config:cache
php artisan route:cache
php artisan view:cache
php artisan migrate --force
# 6. Убрать maintenance, проверить
# Восстановить основной nginx конфиг
nginx -s reload
# Базовая проверка
HTTP_CODE=$(curl -s -o /dev/null -w "%{http_code}" "https://${DOMAIN}/health")
if [ "$HTTP_CODE" = "200" ]; then
echo "=== Recovery SUCCESSFUL: HTTP $HTTP_CODE ==="
else
echo "=== Recovery FAILED: HTTP $HTTP_CODE ==="
exit 1
fi
Runbook: пошаговая инструкция для дежурного
# Runbook: восстановление myapp после инцидента
## Шаг 1: Диагностика (5 мин)
- ssh web01.example.com
- systemctl status nginx php8.3-fpm postgresql
- tail -100 /var/log/nginx/error.log
## Шаг 2: Уведомление
- Статусная страница: https://status.example.com → обновить
- Slack #incidents: сообщить о начале восстановления
## Шаг 3: Восстановление
- Полное: sudo /usr/local/bin/restore-site.sh v1.2.3
- Только БД: sudo /usr/local/bin/restore-db.sh latest
- Только файлы: aws s3 sync s3://myapp-backups/files/ /var/www/myapp/storage/
## Шаг 4: Проверка
- https://example.com/ → HTTP 200
- Вход в систему → успешно
- Критичные функции → список в /docs/smoke-tests.md
## Шаг 5: Post-mortem
- Заполнить шаблон инцидента в Confluence
- Добавить в backlog предотвращение повторения
Тестирование восстановления
# Ежемесячный drill: восстановить в тестовую среду и проверить
0 8 1 * * /usr/local/bin/restore-site.sh latest >> /var/log/dr-drill.log 2>&1 && \
curl -fsS https://hc-ping.com/dr-drill-uuid > /dev/null
Срок реализации
Скрипты восстановления БД и файлов с runbook: 2–3 дня. Автоматическое тестирование восстановления с ежемесячным drill: 3–4 дня.







