Настройка Failover между облачными провайдерами

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения

Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы

Сайты или веб-приложения электронной коммерции

Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров

Веб-приложения для управления бизнес-процессами

CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации

Сайты или веб-приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги

Показано 1 из 1 услугВсе 2065 услуг

Настройка Failover между облачными провайдерами

Сложная

~5 рабочих дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1214
Разработка веб-приложения для компании FEEDME
1161
Разработка веб-сайта для компании БЕЛФИНГРУПП
852
Разработка интернет магазина для компании FURNORO
1041
Разработка веб-приложения для компании Enviok
823
Разработка веб-сайта для компании ФИКСПЕР
815

Показать больше работ

Настройка Failover между облачными провайдерами

Failover между облачными провайдерами — экстремальный вариант защиты от vendor outage. Исторически крупные облачные провайдеры падали: AWS us-east-1 (многократно), GCP (2019, 2020), Cloudflare (2019). Если SLA требует 99.99%+, одного провайдера недостаточно.

Предпосылки для cross-cloud failover

Без выполнения этих условий cross-cloud failover не имеет смысла:

Cloud-agnostic архитектура — приложение не использует proprietary API конкретного провайдера
Контейнеризация — Kubernetes обеспечивает единообразную среду выполнения
Синхронизация данных — механизм репликации данных между провайдерами
Infrastructure as Code — инфраструктура обоих провайдеров описана в Terraform

DNS как точка переключения

Cloudflare — оптимальный выбор для управления failover между провайдерами: работает с обоими, не принадлежит ни одному.

import CloudFlare

cf = CloudFlare.CloudFlare(token=CF_TOKEN)

def switch_to_provider(zone_id: str, record_name: str, new_ip: str):
    records = cf.zones.dns_records.get(zone_id, params={'name': record_name})
    record_id = records[0]['id']
    
    cf.zones.dns_records.put(
        zone_id,
        record_id,
        data={
            'type': 'A',
            'name': record_name,
            'content': new_ip,
            'ttl': 60,  # Низкий TTL для быстрого распространения
            'proxied': True
        }
    )

Cloudflare Load Balancing с health checks автоматизирует переключение без ручного вмешательства.

Синхронизация данных между AWS и GCP

PostgreSQL с логической репликацией через pglogical:

Источник (AWS RDS): настройка publication

SELECT pglogical.create_node(
    node_name := 'provider',
    dsn := 'host=aws-rds.example.com dbname=mydb'
);
SELECT pglogical.create_replication_set('default');
SELECT pglogical.replication_set_add_all_tables('default', ARRAY['public']);

Приёмник (GCP Cloud SQL): настройка subscription

SELECT pglogical.create_node(
    node_name := 'subscriber',
    dsn := 'host=gcp-cloudsql.example.com dbname=mydb'
);
SELECT pglogical.create_subscription(
    subscription_name := 'from_aws',
    provider_dsn := 'host=aws-rds.example.com dbname=mydb'
);

Лаг репликации мониторится. При активации failover — GCP PostgreSQL промотируется через pglogical.alter_subscription_disable + ручной promote.

Объектное хранилище: rclone sync S3 → GCS каждые 5 минут для критических данных, ежечасно для остальных.

rclone sync s3:production-bucket gcs:dr-bucket \
  --transfers 32 \
  --checkers 16 \
  --s3-upload-cutoff 50M \
  --log-level INFO

Автоматический детектор провайдерского outage

Внешние health checks с нескольких географических точек:

import asyncio
import httpx

PROVIDERS = {
    'aws': 'https://aws-endpoint.example.com/health',
    'gcp': 'https://gcp-endpoint.example.com/health',
}

async def check_provider_health(provider: str, url: str) -> bool:
    async with httpx.AsyncClient(timeout=10) as client:
        try:
            resp = await client.get(url)
            return resp.status_code == 200
        except Exception:
            return False

async def monitor_and_failover():
    while True:
        results = await asyncio.gather(*[
            check_provider_health(p, u) for p, u in PROVIDERS.items()
        ])
        
        aws_ok, gcp_ok = results
        current_active = get_current_active_provider()
        
        if not aws_ok and current_active == 'aws' and gcp_ok:
            trigger_failover_to_gcp()
        
        await asyncio.sleep(30)

Failover процедура пошагово

Детектировать сбой (автоматически или вручную подтвердить)
Остановить запись в primary provider DB (предотвратить split-brain)
Промотировать DR DB в GCP как новый primary
Обновить Cloudflare DNS / Load Balancer на GCP endpoints
Запустить масштабирование GCP кластера до production-мощности (если warm standby)
Проверить health всех компонентов в GCP
Снять maintenance page / восстановить пользовательский трафик

Весь процесс: 5-15 минут при automated failover, 15-30 минут при manual.

Обратный failover (failback)

Часто сложнее прямого. При восстановлении основного провайдера:

Не переключаться немедленно — убедиться в стабильности
Синхронизировать данные обратно (GCP → AWS за время outage)
Переключить трафик в maintenance window
Проверить полноту данных

Сроки реализации

Предварительный аудит на cloud-agnostic готовность — 2-3 дня
Terraform для второго провайдера — 5-10 дней
Настройка репликации данных — 5-10 дней
Автоматизация failover + детектор — 3-5 дней
Тестирование полного failover cycle — 3-5 дней