Оптимизация краулингового бюджета (Crawl Budget) сайта

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.
Разработка и обслуживание любых видов сайтов:
Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Оптимизация краулингового бюджета (Crawl Budget) сайта
Средняя
~2-3 рабочих дня
Часто задаваемые вопросы
Наши компетенции:
Этапы разработки
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1214
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    852
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1041
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    823
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    815

Оптимизация краулингового бюджета (Crawl Budget) сайта

Crawl Budget — количество страниц, которые Googlebot готов проиндексировать на сайте за единицу времени. На больших сайтах неправильное расходование бюджета приводит к тому, что важные страницы не индексируются, пока роботы тратят время на бесполезные URL.

Что съедает краулинговый бюджет

  • URL с параметрами сортировки и фильтрации (?sort=price&color=red)
  • Пагинация в бесконечных комбинациях
  • Дублирующиеся страницы (с и без trailing slash, http/https)
  • Страницы с параметрами сессий (?session_id=abc123)
  • Технические страницы (корзина, личный кабинет, поиск)
  • Страницы с UTM-метками

Анализ текущего бюджета

Google Search Console → Settings → Crawl Stats показывает:

  • Среднее число запросов в день
  • Среднее время скачивания
  • Ответы по типам (успешные, редиректы, 404)

Инструменты для анализа: Screaming Frog, log-файлы сервера:

# Анализ access.log: что краулит Googlebot
grep "Googlebot" /var/log/nginx/access.log | \
  awk '{print $7}' | sort | uniq -c | sort -rn | head -50

# Найти параметры в URL которые краулит бот
grep "Googlebot" /var/log/nginx/access.log | \
  grep "?" | awk '{print $7}' | \
  sed 's/=.*/=X/g' | sort | uniq -c | sort -rn | head -30

robots.txt: блокировка ненужных URL

User-agent: *
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /admin/
Disallow: /*?session_id=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?ref=
Disallow: /wp-json/
Disallow: /wp-admin/
Disallow: /*.pdf$

# Разрешить важные файлы
Allow: /sitemap.xml
Allow: /robots.txt

Canonical для дублирующегося контента

<!-- Страница с фильтром → canonical на базовую -->
<!-- /catalog/shoes?color=red&size=42 -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- /catalog/shoes/ (trailing slash) → canonical без -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- Параметры UTM → canonical на чистый URL -->
<link rel="canonical" href="https://site.com/articles/post-title">

Настройка параметров URL в GSC

Google Search Console → Legacy tools → URL Parameters (для старых аккаунтов) или через canonical теги для новых.

Алгоритм: каждый параметр URL классифицируется:

  • Изменяет контент → индексировать (category, page)
  • Не изменяет контент → не краулить (utm_source, ref, sid)
  • Сортировка/фильтрация → canonical к базовому URL
# nginx: убрать UTM параметры при редиректе
if ($arg_utm_source) {
    # Убрать все UTM параметры через map
}
map $args $clean_args {
    ~*(?:^|&)(utm_[^&]*)(&|$)    $1;  # найти UTM
    default                       $args;
}

Sitemap.xml оптимизация

Sitemap должен содержать только важные, индексируемые URL:

def generate_optimized_sitemap(db):
    pages = db.query("""
        SELECT url, updated_at, priority
        FROM pages
        WHERE status = 'published'
        AND noindex = false
        AND updated_at > NOW() - INTERVAL '2 years'
        ORDER BY priority DESC, updated_at DESC
    """)

    xml = ['<?xml version="1.0" encoding="UTF-8"?>',
           '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">']

    for page in pages:
        xml.extend([
            '<url>',
            f'  <loc>{escape(page["url"])}</loc>',
            f'  <lastmod>{page["updated_at"].strftime("%Y-%m-%d")}</lastmod>',
            f'  <priority>{page["priority"]:.1f}</priority>',
            '</url>'
        ])

    xml.append('</urlset>')
    return '\n'.join(xml)

Не добавлять в sitemap: страницы с noindex, 404, редиректы, страницы без контента.

Управление скоростью краулинга

GSC → Settings → Crawl rate позволяет попросить Google краулить медленнее (полезно для нагруженных серверов). Ускорить краулинг нельзя — это определяет Google.

Для Yandex: robots.txt директива Crawl-delay:

User-agent: Yandex
Crawl-delay: 2

Срок выполнения

Аудит и оптимизация crawl budget (robots.txt, canonical, sitemap) — 1–2 рабочих дня.