Оптимизация краулингового бюджета (Crawl Budget) сайта

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения

Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы

Сайты или веб-приложения электронной коммерции

Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров

Веб-приложения для управления бизнес-процессами

CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации

Сайты или веб-приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги

Показано 1 из 1 услугВсе 2065 услуг

Оптимизация краулингового бюджета (Crawl Budget) сайта

Средняя

~2-3 рабочих дня

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1214
Разработка веб-приложения для компании FEEDME
1161
Разработка веб-сайта для компании БЕЛФИНГРУПП
852
Разработка интернет магазина для компании FURNORO
1041
Разработка веб-приложения для компании Enviok
823
Разработка веб-сайта для компании ФИКСПЕР
815

Показать больше работ

Оптимизация краулингового бюджета (Crawl Budget) сайта

Crawl Budget — количество страниц, которые Googlebot готов проиндексировать на сайте за единицу времени. На больших сайтах неправильное расходование бюджета приводит к тому, что важные страницы не индексируются, пока роботы тратят время на бесполезные URL.

Что съедает краулинговый бюджет

URL с параметрами сортировки и фильтрации (?sort=price&color=red)
Пагинация в бесконечных комбинациях
Дублирующиеся страницы (с и без trailing slash, http/https)
Страницы с параметрами сессий (?session_id=abc123)
Технические страницы (корзина, личный кабинет, поиск)
Страницы с UTM-метками

Анализ текущего бюджета

Google Search Console → Settings → Crawl Stats показывает:

Среднее число запросов в день
Среднее время скачивания
Ответы по типам (успешные, редиректы, 404)

Инструменты для анализа: Screaming Frog, log-файлы сервера:

# Анализ access.log: что краулит Googlebot
grep "Googlebot" /var/log/nginx/access.log | \
  awk '{print $7}' | sort | uniq -c | sort -rn | head -50

# Найти параметры в URL которые краулит бот
grep "Googlebot" /var/log/nginx/access.log | \
  grep "?" | awk '{print $7}' | \
  sed 's/=.*/=X/g' | sort | uniq -c | sort -rn | head -30

robots.txt: блокировка ненужных URL

User-agent: *
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /admin/
Disallow: /*?session_id=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?ref=
Disallow: /wp-json/
Disallow: /wp-admin/
Disallow: /*.pdf$

# Разрешить важные файлы
Allow: /sitemap.xml
Allow: /robots.txt

Canonical для дублирующегося контента

<!-- Страница с фильтром → canonical на базовую -->
<!-- /catalog/shoes?color=red&size=42 -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- /catalog/shoes/ (trailing slash) → canonical без -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- Параметры UTM → canonical на чистый URL -->
<link rel="canonical" href="https://site.com/articles/post-title">

Настройка параметров URL в GSC

Google Search Console → Legacy tools → URL Parameters (для старых аккаунтов) или через canonical теги для новых.

Алгоритм: каждый параметр URL классифицируется:

Изменяет контент → индексировать (category, page)
Не изменяет контент → не краулить (utm_source, ref, sid)
Сортировка/фильтрация → canonical к базовому URL

# nginx: убрать UTM параметры при редиректе
if ($arg_utm_source) {
    # Убрать все UTM параметры через map
}
map $args $clean_args {
    ~*(?:^|&)(utm_[^&]*)(&|$)    $1;  # найти UTM
    default                       $args;
}

Sitemap.xml оптимизация

Sitemap должен содержать только важные, индексируемые URL:

def generate_optimized_sitemap(db):
    pages = db.query("""
        SELECT url, updated_at, priority
        FROM pages
        WHERE status = 'published'
        AND noindex = false
        AND updated_at > NOW() - INTERVAL '2 years'
        ORDER BY priority DESC, updated_at DESC
    """)

    xml = ['<?xml version="1.0" encoding="UTF-8"?>',
           '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">']

    for page in pages:
        xml.extend([
            '<url>',
            f'  <loc>{escape(page["url"])}</loc>',
            f'  <lastmod>{page["updated_at"].strftime("%Y-%m-%d")}</lastmod>',
            f'  <priority>{page["priority"]:.1f}</priority>',
            '</url>'
        ])

    xml.append('</urlset>')
    return '\n'.join(xml)

Не добавлять в sitemap: страницы с noindex, 404, редиректы, страницы без контента.

Управление скоростью краулинга

GSC → Settings → Crawl rate позволяет попросить Google краулить медленнее (полезно для нагруженных серверов). Ускорить краулинг нельзя — это определяет Google.

Для Yandex: robots.txt директива Crawl-delay:

User-agent: Yandex
Crawl-delay: 2

Срок выполнения

Аудит и оптимизация crawl budget (robots.txt, canonical, sitemap) — 1–2 рабочих дня.