Оптимизация краулингового бюджета (Crawl Budget) сайта
Crawl Budget — количество страниц, которые Googlebot готов проиндексировать на сайте за единицу времени. На больших сайтах неправильное расходование бюджета приводит к тому, что важные страницы не индексируются, пока роботы тратят время на бесполезные URL.
Что съедает краулинговый бюджет
- URL с параметрами сортировки и фильтрации (
?sort=price&color=red) - Пагинация в бесконечных комбинациях
- Дублирующиеся страницы (с и без trailing slash, http/https)
- Страницы с параметрами сессий (
?session_id=abc123) - Технические страницы (корзина, личный кабинет, поиск)
- Страницы с UTM-метками
Анализ текущего бюджета
Google Search Console → Settings → Crawl Stats показывает:
- Среднее число запросов в день
- Среднее время скачивания
- Ответы по типам (успешные, редиректы, 404)
Инструменты для анализа: Screaming Frog, log-файлы сервера:
# Анализ access.log: что краулит Googlebot
grep "Googlebot" /var/log/nginx/access.log | \
awk '{print $7}' | sort | uniq -c | sort -rn | head -50
# Найти параметры в URL которые краулит бот
grep "Googlebot" /var/log/nginx/access.log | \
grep "?" | awk '{print $7}' | \
sed 's/=.*/=X/g' | sort | uniq -c | sort -rn | head -30
robots.txt: блокировка ненужных URL
User-agent: *
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /admin/
Disallow: /*?session_id=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?ref=
Disallow: /wp-json/
Disallow: /wp-admin/
Disallow: /*.pdf$
# Разрешить важные файлы
Allow: /sitemap.xml
Allow: /robots.txt
Canonical для дублирующегося контента
<!-- Страница с фильтром → canonical на базовую -->
<!-- /catalog/shoes?color=red&size=42 -->
<link rel="canonical" href="https://site.com/catalog/shoes">
<!-- /catalog/shoes/ (trailing slash) → canonical без -->
<link rel="canonical" href="https://site.com/catalog/shoes">
<!-- Параметры UTM → canonical на чистый URL -->
<link rel="canonical" href="https://site.com/articles/post-title">
Настройка параметров URL в GSC
Google Search Console → Legacy tools → URL Parameters (для старых аккаунтов) или через canonical теги для новых.
Алгоритм: каждый параметр URL классифицируется:
- Изменяет контент → индексировать (category, page)
- Не изменяет контент → не краулить (utm_source, ref, sid)
- Сортировка/фильтрация → canonical к базовому URL
# nginx: убрать UTM параметры при редиректе
if ($arg_utm_source) {
# Убрать все UTM параметры через map
}
map $args $clean_args {
~*(?:^|&)(utm_[^&]*)(&|$) $1; # найти UTM
default $args;
}
Sitemap.xml оптимизация
Sitemap должен содержать только важные, индексируемые URL:
def generate_optimized_sitemap(db):
pages = db.query("""
SELECT url, updated_at, priority
FROM pages
WHERE status = 'published'
AND noindex = false
AND updated_at > NOW() - INTERVAL '2 years'
ORDER BY priority DESC, updated_at DESC
""")
xml = ['<?xml version="1.0" encoding="UTF-8"?>',
'<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">']
for page in pages:
xml.extend([
'<url>',
f' <loc>{escape(page["url"])}</loc>',
f' <lastmod>{page["updated_at"].strftime("%Y-%m-%d")}</lastmod>',
f' <priority>{page["priority"]:.1f}</priority>',
'</url>'
])
xml.append('</urlset>')
return '\n'.join(xml)
Не добавлять в sitemap: страницы с noindex, 404, редиректы, страницы без контента.
Управление скоростью краулинга
GSC → Settings → Crawl rate позволяет попросить Google краулить медленнее (полезно для нагруженных серверов). Ускорить краулинг нельзя — это определяет Google.
Для Yandex: robots.txt директива Crawl-delay:
User-agent: Yandex
Crawl-delay: 2
Срок выполнения
Аудит и оптимизация crawl budget (robots.txt, canonical, sitemap) — 1–2 рабочих дня.







