Забудьте про Googlebot. Ваш многолетний чек-лист — индексация, скорость, мобильная адаптация, структурированные данные — теперь пылится на полке.
Интернет, каким мы его знаем, перестал быть исключительно игровой площадкой для индексатора Google.
К 2026 году ваш сайт станет объектом внимания как минимум дюжины дополнительных нечеловеческих потребителей.
ИИ-краулеры вроде GPTBot, ClaudeBot и PerplexityBot не просто просматривают страницы — они активно обучают модели и формируют следующий виток поисковой выдачи на основе ИИ. К ним присоединяются агенты, запускаемые пользователями: тот же Google-Agent или его аналоги вроде Claude-User и ChatGPT-User, которые в реальном времени ищут информацию от имени конкретных людей. Аналитика Cloudflare за первый квартал 2026 года рисует мрачную картину: 30,6% всего веб-трафика приходится на ботов, и ИИ-краулеры с агентами занимают в этом пироге всё большую долю. Ваш технический аудит? Ему нужна капитальная перестройка, чтобы учесть всех.
Старая гвардия против новых ботов: расхождение путей
Поговорим о вашем файле robots.txt. Скорее всего, он писался с оглядкой на Googlebot и, возможно, Bingbot — избранных представителей. Но ИИ-краулеры — это другая порода. Им требуются собственные, явные правила, отличные от тех, что вы уже применяете для существующих ботов. Игнорировать это — всё равно что оставить входную дверь нараспашку, ожидая, что войдут только приглашённые гости. Так не работает.
Ключевой вопрос: вы принимаете осознанные решения для каждого краулера, или придерживаетесь настроек по умолчанию? Потому что эти настройки по умолчанию? Они могут незаметно пропускать нежелательных ботов или, что ещё хуже, блокировать тех, кого вы хотите видеть.
Что же стоит проверить?
Просмотрите robots.txt на предмет правил, нацеленных на ИИ-специфичные user agents: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, AppleBot-Extended, CCBot и ChatGPT-User. Если они не перечислены явно, вы действуете на основе опасного предположения — что настройки по умолчанию соответствуют вашим стратегическим целям. Они почти наверняка не соответствуют.
Трафик ИИ-краулеров можно условно разделить: обучающие краулеры (89,4% трафика ИИ-краулеров, по данным Cloudflare) — это сборщики данных; поисковые краулеры (8%) — питают ИИ-ответы; и агенты, запускаемые пользователями (2,2%) — действуют как прокси в реальном времени. Каждый требует индивидуального подхода.
Обратите внимание на соотношение обходов к переходам (crawl-to-referral ratios). Например, ClaudeBot от Anthropic обходит поразительные 20,6 тысяч страниц ради одного перехода. У OpenAI соотношение — 1300:1. Meta? Ноль переходов. Блокировка OAI-SearchBot от OpenAI или PerplexityBot напрямую влияет на вашу видимость в ChatGPT Search и ИИ-ответах Perplexity. И наоборот, блокировка краулеров, ориентированных на обучение, таких как CCBot или бот от Meta, может предотвратить извлечение данных из источников, не приносящих ощутимой пользы в виде трафика.
Соотношение обходов к переходам говорит о том, кто берёт, ничего не отдавая.
И вот ещё Google-Agent. Этот требует особого внимания. Добавленный в официальный список Google для запросов, инициированных пользователями, в марте 2026 года, он идентифицирует запросы от ИИ-систем Google, ищущих информацию от имени пользователей. Фишка? Он игнорирует robots.txt. Аргументация Google: поскольку запрос инициирован человеком, он действует как прокси пользователя. Блокировка Google-Agent — это уже серверная аутентификация, а не простая правка robots.txt. Занимательное и, честно говоря, важное развитие для будущего.
Рендеринг JavaScript: невидимый барьер
Вот где ситуация становится по-настоящему шаткой для многих современных сайтов.
Googlebot рендерит JavaScript. Это старая новость. Что нового? Практически все остальные крупные ИИ-краулеры этого не делают. GPTBot, ClaudeBot, PerplexityBot, CCBot — все они запрашивают только статический HTML. AppleBot и Googlebot — исключения.
Что это означает на практике?
Если ваш ключевой контент — названия продуктов, цены, описания услуг — находится внутри клиентского JavaScript (вспомните большинство SPA, построенных на React, Vue или Angular), он фактически невидим для моделей, обучающих OpenAI, Anthropic и Perplexity. Вы отправляете им пустую страницу.
Выполните простой curl -s [URL] для своих ключевых страниц. Если этот критически важный контент отсутствует в исходном HTML-ответе, ИИ-краулеры, обучающие модели, стоящие за поиском завтрашнего дня, его не увидят. Не путайте это с «Inspect Element» в браузере — это показывает отрендеренный DOM после выполнения JavaScript. Вам нужно проверять исходный код.
Серверный рендеринг (SSR) или генерация статических сайтов (SSG) — это уже не просто тактики оптимизации. Для видимости в ИИ-поиске они теперь являются фундаментальным требованием.
Будущее краул-бюджетов и обучения ИИ
Ваши текущие дискуссии о краул-бюджете станут намного сложнее. Особенно обучающие ИИ-краулеры могут потреблять значительные ресурсы. Понимание их поведения и установка соответствующих директив robots.txt имеет первостепенное значение для контроля доступа и предотвращения истощения серверных ресурсов ботами, которые не приносят прямой отдачи.
Это только начало? Абсолютно. Постоянная эволюция ИИ означает, что эти краулеры и их поведение будут меняться. Чтобы оставаться впереди, требуется проактивный, основанный на данных подход, выходящий за рамки статичного чек-листа прошлого к динамическому, многогранному аудиту, предвосхищающему потребности каждого значимого цифрового субъекта, взаимодействующего с вашим контентом.
Стандартный технический SEO-аудит, созданный для одноцелевого бота, умер. Да здравствует технический SEO-аудит, осведомлённый об ИИ.
🧬 Связанные материалы
- Читать также: Google DV360: PAIRing Data for the AI-Powered Internet
- Читать также: Backcountry Ditches Pricey SaaS for Startup’s AI Graph