UA

GPTBot, ClaudeBot, PerplexityBot — каждый из них имеет свою логику краулинга, частоту сканирования и свои требования к контенту. Поэтому все эти нюансы лучше учесть, чтобы не остаться без внимания моделей, которые формируют ответы в ChatGPT, Gemini, Claude и других LLM.

Как выглядит механика краулинга разных LLM, какие именно User-Agent используют эти модели, как часто заходят на страницы и что «читают» - рассказываем.

Какие есть основные LLM-краулеры и чем они особенные

Прежде чем оптимизировать сайт под AI-выдачу, стоит разобраться, «кто именно» его сканирует, чтобы не заблокировать случайно LLM-краулеры и размещать линки там, где их реально «увидит» AI. Далее — основные краулеры, которые собирают данные для моделей ChatGPT, Claude, Perplexity, Gemini, и что о них стоит знать.

OpenAI GPTBot

  • User-Agent: GPTBot/1.0 (+https://openai.com/gptbot)
  • Назначение: сбор публичных данных для тренировки моделей GPT (в частности GPT-4, GPT-4o).

Особенности:

  • Не будет сканировать те страницы или разделы сайта, которые вы запретили в файле robots.txt.
  • Игнорирует запрещенные или платные страницы.
  • Можно разрешить или запретить частичный/полный доступ к сайту.
  • Частота сканирования высокая на сайтах со структурированным, текстовым контентом.

GPTBot чаще выбирает контент с четкой структурой, без чрезмерной SEO-оптимизации. Ссылки в таких текстах имеют более высокий шанс быть «учтенными» в AI-выдаче. Ссылки в тексте, где есть пояснения, примеры, списки — работают лучше, чем ссылки в объявлениях или заголовках.

Что мешает сканированию:

  • Disallow в robots.txt
  • Отсутствие ответа HTTP 200 (например, редиректы или ошибки 403/404)
  • Заблокированный доступ через брандмауэр или IP-фильтры
  • Наличие заголовков X-Robots-Tag: noai или noindex

Чтобы убедиться, открыт ли доступ, можно воспользоваться инструментом проверки доступа от OpenAI: https://platform.openai.com/docs/gptbot.

Anthropic ClaudeBot

  • User-Agent: ClaudeBot, anthropic-ai
  • Предназначен для сбора публичного контента для улучшения ответов Claude (на базе Constitutional AI)

Особенности:

  • Учитывает настройки доступа и не будет сканировать те страницы сайта, которые вы запретили в файле robots.txt.
  • Сканирует менее агрессивно, чем GPTBot, поэтому частота сканирования средняя, в основном для доменов с высоким авторитетом.
  • Хорошо работает с длинными информативными страницами.
  • Может использовать общие боты типа CCBot и брать данные из Common Crawl или других агрегаторов.

Claude предпочитает авторитетные источники с естественным линк-профилем. Если ваш сайт упоминается в темах на хабах, в комментариях к аналитическим или техническим статьям — то шансы на его цитирование возрастут. Также мы заметили, что Claude «ценит» FAQ-блоки и аналитические разборы, а потому это может стать удобным форматом для интегрирования ссылок.

Что мешает сканированию:

  • Disallow: / в robots.txt для ClaudeBot.
  • Страницы, которые загружаются только через JavaScript (без SSR), поэтому стоит подумать о серверном рендеринге или статической генерации для ключевых страниц.
  • Отсутствие внешних линков на страницу (низкая discoverability).
  • IP-ограничения (бот работает из облачной инфраструктуры и может быть заблокирован).

Проверьте доступность в server logs (ищите ClaudeBot). Используйте инструменты, как Loggly, Logtail, или web-аналитику с краулер-логами, чтобы убедиться, что ClaudeBot «видит» содержимое сайта.

Google AI (Gemini, Bard) Google-Extended

  • User-Agent: Google-Extended
  • Предназначен, чтобы собирать данные для моделей Gemini и функций SGE (Search Generative Experience)

Особенности:

  • Краулинг происходит при участии стандартного Googlebot, данные применяются для «AI-укороченных» ответов, а не только для классического поиска.
  • Можно разрешить индексацию для поиска, но запретить для LLM.
  • Доступ настраивается отдельно от стандартного Googlebot.
  • Частота сканирования высокая и зависит от активности Googlebot (иногда ежедневно).

Если нужно, чтобы ссылка с сайта появлялась в AI-выдаче Google, лучше подумать о Google-авторитете E-E-A-T, внешних упоминаниях и органическом трафике. Высока вероятность, что ссылки с авторитетных гестпостов (форумов, релевантных материалов, образовательных ресурсов) будут «втянуты» в LLM-выдачу через Google-Extended.

Что мешает сканированию:

  • Disallow:/ для Google-Extended.
  • Отсутствие разрешения в настройках Google Search Console (для использования данных в Gemini/SGE).
  • Труднодоступная структура сайта (глубоко вложенные страницы, плохая внутренняя перелинковка).
  • noindex/meta-запреты.

Проверьте robots.txt или Google Search Console → «Настройки» → «Использование контента для генеративного AI», чтобы узнать, разрешено ли использовать для обучения моделей и активирован ли доступ для Google-Extended.

AI-боты хуже доходят до страниц 3-4 уровня вложенности, поэтому позаботьтесь, о внутренних линках, чтобы краулеры нашли такую страницу.

PerplexityBot

  • User-Agent: PerplexityBot
  • Сканирует сайты для генерирования ответов в Perplexity.ai

Особенности:

  • Активно цитирует площадки со ссылкой и показывает источники прямо в выдаче с кликабельными линками.
  • Часто вытягивает 1-2 абзаца с релевантной информацией.
  • Учитывает настройки доступов в robots.txt, но не всегда однозначно (иногда все равно сканирует страницы, которые формально запрещены или может заходить под другим User-Agent'ом через прокси или с неочевидной идентификацией).
  • Сканирует активнее, чем GPTBot, особенно сайты, связанные с технологиями, бизнесом, аналитикой.

Это самый полезный бот для генерирования трафика из AI — в выдаче Perplexity все источники отображаются вместе со ссылками. А формат «тематический запрос — краткая аналитика — ссылка на сайт» — идеален для попадания в его ответ. Работает круто, если у вас есть аналитический блог, экспертные статьи или case study с цифрами.

Что мешает сканированию:

  • Запрет в robots.txt
  • JS-генерированный контент без SSR (бот берет только HTML на уровне первого рендера)
  • Доступ только через логин или paywall
  • Слабый траст домена или отсутствие обратных ссылок

Проверить доступность страницы для бота можно через raw HTML: curl -A "PerplexityBot" https://ваш сайт.com/ваша страница/. А также можно мониторить трафик краулеров через log-файлы или Cloudflare Logs (проверить user-agent).

Common Crawl / Amazon CCBot

  • User-Agent: CCBot/2.0 (+http://commoncrawl.org/faq/).
  • Предназначен для массового сканирования веба и сбора данных, которые затем используют открытые LLM (такие, как Meta, Amazon, Mistral и т.д.).

Особенности:

  • Архивирует весь публичный контент (только открытый текст).
  • Часто служит «сырьем» для многих моделей одновременно.
  • Может появляться на сайтах без явной привязки к конкретному LLM
  • Частота сканирования: раз в 30-60 дней.

Если ваш контент оказывается в датасетах Common Crawl, его могут использовать десятки LLM. Это значит, что даже устаревшая, но глубокая ссылка может «сохраниться» в памяти моделей и появиться в ответах спустя годы. Поэтому стоит работать над вечнозеленым контентом со ссылками.

Что мешает сканированию:

  • Disallow: / для CCBot в robots.txt
  • Контент доступен только с авторизацией
  • Очень частые редиректы или долгая загрузка страницы.
  • Отсутствие внешних упоминаний — CCBot в основном переходит по ссылкам с других сайтов.

Проверьте, есть ли сайт в Common Crawl: https://index.commoncrawl.org/. Можно также оттестить и в серверных логах: фильтр CCBot.

Если площадка попадает в Common Crawl или активно сканируется GPTBot/PerplexityBot, размещение на таком сайте имеет более высокую вероятность попасть в AI-ответы. Поэтому полезно проверять площадки на наличие в Common Crawl Index или по логам на активность GPTBot, ClaudeBot и т.д.

Дополнительно: технический чеклист для crawl-ready сайта

  • в robots.txt сканирование разрешено AI-ботам
  • sitemap.xml актуальный
  • Контент доступен без скриптов
  • Разметка Schema. org (особенно для FAQ, product, article)
  • Лог-файлы проверены на запросы AI-краулеров
  • Мета-теги без noai, noindex
  • Оптимизированная загрузка страниц (Core Web Vitals)

Вывод

Каждый краулер — GPTBot, ClaudeBot, PerplexityBot, Google-Extended или CCBot имеет свою логику и ограничения. Где-то достаточно разрешить доступ в robots.txt, где-то важны внешние упоминания, структурированный HTML или чистая семантика. И если хотя бы один технический барьер не снят (например, страница в noindex, или загружается только через JS) — ни один AI-бот ее не увидит.

Так что на стыке SEO и AI появляется новый тип видимости, а потому нелишне проверять площадки не только на траст, но и на доступность для AI-краулеров. Тогда ссылка будет работать и для SEO, и попадать в ответы ChatGPT, Gemini, Perplexity и генерировать трафик еще и оттуда.

Полезные материалы из этой статьи

Здесь всегда можете сохранить себе полезные детали из статьи
ВИДЕО
ССЫЛКИ
ИЗОБРАЖЕНИЯ
РЕКОМЕНДАЦИИ
Спасибо за подписку)