GPTBot, ClaudeBot, PerplexityBot — каждый из них имеет свою логику краулинга, частоту сканирования и свои требования к контенту. Поэтому все эти нюансы лучше учесть, чтобы не остаться без внимания моделей, которые формируют ответы в ChatGPT, Gemini, Claude и других LLM.
Как выглядит механика краулинга разных LLM, какие именно User-Agent используют эти модели, как часто заходят на страницы и что «читают» - рассказываем.
Какие есть основные LLM-краулеры и чем они особенные
Прежде чем оптимизировать сайт под AI-выдачу, стоит разобраться, «кто именно» его сканирует, чтобы не заблокировать случайно LLM-краулеры и размещать линки там, где их реально «увидит» AI. Далее — основные краулеры, которые собирают данные для моделей ChatGPT, Claude, Perplexity, Gemini, и что о них стоит знать.
OpenAI GPTBot
- User-Agent: GPTBot/1.0 (+https://openai.com/gptbot)
- Назначение: сбор публичных данных для тренировки моделей GPT (в частности GPT-4, GPT-4o).
Особенности:
- Не будет сканировать те страницы или разделы сайта, которые вы запретили в файле robots.txt.
- Игнорирует запрещенные или платные страницы.
- Можно разрешить или запретить частичный/полный доступ к сайту.
- Частота сканирования высокая на сайтах со структурированным, текстовым контентом.
GPTBot чаще выбирает контент с четкой структурой, без чрезмерной SEO-оптимизации. Ссылки в таких текстах имеют более высокий шанс быть «учтенными» в AI-выдаче. Ссылки в тексте, где есть пояснения, примеры, списки — работают лучше, чем ссылки в объявлениях или заголовках.
Что мешает сканированию:
- Disallow в robots.txt
- Отсутствие ответа HTTP 200 (например, редиректы или ошибки 403/404)
- Заблокированный доступ через брандмауэр или IP-фильтры
- Наличие заголовков X-Robots-Tag: noai или noindex
Чтобы убедиться, открыт ли доступ, можно воспользоваться инструментом проверки доступа от OpenAI: https://platform.openai.com/docs/gptbot.