Почему GOOGLE индексирует заблокированные веб-страницы

Почему Google индексирует заблокированные веб-страницы

Почему Google индексирует заблокированные веб-страницы

Blog Article



Джон Мюллер из Google объяснил, почему Google индексирует блокированные страницы, также почему отчеты Search Console, связанные с этим, можно безопасно пропускать.

Джон Мюллер из Google разъяснил на вопрос о том, почему Google индексирует страницы, которые запрещены для выполнения обхода с помощью файла robots.txt, и почему можно пропускать соответствующие отчеты Search Console об этих обходах.

Трафик ботов к URL-адресам с параметрами запроса

Человек, задающий вопрос, записал, что боты создают ссылки на несуществующие URL-адреса с параметрами запросов (?q=xyz) на страницы с мета-тегами noindex, которые также ограничены в robots.txt. Вопрос был вызван тем, что Google сканирует эти ссылки на страницы, блокируется в robots.txt (не наблюдая мета-тег noindex), а затем сообщает об этом в Google Search Console как "Индексируется, хотя заблокировано robots.txt."

Человек задал следующий вопрос:

"Но вот главный вопрос: почему Google индексирует страницы, когда он не может ознакомиться с содержимое? В чем тут выгода?"

Джон Мюллер из Google подтвердил, что если они не могут просканировать страницу, они не могут увидеть мета-тег noindex. Он также упомянул оператор site:search, посоветовав не учитывать результаты, потому что "средние" пользователи не наблюдают их.

Он написал:

"Да, вы правы: если мы не можем обойти страницу, мы не можем наблюдать noindex. Тем не менее, если мы не можем рикжаться страницы, для нас там мало что можно индексировать. Так что, хотя вы можете увидеть некоторые из этих страниц с помощью целевого запроса site:, средний пользователь их не заметит, поэтому я бы не беспокоился. Noindex также работает (без запрета в robots.txt), это просто означает, что URL-адреса будут просматриваться (и попадут в отчет Search Console как 'обойдены/не индексируются' — ни один из этих статусов не вызывает проблем для остальной части сайта). Важно, чтобы вы не делали их доступными для обхода и индексации."

Связанный: Google напоминает сайтам использовать файл robots.txt для блокировки URL-адресов действий.

Выводы:

1. Ответ Мюллера подтверждает недостатки использования оператора Site:search для диагностических целей. Одной из причин является то, что он не регламентирован с обычным поисковым индексом, это совсем отдельная штука.

Джон Мюллер из Google описал оператор site search в 2021 году:

"Короткий ответ заключается в том, что запрос site: не предназначен для исчерпывающего отображения, а также для диагностических целей.

Запрос site: — это определенный вид поиска, который ограничивает результаты конкретным веб-сайтом. Это, по сути, просто слово "site", двоеточие и затем домен веб-сайта.

Этот запрос уменьшает результаты конкретным веб-сайтом. Он не предназначен для того, чтобы быть исчерпывающей коллекцией всех страниц этого сайта."

Оператор site не показывает индекс поиска Google, что делает его ненадежным для выяснения того, какие страницы Google уже проиндексировал или нет. Как и другие операторы улучшенного поиска Google, они ненадежны как инструменты для понимания любых вопросов, связанных с тем, как Google оценивает или индексирует контент.

2. Мета-тег noindex без работы robots.txt подходит для таких ситуаций, когда бот создает ссылки на несуществующие страницы, которые идентифицируются Googlebot.

Мета-тег noindex на страницах, которые не закрываются в robots.txt, дает возможность Google просканировать страницу и распознать директиву noindex, гарантируя, что страница не отобразится в поисковом индексе, что удобно, если цель состоит в том, чтобы не разрешить страницу в поисковый индекс Google.

3. URL-адреса с мета-тегом noindex внесут в Search Console запись "обойдены/не индексируются", что не вызовет негативного влияния на остальную часть веб-сайта.

Эти записи в Search Console, в контексте страниц, которые специально заблокированы, лишь указывают на то, что Google просмотрел страницу, но не учел ее. По сути говоря, что это случилось, а не то, что (в этом данном контексте) есть что-то, что нужно скорректировать. Эта запись полезна для уведомления издателей о страницах, которые непреднамеренно заблокированы мета-тегом noindex или по какой-либо другой причине, препятствующей индексации страницы. Тогда это стоит выяснить.

Report this page