Google перестанет поддерживать Robots.txt Noindex: что это значит для вас

С 1 сентября 2019 года Google больше не будет поддерживать директиву robots.txt, относящуюся к индексации. Это означает, что Google начнет индексировать ваши веб-страницы, если вы полагались только на директиву robots.txt noindex для удаления этих страниц из поисковой выдачи. Вы должны до первого сентября удалить его и использовать другой метод.

Что такое noindex robots.txt? Это тег (обычно в HTML) в вашем файле robots.txt, который запрещает поисковым системам включать эту страницу в SERP.

Почему Google больше не поддерживает это? Потому что директива noindex robots.txt не является официальной директивой. И, как говорит Google:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим релизам с открытым исходным кодом мы удаляем весь код, который обрабатывает неподдерживаемые и неопубликованные правила (такие как noindex) 1 сентября 2019 года».

Последние обновления Google

В 2019 году Google занимался выпуском множества обновлений. Наиболее значимые из них:

    Обновление ядра за июнь 2019 года. Google опубликовал официальное заявление, в котором говорилось: «Завтра мы выпускаем широкое обновление основного алгоритма, как мы делаем это несколько раз в год. Это называется базовым обновлением за июнь 2019 года. Наше руководство по таким обновлениям остается прежним».

Обновление разнообразия. Это меньшее июньское обновление больше всего влияет на транзакционный поиск. Согласно обновлению, Google теперь стремится возвращать результаты с уникальных доменов и больше не будет отображать более двух результатов с одного домена.
     Март 2019 года обновление ядра. Это еще одно общее изменение в его алгоритме. Google подтвердил это обновление, но не назвал его, поэтому его называют обновлением Florida 2 или обновлением ядра Google 3/12. Для этого обновления не было дано никаких новых указаний.

Прощай, директива Google Robots.txt Noindex

Теперь, в июле 2019 года, Google предложил цену на недокументированные и неподдерживаемые правила в файле robots.txt. Это то, что Google написал в Твиттере 2 июля 2019 года:

Если ваш веб-сайт использует директиву noindex в файле robots.txt, вам нужно использовать другие параметры. Согласно заявлению, опубликованному в официальном блоге Google для веб-мастеров:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы удалим весь код, который обрабатывает неподдерживаемые и неопубликованные правила (такие как noindex) 1 сентября 2019 года».

Причина отмены поддержки robots.txt noindex также обсуждалась в блоге Google:

«В частности, мы сосредоточились на правилах, не поддерживаемых интернет-проектом, таких как задержка сканирования, nofollow и noindex. Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень низкое. Копаясь дальше, мы увидели, что их использование противоречило другим правилам во всех файлах robots.txt в интернете, кроме 0,001%. Эти ошибки вредят присутствию веб-сайтов в результатах поиска Google так, как мы думаем, вебмастера не предназначены ».
Robots.txt — Протокол исключения роботов (REP)

Протокол исключения роботов (REP), более известный как Robots.txt, используется с 1994 года, но никогда не превращался в официальный интернет-стандарт. Но без надлежащего стандарта и веб-мастера, и сканеры были смущены тем, что сканируется. Кроме того, REP никогда не обновлялся, чтобы охватить сегодняшние угловые случаи.

Согласно официальному блогу Google:

«REP никогда не превращался в официальный интернет-стандарт, а это означает, что разработчики интерпретировали протокол несколько иначе. И с момента своего создания, REP не был обновлен, чтобы покрыть сегодняшние угловые случаи. Это сложная проблема для владельцев веб-сайтов, потому что неоднозначный де-факто стандарт затруднил правильное написание правил ».

Чтобы покончить с этой путаницей, Google задокументировал, как REP используется в Интернете, и отправил его в IETF (Целевую группу по интернет-разработкам), которая является Организацией открытых стандартов для улучшения работы Интернета.

Google сказал в официальном заявлении:

«Мы хотели помочь владельцам веб-сайтов и разработчикам создавать удивительные возможности в Интернете, а не беспокоиться о том, как управлять сканерами. Вместе с первоначальным автором протокола, веб-мастерами и другими поисковыми системами мы задокументировали, как REP используется в современной сети, и отправили его в IETF ».
Что это значит для вас

Если вы используете noindex в файле robots.txt, Google больше не будет соблюдать его. Они чтят некоторые из этих реализаций, хотя Джон Мюллер напоминает нам:

Вы увидите уведомление в консоли поиска Google, если продолжите использовать noindex в своих файлах robots.txt.

Альтернативы использованию директивы индексирования Robots.txt

Если ваш веб-сайт по-прежнему использует директиву robots.txt noindex, это необходимо изменить, поскольку роботы Google не будут следовать правилам директивы начиная с 1 сентября 2019 года. Но что вместо этого следует использовать? Вот несколько альтернатив:
1) Блокировка индексации поиска с помощью метатега noindex

Чтобы запретить поисковым системам индексировать страницу, вы можете использовать метатег noindex и добавить его в раздел <head> своей страницы.

<meta name = ”robots” content = ”noindex”>

В качестве альтернативы вы можете использовать заголовки ответа HTTP с тегом X-Robots, указывающим сканерам не индексировать страницу:

HTTP / 1.1 200 ОК

(…)

X-Robots-Tag: noindex
2) Используйте коды состояния HTTP 404 и 410

410 — это код состояния, который возвращается, когда целевой ресурс больше не доступен на исходном сервере.

Как указывает HTTPstatuses:

«Ответ 410 в первую очередь предназначен для оказания помощи задаче веб-обслуживания, уведомляя получателя о том, что ресурс намеренно недоступен и что владельцы серверов желают удалить удаленные ссылки на этот ресурс».

404 похож на код состояния 410. По словам Джона Мюллера:

«С нашей точки зрения, в среднесрочной / долгосрочной перспективе 404 — это то же самое, что и 410 для нас. Таким образом, в обоих случаях мы удаляем эти URL из нашего индекса.

Как правило, мы уменьшаем количество просматриваемых URL-адресов, чтобы не тратить слишком много времени на то, что, как мы знаем, не существует.

Тонкое отличие здесь в том, что 410 иногда выпадают немного быстрее, чем 404. Но обычно мы говорим порядка пары дней или около того.

Так что, если вы просто удаляете контент естественным образом, то прекрасно использовать любой из них. Если вы уже удалили этот контент давно, то он уже не проиндексирован, поэтому для нас не имеет значения, используете ли вы 404 или 410 ».
3) Используйте защиту паролем

Вы можете скрыть страницу за логинами, потому что Google не индексирует страницы, которые скрыты за платным контентом или логинами.
4) Запретить роботов с помощью Robots.txt

Вы можете использовать директиву disallow в файле robots.txt, чтобы поисковые системы запретили индексирование выбранных вами страниц, что просто означает, что вы говорите поисковым системам не сканировать определенную страницу.

По словам Google:

«Хотя поисковая система может также индексировать URL на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем».
5) Используйте инструмент удаления URL консоли поиска

Вы можете использовать инструмент удаления URL консоли поиска, чтобы временно удалить URL из результатов поиска. Этот блок будет длиться 90 дней. Если вы хотите сделать блок постоянным, то вы можете использовать любой из четырех методов, предложенных выше.

Последнее слово

Если вы хотите узнать больше о том, как удалить свой контент из результатов поиска Google, перейдите в Справочный центр Google.