Когда и как нужно закрывать сайт от индексации
Индексация сайта поисковыми роботами — процесс сканирования и обработки данных этого сайта и добавления его в специальную базу для последующего ранжирования в выдаче. Именно благодаря индексации сайты попадают в поле видимости потенциальных клиентов. Однако иногда сайты или их отдельные страницы нужно закрывать от индексации. В этой статье рассмотрим, в каких случаях требуется это сделать, разберем способы скрытия ресурсов от поисковых краулеров и покажем, как узнать, закрыт ли сайт от индексации или нет.
Что нужно закрывать от индексации
Важно, чтобы в поисковой выдаче были исключительно целевые страницы, соответствующие запросам пользователей. Поэтому от индексации в обязательном порядке нужно закрывать:
1. Бесполезные для посетителей страницы или контент, который не нужно индексировать. В зависимости от CMS, это могут быть:
Способы закрытия сайта от индексации
Закрыть сайт или страницы сайта от поисковых краулеров можно следующими способами:
С помощью robots.txt
Robots.txt — текстовый файл, который поисковые краулеры посещают в первую очередь. Здесь для них прописываются указания — так называемые директивы.
Этот файл должен соответствовать следующим требованиям:
В robots.txt прописываются такие директивы:
Полный запрет сайта на индексацию в robots.txt
Вы можете запретить индексировать сайт как всем роботам поисковой системы, так и отдельно взятым. Например, чтобы закрыть весь сайт от робота Яндекса, который сканирует изображения, нужно прописать в файле следующее:
Чтобы закрыть для всех роботов:
Чтобы закрыть для всех, кроме указанного:
В данном случае, как видите, индексация доступна для роботов Яндекса.
Запрет на индексацию отдельных страниц и разделов сайта
Для запрета на индексацию одной страницы достаточно прописать ее URL-адрес (домен не указывается) в директиве файла:
Чтобы закрыть раздел или категорию:
Чтобы закрыть все, кроме указанной категории:
Чтобы закрыть все категории, кроме указанной подкатегории:
В качестве подкатегории здесь выступает «main».
Запрет на индексацию прочих данных
Чтобы скрыть директории, в файле нужно указать:
Чтобы скрыть всю директорию, за исключением указанного файла:
Чтобы скрыть UTM-метки:
Чтобы скрыть скриптовые файлы, нужно указать следующее:
По такому же принципу скрываются файлы определенного формата:
Через HTML-код
Запретить индексировать страницу можно также с помощью метатегов в блоке в HTML-коде.
Атрибут «content» здесь может содержать следующие значения:
Открывать и закрывать страницу и ее контент можно для краулеров определенной ПС. Для этого в атрибуте «name» нужно указать название робота:
Чтобы запретить индексировать страницу краулерам Google, нужно ввести:
Чтобы сделать то же самое в Яндексе:
На уровне сервера
Для краулеров Яндекса таким:
На WordPress
В процессе создания сайта на готовой CMS нужно закрывать его от индексации. Здесь мы разберем, как сделать это в популярной CMS WordPress.
Закрываем весь сайт
Закрыть весь сайт от краулеров можно в панели администратора: «Настройки» => «Чтение». Выберите пункт «Попросить поисковые системы не индексировать сайт». Далее система сама отредактирует файл robots.txt нужным образом.
Закрытие сайта от индексации через панель администратора в WordPress
Закрываем отдельные страницы с помощью плагина Yoast SEO
Чтобы закрыть от индексации как весь сайт, так и его отдельные страницы или файлы, установите плагин Yoast SEO.
Для запрета на индексацию вам нужно:
Закрытие от индексации с помощью плагина Yoast SEO
Настройка режима индексации
Запретить индексацию сайта на WordPress можно также через файл robots.txt. Отметим, что в этом случае требуется особый подход к редактированию данного файла, так как необходимо закрыть различные служебные элементы: страницы рассылок, панели администратора, шаблоны и т.д. Если этого не сделать, в поисковой выдаче могут появиться нежелательные материалы, что негативно скажется на ранжировании всего сайта.
Как узнать, закрыт ли сайт от индексации
В Яндекс.Вебмастере
Для проверки вам нужно пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти кнопку «Инструменты», нажать и выбрать «Проверка ответа сервера».
Проверка возможности индексации страницы в Яндекс.Вебмастере
В специальное поле на открывшейся странице вставляем URL интересующей страницы. Если страница закрыта от индексации, то появится соответствующее уведомление.
Так выглядит уведомление о запрете на индексацию страницы
Таким образом можно проверить корректность работы файла robots.txt или плагина для CMS.
В Google Search Console
Проверка возможности индексации в Google Search Console
С помощью поискового оператора
Введите в поисковую строку следующее: site:https:// + URL интересующего сайта/страницы. В результатах вы увидите количество проиндексированных страниц и так поймете, индексируется ли сайт поисковой системой или нет.
Проверка индексации сайта в Яндексе с помощью специального оператора
Проверка индексации отдельной страницы
С помощью такого же оператора проверить индексацию можно и в Google.
С помощью плагинов для браузера
Мы рекомендуем использовать RDS Bar. Он позволяет увидеть множество SEO-показателей сайта, в том числе статус индексации страницы в основных поисковых системах.
Плагин RDS Bar
Итак, теперь вы знаете, когда сайт или его отдельные страницы/элементы нужно закрывать от индексации, как именно это можно сделать и как проводить проверку, и можете смело применять новые знания на практике.
Как закрыть сайт от индексации в robots.txt
Есть тысяча и одна причина, почему необходимо отключить индексацию части или всех страниц вашего сайта. Составим подробную инструкцию: как это сделать и какие варианты настроек индексирования сайта доступны.
Итак, в то время как все ресурсы мира гонятся за вниманием поисковых роботов ради вхождения в ТОП, вы решили скрыться от индексирования. На самом деле для этого может быть масса объективных причин. Например, сайт в разработке или проводится редизайн интерфейса.
Обратите внимание: можно запретить индексирование сайта целиком или отдельных его блоков или страниц. Для этого на помощь приходит служебный файл robots.txt.
Когда закрывать сайт целиком, а когда — его отдельные части?
Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Если ресурс имеет большое количество служебной информации, делайте закрытый портал или закрывайте страницы и целые разделы.
Желательно запрещать индексацию так называемых мусорных страниц. Это старые новости, события и мероприятия в календаре. Если у вас интернет-магазин, проверьте, чтобы в поиске не оказались устаревшие акции, скидки и информация о товарах, снятых с продажи. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.
Лучше скрыть также всплывающие окна и баннеры, скрипты, размещенные на сайте файлы, особенно если последние много весят. Это уменьшит время индексации в целом, что положительно воспринимается поиском, и снизит нагрузку на сервер.
Как узнать, закрыт ресурс или нет?
Чтобы точно знать, идет ли индексация robots txt, сначала проверьте: возможно, закрытие сайта или отдельных страниц уже осуществлено? В этом помогут сервисы поисковиков Яндекс.Вебмастер и Google Search Console. Они покажут, какие url вашего сайта индексируются. Если сайт не добавлен в сервисы поисковиков, можно использовать бесплатный инструмент «Определение возраста документа в Яндексе» от Пиксел Тулс.
Закрываем сайт и его части: пошаговая инструкция.
Как полностью закрыть сайт в роботс?
Приведем пример закрытия сайта для основных роботов. Все вместе они обозначаются значком *.
Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. При этом также указывайте запрет для индексации всем роботам или тем из них, кто ищет картинки, видео и т.п. Например, указание Яндексу не засылать к вам поиск картинок будет выглядеть как
Здесь YandexImages — название робота Яндекса, который ищет изображения. Полные списки роботов можно посмотреть в справке поисковых систем.
Как закрыть отдельные разделы/страницы или типы контента?
Выше мы показали, как запрещать основным или вспомогательным роботам заходить на сайт. Можно сделать немного по-другому: не искать имена роботов, отвечающих за поиск картинок, а запретить всем роботам искать на сайте определенный тип контента. В этом случае в директиве Disallow: / указываете либо тип файлов по модели *.расширениефайлов, либо относительный адрес страницы или раздела.
Прячем ненужные ссылки
Иногда скрыть от индексирования нужно ссылку на странице. Для этого у вас есть два варианта.
Данный атрибут рекомендует роботу не принимать ссылку во внимание. В этом случае запрет индексации работает и тогда, когда поисковая система находит ссылку не через страницу, где переход закрыт в HTML-коде.
Как закрыть сайт через мета-теги
Существуют два варианта записи мета-тега.
Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название: Googlebot, Яндекс.
Поле “content” из 1 варианта может иметь следующие значения:
Таким образом, можно запретить индексацию содержимого сайта независимо от файла robots.txt при помощи content=”noindex, follow”. Или разрешить ее частично: например, вы хотите не индексировать текст, а ссылки — пожалуйста. Используйте для разных случаев сочетания значений.
Если закрыть сайт от индексации через мета-теги, создавать robots.txt отдельно не нужно.
Какие встречаются ошибки
Логические ошибки означают, что правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в панелях инструментах Яндекс.Вебмастер и Google, прежде чем загрузить его на сайт..
Синтаксические — неправильно записаны правила в файле.
Как закрыть сайт от индексации поисковых систем: 5 проверенных способов
Очень часто требуется закрыть сайт от индексации, например при его разработке, чтобы ненужная информация не попала в индекс поисковых систем или по другим причинам. При этом есть множество способов, как это можно сделать, все их мы и рассмотрим в этой статье.
Зачем сайт закрывают для индекса?
Есть несколько причин, которые заставляют вебмастеров скрывать свои проекты от поисковых роботов. Зачастую к такой процедуре они прибегают в двух случаях:
Не думайте, что если ваш ресурс только появился на свет и вы не отправили поисковикам ссылки для его индексации, то они его не заметят. Роботы помимо ссылок учитывают еще и ваши посещения через браузер.
Какие есть способы запрета индексации сайта?
1. Закрытие индексации через WordPress
Если сайт создан на базе WordPress, это ваш вариант. Скрыть проект от ботов таким образом проще и быстрее всего:
Благодаря встроенной функции, движок автоматически изменит robots.txt, откорректировав правила и отключив тем самым индексацию ресурса.
На заметку. Следует отметить, что окончательное решение, включать сайт в индекс или нет, остается за поисковиками, и ниже можно увидеть это предупреждение. Как показывает практика, с Яндексом проблем не возникает, а вот Google может продолжить индексировать документы.
2. Посредством файла robots.txt
Если у вас нет возможности проделать эту операцию в WordPress или у вас стоит другой движок сайта, удалить веб-сайт из поисковиков можно вручную. Это также реализуется несложно. Создайте обычный текстовый документ, разумеется, в формате txt, и назовите его robots.
Затем скиньте его в корневую папку своего портала, чтобы этот файл мог открываться по такому пути site.ru/robots.txt
Но сейчас он у вас пустой, поэтому в нем потребуется прописать соответствующие команды, которые позволят закрыть сайт от индексации полностью или только определенные его элементы. Рассмотрим все варианты, которые вам могут пригодиться.
Закрыть сайта полностью для всех поисковых систем
Укажите в robots.txt команду:
Это позволит запретить ботам всех поисковиков обрабатывать и вносить в базу данных всю информацию, находящуюся на вашем веб-ресурсе. Проверить документ robots.txt, как мы уже говорили, можно, введя в адресной строке браузера: Название__вашего_домена.ru/robots.txt. Если вы все сделали правильно, то увидите все, что указано в файле. Но если, перейдя по указанному адресу, вам выдаст ошибку 404, то, скорее всего, вы скинули файл не туда.
Отдельную папку
Так вы скроете все файлы, находящиеся в указанной папке.
Только в Яндексе
Чтобы перепроверить, получилось ли у вас удалить свой блог из Яндекса, добавьте его в Яндекс.Вебмастер, после чего зайдите в соответствующий раздел по ссылке https://webmaster.yandex.ru/tools/robotstxt/. В поле для проверки URL вставьте несколько ссылок на документы ресурса, и нажмите «Проверить». Если они скрыты от ботов, напротив них в результатах будет написано «Запрещено правилом /*?*».
Только для Google
Проверить, получилось ли сделать запрет, или нет, можно аналогичным способом, что и для Яндекса, только вам нужно будет посетить панель вебмастера Google Search Console. Если документ закрыт от поисковика, то напротив ссылки будет написано «Заблокировано по строке», и вы увидите ту самую строку, которая дала команду ботам не индексировать его.
Но с большой вероятностью вы можете увидеть «Разрешено». Здесь два варианта: либо вы что-то сделали неправильно, либо Google продолжает индексировать запрещенные в документе robots страницы. Я уже упоминал об этом выше, что для поисковых машин данный документ несет лишь рекомендационный характер, и окончательное решение по индексированию остается за ними.
Для других поисковиков
Все поисковики имеют собственных ботов с уникальными именами, чтобы вебмастера могли прописывать их в robots.txt и задавать для них команды. Представляем вашему вниманию самые распространенные (кроме Яндекса и Google):
Список имен всех ботов вы с легкостью найдете в интернете.
Скрыть изображения
Чтобы поисковики не могли индексировать картинки, пропишите такие команды (будут зависеть от формата изображения):
Закрыть поддомен
Любой поддомен содержит собственный robots.txt. Как правило, он находится в корневой для поддомена папке. Откройте документ, и непосредственно там укажите:
Если такого текстового документа в папке поддомена нет, создайте его самостоятельно.
3. С применением тега name=”robots”
4. В настройках сервера
5. С помощью HTTP заголовка X-Robots-Tag
Мы подробно расписали как этот способ настроить и использовать в нашей статье.
Как проверить индексацию сайта и страниц?
Заключение
Вне зависимости от того, по какой причине вы хотите закрыть сайт, отдельные его страницы или материалы от индексации, можете воспользоваться любым из перечисленных способов. Они простые в реализации, и на их настройку не потребуется много времени. Вы самостоятельно сможете скрыть нужную информацию от роботов, однако стоит учесть, что не все методы помогут на 100%.
Оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!
Рейтинг статьи: 5 / 5. Кол-во оценок: 10
Пока нет голосов! Будьте первым, кто оценит эту статью.
Robots txt — как закрыть или открыть индексацию папок, файлов, страниц или всего сайта в целом
Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Сегодня поговорим о важнейшем файле robots.txt, являющемся одним из краеугольных камней настройки индексации сайта как одного из аспектов его успешного продвижения в поисковых системах (для рунета наиболее значимыми являются Яндекс и Гугл, которым мы и уделим основное внимание).
Почему этот файлик настолько важен именно в наши дни и какую задачу он выполняет? Дело в том, что современное сайтостроение во многих случаях завязано на использовании той или иной системы управления контентом (CMS, или, по-простому, движков сайта). Это, в принципе, нужное изобретение, обладающее многочисленными плюсами и помогающее автоматизировать процесс.
Но побочный эффект в работе CMS заключается в том, что они генерируют «мусорные» страницы, не несущие полезной информации для пользователей, попадание в индекс которых вполне может пагубно сказаться на ранжировании всего ресурса. Вот тогда-то и приходит на помощь тот самый robots.txt, который позволяет указать роботам поисковиков, сканирующим сайт, какие странички необходимо брать в индекс, а какие игнорировать.
Этот файл может иметь целую массу вариантов в зависимости от структуры сайта, его содержания и, конечно, типа CMS. Нельзя составить универсальный вариант для всех видов ресурсов, так как каждый из них обладает своими нюансами. Но если в дополнение к изучению этой публикации вы удосужитесь просмотреть статью, где даны примеры robots.txt для сайта WordPress, то наверняка сможете настроить файл роботс для любого проекта.
Значение robots txt и его связь с одноименным тегом
В статье об управлении индексированием ресурса (ссылка дана в самом начале статьи) я привел инструменты, которые в совокупности дают возможность произвести как грубую, так и тонкую настройку для каждой папки (раздела) и вебстраницы сайта. Напомню эти средства вкратце:
Среди этих инструментов хочу отметить связку файла роботс.тхт, в котором прописаны условия индексирования для всего сайта, и мета тега robots, позволяющего настроить индексацию для конкретной страницы. Напомню, что в HTML-коде синтаксис правила, с помощью которого можно запретить индексацию вебстраницы, выглядит следующим образом:
Все инструменты, перечисленные выше, вполне легитимные и принимаются практически всеми поисковыми системами, включая Yandex и Google. Я заговорил о связи robots.txt и одноименного метатега потому, что их взаимодействие помогает отключить индексацию для всех нужных страничек сайта, причем, гарантированно. Дело в том, что для разных поисковиков эти два средства имеют различный приоритет. Вот что говорит по этому поводу, например, Google:
Таким образом, файл роботс.тхт предназначен, прежде всего, для управления сканированием ботов Гугла. При этом для различных типов файлов находящиеся в нем запрещающие директивы действуют по-разному. Например, медиафайлы не только не будут обработаны, но и не появятся в результатах поиска. А вот в отношении вебстраниц все немного сложнее.
Дело в том, что веб-страницы могут быть представлены в поиске Google даже в том случае, если роботу Гугла запрещено их сканировать. Такое может произойти, ежели на других веб-ресурсах в интернете есть ссылки на эти странички. Поэтому, если вы пожелаете наверняка исключить их появление в поиске, надо использовать метатег роботс без запрета ее обработки в robots.txt.
Помните, что при наличии запрещающей директивы в robots.txt для той или иной страницы робот Google не сможет ее обработать, поэтому ему будет недоступен параметр noindex одноименного мета тега (даже если он указан), а значит, такая нежелательная вебстраница вполне может появиться в результате поиска.
Теоретически попадание в индекс страниц, не предназначенных посетителям, должно оказывать негативное влияние на раскрутку сайта в Гугле. Поэтому с целью систематизации для файлов и папок нужно ставить запрет в роботс.тхт, а для вебстраниц лучше использовать noindex.
Но на практике очень часто проекты, у которых в файле robots.txt запрещены для индексации все необходимые объекты, не испытывают серьезных трудностей и вполне себе успешны. Главное, что необходимо при этом выполнить — закрыть индексирование для всех нежелательных страниц тем или иным способом и открыть для тех, которые содержат полезный контент.
Таким образом, веб-проекты с разными принципами составления файла robots.txt продвигаются без проблем как в Яндексе (который не накладывает подобных ограничений), так и в Google. Но это на данный момент. Как будут работать их алгоритмы в дальнейшем, никто предсказать не в состоянии, поэтому я обязан был сообщить о всех нюансах.
Как составить роботс.тхт с помощью важнейших директив
Итак, переходим непосредственно к наполнению этого важнейшего файлика. Несмотря на то, что я стараюсь подробно освещать ключевые моменты данной темы, возможно, вам будут полезны данные, взятые из первоисточников, коими являются раздел помощи Яндекса и хелп Гугла.
Можно, конечно, использовать и распрекрасное приложение Notepad++ (здесь все о продвинутом блокноте), без которого не представляют себе своей деятельности многие вебмастера.
Формат, синтаксис и структура
Разберем вкратце его синтаксические и структурные особенности. Содержимое этого файла состоит из правил, каждое из которых включает несколько таких строчек (директив):
Каждая директива начинается с новой строки. В этой схеме «поле» — название соответствующей директивы, после чего идет двоеточие. Далее можно оставить пробел для лучшей читабельности (необязательно). Следующая часть — значение (параметр), вновь необязательный пробел и комментарии после знака решетки «#», которые вносятся для пояснения конкретной директивы.
В качестве значений указывается наименование агента (робота), которому надлежит выполнять следующие ниже директивы, а также файлы и папки, к которым они должны быть применены. Если вы вписываете несколько правил (записей), то они разделяются пустой строкой.
Наверное, лучше представить рисунок, отражающий выше сказанное, чтобы было понятнее:
Далее вкратце рассмотрим еще некоторые нюансы синтаксиса роботс тхт:
1. Каждый краулер, указанный в качестве параметра «User-agent» (Yandex, Googlebot и т.д.), выполняет только те записи директив (Disallow, Allow), которые прописываются именно для него в отдельном правиле (блоке, секции). Требования, предъявляемые к другим ботам, он игнорирует. Исключение составляет лишь межсекционная директива «Sitemap», которая отделяется пустой строкой от всех правил. О ней мы обязательно поговорим подробнее.
2. Необязательные комментарии, перед которыми должен ставиться знак решетки «#», могут находиться в любом месте файла. Содержимое комментариев не учитывается пауком, таким образом оно никак не влияет на результат индексации.
3. Регистр элемента может быть любым (записи «User-agent» и «user-agent», а также «Disallow» и «disallow» совершенно равнозначны). Элемент чувствителен к регистру, если он не принадлежит «User-agent» (например, «YandexBot» и «yandexBot» идентичны), а вот записи «Disallow: /procop/» и «Disallow: /Procop/» будут по-разному восприняты ботами, так что будьте внимательны.
И еще. В файле роботс запрещено напрямую использовать символы национальных алфавитов, в том числе русские буквы. Поэтому нужно перекодировать кириллицу в последовательность специальных символов. Но здесь есть один очень важный нюанс.
Например, для обозначения кириллических доменных имен, которые могут вносится в качестве параметров директивы Host (о которой мы еще порассуждаем), надо применять кодирование посредством Punycode. Поэтому домен русскими буквами, например, такой:
После преобразования в файле robots.txt будет выглядеть так:
А вот для отображения параметров в виде URL-адресов (путей) в абсолютном или относительном виде правильнее будет применять перекодировку urlencode, которую можно осуществить, скажем, в этом специализированном онлайн-сервисе. Тогда, например, директива:
В robots.txt примет такой вид:
Для настройки правил индексирования существует несколько директив, из них стандартными считаются Disallow (Allow) и User-agent, которые должны присутствовать в обязательном порядке хотя бы единожды. Только в этом случае роботс тхт будет считаться корректным.
Директива User-agent
Необходимо сказать еще несколько слов о роботах Яндекса и Гугла в контексте информации об этой директиве. Основные роботы (по-другому, боты, пауки или краулеры) данных поисковых систем носят название соответственно YandexBot и Googlebot.
Однако, существует еще целый ряд пауков, отвечающих за индексацию изображений, новостей и т.д. Здесь вы можете лицезреть список ботов для Яндекса, а здесь — для Google.
Данная директива содержит название робота той поисковой системы, для которого и прописаны правила. Например, для основного бота Яндекса строчка с «User-agent» выглядит так:
А вот если вы желаете дать указание сразу всем роботам, то эта директива уже будет такой:
В отношении Гугла ситуация немного другая. Ежели вы прописываете правила для основного робота этой поисковой системы, то они будут выполняться и остальными ботами Google:
Если указания предназначены для ботов всех поисковиков, то строка будет такой:
При необходимости запретить индексацию картинок в Гугле, например, в качестве значения user-agent вы указываете Googlebot-Image. Ну и так далее.
Директивы Disallow и Allow
Данные директивы, как было упомянуто выше, наряду с user-agent является обязательными и взаимоисключающими по своему смыслу (Disallow — запрещать, Allow — разрешать). Отмечу, что при указании их параметров используются регулярные выражения, которые формируются с помощью символов «*» и «$»:
Сначала это немного сложно уразуметь, особенно начинающим. Но, надеюсь, ниже следующие примеры, в которых присутствуют регулярные выражения, внесут полную ясность. Далее давайте разберем различные образцы использования Disallow и Allow.
1. Для того, чтобы разрешить полностью индексировать сайт всеми поисковиками, следует указать Disallow с пустыми параметрами:
Либо директиву Allow со значением «/» (слеш), который является обозначением корневого каталога, содержащего абсолютно все файлы сайта, которые и будут обработаны краулерами:
Эту запись в соответствии с синтаксисом регулярных выражений можно представить и так:
То есть, звездочка обычно опускается и просто подразумевается. Это правило действительно для всех случаев. Имейте это ввиду при изучении примеров, последующих дальше.
2. Полный запрет индексации сайта достигается также двумя путями, а именно, с помощью обратных предыдущим директив. Вот таким образом:
3. Вот как можно запретить обработку ботами определенного каталога:
При этом полный (абсолютный) путь до данной директории будет такой:
4. В примере, последующем ниже, запрещены к индексации файлы (изображения, вебстраницы и др.), входящие в директорию «premier», а также те объекты, пути до которых (URL) после слеша начинаются с этого набора символов:
То есть, под запрет попадут, скажем, файлы со следующими абсолютными ссылками (среди них могут быть вебстраницы):
Это происходит потому, что в конце значения директивы «/premier» по умолчанию присутствует символ «*», хотя он и не указан в реальности (читайте о регулярных выражениях в начале этой главы). Иначе говоря, приведенная выше запись абсолютно тождественна такой:
5. В соответствии с синтаксисом регулярных выражений знак «$», как мы уже знаем, отменяет действие «*». Заменим в предыдущей записи звездочку на символ доллара:
В этом случае запрет будет распространяться только на файл, к которому есть доступ по ссылке «site.ru/premier».
По умолчанию подразумевается звездочка в конце директивы (помните?):
А это означает запрет на абсолютно все файлики с этим расширением, включая веб-страницы, в ссылках на которые могут присутствовать различного рода параметры. Вот примеры полных путей на запрещенные объекты:
Для полного понимания приведу образцы ссылок на объекты, которые необходимо исключить из индекса (сравните с предыдущим примером):
Ну и парочка объектов, подпадающих под эту запрещающую директиву:
9. Далее рассмотрим пример совокупного использования Allow и Disallow. Допустим, что нам надо запретить обработку краулерами определенной директории, но разрешить индексацию входящих в нее определенных файлов (вебстраниц):
Директива Sitemap
В качестве параметра Sitemap указывается URL, или полный путь до файла с картой веб-проекта (линк на соответствующую статью о sitemap в формате XML есть в начале публикации), в которой находится систематизированный перечень всех страниц, разрешенных для сканирования ботами. Это еще один аспект ускорения индексации. В составе роботс.тхт это выглядит так:
Данная директива не связана с блоками, предназначенными конкретным краулерам (User-agent), поэтому она добавляется в конце через пустую строку и доступна для ботов всех поисковиков, которым предназначен robots.txt. Ежели ваш ресурс достиг приличного уровня, вследствие чего число URL в карте сильно возросло, то полезно будет добавить ссылку на сжатую версию карты:
В результате файл роботс примет такой облик:
Если же количество урлов в карте превысило 50 000 либо ее вес достиг 50 Мб, то рекомендуется создать несколько файлов Sitemap (можно в сжатом виде) и указать в качестве параметра ссылку на так называемый файл индекса (который может носить такое же имя, то есть «sitemap.xml»).
Еще один нюанс. Поскольку присутствие XML sitemap в открытом доступе, как считается, дает возможность для незаконных манипуляций со стороны третьих лиц (включая воровство контента), многие вебмастера маскируют карту сайта, давая ей мудреное название, состоящее из набора разных символов (что вполне легитимно) и не вписывают директиву Sitemap в роботс.тхт.
Это вполне допустимо, по крайней мере для Yandex и Google (а ведь в рунете именно они правят бал), которые не требуют обязательного присутствия директивы «Sitemap», потому что XML карту можно добавить в соответствующих панелях вебмастеров этих поисковых систем.
Host для Яндекса
Этот элемент предназначен для указания главного зеркала сайта (с www или без) и его понимают только роботы Яндекса, поэтому директива Host прописывается в блоке правил, предназначенных именно российскому поисковику. Причем, если сайт работает на протоколе HTTP, то указывают просто домен ресурса. Так:
В случае, ежели веб-проект имеет защищенный протокол, то в качестве параметра Host необходимо указывать полный урл. Так:
Таким образом можно было осуществлять выбор зеркала до недавнего времени.
На данный момент директива Host отменена в связи с некоторыми трудностями, которые часто возникали при переезде сайта. Теперь назначение главного зеркала происходит только при помощи 301 редиректа.
Подобное решение Яндекса позволило сделать шаг навстречу системному подходу и обобщению правил для поисковых систем, лидирующих в российском сегменте интернета, поскольку Google, как я отметил, никогда не учитывал директиву Host.
Clean-param
Дает указание краулерам не учитывать адреса с означенными параметрами, причем состоит из 2 частей: собственно параметра(-ов) и URL (пути) страниц, которые разделяет пробел. Синтаксис в развернутом виде можно представить так:
Например, в конце записи [путь] подразумевается символ «*» (даже если звездочка не стоит), причем, он играет точно такую же роль, как и для значения любой стандартной директивы. Вот пример запрета различных видов UTM-меток («utm_campaign», «utm_medium», «utm_source», «utm_term», «utm_content»), которые используются при отслеживании эффективности переходов пользователей по ссылкам) для страниц определенного раздела веб-ресурса:
И для всего проекта в целом (напомню, что простой слеш «/» означает корень сайта):
Хотя в этом случае вторую часть можно опустить:
В теории «Clean-param» возможно указывать в любом месте файла, потому как эта инструкция, наравне с «Sitemap», является межсекционной в понимании ботов Yandex. Но, поскольку она принимается только российским поисковиком, то вписывать ее следует в составе принадлежащего ему блока (иначе при проверке в том же Гугле файл роботс тхт может вызвать ошибки):
По сути эта директива помогает избавиться от дублирования. Ведь при использовании тех же меток (или GET-параметров) появляется целая куча вебстраниц с одинаковым содержанием, но с самыми разнообразными адресами:
В результате действия Clean-param именно первая страничка будет учтена и проиндексирована Яндексом, все остальные будут проигнорированы. Так как директива понимается исключительно «зеркалом рунета», то, мне кажется, более удачным вариантом будет применение rel=»canonical», который определяет основную вебстраницу и принимается обоими крупнейшими поисковиками.
Crawl-delay и расширенные директивы
Выше мы рассмотрели директивы, которые наиболее часто используются (или использовались ранее подобно Host). Осталось рассмотреть еще несколько, скорее, в качестве дополнительной информации, потому что они либо не учитываются ведущими поисковиками, либо уже отменены.
Crawl-delay — предназначена для систематизации нагрузки на сервер и указывает тайм-аут для слишком активных краулеров. В качестве параметра определяется время в секундах, при этом можно даже указывать дробные значения. Эта директива входит в группу правил для конкретного «User-agent», так как не все поисковые системы ее понимают (кстати, Гугл в их числе):
Указанное в данном примере время (1.5 секунды) робот Яндекса каждый раз должен «ожидать» перед обработкой следующей страницы. Совершенно очевидно, что для небольшого веб-ресурса данная директива излишня. Ну а для более крупных проектов она должна использоваться крайне осмотрительно, так как неверно проставленное значение способно привести к проблемам.
На данный момент Яндекс отказался от учета Crawl-delay. Это было сделано с целью ускорения появления новых страниц в поиске и их обновления, так как некорректно применяемые владельцами сайтов параметры часто замедляют скачивание документов. В качестве альтернативы создан инструмент «Скорость обхода» в панели вебмастеров.
В расширенной спецификации robots.txt встречается еще парочка директив, смысл которых понятен из следующих примеров:
Но они, насколько известно, сейчас не поддерживаются крупнейшими поисковыми системами. По крайней мере, Yandex и Google их точно игнорируют, а потому для продвижения в рунете они практически не нужны, по крайней мере, на данный момент.
Как создать правильный robots txt
Чтобы выполнить задачу, для начала нужно проанализировать структуру и содержание вашего сайта, решив, для каких типов объектов, включая вебстраницы, надо исключить попадание их в индекс, а для каких разрешить. Это поможет правильно настроить индексацию проекта.
Скажем, для стандартного современного информационного сайта или блога логично включить индексирование главной вебстраницы, рубрик, статей, постоянных страниц, которые содержат востребованный контент. Ну а отключить нужно то, что реально мешает:
1. Большинство создаваемых сегодня сайтов используют какие-либо движки (WordPress, Joomla и т.д.), в которых присутствует разные системные файлы и папки, а также созданные при помощи специальных функций вспомогательные страницы.
Все эти объекты не несут никакой полезной информации для пользователей, поэтому должны исключаться из индекса (конкретизировать и выдать универсальный список на все случаи жизни довольно сложно, но пример robots.txt для WP мы обязательно разберем).
Ежели этого не сделать, то, помимо всего прочего, огромное количество времени будет потрачено ботами на обработку всего этого «мусора» (с точки зрения полезности для посетителей), в итоге ценные материалы могут долго ожидать своей очереди. К тому же, бессистемно ползающие по закоулкам сайта поисковые пауки создадут приличную нагрузку на сервер, а это уже не шутки.
2. Еще одна задача — обеспечить уникальный контент на своем ресурсе и избежать дублей страниц, которые имеют одинаковое содержание, но располагаются по разным URL-адресам. Это можно сделать при помощи соответствующих значений директив Disallow и Clean-param (для Яндекса). Но, чтобы гарантированно этого достичь для обоих поисковиков, лучше определить канонические страницы посредством rel canonical. Комплексный подход тоже вполне реален.
Думаю, завершить теоретические выкладки надо примером готового роботс.тхт. Поскольку универсальный файл для всех сайтов, работающих на различных CMS, предоставить нереально, даю стандартный пример для движка WordPress, так как он является самым популярным в мире:
Но, так как алгоритмы поисковиков ввиду развития технологий меняются, этот вариант (который пока является рабочим), возможно, с течением времени можно будет считать устаревшим. Вы можете ознакомиться со всеми образцами robots.txt, включая тот, который составлен в полном соответствии с последними веяниями в области управления индексированием.
После того, как файл роботс.тхт с помощью выше изложенного матерала будет создан, его нужно будет закачать на сервер, где он должен располагаться в корневой директории сайта (это можно сделать посредством полезного FTP-менеджера FileZilla, ссылка на материал об этой программе в последней главе), поскольку правила, прописанные в нем, применяются ко всем файлам и папкам, то есть, его URL должен иметь такую структуру:
Любые другие варианты будут неверными и могут привести к хаосу при настройке индексации. Поэтому после создания и загрузки на сервер, где хостится ваш сайт, обязательно введите в поисковую строку представленный выше урл, только вместо «http://site.ru/» подставьте нужный протокол (возможно, вы используете «https») и доменное имя своего ресурса. Если содержание robots.txt откроется по указанному адресу, то и с этой стороны вы все сделали правильно.
Онлайн генераторы для создания robots.txt
Это вариант для ленивых или находящихся в постоянном цейтноте владельцев сайтов. Хотя лично я считаю, что ручная работа, особенно вкупе с человеческим интеллектом, который опережает «машинный разум» (несомненно имеющий свою плюсы) в некоторых важных аспектах, намного ценнее. Ну да ладно, как говорится, на вкус и на цвет.
В сети довольно много генераторов, с помощью которых можно создать файл роботс тхт онлайн. Все они имеют примерно схожий функционал, поэтому я выбрал один такой инструмент, который принадлежит известному сервису PR-CY.ru, что обеспечит корректность сформированного файла:
Разрешаете всем ботам индексировать сайт (хотя нас интересуют, в первую очередь, Yandex и Google, это не повредит), напротив опции «с задержкой» оставляете значение «0», поскольку на данный момент оба рунетовских поисковика не поддерживают директиву Crawl-delay, а для настройки данной опции в их панелях вебмастеров есть альтернативный инструмент.
Загрузка файла на сервер, его анализ и проверка
Итак, неважно каким способом вы составили robots txt (вручную с учетом всех выше приведенных рекомендаций либо посредством онлайн генератора). Сохраненный файл затем надо закачать на сервер хостинга, где «живет» сайт. Напомню, что он должен находиться в корневой директории:
Выше уже было отмечено, что осуществить это можно с помощью ФТП-менеджера (на мой вкус самым удобным и функциональным из них является Файлзилла):
Тем, кто только начинает свою деятельность по вебмастерингу, сообщу, что для проверки роботс вы должны зарегистрироваться в сервисах Яндекс Вебмастер и Google Search Console с тем, чтобы использовать полезные инструменты в том числе для анализа robots.txt своих сайтов.
Чтобы проверить созданный файл как на корректность его синтаксиса, так и на соответствие результата действия директив для различных групп страниц сайта, нужно проделать следующие шаги, предварительно войдя в панель вебмастеров упомянутых гигантов поиска.
1. В сервисе вебмастеров Яндекса
Вставьте в окно редактора содержимое вашего варианта роботс.тхт, находящегося в корне сайта, и нажмите кнопку «Проверить»:
Ниже вы получите результаты синтаксической проверки с сообщением о количестве ошибок:
Чтобы проанализировать, правильно ли настроена индексация всех URL (запрет или разрешение), не нужно указывать ссылки на абсолютно все страницы вебсайта. Просто поочередно введите по одному урлу, каждый из которых ведет на вебстраничку, представляющую ту или иную группу в зависимости от структуры ресурса (например, для блога это главная, рубрики, статические страницы и вебстарницы со статьями):
После нажатия соответствующей кнопочки появятся итоги анализа. Вполне возможно, что Яндекс забракует ваш robots.txt с точки зрения синтаксиса. Также вы можете обнаружить, что URL, которые вы планировали открыть для индексирования, заблокированы, или наоборот, к тем, которые должны быть закрыты, робот имеет доступ.
В этом случае у вас есть возможность поэкспериментировать в этом же редакторе Я.Вебмастера, изменяя содержимое и тут же каждый раз производя проверку, пока не добьетесь необходимого результата. Затем вы сможете скачать окончательный вариант файла на компьютер, после чего загрузить новую версию на сервер. Очень удобно.
2. В Google Search Console (Гугл Вебмастер) шаги аналогичные, конечно, со своими нюансами.
Точно также, как в Яндекс Вебмастере, вы можете вставить содержание будущего robots.txt, которое было составлено в том числе на рекомендациях, предоставленных в этой публикации, в редактор и проверить его. Но для начала лучше проанализировать на корректность все группы страничек, вводя их URL по очереди в соответствующее поле:
Если вас все устроило, то перейдите наверх к окну редактора и нажмите кнопку «Отправить», после чего появится окно, где указаны 3 шага, которые вы должны совершить для проверки:
Скачиваете отредактированный должным образом файлик с Search Console к себе на компьютер, добавляете его в корневой каталог сайта, проверьте, как он выглядит в браузере (доступен ли он для пауков Google) и сообщаете об его обновлении. Если после этих телодвижений возникли какие-то ошибки, проанализируйте их, вновь внесите необходимые изменения в том же окне и повторите выше описанные шаги, пока не добьетесь полного отсутствия ошибок:
Это будет означать, что robots txt полностью корректен во всех аспектах. Чтобы уж полностью избежать всех возможных белых пятен по теме, изучите материал в формате видео: