Robot Txt запрет индексации страницы

Когда и как нужно закрывать сайт от индексации

ddc462668394600d04f1778a466e6d0b

73dd1c2d24448bd35da796936ddd3198

ddc462668394600d04f1778a466e6d0b

73dd1c2d24448bd35da796936ddd3198

Индексация сайта поисковыми роботами — процесс сканирования и обработки данных этого сайта и добавления его в специальную базу для последующего ранжирования в выдаче. Именно благодаря индексации сайты попадают в поле видимости потенциальных клиентов. Однако иногда сайты или их отдельные страницы нужно закрывать от индексации. В этой статье рассмотрим, в каких случаях требуется это сделать, разберем способы скрытия ресурсов от поисковых краулеров и покажем, как узнать, закрыт ли сайт от индексации или нет.

Что нужно закрывать от индексации

Важно, чтобы в поисковой выдаче были исключительно целевые страницы, соответствующие запросам пользователей. Поэтому от индексации в обязательном порядке нужно закрывать:

1. Бесполезные для посетителей страницы или контент, который не нужно индексировать. В зависимости от CMS, это могут быть:

Способы закрытия сайта от индексации

Закрыть сайт или страницы сайта от поисковых краулеров можно следующими способами:

С помощью robots.txt

Robots.txt — текстовый файл, который поисковые краулеры посещают в первую очередь. Здесь для них прописываются указания — так называемые директивы.

Этот файл должен соответствовать следующим требованиям:

В robots.txt прописываются такие директивы:

Полный запрет сайта на индексацию в robots.txt

Вы можете запретить индексировать сайт как всем роботам поисковой системы, так и отдельно взятым. Например, чтобы закрыть весь сайт от робота Яндекса, который сканирует изображения, нужно прописать в файле следующее:

Чтобы закрыть для всех роботов:

Чтобы закрыть для всех, кроме указанного:

В данном случае, как видите, индексация доступна для роботов Яндекса.

Запрет на индексацию отдельных страниц и разделов сайта

Для запрета на индексацию одной страницы достаточно прописать ее URL-адрес (домен не указывается) в директиве файла:

Чтобы закрыть раздел или категорию:

Чтобы закрыть все, кроме указанной категории:

Чтобы закрыть все категории, кроме указанной подкатегории:

В качестве подкатегории здесь выступает «main».

Запрет на индексацию прочих данных

Чтобы скрыть директории, в файле нужно указать:

Чтобы скрыть всю директорию, за исключением указанного файла:

Чтобы скрыть UTM-метки:

Чтобы скрыть скриптовые файлы, нужно указать следующее:

По такому же принципу скрываются файлы определенного формата:

Через HTML-код

Запретить индексировать страницу можно также с помощью метатегов в блоке в HTML-коде.

Атрибут «content» здесь может содержать следующие значения:

Открывать и закрывать страницу и ее контент можно для краулеров определенной ПС. Для этого в атрибуте «name» нужно указать название робота:

Чтобы запретить индексировать страницу краулерам Google, нужно ввести:

Чтобы сделать то же самое в Яндексе:

На уровне сервера

Для краулеров Яндекса таким:

На WordPress

В процессе создания сайта на готовой CMS нужно закрывать его от индексации. Здесь мы разберем, как сделать это в популярной CMS WordPress.

Закрываем весь сайт

Закрыть весь сайт от краулеров можно в панели администратора: «Настройки» => «Чтение». Выберите пункт «Попросить поисковые системы не индексировать сайт». Далее система сама отредактирует файл robots.txt нужным образом.

083729926ef6db41ad8371055ceee409
Закрытие сайта от индексации через панель администратора в WordPress

Закрываем отдельные страницы с помощью плагина Yoast SEO

Чтобы закрыть от индексации как весь сайт, так и его отдельные страницы или файлы, установите плагин Yoast SEO.

Для запрета на индексацию вам нужно:

80c444466936d03b6017b93cff71b1a0
Закрытие от индексации с помощью плагина Yoast SEO

822ba60eda2cb13be98aee63ea64f1b7
Настройка режима индексации

Запретить индексацию сайта на WordPress можно также через файл robots.txt. Отметим, что в этом случае требуется особый подход к редактированию данного файла, так как необходимо закрыть различные служебные элементы: страницы рассылок, панели администратора, шаблоны и т.д. Если этого не сделать, в поисковой выдаче могут появиться нежелательные материалы, что негативно скажется на ранжировании всего сайта.

Как узнать, закрыт ли сайт от индексации

В Яндекс.Вебмастере

Для проверки вам нужно пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти кнопку «Инструменты», нажать и выбрать «Проверка ответа сервера».

bffdaa0be772d39083911eac4b2f0dea
Проверка возможности индексации страницы в Яндекс.Вебмастере

В специальное поле на открывшейся странице вставляем URL интересующей страницы. Если страница закрыта от индексации, то появится соответствующее уведомление.

e239fb2b5884b911cdf9fe3ee290f401
Так выглядит уведомление о запрете на индексацию страницы

Таким образом можно проверить корректность работы файла robots.txt или плагина для CMS.

В Google Search Console

e6a63435d08066f0275e8589f6c170b1
Проверка возможности индексации в Google Search Console

С помощью поискового оператора

Введите в поисковую строку следующее: site:https:// + URL интересующего сайта/страницы. В результатах вы увидите количество проиндексированных страниц и так поймете, индексируется ли сайт поисковой системой или нет.

97965c7e805cfe59a32830d1f89cfe43
Проверка индексации сайта в Яндексе с помощью специального оператора

7859f861e560576fdfbddb9e19ab2ace
Проверка индексации отдельной страницы

С помощью такого же оператора проверить индексацию можно и в Google.

С помощью плагинов для браузера

Мы рекомендуем использовать RDS Bar. Он позволяет увидеть множество SEO-показателей сайта, в том числе статус индексации страницы в основных поисковых системах.

07e9665d5fc614e804c40292c056bd9e
Плагин RDS Bar

Итак, теперь вы знаете, когда сайт или его отдельные страницы/элементы нужно закрывать от индексации, как именно это можно сделать и как проводить проверку, и можете смело применять новые знания на практике.

Источник

Чем меньше страниц индексируется тем больше трафика

При посещении сайта, поисковый робот использует ограниченое количество ресурсов для индексации. То есть поисковый робот за одно посещение может скачать определенное количество страниц. В зависимости от частоты обновления, объема, количества документов и многих других факторов, роботы могут приходить чаще и скачивать больше страниц.

Чем больше и чаще скачиваются страницы — тем быстрее информация с Вашего сайта попадает в поисковую выдачу. Кроме того, что страницы будут быстрее появляться в поиске, изменения в содержании документов также быстрее вступают в силу.

Быстрая индексация сайта

Быстрая индексация страниц сайта помогает бороться с воровством уникального контента, позволяет повысить релевантность страницы сайта за счет ее свежести и актуальности. Но самое главное. Более быстрая индексация позволяет отслеживать как те или иные изменения влияют на позиции сайта в поисковой выдаче.

Плохая, медленная индексация сайта

Почему сайт плохо индексируется? Причин может быть множество и вот основные причины медленной индексации сайта.

Есть и другие причины плохой индексации сайта. Однако, самой распространенной ошибкой является плохо настроенный robots.txt.

Убрать из индексации все лишнее

Существует множество возможностей рационально использовать ресурсы, которые выделяют поисковики на индексацию сайта. И широкие возможности для управления индексацией сайта открывает именно robots.txt.

Используя дерективы Allow, Disallow, Clean-param и другие, можно эффективно распределить не только внимание поискового робота, но и существенно снизить нагрузку на сайт.

Для начала, нужно исключить из индексации все лишнее, используя дерективу Disallow.

Например, запретим страницы логина и регистрации:

Запретим индексацию тегов:

Некоторых динамических страниц:

Или всех динамических страницы:

Или сведем на нет страницы с динамическими параметрами:

На многих сайтах, число страниц найденых роботом может отличаться от числа страниц в поиске в 3 и более раз. То есть, более 60% страниц сайта не участвуют в поиске и являются баластом, который нужно либо ввести в поиск, либо избавится от него. Исключив, нецелвые страницы и приблизив количество страниц в поиске к 100% вы увидите существенный прирост к скорости индексации сайта, рост позиций в поисковой выдаче и больше трафика.

Сбрасывайте ненужный баласт и быстрее идите в топ.

Добавить комментарий (1) Отменить ответ

vkontakte 6178070

Тут стоит отметить, что дополнительные нецелевые страницы повышают тематичность вашего ресурса, что в свою очередь положительно влияет на ранжирование ваших посадочных страниц. Единственное условие — действительно тематичность данных страниц. В случае, если страницы не относятся по тематике вашего сайта — лучше удалить для того, что бы не «разбавлять» тематику сайта.

Источник

Robots txt — как закрыть или открыть индексацию папок, файлов, страниц или всего сайта в целом

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Сегодня поговорим о важнейшем файле robots.txt, являющемся одним из краеугольных камней настройки индексации сайта как одного из аспектов его успешного продвижения в поисковых системах (для рунета наиболее значимыми являются Яндекс и Гугл, которым мы и уделим основное внимание).

Почему этот файлик настолько важен именно в наши дни и какую задачу он выполняет? Дело в том, что современное сайтостроение во многих случаях завязано на использовании той или иной системы управления контентом (CMS, или, по-простому, движков сайта). Это, в принципе, нужное изобретение, обладающее многочисленными плюсами и помогающее автоматизировать процесс.

robots

Но побочный эффект в работе CMS заключается в том, что они генерируют «мусорные» страницы, не несущие полезной информации для пользователей, попадание в индекс которых вполне может пагубно сказаться на ранжировании всего ресурса. Вот тогда-то и приходит на помощь тот самый robots.txt, который позволяет указать роботам поисковиков, сканирующим сайт, какие странички необходимо брать в индекс, а какие игнорировать.

Этот файл может иметь целую массу вариантов в зависимости от структуры сайта, его содержания и, конечно, типа CMS. Нельзя составить универсальный вариант для всех видов ресурсов, так как каждый из них обладает своими нюансами. Но если в дополнение к изучению этой публикации вы удосужитесь просмотреть статью, где даны примеры robots.txt для сайта WordPress, то наверняка сможете настроить файл роботс для любого проекта.

Значение robots txt и его связь с одноименным тегом

В статье об управлении индексированием ресурса (ссылка дана в самом начале статьи) я привел инструменты, которые в совокупности дают возможность произвести как грубую, так и тонкую настройку для каждой папки (раздела) и вебстраницы сайта. Напомню эти средства вкратце:

Среди этих инструментов хочу отметить связку файла роботс.тхт, в котором прописаны условия индексирования для всего сайта, и мета тега robots, позволяющего настроить индексацию для конкретной страницы. Напомню, что в HTML-коде синтаксис правила, с помощью которого можно запретить индексацию вебстраницы, выглядит следующим образом:

Все инструменты, перечисленные выше, вполне легитимные и принимаются практически всеми поисковыми системами, включая Yandex и Google. Я заговорил о связи robots.txt и одноименного метатега потому, что их взаимодействие помогает отключить индексацию для всех нужных страничек сайта, причем, гарантированно. Дело в том, что для разных поисковиков эти два средства имеют различный приоритет. Вот что говорит по этому поводу, например, Google:

2019 01 20 113811

Таким образом, файл роботс.тхт предназначен, прежде всего, для управления сканированием ботов Гугла. При этом для различных типов файлов находящиеся в нем запрещающие директивы действуют по-разному. Например, медиафайлы не только не будут обработаны, но и не появятся в результатах поиска. А вот в отношении вебстраниц все немного сложнее.

Дело в том, что веб-страницы могут быть представлены в поиске Google даже в том случае, если роботу Гугла запрещено их сканировать. Такое может произойти, ежели на других веб-ресурсах в интернете есть ссылки на эти странички. Поэтому, если вы пожелаете наверняка исключить их появление в поиске, надо использовать метатег роботс без запрета ее обработки в robots.txt.

Помните, что при наличии запрещающей директивы в robots.txt для той или иной страницы робот Google не сможет ее обработать, поэтому ему будет недоступен параметр noindex одноименного мета тега (даже если он указан), а значит, такая нежелательная вебстраница вполне может появиться в результате поиска.

Теоретически попадание в индекс страниц, не предназначенных посетителям, должно оказывать негативное влияние на раскрутку сайта в Гугле. Поэтому с целью систематизации для файлов и папок нужно ставить запрет в роботс.тхт, а для вебстраниц лучше использовать noindex.

Но на практике очень часто проекты, у которых в файле robots.txt запрещены для индексации все необходимые объекты, не испытывают серьезных трудностей и вполне себе успешны. Главное, что необходимо при этом выполнить — закрыть индексирование для всех нежелательных страниц тем или иным способом и открыть для тех, которые содержат полезный контент.

Таким образом, веб-проекты с разными принципами составления файла robots.txt продвигаются без проблем как в Яндексе (который не накладывает подобных ограничений), так и в Google. Но это на данный момент. Как будут работать их алгоритмы в дальнейшем, никто предсказать не в состоянии, поэтому я обязан был сообщить о всех нюансах.

Как составить роботс.тхт с помощью важнейших директив

Итак, переходим непосредственно к наполнению этого важнейшего файлика. Несмотря на то, что я стараюсь подробно освещать ключевые моменты данной темы, возможно, вам будут полезны данные, взятые из первоисточников, коими являются раздел помощи Яндекса и хелп Гугла.

Можно, конечно, использовать и распрекрасное приложение Notepad++ (здесь все о продвинутом блокноте), без которого не представляют себе своей деятельности многие вебмастера.

Формат, синтаксис и структура

Разберем вкратце его синтаксические и структурные особенности. Содержимое этого файла состоит из правил, каждое из которых включает несколько таких строчек (директив):

Каждая директива начинается с новой строки. В этой схеме «поле» — название соответствующей директивы, после чего идет двоеточие. Далее можно оставить пробел для лучшей читабельности (необязательно). Следующая часть — значение (параметр), вновь необязательный пробел и комментарии после знака решетки «#», которые вносятся для пояснения конкретной директивы.

В качестве значений указывается наименование агента (робота), которому надлежит выполнять следующие ниже директивы, а также файлы и папки, к которым они должны быть применены. Если вы вписываете несколько правил (записей), то они разделяются пустой строкой.

Наверное, лучше представить рисунок, отражающий выше сказанное, чтобы было понятнее:

2019 01 25 171414

Далее вкратце рассмотрим еще некоторые нюансы синтаксиса роботс тхт:

1. Каждый краулер, указанный в качестве параметра «User-agent» (Yandex, Googlebot и т.д.), выполняет только те записи директив (Disallow, Allow), которые прописываются именно для него в отдельном правиле (блоке, секции). Требования, предъявляемые к другим ботам, он игнорирует. Исключение составляет лишь межсекционная директива «Sitemap», которая отделяется пустой строкой от всех правил. О ней мы обязательно поговорим подробнее.

2. Необязательные комментарии, перед которыми должен ставиться знак решетки «#», могут находиться в любом месте файла. Содержимое комментариев не учитывается пауком, таким образом оно никак не влияет на результат индексации.

3. Регистр элемента может быть любым (записи «User-agent» и «user-agent», а также «Disallow» и «disallow» совершенно равнозначны). Элемент чувствителен к регистру, если он не принадлежит «User-agent» (например, «YandexBot» и «yandexBot» идентичны), а вот записи «Disallow: /procop/» и «Disallow: /Procop/» будут по-разному восприняты ботами, так что будьте внимательны.

И еще. В файле роботс запрещено напрямую использовать символы национальных алфавитов, в том числе русские буквы. Поэтому нужно перекодировать кириллицу в последовательность специальных символов. Но здесь есть один очень важный нюанс.

Например, для обозначения кириллических доменных имен, которые могут вносится в качестве параметров директивы Host (о которой мы еще порассуждаем), надо применять кодирование посредством Punycode. Поэтому домен русскими буквами, например, такой:

После преобразования в файле robots.txt будет выглядеть так:

А вот для отображения параметров в виде URL-адресов (путей) в абсолютном или относительном виде правильнее будет применять перекодировку urlencode, которую можно осуществить, скажем, в этом специализированном онлайн-сервисе. Тогда, например, директива:

В robots.txt примет такой вид:

Для настройки правил индексирования существует несколько директив, из них стандартными считаются Disallow (Allow) и User-agent, которые должны присутствовать в обязательном порядке хотя бы единожды. Только в этом случае роботс тхт будет считаться корректным.

Директива User-agent

Необходимо сказать еще несколько слов о роботах Яндекса и Гугла в контексте информации об этой директиве. Основные роботы (по-другому, боты, пауки или краулеры) данных поисковых систем носят название соответственно YandexBot и Googlebot.

Однако, существует еще целый ряд пауков, отвечающих за индексацию изображений, новостей и т.д. Здесь вы можете лицезреть список ботов для Яндекса, а здесь — для Google.

Данная директива содержит название робота той поисковой системы, для которого и прописаны правила. Например, для основного бота Яндекса строчка с «User-agent» выглядит так:

А вот если вы желаете дать указание сразу всем роботам, то эта директива уже будет такой:

В отношении Гугла ситуация немного другая. Ежели вы прописываете правила для основного робота этой поисковой системы, то они будут выполняться и остальными ботами Google:

Если указания предназначены для ботов всех поисковиков, то строка будет такой:

При необходимости запретить индексацию картинок в Гугле, например, в качестве значения user-agent вы указываете Googlebot-Image. Ну и так далее.

Директивы Disallow и Allow

Данные директивы, как было упомянуто выше, наряду с user-agent является обязательными и взаимоисключающими по своему смыслу (Disallow — запрещать, Allow — разрешать). Отмечу, что при указании их параметров используются регулярные выражения, которые формируются с помощью символов «*» и «$»:

Сначала это немного сложно уразуметь, особенно начинающим. Но, надеюсь, ниже следующие примеры, в которых присутствуют регулярные выражения, внесут полную ясность. Далее давайте разберем различные образцы использования Disallow и Allow.

1. Для того, чтобы разрешить полностью индексировать сайт всеми поисковиками, следует указать Disallow с пустыми параметрами:

Либо директиву Allow со значением «/» (слеш), который является обозначением корневого каталога, содержащего абсолютно все файлы сайта, которые и будут обработаны краулерами:

Эту запись в соответствии с синтаксисом регулярных выражений можно представить и так:

То есть, звездочка обычно опускается и просто подразумевается. Это правило действительно для всех случаев. Имейте это ввиду при изучении примеров, последующих дальше.

2. Полный запрет индексации сайта достигается также двумя путями, а именно, с помощью обратных предыдущим директив. Вот таким образом:

3. Вот как можно запретить обработку ботами определенного каталога:

При этом полный (абсолютный) путь до данной директории будет такой:

4. В примере, последующем ниже, запрещены к индексации файлы (изображения, вебстраницы и др.), входящие в директорию «premier», а также те объекты, пути до которых (URL) после слеша начинаются с этого набора символов:

То есть, под запрет попадут, скажем, файлы со следующими абсолютными ссылками (среди них могут быть вебстраницы):

Это происходит потому, что в конце значения директивы «/premier» по умолчанию присутствует символ «*», хотя он и не указан в реальности (читайте о регулярных выражениях в начале этой главы). Иначе говоря, приведенная выше запись абсолютно тождественна такой:

5. В соответствии с синтаксисом регулярных выражений знак «$», как мы уже знаем, отменяет действие «*». Заменим в предыдущей записи звездочку на символ доллара:

В этом случае запрет будет распространяться только на файл, к которому есть доступ по ссылке «site.ru/premier».

По умолчанию подразумевается звездочка в конце директивы (помните?):

А это означает запрет на абсолютно все файлики с этим расширением, включая веб-страницы, в ссылках на которые могут присутствовать различного рода параметры. Вот примеры полных путей на запрещенные объекты:

Для полного понимания приведу образцы ссылок на объекты, которые необходимо исключить из индекса (сравните с предыдущим примером):

Ну и парочка объектов, подпадающих под эту запрещающую директиву:

9. Далее рассмотрим пример совокупного использования Allow и Disallow. Допустим, что нам надо запретить обработку краулерами определенной директории, но разрешить индексацию входящих в нее определенных файлов (вебстраниц):

Директива Sitemap

В качестве параметра Sitemap указывается URL, или полный путь до файла с картой веб-проекта (линк на соответствующую статью о sitemap в формате XML есть в начале публикации), в которой находится систематизированный перечень всех страниц, разрешенных для сканирования ботами. Это еще один аспект ускорения индексации. В составе роботс.тхт это выглядит так:

Данная директива не связана с блоками, предназначенными конкретным краулерам (User-agent), поэтому она добавляется в конце через пустую строку и доступна для ботов всех поисковиков, которым предназначен robots.txt. Ежели ваш ресурс достиг приличного уровня, вследствие чего число URL в карте сильно возросло, то полезно будет добавить ссылку на сжатую версию карты:

В результате файл роботс примет такой облик:

Если же количество урлов в карте превысило 50 000 либо ее вес достиг 50 Мб, то рекомендуется создать несколько файлов Sitemap (можно в сжатом виде) и указать в качестве параметра ссылку на так называемый файл индекса (который может носить такое же имя, то есть «sitemap.xml»).

Еще один нюанс. Поскольку присутствие XML sitemap в открытом доступе, как считается, дает возможность для незаконных манипуляций со стороны третьих лиц (включая воровство контента), многие вебмастера маскируют карту сайта, давая ей мудреное название, состоящее из набора разных символов (что вполне легитимно) и не вписывают директиву Sitemap в роботс.тхт.

Это вполне допустимо, по крайней мере для Yandex и Google (а ведь в рунете именно они правят бал), которые не требуют обязательного присутствия директивы «Sitemap», потому что XML карту можно добавить в соответствующих панелях вебмастеров этих поисковых систем.

Host для Яндекса

Этот элемент предназначен для указания главного зеркала сайта (с www или без) и его понимают только роботы Яндекса, поэтому директива Host прописывается в блоке правил, предназначенных именно российскому поисковику. Причем, если сайт работает на протоколе HTTP, то указывают просто домен ресурса. Так:

В случае, ежели веб-проект имеет защищенный протокол, то в качестве параметра Host необходимо указывать полный урл. Так:

Таким образом можно было осуществлять выбор зеркала до недавнего времени.

На данный момент директива Host отменена в связи с некоторыми трудностями, которые часто возникали при переезде сайта. Теперь назначение главного зеркала происходит только при помощи 301 редиректа.

Подобное решение Яндекса позволило сделать шаг навстречу системному подходу и обобщению правил для поисковых систем, лидирующих в российском сегменте интернета, поскольку Google, как я отметил, никогда не учитывал директиву Host.

Clean-param

Дает указание краулерам не учитывать адреса с означенными параметрами, причем состоит из 2 частей: собственно параметра(-ов) и URL (пути) страниц, которые разделяет пробел. Синтаксис в развернутом виде можно представить так:

Например, в конце записи [путь] подразумевается символ «*» (даже если звездочка не стоит), причем, он играет точно такую же роль, как и для значения любой стандартной директивы. Вот пример запрета различных видов UTM-меток («utm_campaign», «utm_medium», «utm_source», «utm_term», «utm_content»), которые используются при отслеживании эффективности переходов пользователей по ссылкам) для страниц определенного раздела веб-ресурса:

И для всего проекта в целом (напомню, что простой слеш «/» означает корень сайта):

Хотя в этом случае вторую часть можно опустить:

В теории «Clean-param» возможно указывать в любом месте файла, потому как эта инструкция, наравне с «Sitemap», является межсекционной в понимании ботов Yandex. Но, поскольку она принимается только российским поисковиком, то вписывать ее следует в составе принадлежащего ему блока (иначе при проверке в том же Гугле файл роботс тхт может вызвать ошибки):

По сути эта директива помогает избавиться от дублирования. Ведь при использовании тех же меток (или GET-параметров) появляется целая куча вебстраниц с одинаковым содержанием, но с самыми разнообразными адресами:

В результате действия Clean-param именно первая страничка будет учтена и проиндексирована Яндексом, все остальные будут проигнорированы. Так как директива понимается исключительно «зеркалом рунета», то, мне кажется, более удачным вариантом будет применение rel=»canonical», который определяет основную вебстраницу и принимается обоими крупнейшими поисковиками.

Crawl-delay и расширенные директивы

Выше мы рассмотрели директивы, которые наиболее часто используются (или использовались ранее подобно Host). Осталось рассмотреть еще несколько, скорее, в качестве дополнительной информации, потому что они либо не учитываются ведущими поисковиками, либо уже отменены.

Crawl-delay — предназначена для систематизации нагрузки на сервер и указывает тайм-аут для слишком активных краулеров. В качестве параметра определяется время в секундах, при этом можно даже указывать дробные значения. Эта директива входит в группу правил для конкретного «User-agent», так как не все поисковые системы ее понимают (кстати, Гугл в их числе):

Указанное в данном примере время (1.5 секунды) робот Яндекса каждый раз должен «ожидать» перед обработкой следующей страницы. Совершенно очевидно, что для небольшого веб-ресурса данная директива излишня. Ну а для более крупных проектов она должна использоваться крайне осмотрительно, так как неверно проставленное значение способно привести к проблемам.

На данный момент Яндекс отказался от учета Crawl-delay. Это было сделано с целью ускорения появления новых страниц в поиске и их обновления, так как некорректно применяемые владельцами сайтов параметры часто замедляют скачивание документов. В качестве альтернативы создан инструмент «Скорость обхода» в панели вебмастеров.

В расширенной спецификации robots.txt встречается еще парочка директив, смысл которых понятен из следующих примеров:

Но они, насколько известно, сейчас не поддерживаются крупнейшими поисковыми системами. По крайней мере, Yandex и Google их точно игнорируют, а потому для продвижения в рунете они практически не нужны, по крайней мере, на данный момент.

Как создать правильный robots txt

Чтобы выполнить задачу, для начала нужно проанализировать структуру и содержание вашего сайта, решив, для каких типов объектов, включая вебстраницы, надо исключить попадание их в индекс, а для каких разрешить. Это поможет правильно настроить индексацию проекта.

Скажем, для стандартного современного информационного сайта или блога логично включить индексирование главной вебстраницы, рубрик, статей, постоянных страниц, которые содержат востребованный контент. Ну а отключить нужно то, что реально мешает:

1. Большинство создаваемых сегодня сайтов используют какие-либо движки (WordPress, Joomla и т.д.), в которых присутствует разные системные файлы и папки, а также созданные при помощи специальных функций вспомогательные страницы.

Все эти объекты не несут никакой полезной информации для пользователей, поэтому должны исключаться из индекса (конкретизировать и выдать универсальный список на все случаи жизни довольно сложно, но пример robots.txt для WP мы обязательно разберем).

Ежели этого не сделать, то, помимо всего прочего, огромное количество времени будет потрачено ботами на обработку всего этого «мусора» (с точки зрения полезности для посетителей), в итоге ценные материалы могут долго ожидать своей очереди. К тому же, бессистемно ползающие по закоулкам сайта поисковые пауки создадут приличную нагрузку на сервер, а это уже не шутки.

2. Еще одна задача — обеспечить уникальный контент на своем ресурсе и избежать дублей страниц, которые имеют одинаковое содержание, но располагаются по разным URL-адресам. Это можно сделать при помощи соответствующих значений директив Disallow и Clean-param (для Яндекса). Но, чтобы гарантированно этого достичь для обоих поисковиков, лучше определить канонические страницы посредством rel canonical. Комплексный подход тоже вполне реален.

Думаю, завершить теоретические выкладки надо примером готового роботс.тхт. Поскольку универсальный файл для всех сайтов, работающих на различных CMS, предоставить нереально, даю стандартный пример для движка WordPress, так как он является самым популярным в мире:

Но, так как алгоритмы поисковиков ввиду развития технологий меняются, этот вариант (который пока является рабочим), возможно, с течением времени можно будет считать устаревшим. Вы можете ознакомиться со всеми образцами robots.txt, включая тот, который составлен в полном соответствии с последними веяниями в области управления индексированием.

После того, как файл роботс.тхт с помощью выше изложенного матерала будет создан, его нужно будет закачать на сервер, где он должен располагаться в корневой директории сайта (это можно сделать посредством полезного FTP-менеджера FileZilla, ссылка на материал об этой программе в последней главе), поскольку правила, прописанные в нем, применяются ко всем файлам и папкам, то есть, его URL должен иметь такую структуру:

Любые другие варианты будут неверными и могут привести к хаосу при настройке индексации. Поэтому после создания и загрузки на сервер, где хостится ваш сайт, обязательно введите в поисковую строку представленный выше урл, только вместо «http://site.ru/» подставьте нужный протокол (возможно, вы используете «https») и доменное имя своего ресурса. Если содержание robots.txt откроется по указанному адресу, то и с этой стороны вы все сделали правильно.

Онлайн генераторы для создания robots.txt

Это вариант для ленивых или находящихся в постоянном цейтноте владельцев сайтов. Хотя лично я считаю, что ручная работа, особенно вкупе с человеческим интеллектом, который опережает «машинный разум» (несомненно имеющий свою плюсы) в некоторых важных аспектах, намного ценнее. Ну да ладно, как говорится, на вкус и на цвет.

В сети довольно много генераторов, с помощью которых можно создать файл роботс тхт онлайн. Все они имеют примерно схожий функционал, поэтому я выбрал один такой инструмент, который принадлежит известному сервису PR-CY.ru, что обеспечит корректность сформированного файла:

2019 01 27 173123

Разрешаете всем ботам индексировать сайт (хотя нас интересуют, в первую очередь, Yandex и Google, это не повредит), напротив опции «с задержкой» оставляете значение «0», поскольку на данный момент оба рунетовских поисковика не поддерживают директиву Crawl-delay, а для настройки данной опции в их панелях вебмастеров есть альтернативный инструмент.

Загрузка файла на сервер, его анализ и проверка

Итак, неважно каким способом вы составили robots txt (вручную с учетом всех выше приведенных рекомендаций либо посредством онлайн генератора). Сохраненный файл затем надо закачать на сервер хостинга, где «живет» сайт. Напомню, что он должен находиться в корневой директории:

Выше уже было отмечено, что осуществить это можно с помощью ФТП-менеджера (на мой вкус самым удобным и функциональным из них является Файлзилла):

2019 01 27 194040

Тем, кто только начинает свою деятельность по вебмастерингу, сообщу, что для проверки роботс вы должны зарегистрироваться в сервисах Яндекс Вебмастер и Google Search Console с тем, чтобы использовать полезные инструменты в том числе для анализа robots.txt своих сайтов.

Чтобы проверить созданный файл как на корректность его синтаксиса, так и на соответствие результата действия директив для различных групп страниц сайта, нужно проделать следующие шаги, предварительно войдя в панель вебмастеров упомянутых гигантов поиска.

1. В сервисе вебмастеров Яндекса

Вставьте в окно редактора содержимое вашего варианта роботс.тхт, находящегося в корне сайта, и нажмите кнопку «Проверить»:

2019 01 28 162531

Ниже вы получите результаты синтаксической проверки с сообщением о количестве ошибок:

2019 01 28 162739

Чтобы проанализировать, правильно ли настроена индексация всех URL (запрет или разрешение), не нужно указывать ссылки на абсолютно все страницы вебсайта. Просто поочередно введите по одному урлу, каждый из которых ведет на вебстраничку, представляющую ту или иную группу в зависимости от структуры ресурса (например, для блога это главная, рубрики, статические страницы и вебстарницы со статьями):

2019 01 27 220829

После нажатия соответствующей кнопочки появятся итоги анализа. Вполне возможно, что Яндекс забракует ваш robots.txt с точки зрения синтаксиса. Также вы можете обнаружить, что URL, которые вы планировали открыть для индексирования, заблокированы, или наоборот, к тем, которые должны быть закрыты, робот имеет доступ.

В этом случае у вас есть возможность поэкспериментировать в этом же редакторе Я.Вебмастера, изменяя содержимое и тут же каждый раз производя проверку, пока не добьетесь необходимого результата. Затем вы сможете скачать окончательный вариант файла на компьютер, после чего загрузить новую версию на сервер. Очень удобно.

2. В Google Search Console (Гугл Вебмастер) шаги аналогичные, конечно, со своими нюансами.

Точно также, как в Яндекс Вебмастере, вы можете вставить содержание будущего robots.txt, которое было составлено в том числе на рекомендациях, предоставленных в этой публикации, в редактор и проверить его. Но для начала лучше проанализировать на корректность все группы страничек, вводя их URL по очереди в соответствующее поле:

2019 01 28 171223

Если вас все устроило, то перейдите наверх к окну редактора и нажмите кнопку «Отправить», после чего появится окно, где указаны 3 шага, которые вы должны совершить для проверки:

2019 01 28 165802

Скачиваете отредактированный должным образом файлик с Search Console к себе на компьютер, добавляете его в корневой каталог сайта, проверьте, как он выглядит в браузере (доступен ли он для пауков Google) и сообщаете об его обновлении. Если после этих телодвижений возникли какие-то ошибки, проанализируйте их, вновь внесите необходимые изменения в том же окне и повторите выше описанные шаги, пока не добьетесь полного отсутствия ошибок:

2019 01 28 170656

Это будет означать, что robots txt полностью корректен во всех аспектах. Чтобы уж полностью избежать всех возможных белых пятен по теме, изучите материал в формате видео:

Источник