htaccess запрет индексации сайта

Запрет индексации, robots и htaccess. Закрыть от индексации страницы, папки, поддомены, ссылки.

Запрет индексации, robots и htaccess. Закрыть от индексации страницы, папки, поддомены, ссылки.

Читайте так же — запрет индексации:

matt cuttsЗапрет индексации требуется в том случае, когда вы не хотите, чтобы ваша информация попала в результаты поисковой выдачи. Так же это бывает необходимо, если вы не хотите, чтобы страницы не передавали свой вес другим, на которые стоят ссылки. На самом деле, задачи запрета индексации страниц и ссылок имеют одинаковые верные решения. То есть, если вы хотите скрыть от роботов страницу, недостаточно скрыть ссылку на нее. Тем более недостаточно запретить индексацию в robots.txt, ведь роботы прекрасно проходят на такие страницы по внешним ссылкам с других сайтов.
А потом, к тому же, берут из общедоступных источников(например dmoz.org) тайтл, который может быть уже неактуален. Таким образом, страница попадает в выдачу. Атрибут rel = nofollow всего лишь не дает ссылке передать вес странице акцептору, но отнимает у донора. А, в случае внутренней перелинковки, может серьезно нарушить процесс распределения весов. В итоге, единственным эффективным методом является запрет индексации в htaccess, который описан ниже. Подобные рассуждения ведет Мэтт Каттс (Matt Cutts) руководитель Google’s Webspam team в небольшом видео-уроке.>>>

Если доступа к robots.txt нет, стоит использовать метатег noindex. Именно метатег.

Тег noindex иногда используют с целью оптимизации сниппетов, но в остальном пользы от него не замечено. Взамен объяснений дам ссылку на статью —

Запрет индексации ссылки в htaccess:

Для этого можно создать скриптик:

назвать его redirect.php и сохранить в папке http://mysite.ru/outlink/

Скрипту передавать параметр url:

Первый вариант – доступ к http://mysite.ru/outlink/ запретить роботам, как описано выше.

В htaccess задать страницу 403 ошибки или возвращать ее на главную:

ErrorDocument 403 http://mysite.ru/

Таким образом все будут переходить по адресу, заданному параметром url, но поисковые роботы будут попадать на главную, предварительно получив ответ:

302 Moved Permanently, Location: http://mysite.ru/;

Второй вариант – это в /outlink/.htaccess :

RewriteRule ^(.*)$ http://mysite.ru/? [L,R=301]

В этом случае робот получит ответ:

301 Moved Permanently, Location: http://mysite.ru/;

Третий вариант – в http://mysite.ru/outlink/.htaccess :
(кстати рекомендованный Мэттом Каттсом ;)

AuthType Basic
AuthName ‘BBEguTE 1 u 1′ //сообщение только на латинице
AuthUserFile /’путь от корня сервера’/outlink/.htpasswd
Require valid-user
//лишний пробел после //лишний пробел после
Из переменной DOCUMENT_ROOT => /home/www/users/AM/public_html берем путь и ставим вместо ‘путь от корня сервера’.

Проверить работу этих и других методов запрета индексации можно зайдя на сайт с помощью этой формочки посмотреть как поисковый робот.

Источник

Как закрыть сайт от индексации?

Примеры, когда сайт нужно закрывать от индексации

Возможны другие причины закрыть сканирование роботами. Процесс смены домена или сайт только для друзей. Ссылки, оставляемые в комментариях, тоже не желательно индексировать.

Способы запрета индексирования сайта или страницы

Вариантов много. Попробуем их структурировать.

Запрет индексирования сайта, раздела или страницы

Итак, есть необходимость не допустить роботов на сайт. Смотрим таблицу и выбираем подходящий способ. Выбор зависит от задачи и возможностей инструмента. Начнем со случая, когда цель не меньше страницы.

Инструмент robots.txt

Если надо закрыть доступ к сайту определенным поисковым системам, то в обращении вместо User-agent: * нужно поставить имя поисковых роботов данной системы. Например: User-agent: Yandex. И для каждого нежелательного поисковика делать свое обращение отдельной строкой.
Для скрытия раздела по этому алгоритму, после команды Disallow: / пишется razdel. Если нужно спрятать от роботов одну страницу, то после Disallow: / вставляем ее url-адрес.

Важно не увлекаться. Максимальное количество файлов robots.txt — 1024. Но большое количество запретов, приведет к их игнорированию.

Закрыть страницу и сайт с помощью метатега robots

    noindex, скрывает главную страницу, или при дополнении, поможет не индексировать содержимое страницы. Она не появится в результатах поиска; nofollow – это для ссылок. Команда показывает роботу, что переходить по ним не надо. Но ссылки могут попасть в индексацию, если информация о них есть в других источниках; none – заменяет обе предыдущие команды вместе. То есть none = nofollow + noindex.

Закрыть сайт от индексации на WordPress

blank
Уже при начальной настройке понятно как закрыть свой проект от индексации WordPress. Все пользователи WordPress видят это окошко в настройках. Многие разумно устанавливают там галочку, закрывающую ресурс от сканирования. А сделав сайт, убирают ее. При необходимости запрет можно вернуть. Открыли вкладку «Настройки», в списке выбрали «Чтение» и в самом низу в окошке «Попросить поисковые системы не индексировать сайт» поставили галочку.

Первый вариант – прописать запрет для каждого поисковика. Вот так: SetEnvIfNoCase User-Agent «^Googlebot» search_bot 01. И так далее.

Запрет индексирования контента страницы

На страницах могут содержаться блоки, картинки, текст и другие элементы. Скрыть их помогут уже названные инструменты.

Заключение

Возможностей для скрытия контента от поисковиков достаточно. Каждая из них имеет свои плюсы и особенности. Применяя любой способ, связанный с написанием кода, важно делать это внимательно. Допущенные ошибки могут дать результат обратный ожидаемому. Многие проблемы можно решить без запрета. Например, закрывать ли фильтры на сайте от индексации? Не обязательно – грамотные скрипты оставят на странице только один параметр, а остальные будут появляться по клику. К каждому вопросу оптимизации надо подойти индивидуально, особенно пока опыта еще нет.

Источник

Как закрыть сайт от поисковых систем: robots.txt, htaccess, метатеги

Чтобы какой-либо сайт появился в выдаче поисковой системы, он должен быть предварительно проиндексирован, то есть просканирован поисковыми роботами. Следующий этап – ранжирование – определение места ресурса в выдаче. На него влияет нескольких критериев, в числе которых можно выделить релевантность – степень соответствия результатов выдачи запросу пользователя. Чтобы сайт был более релевантным, необходимо регулировать перемещения и поведение поискового робота на нем. Как правило, от поисковиков также скрывают пагинацию, фильтры, служебные и страницы, содержащие личные данные пользователей. В этой статье мы рассмотрим все известные способы, как закрыть документ от поисковых систем, и объясним, для чего может пригодиться каждый из них.

Закрытие от индексации с помощью файла Robots.txt

Самым распространенным способом указать поисковым роботам страницы, представленные или, наоборот, закрытые для посещения, является robots.txt. Это обычный текстовый файл, размещенный в корневом каталоге интернет-ресурса, в котором описаны инструкции для поисковых ботов.

Чтобы закрывать сразу весь сайт от индексации, вам понадобится прописать в файле robots.txt всего две строчки:

В данной инструкции вы сообщаете, что она распространяется на все поисковые системы (User-agent: *); вторая строка (Disallow: /) означает, что запрет касается всех страниц сайта.

В случае необходимости закрыть ресурс только от одной поисковой системы, в строке User-agent: указываем, для какой именно. Чаще всего прописывают поисковые системы Yandex или Google:

User-agent: Yandex
Disallow: /

User-agent: GoogleBot
Disallow: /

Строка Disallow может также содержать инструкции относительно отдельных частей, разделов или папок сайта, которые нежелательны для обхода роботов.

Для запрета индексации:

User-agent: *
Disallow: файл1.htm
Disallow: файл2.htm
Disallow: файл3.htm

Следует учитывать, что robots.txt воспринимается поисковиками по-разному, и роботы Google не всегда следуют его указаниям, воспринимая содержимое файла как рекомендацию.

Закрытие от индексации с помощью метатегов

Метатег Robots прописывается внутри тега html-документа и имеет следующие значения:

Принцип работы с этими метатегами такой же, как и с файлом robots.txt. Единственное исключение – они используются непосредственно на тех страницах, которые необходимо закрыть. Если же речь идет обо всем ресурсе, данные теги прописывают прямо в шаблон сайта. Пример использования метатегов robots:

close index meta

Здесь указано,что роботам запрещено индексировать страницы и обходить ссылки.

Вот еще несколько полезных тегов:

Для каждой поисковой системы – отдельная строка.

AuthType Basic
AuthUserFile /указать_путь файла_с_паролем
Require valid-user

Средства для владельцев сайтов на WordPress

Если вам посчастливилось быть обладателем ресурса на WordPress, то вы можете закрыть свой сайт от индексации с помощью самой админки, совершив лишь несколько кликов мышью:

wordpress

Также существует ряд SEO-плагинов, например, «All in One SEO Pack», с помощью которых можно контролировать индексацию отдельных документов сайта.

Другие CMS также могут включать в себя подобные функции и плагины.

Какой бы вы ни выбрали способ закрытия от индексации, помните: самое надежное средство от попадания в индекс – хранить сайт на сервере, отключенном от всемирной сети.

Источник

Htaccess запрет индексации сайта

Войти

Авторизуясь в LiveJournal с помощью стороннего сервиса вы принимаете условия Пользовательского соглашения LiveJournal

Главной особенностью было то, что запрет на индексацию нужно было сделать не через прописывание запрета в robots.txt, а с помощью файла .htaccess.

Нужно это было для того, чтобы никто кроме меня не знал, что я запретил.

Для осуществления данного действия нужно чтобы у вас в корневой папке домена находился файл .htaccess.

Кстати в проводнике windows с этим могут быть проблемы.

Когда вы убедились, что файлик .htaccess есть, в него просто нужно дописать следующие строки:

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Yandex» search_bot

SetEnvIfNoCase User-Agent «^Yahoo» search_bot

Вышеописанные строки для трех основных поисковиков Google, Yandex и Yahoo.

Попробую расшифровать написанное на примере Google

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase – это мы задаем условия для переменной env

User-Agent – означает какая именно переменная, в данном случае это имя агента или бота поисковой машины

«^Googlebot» собственно это имя этого агента

А search_bot – это значение переменной

Другими словами (по русски) строчка

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

Значит: если на сайт придет бот у которого в имени будет содержаться слово Googlebot, то такому боту задать значение переменной env= search_bot (пометить его как search_bot)

Вот список других ботов которые могут вас навестить:

SetEnvIfNoCase User-Agent «^Aport» search_bot

SetEnvIfNoCase User-Agent «^msnbot» search_bot

SetEnvIfNoCase User-Agent «^spider» search_bot

SetEnvIfNoCase User-Agent «^Robot» search_bot

SetEnvIfNoCase User-Agent «^php» search_bot

SetEnvIfNoCase User-Agent «^Mail» search_bot

SetEnvIfNoCase User-Agent «^bot» search_bot

SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot

SetEnvIfNoCase User-Agent «^Snapbot» search_bot

SetEnvIfNoCase User-Agent «^WordPress» search_bot

SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot

SetEnvIfNoCase User-Agent «^Parser» search_bot

Deny from env=search_bot

в строке Order Allow,Deny

Мы указываем порядок доступа, у нас сказано сначала разрешить, а потом запретить

Allow from all – разрешить всем

Deny from env=search_bot – запретить доступ тем, кто помечен флажком search_bot, в данном случае это боты, которые мы перечисляли выше

Deny from env=search_bot

То есть все тоже самое, но мы ограничиваем область запрета в FilesMatch

-тут мы запрещаем доступ только к файлу primer.html

— запрет к любому файлу, содержащему слово primer

Запрет на любой файл для ботов:

SetEnvIfNoCase User-Agent «^Yandex» search_bot

SetEnvIfNoCase User-Agent «^Yahoo» search_bot

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Aport» search_bot

SetEnvIfNoCase User-Agent «^msnbot» search_bot

SetEnvIfNoCase User-Agent «^spider» search_bot

SetEnvIfNoCase User-Agent «^Robot» search_bot

SetEnvIfNoCase User-Agent «^php» search_bot

SetEnvIfNoCase User-Agent «^Mail» search_bot

SetEnvIfNoCase User-Agent «^bot» search_bot

SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot

SetEnvIfNoCase User-Agent «^Snapbot» search_bot

SetEnvIfNoCase User-Agent «^WordPress» search_bot

SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot

SetEnvIfNoCase User-Agent «^Parser» search_bot

Deny from env=search_bot

Запрет на файл primer.html для трех основных поисковиков Google, Yandex и Yahoo

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Yandex» search_bot

SetEnvIfNoCase User-Agent «^Yahoo» search_bot

Deny from env=search_bot

Кстати точно также можно запретить и доступ с определенного ip.

Для этого нужно записать

SetEnvIfNoCase Remote_Addr 123\.123\.123\.123 search_bot

Источник

Закрыть сайт или часть кода от индексации htaccess robots.txt

Иногда, по тем или иным причинам нужно скрыть от поисковых систем часть кода, блок или целый сайт (к примеру, старый).

Как закрыть от индексации с помощью файла robots.txt

Полностью запретить индексацию всего сайта:
User-agent: *
Disallow: /

Запретить индексацию всего сайта только Гуглу:
User-agent: Googlebot
Disallow: /

Запретить индексацию всего сайта только Яндексу:
User-agent: Yandex
Disallow: /

Запретить индексацию всего раздела:
User-agent: *
Disallow: /administrator
Disallow: /plugins

*В этом варианте запрет коснется всех файлов и папок в разделе.

Запретить индексацию отдельной папки:
User-agent: *
Disallow: /administrator/
Disallow: /images/

*В этом варианте запрет коснется только файлов и документов, но не будет распространяться на имеющиеся папки.

Запретить индексацию отдельным страницам:
User-agent: *
Disallow: /reklama.html
Disallow: /sis-pisi.html

Полностью запретить индексацию всего сайта:
SetEnvIfNoCase User-Agent «^Googlebot» search_bot
SetEnvIfNoCase User-Agent «^Yandex» search_bot
SetEnvIfNoCase User-Agent «^Yahoo» search_bot
SetEnvIfNoCase User-Agent «^Aport» search_bot
SetEnvIfNoCase User-Agent «^msnbot» search_bot
SetEnvIfNoCase User-Agent «^spider» search_bot
SetEnvIfNoCase User-Agent «^Robot» search_bot
SetEnvIfNoCase User-Agent «^php» search_bot
SetEnvIfNoCase User-Agent «^Mail» search_bot
SetEnvIfNoCase User-Agent «^bot» search_bot
SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot
SetEnvIfNoCase User-Agent «^Snapbot» search_bot
SetEnvIfNoCase User-Agent «^WordPress» search_bot
SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot
SetEnvIfNoCase User-Agent «^Parser» search_bot

*Для каждой поисковой системы отдельная строчка кода.

Как закрыть от индексации страницу сайта с помощью Meta тегов

Между тегами страницы вставить код:

или лучше даже этот:

Как закрыть от индексации ссылку

К ссылке нужно добавить rel=»nofollow» и получится:

Запрещают индексацию ссылки обычно для того, чтобы не передавать вес своего сайта

Источник

Понравилась статья? Поделить с друзьями:
Добавить комментарий
  • Как сделать успешный бизнес на ритуальных услугах
  • Выездной кейтеринг в России
  • Риски бизнеса: без чего не обойтись на пути к успеху
  • hsk 4 бланк ответов
  • hsbc банк открыть счет