logo

О файле robots.txt

роботО файле robots.txt написано не мало, и каждый писатель предлагает для копирования свой "самый правильный" файл. На первых порах и я такими копиями пользовался. Сначала вроде всё было нормально, но время идёт и всё меняется. При проверке сайтов в Инструментах для вебмастеров стали появляться ошибки при индексировании сайта. Вот тогда и назрел вопрос: - в чем дело?

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Но вот к примеру при заданном временном интервале для ботов в файле, Гугл определяет это как ошибка в файле. Для основных поисковых роботов это не актуально, они аккуратно посещают сайты, не нагревая сервер. Можно много писать об этом, но не будем о грустном!

поисковый роботНе копируйте слепо чужие файлы robots.txt. А как же всё-таки сделать свой нормальный файл? Всё очень просто! Для начала, как образец, скопируйте чужой "правильный" файл и вставьте его в какой-нибудь текстовый редактор. Дальше будем просто редактировать содержимое этого файла. Почему "правильный" файл может Вам не подойти....Да всё очень просто, у каждого сайта или блога своя структура.

Теперь откроем корневую папку своего сайта и смотрим, что там находится. При первоначальном виде, когда Вы только создали и запустили сайт, в корне сайта будут находиться только папки и файлы WordPress, т.е. конкретно - 3 папки и несколько файлов. С развитием сайта могут появиться еще какие-то папки и файлы. Давайте рассмотрим сам принцип создания файла robots.txt/ Приведу пример своего сайта. Так выглядят папки в корне сайта:

корень сайта

В первую очередь закрываем от индексации папки в красной рамке, которые не относятся к WordPress. Закрытие этих папок от роботов никак не повлияет на индексацию сайта. Для запрета индексации прописываем директивы к каждой папке:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/

Дальше будем разбираться с папками WordPress. В стандартном варианте предлагают закрыть их таким способом:

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Теперь разберём что тут и к чему.

Папки wp-admin и wp-includes роботам не зачем копать, закрываем. А вот с папкой wp-content не всё так просто. Гугл сейчас "требует" доступ ко всему. Если полностью открыть папку wp-content, а я это пробовал делать, получится в индексации большой бардак.

Хоть Гугл и "требует", но wp-content/plugins лучше закрыть, иначе все роботы будут своим просмотром всех плагинов сильно напрягать сервер.

Disallow:  /wp-content/cache - папку cache я у себя в упор не увидел, поэтому я удаляю это строчку.

Disallow: /wp-content/themes - это запрет на индексацию темы сайта. Тут вопрос интересный. Что происходит при запрете на индексацию темы, робот не будет видеть шаблон сайта и при проверке в Инструментах для вебмастеров "взгляд" робота и Ваш на сайт будет отличаться. Для посетителей сайт будет выглядеть нормально, а вот робот его видит без шаблона, т.е. на скриншоте будут видны только ссылки и текст. Это будет отрицательно влиять на ранжирование сайта, поэтому я и эту строчку удаляю. Теперь файл robots.txt примет такой вид:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins

Далее предлагается примерно такой набор директив:

Disallow: /xmlrpc.php
Disallow: /archive/
Disallow: /trackback
Disallow: /feed
Disallow: /page/
Disallow: /comments
Disallow: /?feed=
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /tag*/
Disallow: /?s=

Тут уже надо исходить из рабочих функций вашего сайта. У меня к примеру отключены функции RSS-ленты, отключены комментарии и др., поэтому многие директивы мне просто не нужны в файле. Для себя я оставлю только две директивы: Disallow: /xmlrpc.php и Disallow: /page/

Файл xmlrpc.php это большая уязвимость WordPress, я его всегда удаляю, но он гад постоянно появляется снова после обновления WordPress.

/page/ - закрывает от индексации нумерацию страниц. При установке определённых плагинов, у вас внизу страниц появляется "счетчик" страниц. Если это не закрыть, то в индексации и в выдаче появятся страницы типа  ....Page 1   ....Page2  .....Page3 и т.д Они совсем не нужны в выдаче. В итоге у меня получился для сайта такой файл robots.txt:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /xmlrpc.php
Disallow: /page/
Нost: mehelp.ru
Sitemap: http://mehelps.ru/sitemap.xml

Внизу, как видите, я добавил еще две директивы Нost: и Sitemap:, это для роботов Яндекса. У многих для Яндекса делаются отдельные директивы, различие только в том, что вместо строки  User-agent: * пишется строка User-agent: Yandex, считаю это лишним. Прочитайте внимательно цитату от Яндекса:

"В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен."

Многие добавляют отдельные директивы для роботов, индексирующих картинки:

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

И это я считаю лишним. Во первых строка User-agent: * даёт доступ всем роботам без исключения. Во вторых глупо разрешать то, что не запрещено!!! Или я не прав? Строка Allow: /wp-content/uploads/ даёт доступ роботу к папке с картинками, но ведь доступ к папке uploads в файле не запрещен, значит спецробот всегда её проиндексирует.

Сервисы СЕОоптимизаторов уже заметили изменения в индексировании сайтов Гуглом и его требованиями. Единственно он посоветовали добавить несколько примерно таких директорий в файл:

Allow: /*/*/*/*.css*
Allow: /*/*/*/*/*.css*
Allow: /*/*/*.js*
Allow: /*/*/*/*.js*
Allow: /*/*/*/*/*.js*

Это даст роботам доступ к стилям и скриптам сайта.

Вот вроде бы и всё. У Вас может быть много сайтов, на разных движках, с разным функционалом, для разных целей. Ну а принцип одинаковый, открываете корневую папку сайта и сами выбираете то, что хотите скрыть от индексации. Главное, чтобы робот Гугла видел сайт. Для роботов Гугла файл robots.txt это своего рода только рекомендации, они всё равно перекопают все папки и файлы сайта!!!

 

 

О файле robots.txt обновлено: Апрель 10, 2017 автором: admin

Оставить комментарий

▲Вверх