О файле robots.txt и его создании

О файле robots.txt написано не мало, и каждый писатель предлагает для копирования свой «самый правильный» файл. На первых порах и я такими копиями пользовался. Сначала вроде всё было нормально, но время идёт и всё меняется. При проверке сайтов в Инструментах для вебмастеров стали появляться ошибки при индексировании сайта. Вот тогда и назрел вопрос: — в чем дело?

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Но вот к примеру при заданном временном интервале для ботов в файле, Гугл определяет это как ошибка в файле. Для основных поисковых роботов это не актуально, они аккуратно посещают сайты, не нагревая сервер. Можно много писать об этом, но не будем о грустном!

Не копируйте слепо чужие файлы robots.txt. А как же всё-таки сделать свой нормальный файл? Всё очень просто! Для начала, как образец, скопируйте чужой «правильный» файл и вставьте его в какой-нибудь текстовый редактор. Дальше будем просто редактировать содержимое этого файла. Почему «правильный» файл может Вам не подойти….Да всё очень просто, у каждого сайта или блога своя структура.

Теперь откроем корневую папку своего сайта и смотрим, что там находится. При первоначальном виде, когда Вы только создали и запустили сайт, в корне сайта будут находиться только папки и файлы WordPress, т.е. конкретно — 3 папки и несколько файлов. С развитием сайта могут появиться еще какие-то папки и файлы. Давайте рассмотрим сам принцип создания файла robots.txt/ Приведу пример своего сайта. Так выглядят папки в корне сайта:

В первую очередь закрываем от индексации папки в красной рамке, которые не относятся к WordPress. Закрытие этих папок от роботов никак не повлияет на индексацию сайта. Для запрета индексации прописываем директивы к каждой папке:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/

Дальше будем разбираться с папками WordPress. В стандартном варианте предлагают закрыть их таким способом:

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Теперь разберём что тут и к чему.

Папки wp-admin и wp-includes роботам не зачем копать, закрываем. А вот с папкой wp-content не всё так просто. Гугл сейчас «требует» доступ ко всему. Если полностью открыть папку wp-content, а я это пробовал делать, получится в индексации большой бардак.

Хоть Гугл и «требует», но wp-content/plugins лучше закрыть, иначе все роботы будут своим просмотром всех плагинов сильно напрягать сервер.

Disallow: /wp-content/cache — папку cache я у себя в упор не увидел, поэтому я удаляю это строчку.

Disallow: /wp-content/themes — это запрет на индексацию темы сайта. Тут вопрос интересный. Что происходит при запрете на индексацию темы, робот не будет видеть шаблон сайта и при проверке в Инструментах для вебмастеров «взгляд» робота и Ваш на сайт будет отличаться. Для посетителей сайт будет выглядеть нормально, а вот робот его видит без шаблона, т.е. на скриншоте будут видны только ссылки и текст. Это будет отрицательно влиять на ранжирование сайта, поэтому я и эту строчку удаляю. Теперь файл robots.txt примет такой вид:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins

Далее предлагается примерно такой набор директив:

Disallow: /xmlrpc.php
Disallow: /archive/
Disallow: /trackback
Disallow: /feed
Disallow: /page/
Disallow: /comments
Disallow: /?feed=
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /tag*/
Disallow: /?s=

Тут уже надо исходить из рабочих функций вашего сайта. У меня к примеру отключены функции RSS-ленты, отключены комментарии и др., поэтому многие директивы мне просто не нужны в файле. Для себя я оставлю только две директивы: Disallow: /xmlrpc.php и Disallow: /page/

Файл xmlrpc.php это большая уязвимость WordPress, я его всегда удаляю, но он гад постоянно появляется снова после обновления WordPress.

/page/ — закрывает от индексации нумерацию страниц. При установке определённых плагинов, у вас внизу страниц появляется «счетчик» страниц. Если это не закрыть, то в индексации и в выдаче появятся страницы типа ….Page 1 ….Page2 …..Page3 и т.д Они совсем не нужны в выдаче. В итоге у меня получился для сайта такой файл robots.txt:

User-agent: *
Disallow: /audio/
*
*
*
Disallow: /putslinkshere/
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /xmlrpc.php
Disallow: /page/
Нost: mehelp.ru
Sitemap: https://mehelps.ru/sitemap.xml

Внизу, как видите, я добавил еще две директивы Нost: и Sitemap:, это для роботов Яндекса. У многих для Яндекса делаются отдельные директивы, различие только в том, что вместо строки User-agent: * пишется строка User-agent: Yandex, считаю это лишним. Прочитайте внимательно цитату от Яндекса:

«В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.»

Многие добавляют отдельные директивы для роботов, индексирующих картинки:

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

И это я считаю лишним. Во первых строка User-agent: * даёт доступ всем роботам без исключения. Во вторых глупо разрешать то, что не запрещено!!! Или я не прав? Строка Allow: /wp-content/uploads/ даёт доступ роботу к папке с картинками, но ведь доступ к папке uploads в файле не запрещен, значит спецробот всегда её проиндексирует.

Сервисы СЕОоптимизаторов уже заметили изменения в индексировании сайтов Гуглом и его требованиями. Единственно он посоветовали добавить несколько примерно таких директорий в файл:

Allow: /*/*/*/*.css*
Allow: /*/*/*/*/*.css*
Allow: /*/*/*.js*
Allow: /*/*/*/*.js*
Allow: /*/*/*/*/*.js*

Это даст роботам доступ к стилям и скриптам сайта.

Вот вроде бы и всё. У Вас может быть много сайтов, на разных движках, с разным функционалом, для разных целей. Ну а принцип одинаковый, открываете корневую папку сайта и сами выбираете то, что хотите скрыть от индексации. Главное, чтобы робот Гугла видел сайт. Для роботов Гугла файл robots.txt это своего рода только рекомендации, они всё равно перекопают все папки и файлы сайта!!!

Статья была полезной?