Robots.txt для WordPress или давайте дружить с поисковиками

Robots.txt для WordPress или давайте дружить с поисковикамиРано или поздно перед каждым блоггером встает вопрос – «Что писать в robots.txt и нужен ли он вообще?». На днях и я задался этим вопросом. По-поводу нужен или нет тут у меня не возникало ни каких сомнений. Нужен в обязательном порядке, особенно если это касается блогов и в частности движка WordPress. Этому есть три очень веских основания. Но перед тем как я их изложу давайте пройдемся по теории (это для тех кто не совсем в теме).

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому (тоже очень актуальная тема, но об этом мы поговорим в следующий раз).

Для того чтобы создать файл robots.txt: берете обычный текстовый редактор, прописываете там набор специальных кодов (о них мы поговорим чуть позже в этой статье) и заливаете его в корневой каталог вашего сайта. Если вы не собираетесь создавать запреты к индексации, можно просто сделать пустой файл robots.txt.

Теории, думаю, достаточно, вернемся к нашим баранам. Вот те три основания, о которых мы говорили ранее:

  1. Запрещая индексировать определенные страницы и разделы сайта мы уходим от проблемы дублирования контента (например: комментарии, архивы, фиды)
  2. Исключив часть сайта из индексации мы очень облегчаем работу поисковикам. Теперь им понадобится меньше времени на изучение оставшихся страниц и папок. У меня сложилось впечатление, что поисковики индексируют сайт наскоками, каждый раз охватывая новые разделы. В этом плане robots.txt позволит им сделать свою работу за меньшее количество заходов.
  3. Будучи в Рунете желательно выделить специальный раздел в robots.txt для Яндекса. Так как сейчас Яндекс – самая популярная поисковая система, важно уметь правильно использовать директиву host, которую соблюдает этот поисковик.

А теперь перейдем ко второй части вопроса – «Что именно нужно писать в robots.txt?». Тут, к сожалению (а может и к счастью), сколько роботов столько и мнений. Поэтому я просто опишу и прокомментирую свой. Я не претендую на его идеальность, наоборот, буду рад услышать вашу критику. :)

Вот мой robots.txt для WordPress (можете его проверить, набрав blogpressa.ru/robots.txt).

User-agent: Yandex

Disallow: /cgi-bin

# запрещаем индексацию системных папок

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

# запрещаем индексацию страницы входа и регистрации

Disallow: /wp-login.php

Disallow: /wp-register.php

# запрещаем индексацию трекбеков, rss-ленты, комментариев

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /xmlrpc.php

# запрещаем индексацию результатов поиска и другого «мусора»

Disallow: /*?*

Disallow: /*?

# прописываем директиву Host

Host: blogpressa.ru

User-agent: *

# запрещаем индексацию системных папок

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

# запрещаем индексацию страницы входа и регистрации

Disallow: /wp-login.php

Disallow: /wp-register.php

# запрещаем индексацию трекбеков, rss-ленты, комментариев

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /xmlrpc.php

# запрещаем индексацию результатов поиска и другого «мусора»

Disallow: /*?*

Disallow: /*?

# указываем на карту сайта

Sitemap: http://blogpressa.ru/sitemap.xml

После того как вы составили и загрузили файл не забудьте его проверить, а вдруг вы допустили какую-нибудь ошибку. Для этого вам нужно зарегистрироваться в таких сервисах как: Яндекс.Вебмастер и Google.Вебмастер. Там в разделе инструменты можно проверить текущий robots.txt на наличие ошибок при этом желательно указать  несколько страниц сайта чтобы посмотреть будет он их индексировать или нет.

Думаю на сегодня достаточно. Спасибо за внимание и жду ваших комментариев.

А теперь, отвлекаемся от работы и слушаем радио онлайн. Очень большой выбор радиостанций на любой вкус.

Если публикация вам понравилась, то вы можете подписаться на материалы BlogPressa.ru через RSS.
Читайте так же:
Создание блога. Шаг первый.
Основы поисковой оптимизации
Проблема безопасности WordPress: как сменить логин “admin”

Время «релакса». Вы это заслужили! :)

ОднаКнопка

Об авторе

опубликовал на блоге 46 записей.

25 коммент. к “Robots.txt для WordPress или давайте дружить с поисковиками”

  • Рекламщик | 27 ноября, 2009, 21:13

    Комменты лучше убирать из robots, т.к. яша на них ругается.

    [Ответить]

    Дмитрий Белинский Reply:

    Поясните пожалуйста. Яше не нравиться когда запрещена индексация комментариев?

    [Ответить]

  • Дмитрий | 26 декабря, 2009, 14:44

    Насчёт нравиться или нет яше запрет на коментарии не знаю, но знаю что очень много посетителей с поисковых систем приходят через ключи которые есть в каментах.
    Надеюсь вы меня поняли

    [Ответить]

  • Ильдар | 23 января, 2010, 15:32

    У меня мания в одно время была — смотреть robots.txt’ы у всех блогов, которые посещаю :)

    [Ответить]

  • Константин | 29 января, 2010, 18:18

    По опубликованному выше образцу создал robots.txt, добавил в Яндекс и Гугл, там все нормально, ошибок вроде нет, в сервисе же онлайн — проверки почти по каждой строке выдает ошибки.
    Интересно узнать, это критично либо присутствует в проверке стандартно заданный алгоритм ?

    [Ответить]

    Дмитрий Белинский Reply:

    Странно, ошибок не должно быть. Если конечно вы сделали все как я написал… Если вы взяли мой файл, то вам нужно поменять всего 2 строки: Host и Sitemap. Если вы говорите об ошибках индексации страниц, запрещенных в robots.txt, то это нормально. Таких страниц будет очень много. Кстати, я посмотрел ваш robots.txt. На данный момент он разрешает индексацию всех элементов сайта.

    [Ответить]

  • Шоколадный Заяц | 9 февраля, 2010, 17:41

    да, у меня в роботс всего поменьше. Директиву host вообще не указал, но вроде проблем с зеркалами пока нет, ссылки на сайт все через www . Про комменты согласен — они делают страницу более релевантной, я бы их не убирал.

    [Ответить]

  • CracK | 20 февраля, 2010, 22:51

    Дубли нужно убирать однозначно. Спасибо, взял на заметку:)

    [Ответить]

  • Bassist | 23 февраля, 2010, 23:56

    Полезная статья, всё просто и понятно расписано, теперь может и я подправлю наконец то robots.txt на блоге.

    [Ответить]

  • Денис | 25 февраля, 2010, 9:09

    Все норм, роботс нормальный. Сам всегда скрываю коменты от индексации.
    А не подскажите ли где вы такую веселую капчу достали =) Поделитесь пожалуйста =)

    [Ответить]

  • Маринка | 25 февраля, 2010, 19:43

    Теперь надо и свой файл robots.txt изменить. Отличная статья, очень полезный материал. Благодарю.

    [Ответить]

  • Вадим | 26 февраля, 2010, 21:46

    Все таки, общее мнение специалистов, что от индексации то страницы можно закрыть, но при ранжировании сайта они учитываются. Так что лишнего на сайте лучше не хранить.

    [Ответить]

  • Айван | 8 марта, 2010, 10:11

    Очень толково все расписано про robots.txt, надо теперь провести ревизию своего.

    [Ответить]

  • Фотограф | 9 марта, 2010, 14:07

    А для Яндекса обязательно отдельные правила прописывать? Он что, User-agent: * высокомерно игнорировать будет и не будет прописанным правилам следовать?

    [Ответить]

    Дмитрий Белинский Reply:

    Можно отдельно и не прописывать, но все такие желательно это сделать из-за директивы host.

    [Ответить]

    Фотограф Reply:

    Кстати директиву Host я вообще не прописывал. Для склейки www и без www использовал классическое решение в .htasses 

    RewriteEngine OnRewriteCond %{HTTP_HOST} ^www.сайт.ru$ [NC]
    RewriteRule ^(.*)$ http://сайт.ru/$1 [R=301,L]

    После чего Яндекс на автомате сделал сайт с www зеркалом основного (без www).

    [Ответить]

  • Сергей - Жизнь в интернете | 9 марта, 2010, 16:29

    Спасибо, а то я уже который день бьюсь над этим robots.txt

    [Ответить]

  • Alan | 9 марта, 2010, 21:33

    А что если его не создавать?

    [Ответить]

    Дмитрий Белинский Reply:

    Тогда поисковики будут индексировать все страницы и разделы сайта.

    [Ответить]

  • Ушу | 16 марта, 2010, 11:46

    Интересно, многие советуют убирать теги от индексации… но лично я сам провел эксперемент, на одном сайте запретил теги, на другом разрешил, и вот что получилось, у того где теги открыты трафика на порядок больше и в поисковой выдаче именнно страница с тегом. Так что теги очень нужны, только не нужно делать 50000 тегов, хватит с десяток основных!

    [Ответить]

  • VolleR | 29 марта, 2010, 13:56

    Спасибо, воспользуюсь:)

    [Ответить]

  • Сашка | 13 апреля, 2010, 1:26

    Это не очень хорошо(((

    [Ответить]

  • Непознанный | 27 апреля, 2010, 8:26

    Для каждого блога всё же придётся вносить изменения в директивы. Например, у меня папки wp-feed отродясь небыло, и wp-comments тоже. Думаю, что проще выучить правила прописки всех деректив и самим вписывать в robots.txt только то, что необходимо.

    [Ответить]

  • Антон | 16 мая, 2010, 14:45

    Спасибо большое за такую детальную инструкцию!

    [Ответить]

Оставить комментарий или два

Перед отправкой формы:
Human test by Not Captcha


© 2012 BlogPressa.ru — SEO, блоггинг, создание и продвижение сайтов All rights reserved.