Что нужно знать о Robots txt для WordPress

robots-txt-для-WordPress

Доброго времени суток. Я, наверное, как и многие сейчас, в свое время, пытался разобраться во всей этой каше связанное с блоговедением. А сейчас на носу висит файл robots txt для wordpress и с ним нужно разобраться.

Скажу честно, я не все значения знаю, но примерное представление у меня есть. Я не стал изучать все с нуля. Да и зачем это нужно, когда авторитетные блогеры, как и я ставят однотипные файлы к себе на блог. Ты можешь просто взять и скачать себе на блог и больше не париться, а можешь немного ознакомиться с ним.

Было дело, когда я от безысходности и от безграмотности просто тупо скопировал этот файл у одного известного SEOшника. И на удивление, ничего плохого с моим блогом не случилось. Просто я делал свой блог, как все. Но ведь нельзя стоять на месте, нужно потихоньку и понемногу разбираться. Вот теперь и дошел черёд и до robots.txt на моем блоге.

Зачем вообще нужен этот файл robots.txt


В своей прошлой статье, я рассказывал, как улучшить поисковую индексацию на сайте. Так вот в ней я упомянул, про то, что нужно обязательно настроить этот файл, чтобы поисковые роботы индексировали только нужные страницы. Иными словами говоря, файл robots.txt, нужен для того, чтобы поисковые роботы от Яндекса и Google индексировали то что надо. В этом файле мы даем знать, что нужно кушать, а что нет.

robots-txt-для-WordPress

А что будет, если этого файла не будет?


Есть вебмастера, которые вообще отказываются ставить себе вот такой «указатель» для роботов. А некоторые вообще не знают о нем. И я не заметил с их стороны, чтобы они жаловались на индексацию или на санкции со стороны поисковых систем. По их словам, это добавляет долю естественности для сайта. Честно, не знаю, почему они делают так.

Чего хочет от нас поисковый робот?


Если почитать о том, что пишется на Яндексе в разделе HELP для вебмастеров, то становиться понятнее. Файл robots.txt нужен для того, чтобы сайт стал чище. Грубо говоря мы избавляемся от дублей страниц, нежелательных данных, различных ссылок, например, в разделе комментарии. И тому подобное. Яндекс просит убрать с индексации то, что не хотят и должны видеть посетители на вашем сайте.

Итак, если мы сделаем для себя такой, своего рода фильтр для поисковых роботов как robots.txt, то мы дадим знать поисковикам, что мы следим за своим сайтом и подчищаем хвосты. Ну, а как отреагирует поисковая система на все это? Конечно положительно. Ведь согласитесь, что находиться на аккуратном и чистом сайте всегда приятно. Теперь то, я думаю, что все стало гораздо понятнее? Поехали дальше?

Во-первых, для того, чтобы посмотреть файл robots txt для WordPress у себя на сайте, нужно в адресной строке своего браузера прописать следующее: http://Ваш сайт/robots.txt, на моем блоге это выглядит так: http://чумак.рф/robots.txt После ввода, мы увидим не понятные, на первый взгляд значения.

Давайте рассмотрим, что там такое понаписано и немного разжую, и пожалуйста читайте все внимательно:

User-agent: * – эта звездочка – команда для всех поисковых систем, помимо Яндекса. В первую очередь поисковые системы, прежде чем индексировать ваш сайт, ищет файл robots.txt Далее, он начинает следовать инструкциям, которые в нем написаны; что можно делать, а что нельзя.
То было для всех поисковиков, а для Яндекс необходимо все значения прописать отдельно, потому что он особенный =). Поэтому и получается, что в robots txt для WordPress две колонки в одном ряду. Уловили?

Disallow – Allow в
robots txt

Далее, существуют две директивы: Disallow – запрещающая, и Allow – разрешающая.
Мною замечено, что многие блогеры закрывают одни и те же значения. Запрещают индексировать теги, ссылки на комментариях, которые оставляют читатели. Дубли страниц, например категории. Все это по мнению поисковой системы Яндекс и есть лишнее. От них нужно избавиться. Но и здесь нужно быть внимательным.

Приведу простой пример с этим запретом: Disallow: /category/*/*

Дубли-страниц


Вот у меня написана статья про бэкап WordPress, кстати рекомендую почитать. Поисковик заходит на блог, съедает весь текст и делает выдачу. А если мы не закроем от индексации категории , например статья про бэкап висит в категории WordPress, то поисковик зайдет в эту категорию и начнет хавать текст. И тут обнаружит, что текст то одинаковый, хоть и не весь. И соответственно понизит эту статью в поисковой выдаче. Вообще, по идеи нужно делать анонс статьи уникальным, согласны? Я пока не знаю, как это сделать, да и не особо хочу этим напрягаться. Ведь как известно, анонсы пишутся для читателей. Но я уже делаю это тегом < !–more– >. Поэтому, для меня это лишнее.

Что вам нужно сделать, если у вас блог на ВордПресс?

Перво наперво, сделайте человеко понятные url (ЧПУ) на своем сайте. По умолчанию новая статья или страница без плагина RusToLat, может выглядеть вот так: http://ваш-блог/?p=123, в таком случае, либо ставьте этот плагин, либо не ставьте значения:
Disallow: /*?*
Disallow: /*?
В противном случае, ваши новые статьи не попадут в индекс, а старые со временем и вовсе отвалятся. Пожалуйста, запомните это!

Disallow: /archive/ – нужно закрывать в том случае, если вы выводите их на своем сайте, это полные дубли ваших статей и страниц. У меня нет и наверное не будет архивов. Поэтому этой команды я не использую. Запомнили, а лучше записали и добавили мой блог в закладки! =)

Далее, у меня сейчас прописано это:
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Прошу заметить, что я четко указал, поисковым роботам, что индексировать эти папки я запрещаю. По той причине, что Роботы индексируют весь блог от головы до пят!
Ни в коем случае не прописывайте эти два значения:
Disallow: /wp-content/
Disallow: /wp-content/upload
Этим запретом, вы лишите свой блог трафика с поисковых систем по картинкам. В папке upload хранятся все ваши картинки! Записали?

Не напрягайтесь особо. Предлагаю скопировать и оставить все значения, как у меня, перейдя по ссылке http://чумак.рф/robots.txt
наконец, просто скачайте robots.txt.

Только одно но, там где прописан мой сайт, замените на свой. И сохраните, теперь можно закидывать в корень своего блога.

Host: чумак.рф

Sitemap: http://чумак.рф /sitemap.xml
Sitemap: http://чумак.рф /sitemap.xml.gz

Следовательно, пока это все, что нужно знать и сделать на начальном этапе развития блога. Поверьте, когда у сайта все будет замечательно, и он будет приносить деньги, можно будет заказать детальный анализ именно по вашему сайту, у ведущих специалистов в этой области. А пока остановитесь на этом, лучше потратьте свое драгоценное время на написание интересных статей. Надеюсь, вы хотя бы поверхностно поняли, что такое файл robots txt для WordPress.

Оставьте комментарий