Правильный robots.txt для Wordpress
Опубликовано: 08.10.2017
Выполняю данное мною обещание, сегодня речь пойдет о том, как настроить правильный файл robots.txt для WordPress. Что это за файл такой, и насколько он важен для сайта или блога я писал в недавней статье о robots txt для Яндекс .
Совершая « прогулки » по блогам, которые созданы на платформе вордпресс, я заметил, что почти на каждом из них есть ошибки в роботсе. Пусть у некоторых они и не значительны, но из вот таких мелочей порой и складываются в будущем огромные проблемы.
Многие блогеры понятия не имеют об этом файлике, а уж тем более о том, где он находится.Правильный robots.txt - для Joomla и WordPress
Где находится robots.txt в WordPress
Расположение robots.txt в Вордпресс ни чем, ни отличается от другого любого сайта – корневая папка сайта. Где находится данная папка? Естественно на вашем хостинге, эта та папка, в которой находятся все файлы вашего блога или сайта. На каждом хостинге это выглядит по-своему. Достут к корневой директории (папке) возможен через файловый менеджер панели управления вашим хостингом, либо по FTP. Тот, кто знает, что можно зайти в корень сайта по SSH, может воспользоваться и этим методом.
Файл Robots txt - настройка, директивы и популярные ошибки
Как создать robots.txt для WordPress
Для начала создадим простой текстовый файл с именем «robots». От кроем его и начинаем прописывать директивы для поисковых систем. Для примера я сделал скрин роботса своего блога, скопировать его можно перейдя по ссылке (если скопировали, не забудьте в дальнейшем его отредактировать).
А теперь пройдемся по всем директивам, что бы вам было понятно что и для чего.
User-agent: Yandex – открываем доступ всем поисковым роботам Яндекса Allow: /wp-content/uploads/ — разрешаем индексировать картинки, это обязательная директива!!! Disallow: /wp- — запрет на индексацию всех системных папок и файлов Disallow: /webstat – это не обязательная директива, добавил ее исключительно в собственных целях, возможно у вас в корне сайта лежат такие папки Disallow: /cgi-bin — без объяснений, это очень долго, да и не нужно Disallow: */trackback – и Disallow: */trackback/ — запрет индексации трекбеков Disallow: */feed – и Disallow: */feed/ — и Disallow: /?feed= — запрещаем индексировать фид, почему так много директив? Все зависит от используемого шаблона, поэтому я сделал так Disallow: */comments – и Disallow: */comments/ – дабы не плодить дубли страниц с комментариями, закрываем, не волнуйтесь, все комментарии будут проиндексированы Disallow: /tag – тут я думаю все понятно, закрываем страницы тегов, лично я их не прописываю, что бы не плодить лишних страниц, которые дублируют контент, но всякий случай директиву прописал Disallow: /category – спорный запрет, если хотите что бы ваши страницы категорий попали в индекс поисковика, уберите эту строчку Disallow: /archive – яснее не куда, закрываем страницы с архивами Disallow: /?wysija- — это я закрыл страницы создаваемые одним из плагинов, вам это не обязательно, об этом плагине я напишу в ближайшем будущем Disallow: /?s= — запрет на индексацию страниц с поиска сайта Disallow: /lin – это тоже вам не нужно, использую эту папку для файлов редиректа Host: platon-shhukin.ru – понятно? Sitemap: http://platon-shhukin.ru/sitemap.xml Sitemap: http://platon-shhukin.ru/sitemap.xml.gz — думаю тоже не возникло проблем. User-agent: * — открываем доступ к сайту всем роботамДирективы прописаны отдельно для Яндекса , и отдельно для всех остальных поисковых роботов.