Joomla — довольно популярный движок среди вебмастеров, т.к. она бесплатна и обладает большими возможностями, множеством готовых решений. Разберем правильный robots.txt для Joomla.
Не буду приводить основные директивы и их описание, т.к. ознакомиться с ними можно в моей статье: настройка robots.txt .
Тот роботс, что идет в комплекте с движком является неплохим, т.к. в нем закрыты основные служебные директории, но много мусора остается открытым. А вот картинки в стандартном файле — закрыты, что не совсем хорошо.
Как выглядит стандартный robots для Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/
Теперь разберем правильные файлы robots.txt для Джумлы с различными дополнениями. Не забываем, что для Яндекса желательно дописать отдельный «User-agent: Yandex» и продублировать в него все директивы.
Robots.txt для Joomla 2.5 и 3 с родным SEF
Закрываем стандартные служебные папки и убираем дубли с сайта и прочий мусор.
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /index.php* Disallow: /index2.php* Disallow: /*com_mailto #форма отправки писем Disallow: /*pop= #всплывающие окна Disallow: /*lang=ru #языковую версию Disallow: /*format= #форматы Disallow: /*print= #ссылка вывода на печать Disallow: /*task=vote #голосования Disallow: /*=watermark #водяные знаки Disallow: /*=download #Ссылки на скачивание Disallow: /*user/ #пользователи Disallow: /404 #закрываем 404 ошибку Disallow: /index.php? #урлы с параметрами Disallow: /*? #урлы с вопросами Disallow: /*% #урлы с процентами Disallow: /*& #урлы со знаком & Disallow: /index2.php #дубли Disallow: /index.php #дубли Disallow: /*tag #облако тегов Disallow: /*.pdf #ПДФ файлы, на усмотрение Disallow: /*.swf #Flash, на усмотрению Disallow: /*=atom #RSS Disallow: /*=rss #RSS Allow: /images/ #открываем картинки Allow: /index.php?option=com_xmap&sitemap=1&view=xml #открываем карту сайта Host: ваш_домен.ru Sitemap: http://ваш_адрес_карты_сайта Clean-param: searchword / Crawl-delay: 5
По поводу карты сайта можете ознакомиться с моей статьей: Зачем нужна карта сайта или как создать Sitemap.xml.
Не забываем, что в директиве «host» адрес сайта указывается без http:// и указывается главное зеркало сайта (если есть дубли с WWW и без — то следует предварительно склеить их 301 редиректом)
Robots.txt для Джумла + VirtueMart + SH404
User-agent: * Allow: /sitemap-xml.html?sitemap=1 #доступ к карте сайте Allow: /components/com_virtuemart/shop_image/category #доступ к картинкам категорий Allow: /components/com_virtuemart/shop_image/product #доступ к картинкам продуктов Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /shop/ask/ Disallow: /index.php? Disallow: /index2.php Disallow: /*keyword= #поиск по ключам Disallow: /*pop=0 #проблема sh404 Disallow: /*product-search #поиск Disallow: /*flypage= #товары из результатов поиска Disallow: /*cart #корзина Disallow: /*feed #Также запрещается RSS и atom Disallow: /404 #404 ошибка Disallow: /*? #урлы содержащие ? Disallow: /*% #урлы содержащие % Crawl-delay: 5 #таймаут в 5 секунды Host: ваш_домен.ru Sitemap: http://ваш_адрес_карты_сайта
Данные роботсы служат скорее для каркаса, который нужно допилить под свой сайт, т.к. у каждого проекта свои модули, которые могут плодить дубли страниц.
Когда будете вносить правки — всегда проверяйте их на корректность в Яндексе, чтобы избежать проблем.