Joomla — довольно популярный движок среди вебмастеров, т.к. она бесплатна и обладает большими возможностями, множеством готовых решений. Разберем правильный robots.txt для Joomla.

Не буду приводить основные директивы и их описание, т.к. ознакомиться с ними можно в моей статье: настройка robots.txt .

Тот роботс, что идет в комплекте с движком является неплохим, т.к. в нем закрыты основные служебные директории, но много мусора остается открытым. А вот картинки в стандартном файле — закрыты, что не совсем хорошо.

Как выглядит стандартный robots для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Теперь разберем правильные файлы robots.txt для Джумлы с различными дополнениями. Не забываем, что для Яндекса желательно дописать отдельный «User-agent: Yandex» и продублировать в него все директивы.

Robots.txt для Joomla 2.5 и 3 с родным SEF

Закрываем стандартные служебные папки и убираем дубли с сайта и прочий мусор.

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index.php*
Disallow: /index2.php*
Disallow: /*com_mailto #форма отправки писем
Disallow: /*pop= #всплывающие окна
Disallow: /*lang=ru #языковую версию
Disallow: /*format= #форматы
Disallow: /*print= #ссылка вывода на печать
Disallow: /*task=vote #голосования
Disallow: /*=watermark #водяные знаки
Disallow: /*=download #Ссылки на скачивание
Disallow: /*user/ #пользователи
Disallow: /404 #закрываем 404 ошибку
Disallow: /index.php? #урлы с параметрами
Disallow: /*? #урлы с вопросами
Disallow: /*% #урлы с процентами
Disallow: /*& #урлы со знаком &
Disallow: /index2.php #дубли
Disallow: /index.php #дубли
Disallow: /*tag #облако тегов
Disallow: /*.pdf #ПДФ файлы, на усмотрение
Disallow: /*.swf #Flash, на усмотрению
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /images/ #открываем картинки
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #открываем карту сайта
Host: ваш_домен.ru
Sitemap: http://ваш_адрес_карты_сайта
Clean-param: searchword /
Crawl-delay: 5

По поводу карты сайта можете ознакомиться с моей статьей: Зачем нужна карта сайта или как создать Sitemap.xml.
Не забываем, что в директиве «host» адрес сайта указывается без http:// и указывается главное зеркало сайта (если есть дубли с WWW и без — то следует предварительно склеить их 301 редиректом)

Robots.txt для Джумла + VirtueMart + SH404

User-agent: *
Allow: /sitemap-xml.html?sitemap=1        #доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category      #доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product        #доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=           #поиск по ключам
Disallow: /*pop=0               #проблема sh404
Disallow: /*product-search    #поиск
Disallow: /*flypage=            #товары из результатов поиска
Disallow: /*cart                   #корзина
Disallow: /*feed                   #Также запрещается RSS и atom
Disallow: /404                 #404 ошибка
Disallow: /*?                       #урлы содержащие ?
Disallow: /*%                     #урлы содержащие %
Crawl-delay: 5                    #таймаут в 5 секунды
Host: ваш_домен.ru
Sitemap: http://ваш_адрес_карты_сайта

Данные роботсы служат скорее для каркаса, который нужно допилить под свой сайт, т.к. у каждого проекта свои модули, которые могут плодить дубли страниц.

Когда будете вносить правки — всегда проверяйте их на корректность в Яндексе, чтобы избежать проблем.

Автор статьи
Роман Вердыш (Romanus)
SEO-Expert, стаж более 10 лет
Написано статей
41