Robots.txt для Joomla

3 минуты
Хочу получать материалы по интернет-маркетингу и SEO

Joomla — довольно популярный движок среди вебмастеров, т.к. она бесплатна и обладает большими возможностями, множеством готовых решений. Разберем правильный robots.txt для Joomla.

Не буду приводить основные директивы и их описание, т.к. ознакомиться с ними можно в моей статье: настройка robots.txt .

Тот роботс, что идет в комплекте с движком является неплохим, т.к. в нем закрыты основные служебные директории, но много мусора остается открытым. А вот картинки в стандартном файле — закрыты, что не совсем хорошо.

Как выглядит стандартный robots для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Теперь разберем правильные файлы robots.txt для Джумлы с различными дополнениями. Не забываем, что для Яндекса желательно дописать отдельный «User-agent: Yandex» и продублировать в него все директивы.

Robots.txt для Joomla 2.5 и 3 с родным SEF

Закрываем стандартные служебные папки и убираем дубли с сайта и прочий мусор.

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index.php*
Disallow: /index2.php*
Disallow: /*com_mailto #форма отправки писем
Disallow: /*pop= #всплывающие окна
Disallow: /*lang=ru #языковую версию
Disallow: /*format= #форматы
Disallow: /*print= #ссылка вывода на печать
Disallow: /*task=vote #голосования
Disallow: /*=watermark #водяные знаки
Disallow: /*=download #Ссылки на скачивание
Disallow: /*user/ #пользователи
Disallow: /404 #закрываем 404 ошибку
Disallow: /index.php? #урлы с параметрами
Disallow: /*? #урлы с вопросами
Disallow: /*% #урлы с процентами
Disallow: /*& #урлы со знаком &
Disallow: /index2.php #дубли
Disallow: /index.php #дубли
Disallow: /*tag #облако тегов
Disallow: /*.pdf #ПДФ файлы, на усмотрение
Disallow: /*.swf #Flash, на усмотрению
Disallow: /*=atom #RSS
Disallow: /*=rss #RSS
Allow: /images/ #открываем картинки
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #открываем карту сайта
Host: ваш_домен.ru
Sitemap: http://ваш_адрес_карты_сайта
Clean-param: searchword /
Crawl-delay: 5

По поводу карты сайта можете ознакомиться с моей статьей: Зачем нужна карта сайта или как создать Sitemap.xml.
Не забываем, что в директиве «host» адрес сайта указывается без http:// и указывается главное зеркало сайта (если есть дубли с WWW и без — то следует предварительно склеить их 301 редиректом)

Robots.txt для Джумла + VirtueMart + SH404

User-agent: *
Allow: /sitemap-xml.html?sitemap=1        #доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category      #доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product        #доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=           #поиск по ключам
Disallow: /*pop=0               #проблема sh404
Disallow: /*product-search    #поиск
Disallow: /*flypage=            #товары из результатов поиска
Disallow: /*cart                   #корзина
Disallow: /*feed                   #Также запрещается RSS и atom
Disallow: /404                 #404 ошибка
Disallow: /*?                       #урлы содержащие ?
Disallow: /*%                     #урлы содержащие %
Crawl-delay: 5                    #таймаут в 5 секунды
Host: ваш_домен.ru
Sitemap: http://ваш_адрес_карты_сайта

Данные роботсы служат скорее для каркаса, который нужно допилить под свой сайт, т.к. у каждого проекта свои модули, которые могут плодить дубли страниц.

Когда будете вносить правки — всегда проверяйте их на корректность в Яндексе, чтобы избежать проблем.

Рекомендованные статьи
  • AlexS

    У меня Joomla 3 + Joomshopping. Похоже глупый вопрос, но все-же не могу понять… Сравнил перечень запрещенных к индексированию папок в robots.txt с папками, лежащими на сервере — получается, что все папки запрещены к индексированию. Тем не менее, робот индексирует страницы категорий и страницы карточек товаров. Подскажите, как он до них добирается?

    • Вы закрыли служебные файлы и папки, верно?
      Но при этом говорите о контенте (который хранится в базе данных, а не на FTP). Соответственно, если вам нужно закрыть всё остальное — закрывайте нужные категории и страницы отдельно.

      Либо же закрыть весь сайт.

  • Геннадий

    учи, французский, reno-renault

  • Если запилить второй вариант в роботс.тхт сразу и для гугла и для яндекса, отдельно добавив к гуглу директивы allow/: *js , allow/: *css , норм работает ?! Или хватит толлько для гугла с директивой User-agent: *
    ,?!

    спасибо!!

    • Valentin, таких директив нет, которые вы описали.
      Если вы хотите для всего сайта открыть js и css, то в обоих юзер-агентах пропишите следующее:
      Allow: *.js
      Alow: *.css

      • в моем случае сработал следующий вариант:
        User-agent: Googlebot
        Allow: /*.js
        Allow: /*.css
        Allow: /*.jpg
        Allow: /*.gif
        Allow: /*.png