Этот файлик теперь, наверное, один из незаменимых в файлах сайта. Собственно , я никогда не заморачивался над тем как его настраивать, есть и есть , особо не мешает.
Однако в процессе "эксплуатации" парочки своих сайтов начал обнаруживать крайне много дублированного контента- это и проиндексированные странички постраничной навигации, категории, версии для печати, архивы , тэги , особенно это актуально для сайтов под управлением CMS DLE.
Сейчас , часть страниц с дублированным контентом закрыта от индексации в robots.txt , который изначально идет в архиве с dle, код указан ниже:
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Собственно, поисковый робот яши даже не перейдет по запрещенным ссылкам (некоторые ошибочно считают что он переходит, но при этом запрещенную страницу не включает в поиск). Т.е. сразу видно ,что запрещено для поисковика, для хорошего сайта эти подразделы не нужны, а вот для ГС (говно сайт) они важны в индексе, так как используются в SAPE (система купли-продажи ссылок).
И теперь перейду к своему печальному опыту. Конечно, зная ,что яша любит сайты для людей ( в идеале поисковик должен только индексировать страницы с контентом), начал настраивать robots.txt, и изобразил убогую картину "приплыли":
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
User-agent: Yandex (инструкция чисто для ЯШИ)
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*print
Disallow: /autobackup.php
Disallow: /2012/
Disallow: /2013/
Disallow: /tags/
Disallow: /page/
Disallow: */page/*
Disallow: /категория1/
Disallow: /категория2/
Disallow: /категория3/ и так далее
Sitemap: http://мой сайт.ру /sitemap.xml
Host: мой сайт.ру
1.Итак, что я хотел из этого извлечь:
1.1 В парочке блогов (кстати довольно посещаемых ,а посему воспринятых мной как качественные) прочитал ошибочные статьи-это то, что закрывая от индекса категорию Disallow: /категория1/ вы лишь закроете страницу Вашсайт.ру/категория1/, но при этом Вашсайт.ру/категория1/контент1.html будет проиндексирован;Приняв на веру сии утверждения, решил закрыть все кроме контента. Благая цель- дать людям только информацию .
1.2. Ускорить индексацию так как избавляюсь от лишних дублей;
1.3. Моральное удовлетворение от проделанной глупости.
2.И что приобрел:
2.1 По первому пункту полное выпадение из индекса ЯШИ всех страниц уже через неделю, мало того выпал и из индекса Google (почему объясню ниже);
2.2 По второму пункту полное отсутствие индексации нового контента, что не мудрено см. п.1.1;
2.3 По третьему пункту глупость была достигнута и ,конечно, никакого морального удовлетворения. И слезное "прошу пояснить" в саппорд яши.
Так почему же выпал из индекса сайт в Google?? - по инструкции для User-agent: * (т.е. всех поисковиков) нет запрета на контент, а для ЯШКИ (User-agent: Yandex ) идут чуть другие правила. Все оказалось до нельзя банально Google включил правила ЯШИ к себе т.е.:
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*print
Disallow: /autobackup.php
Disallow: /2012/
Disallow: /2013/
Disallow: /tags/
Disallow: /page/
Disallow: */page/*
Disallow: /категория1/
Disallow: /категория2/
Disallow: /категория3/ и так далее
Sitemap: http://мой сайт.ру/sitemap.xml
Host: мой сайт.ру
Вот такой вот гладиолус. Возможно я и профан, но всегда думал поисковики читают в robotx.txt , только инструкции для себя.
На данный момент все поправил и считаю что самой оптимальной конструкцией robotx.txt для сайта, основанного на DLE и всех поисковиков, является:
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*print
Disallow: /autobackup.php
Disallow: /2012/
Disallow: /2013/
Disallow: /tags/
Disallow: /page/
Disallow: */page/*
Sitemap: http://мой сайт.ру/sitemap.xml
Host: мой сайт.ру
Да и помните, что директива Host:- воспринимается только ЯШКОЙ. И еще определитесь какой у вас будет основной сайт мой сайт.ру или www.мой сайт.ру(для поисковиков это разные сайты, поначалу) и пропишите в директиве Host: -это даст возможность яше быстро выделить основное зеркало и в будущем мой сайт.ру или www.мой сайт.ру- склеить (т.е. выдавать как один сайт), но даже без этой директивы ЯША сам определит главное зеркало, да и гугля тоже, просто времени уйдет больше.
Вот и все. Если есть замечания пишите.
Метки: google, yandex, robots.txt