Как составить правильный robots.txt
Зовсім недавно я заглянув в Яндекс.Вебмастер і жахнувся. Взагалі в цій панелі я рідкісний гість, цього разу просто знадобилося додати карту сайту , якщо бути точним кілька різних карт, які ми оглянули раніше.
Так от, як ви знаєте, на головній панелі вебмастера є відразу декілька показників і графік числа сторінок виключених роботом. От мені в очі цей графік і кинувся - на ньому був зображений різкий стрибок синьою кривою, яка відповідає за виключення сторінок навмисно заборонених до індексації. Мені стало цікаво, що ж такого я там назапрещал (є таке слово ?:)).
Переглянувши всі сторінки із забороненими до індексації URL я побачив серед них цілком нормальні пости, які дійсно були виключені з індексу завдяки наявному в мене robots.txt .
Далі більше. Вирішивши за одне переглянути проіндексовані URL, по мимо нормальних сторінок я помітив всяку хрень, на зразок такої: / 404-not-found-wordpress.html/feedабо ось такий / 404-not-found -wordpress.html/404-pravitelstvo. А потім я зайшов в вебмастер Google ... Це пипец якийсь, але там приблизно те саме.
Загалом зрозумів я одне - не можна покладатися на 100% на викладені в мережі приклади robots.txt для wordpress , як зробив це я. Кожен robots.txt необхідно настроювати під конкретний сайт. Цим і займемося.
Опубліковано: 24/11/11 @ 11:01
Розділ Різне
Рекомендуємо:
Массовое добавление URL адресов в Google
Как определить точный путь источников трафика в Google Analytics
Ап рейтинга блогов Яндекса
Эксперимент с WebEffector. Отчет №2
АП Google Page Rank от 27.06