Удаляем всё ненужное из индекса. Пишем robots.txt
В пору, когда я создавал ресурс непонятно для чего, начитался всяких статей по SEO, что если на сайте куча страниц — это хорошо. Да, это хорошо, только если страницы полноценные и на них есть содержательный текст. Но если это мусор из одних ссылок на другие страницы, дубляж контента — это не очень хорошо. В wordpress такими страницами являются страницы тегов, рубрик, архивы. У меня однажды было что какая то мусорная страница по запросам стояла выше, чем та, нужная содержательная страница. Я подумал, да и почитал опять же статьи в интернете, и решил — нафига они нужны? И прописал в robots.txt правила на запрет индексирования ненужных страниц.
Для справки — как, что писать в писать в robots.txt
И проверить, правильно ли написан файл можно тут. Там можно загрузить файл robots.txt с вашего ресурса, ввести какой нибудь url с сайта и проверить, будет ли он индексироваться или нет.
Для этого сайта robots.txt выглядит следующим образом:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
User-agent: Yandex Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: /*?utm_source Disallow: /20* Host: lamp-dev.ru User-agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: /*?utm_source Disallow: /20* Sitemap: http://lamp-dev.ru/sitemap.xml |
Ну что ж, посмотрим какой будет результат, после того как в индексе будут только нужные контентные страницы, в малом количестве, но с нормальным текстом.
Опять же судя по обсуждениям в интернете это должно дать плюс/минус по тем, иным запросам. Но в целом ту же картину по посещаемости.
Файл robots изменил в начале марта. Пока что Яндекс судя по веб-мастеру уже несколько раз заходил на мой сайт, но из индекса ненужные страницы не выбросил. Может надо подождать подольше. Или я что то делаю не так 🙂
Через месяцок отпишусь, что дали все эти телодвижения.
С момента публикации прошло уже несколько месяцев. Как результаты?
Да особо ничего не произошло 🙁 После того как прописал этот robots.txt Яндекс через недели 2-3 выкинул ненужные страницы. Гугл до сих пор держит ненужные страницы в индексе. Надо наверное в веб-мастер зайти и вручную ему указать всё. На посещаемости отразилось не сильно. Тут просто такая ситауция получилась — посещаемость держится такой же, какой и была, но с периода когда я прописал этот robots.txt до текущего дня я подзабил(получается в течение 2-3 месяцев) на этот блог и по идее посещаемость должна так примерно на треть просесть, но не проседает. Видимо небольшой плюс дало всё это дало — типа небольшая уважуха, трастовость от поисковика. Ну это моё мнение 🙂 Я не сео-шник 🙂 Но то что вреда от этого нет — это точно. Вред разве что может быть, если вы продаёте ссылки на какой нибудь бирже, страниц сайта станет меньше и мест для размещения ссылок меньше.