Перейти к содержимому

Фотография

Robots.txt - подробности

robots.txt WordPress

  • Авторизуйтесь для ответа в теме
Сообщений в теме: 11

#1 Виктор В.

Виктор В.

    Стажер

  • Киберсанты
  • PipPipPip
  • 61 сообщений
1
Обычный

Отправлено 03 Декабрь 2011 - 21:51

У каждого (во всяком случае, у большинства) на сайте есть файл robots.txt, который регулирует Ваши отношения с поисковыми роботами.
Но не каждый составлял этот файл самостоятельно и осознано. У большинства robotsы либо созданы плагинами, либо "передраны" с других файлов.
Есть еще одна группа файлов, авторы которых и не догадываются о существовании и необходимости robotsа.
Исходя из вышеизложенного, я думаю, будет полезно создать рубрику, в которой те, кто знает назначение строк запретов, поделятся с остальными.
Замечательно, если будет указываться ПРИЧИНА запрета индексации (по мнению пишущего).
Я начну:
Disallow: /cgi-binскриптов -- только не знаю, для чего запрещается индексация ;
Disallow: /wp-adminадминки -- тут понятно - это Ваша частная, личная информация;
Disallow: /wp-includesне знаю, что это такое?
Disallow: /wp-content/pluginsплагинов -- это тоже понимаю - в плагинах дофига информации рекламного характера, как то адреса форумов или авторов;
Disallow: /wp-content/themesтем -- то же, что и для плагинов;
Disallow: /wp-content/cacheкэша -- не знаю для чего запрещать;
Disallow: /trackbackтрэкбеков -- вооще не знаю, что такое трекбек?
Disallow: /feedфида (RSS ленты) -- не знаю для чего запрещать;
Disallow: /commentsкомментариев -- тут понятно - комментарии содержат массу ссылок на сайты "коментаторов"
Disallow: /category/*/*категорий (рубрик) -- не знаю для чего запрещать;
Disallow: /xmlrpc.phpне знаю, что это такое?

Для начала - достаточно.
Кто, что может добавить - не стесняйтесь...

Сообщение отредактировал Виктор В.: 13 Февраль 2012 - 09:12

  • 0

На правах рекламы

#2 Виктор В.

Виктор В.

    Стажер

  • Киберсанты
  • PipPipPip
  • 61 сообщений
1
Обычный

Отправлено 10 Декабрь 2011 - 17:55

Disallow: /wp-includesФункционал, типа библитек кода. Ядро. – файлы, не для посетителей (и, особенно, не для роботов)

Сообщение отредактировал Виктор В.: 10 Декабрь 2011 - 19:09

  • 0

#3 Виктор В.

Виктор В.

    Стажер

  • Киберсанты
  • PipPipPip
  • 61 сообщений
1
Обычный

Отправлено 12 Февраль 2012 - 15:27

Кое до чего сам додумался:
Disallow: /wp-content/cacheкэша -- запрещается для того, чтобы одни и те же статьи не индексировались по нескольку раз;
Disallow: /feedфида (RSS ленты) -- по тем-же причинам...

Сообщение отредактировал Виктор В.: 12 Февраль 2012 - 15:28

  • 0

#4 Артём Еремеевский

Артём Еремеевский

    Свой человек

  • Киберсанты
  • PipPipPipPipPip
  • 2 144 сообщений
842
Очень хороший
  • Страна, Город:
    Россия, Красноярск
  • Пол:Мужчина

Отправлено 12 Февраль 2012 - 16:39

Вы немного не понимаете суть robots.txt и работы WP.

WP работает через один файл index.php, далее ядро само берет нужную информацию из папок wp-plugins, feeds и т.п. Т.е. у вас никогда не фигурируют адреса типа: http://my-domain.ru/...some-plugin.php, поэтому соответственно нет нужды данную папку индексировать.
  • 0

#5 Виктор В.

Виктор В.

    Стажер

  • Киберсанты
  • PipPipPip
  • 61 сообщений
1
Обычный

Отправлено 13 Февраль 2012 - 09:13

Вы немного не понимаете суть robots.txt и работы WP.

WP работает через один файл index.php, далее ядро само берет нужную информацию из папок wp-plugins, feeds и т.п. Т.е. у вас никогда не фигурируют адреса типа: http://my-domain.ru/...some-plugin.php, поэтому соответственно нет нужды данную папку индексировать.

К тому же я "немного не понимаю", к какой конкретно строке относится данный комментарий?
Или это ко всей теме в целом?
  • 0

#6 Артём Еремеевский

Артём Еремеевский

    Свой человек

  • Киберсанты
  • PipPipPipPipPip
  • 2 144 сообщений
842
Очень хороший
  • Страна, Город:
    Россия, Красноярск
  • Пол:Мужчина

Отправлено 13 Февраль 2012 - 15:32

Можно сказать, что ко всем строкам. Т.е. эти папки не используются напрямую в URL, у вас попросту не должны вызываться такие адреса как:
http://mydomain.com/wp-includes
http://mydomain.com/wp-content/pugins

ну и т.п. Все эти папки использует движок WP, соответственно напрямую из браузера они вызываться не должны, а следовательно и индексировать их нет нужды.
  • 0

#7 Виктор В.

Виктор В.

    Стажер

  • Киберсанты
  • PipPipPip
  • 61 сообщений
1
Обычный

Отправлено 13 Февраль 2012 - 16:10

ну и т.п. Все эти папки использует движок WP, соответственно напрямую из браузера они вызываться не должны, а следовательно и индексировать их нет нужды.

Так я их, собственно, и не индексирую, а ЗАПРЕЩАЮ... роботам их индексировать...
  • 0

#8 Артём Еремеевский

Артём Еремеевский

    Свой человек

  • Киберсанты
  • PipPipPipPipPip
  • 2 144 сообщений
842
Очень хороший
  • Страна, Город:
    Россия, Красноярск
  • Пол:Мужчина

Отправлено 13 Февраль 2012 - 19:59

Так я их, собственно, и не индексирую, а ЗАПРЕЩАЮ... роботам их индексировать...


Я собственно тоже про роботов писал. Вы их как вообще индексировать можете? :)
  • 0

#9 dslava

dslava

    Новичок

  • Пользователи
  • Pip
  • 1 сообщений
0
Обычный

Отправлено 17 Февраль 2012 - 00:57

Я только что осознал, что файл, robots.txt, лежащий в корне сервера и предназначенный для поисковых систем является огромной дырой в системе безопасности. К примеру, в своем файле я перечислил те каталоги, о которых посетителям знать не нужно, чтобы поисковые системы их не индексировали. Но ведь любой может ввести в строке браузера путь до robots.txt и получит на блюдечке список всего секретного. Как быть?
  • 0

#10 Артём Еремеевский

Артём Еремеевский

    Свой человек

  • Киберсанты
  • PipPipPipPipPip
  • 2 144 сообщений
842
Очень хороший
  • Страна, Город:
    Россия, Красноярск
  • Пол:Мужчина

Отправлено 17 Февраль 2012 - 16:04

У вас каталоги должны быть защищены от доступа прямого.
Ну есть вариант ограничить доступ к robots.txt по User-Agent думаю, но он подделывается легко.
  • 0

#11 kalika

kalika

    Ученик

  • Пользователи
  • PipPip
  • 21 сообщений
1
Обычный
  • Пол:Мужчина

Отправлено 24 Февраль 2012 - 06:16

Но ведь любой может ввести в строке браузера путь до robots.txt и получит на блюдечке список всего секретного. Как быть?

<Files robots.txt>
order allow,deny
deny from all
</Files>
вставьте в htaccess этот код и будет Вам счастье :)

Сообщение отредактировал kalika: 24 Февраль 2012 - 06:16

  • 0

#12 Артём Еремеевский

Артём Еремеевский

    Свой человек

  • Киберсанты
  • PipPipPipPipPip
  • 2 144 сообщений
842
Очень хороший
  • Страна, Город:
    Россия, Красноярск
  • Пол:Мужчина

Отправлено 24 Февраль 2012 - 09:24

вставьте в htaccess этот код и будет Вам счастье :)


И поисковику тоже, который не получит доступа к robots.txt :)
  • 0





Темы с аналогичным тегами robots.txt, WordPress

Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 скрытых пользователей