Что такое файл robots.txt и как его правильно использовать?

April 26, 2024

Файл robots.txt — это среда, позволяющая вам общаться с поисковыми ботами, сканирующими ваш сайт. Уметь сообщать роботам , что именно следует анализировать на странице, может быть полезно, для правильного выполнения этого действия необходимо изучить язык, понятный веб-сканерам. Узнайте больше в этой статье!

Содержание:

Robots.txt — что это такое?

Элементы, которые не следует сканировать

Будь осторожен!

Файлы robots.txt — это всего лишь рекомендации

Генераторы Robots.txt – Как создать файл?

Синтаксис файла robots.txt

Директивы для файлов Robots.txt

Настройка по умолчанию

Размер букв

Сила Звездочки

Конец последовательности символов

Комментарии

Где разместить файл Robots.txt?

Файл Robots.txt — вывод

Каждый, кто создает сайт, хочет, чтобы его видели в Интернете. Вот почему все больше и больше людей решают выполнять действия по SEO, соответствующие рекомендациям Google и Яндекс, чтобы гарантировать, что их сайты будут отображаться на высоких позициях в ТОП-10 результатах обычного поиска. Один из первых вопросов, который, вероятно, приходит вам в голову: откуда Google или любая другая поисковая система узнает, что опубликовано на данной странице ? Ну, так называемые веб-сканеры проверяют бесконечные ресурсы онлайн-мира и анализируют контент на всех встреченных сайтах. Стоит убедиться, что как только роботы зайдут на ваш сайт, им сообщат, какие страницы следует сканировать. Поскольку есть страницы дубли, страницы нумерации (пагинации), страницы с личными данными они не должны появляться в результатах поиска — именно здесь нужен файл robots.txt.

Robots.txt — что это такое?

Файл robots.txt является одним из элементов, используемых для связи с веб-сканерами. Роботы ищут именно этот файл сразу после входа на сайт. Он состоит из комбинации команд, соответствующих стандарту Robots Exclusion Protocol — «языку», понятному ботам. Благодаря этому владельцы сайтов могут управлять роботами и ограничивать доступ к таким ресурсам, как графика, стили, скрипты или определенные подстраницы сайта, которые не нужно показывать в результатах поиска.

Элементы, которые не следует сканировать

Прошло много времени с тех пор, как сайты перестали быть простыми файлами, не содержащими ничего, кроме текста. Большинство интернет-магазинов содержат множество подстраниц, которые не представляют ценности с точки зрения результатов поиска или даже приводят к созданию внутреннего дублированного контента.

Роботы не должны иметь доступа к таким элементам, как корзины покупок, внутренние поисковые системы, процедуры заказа или пользовательские панели. Почему? Потому что дизайн этих элементов может не только вызвать ненужную путаницу, но и негативно повлиять на видимость сайта в поисковой выдаче . Вам также следует рассмотреть возможность блокировки копий подстраниц, созданных CMS, поскольку они могут увеличить количество внутреннего дублированного контента.

Будь осторожен!

Создание правил для поисковых роботов, требует идеального знания структуры сайта. Использование неправильной команды может помешать роботам получить доступ ко всему содержимому сайта или его важным частям. Это, в свою очередь, может привести к обратному эффекту — ваш сайт может полностью исчезнуть из результатов поиска .

Файлы robots.txt — это всего лишь рекомендации

Веб-сканеры могут решить следовать вашим предложениям, однако по многим причинам вы не можете заставить их соблюдать какие-либо команды, размещенные в вышеупомянутом протоколе связи. Прежде всего, Googlebot — не единственный робот, сканирующий сайты. Хотя создатели ведущей поисковой системы в мире гарантируют, что их сканеры уважают рекомендации владельцев сайтов, другие боты не обязательны это делать. Более того, URL-адрес может быть просканирован, если на него ссылается другой проиндексированный сайт. В зависимости от ваших потребностей, есть несколько способов защитить себя от такой ситуации. Например, вы можете применить метатег noindex или HTTP-заголовок «X-Robots-Tag». Также возможно защитить личные данные паролем, поскольку веб-сканеры не смогут его взломать. В случае с файлом robots.txt удалять данные из индекса поисковой системы не обязательно, достаточно их просто скрыть.

Генераторы Robots.txt — как создать файл?

Интернет изобилует генераторами robots.txt и очень часто CMS оснащены специальными механизмами, которые облегчают пользователям создание таких файлов. Вероятность того, что вам придется готовить инструкции вручную, довольно мала. Однако стоит изучить базовые структуры протокола, а именно правила и команды, которые можно передавать веб-сканерам.

Синтаксис файла robots.txt

User-agent команда указывает каким ботам она написана
```
 User-agent: Googlebot
```

или

    User-agent: *

Disallow запрет на сканирование и индексацию
```
 Disallow: /private/
```

или

    Disallow: /images/

Allow если вы запретили какой-то каталог, но есть отдельный URl, который должен индексироваться.
```
 Disallow: /images/
 Allow: /images/logo.png
```
Crawl-delay если требуется уменьшить нагрузку на сервер, то следует указать задержку сканирования
```
 Crawl-delay: 10
```
Sitemap указывает на расположение XML файла
```
 Sitemap: https://www.example.com/sitemap.xml
```
Host если у вас по какой-то причине сайт с www. и без него, то следует указать какое зеркало следует сканировать
```
 Host: www.example.com
```

Пример файла

User-agent: *
Disallow: /page1/
Disallow: /foto/
Crawl-delay: 5
Sitemap: https://www.example.com/sitemap.xml
Host: www.example.com

Этот файл указывает, что все боты не должны индексировать пути /page1/ и /foto/. Задержка сканирования 5 секунд. Указан адрес карты сайта и основной домен.

Директивы для файлов Robots.txt

Настройка по умолчанию

Важно помнить, что веб-сканеры предполагают, что им разрешено сканировать весь сайт. Если ваш файл robots.txt содержит следующее: User-agent: * Allow: /, то нет необходимости включать его в каталог сайта. Боты будут сканировать сайт в соответствии со своими настройками. Однако, для предотвращения возможных ошибок при анализе сайта, всегда можно вставить файл.

Размер букв

Как бы это ни было удивительно, но роботы способны распознавать как маленькие, так и заглавные буквы . Поэтому они будут воспринимать file.php и File.php как два разных адреса.

Сила звездочки

Звездочка - *, упомянутая ранее, является еще одной очень полезной функцией. В протоколе роботов сообщается, что в заданном пространстве разрешено размещать любую последовательность символов неограниченной длины. Например: Disallow: //foto.html будет применяться как к файлу c: /directory1/foto.html, так и к файлу : /folder1/folder2/folder36/foto.html. Звездочка также может служить другим целям. Если вы поместите её перед определенным расширением файла, правило применимо ко всем файлам этого типа. Например: Disallow: /.php будет применяться ко всем файлам .php на вашем сайте (кроме пути «/», даже если он ведет к файлу с расширением .php), а правило: Disallow: /folder1/ test* будет применяться ко всем файлам и папкам в папке 1, начинающимся со слова «test».

Конец последовательности символов

Не забывайте об операторе $, который указывает конец адреса. Таким образом, используя правило: User-agent: * Disallow: /folder1/ Allow: /folder1/*.php$ предлагает ботам не индексировать содержимое папки 1, но в то же время позволяет им сканировать файлы .php внутри. Папка. Пути, содержащие загруженные параметры, например: http://mywebsite.com/catalogue1/page.php?page=1, уже не сканируются ботами. Однако такие проблемы можно легко решить с помощью канонических URL-адресов .

Если создаваемый файл или ваш сайт сложный, желательно добавить комментарии, поясняющие ваши решения. Это проще простого — просто вставьте # в начале строки, и сканеры просто пропустят эту часть контента при сканировании сайта.

Где разместить файл Robots.txt?

Если у вас уже есть файл robots.txt, который соответствует всем стандартам, просто загрузите его на сервер. Убедитесь, что файл размещен в корневом каталоге вашего хостинга. Если файл будет размещен в другом месте, поисковые роботы могут не найти его. URL-адрес для доступа к файлу robots.txt выглядит так: http://website.com/robots.txt. Если у вашего сайта есть несколько версий URL-адресов (например, с http, https, www или без www), рекомендуется настроить соответствующие перенаправления на основной домен. Это поможет обеспечить правильное сканирование вашего сайта поисковыми системами.

Файл Robots.txt — вывод

Файл robots.txt - это набор рекомендаций для ботов, которые сканируют ваш сайт. Хотя большинство известных поисковых систем и веб-сканеров следуют этим рекомендациям, они не обязаны это делать. Подготовка файла в соответствии с рекомендациями поможет убедиться, что все подстраницы вашего сайта сканируются правильно. Однако, если вам нужно полностью запретить доступ роботам к определенным данным на сервере, рекомендуется использовать более надежные методы, например, пароли, которые сложнее взломать. Если техническое SEO не ваш конек, не стесняйтесь обратиться к нам! Мы выполним эту работу за вас в кратчайшие сроки и улучшим видимость вашего сайта с помощью других SEO-мероприятий.