Robots txt зміст. Як редагувати файл txt robots. Що дає налаштування файлу

Файл robots.txt знаходиться у кореневому каталозі вашого сайту. Наприклад, на сайті www.example.com адреса файлу robots.txt буде виглядати як www.example.com/robots.txt. Файл robots.txt є звичайним. текстовий файл, що відповідає стандарту винятків для роботів , і включає одне або кілька правил, кожне з яких забороняє або дозволяє тому чи іншому пошуковому роботі доступ до певного шляху на сайті.

Ось приклад простого файлу robots.txt із двома правилами. Нижче наведено пояснення.

# Група 1 User-agent: Googlebot Disallow: /nogooglebot/ # Група 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

Пояснення

Агент користувача з назвою Googlebot не повинен сканувати каталог http://example.com/nogooglebot/ та його підкаталоги.
Всі інші агенти користувача мають доступ до всього сайту (можна опустити, результат буде тим же, так як повний доступнадається за замовчуванням).
Файл Sitemapцього сайту знаходиться за адресою http://www.example.com/sitemap.xml.

Нижче наведено кілька порад щодо роботи з файлами robots.txt. Ми рекомендуємо вам вивчити повний синтаксис цих файлів , оскільки синтаксичні правила, що використовуються при їх створенні, є неочевидними і ви повинні розбиратися в них.

Формат та розташування

Створити файл robots.txt можна майже у будь-якому текстовому редакторіза допомогою кодування UTF-8. Не використовуйте текстові процесори, оскільки вони часто зберігають файли в пропрієтарному форматі і додають до них неприпустимі символи, наприклад фігурні лапки, які не розпізнаються пошуковими роботами.

При створенні та тестуванні файлів robots.txt використовуйте інструмент перевірки. Він дозволяє проаналізувати синтаксис файлу та дізнатися, як він функціонуватиме на вашому сайті.

Правила щодо формату та розташування файлу

Файл повинен мати назву robots.txt.
На сайті має бути лише один такий файл.
Файл robots.txt потрібно розмістити у кореневому каталозісайту. Наприклад, щоб контролювати сканування всіх сторінок сайту http://www.example.com/, файл robots.txt слід розмістити за адресою http://www.example.com/robots.txt . Він не повинен перебувати в підкаталозі(наприклад, за адресою http://example.com/pages/robots.txt). У разі труднощів з доступом до кореневого каталогу зверніться до хостинг-провайдера. Якщо у вас немає доступу до кореневого каталогу сайту, використовуйте альтернативний метод блокування, наприклад, метатеги .
Файл robots.txt можна додавати на адреси з субдоменами(наприклад, http:// website.example.com/robots.txt) або нестандартними портами (наприклад, http://example.com: 8181 /robots.txt).
Коментар вважається будь-який текст після символу #.

Синтаксис

Файл robots.txt повинен бути текстовим файлом у кодуванні UTF-8 (що включає коди символів ASCII). Інші набори символів не можна використовувати.
Файл robots.txt складається з груп.
Кожна групаможе містити декілька правил, по одному на рядок. Ці правила також називаються директивами.
Група містить таку інформацію:
- До якого агенту користувачазастосовуються директиви групи.
- є доступ.
- До яких каталогів або файлів цього агента немає доступу.
Інструкції груп зчитуються зверху донизу. Робот дотримуватиметься правил лише однієї групи з найбільш точно відповідним йому агентом користувача.
За замовчуванням передбачається, якщо доступ до сторінки або каталогу не заблокований правилом Disallow: , то агент користувача може їх обробляти.
Правила чутливі до регістру. Так, правило Disallow: /file.asp застосовується до URL http://www.example.com/file.asp , але не http://www.example.com/File.asp .

Директиви, які використовуються у файлах robots.txt

User-agent: Обов'язкова директива, у групі таких може бути декілька. Визначає, до якого пошукового роботуповинні застосовуватись правила. З такого рядка починається кожна група. Більшість агентів користувача, що належать до робот Google, можна знайти в спеціальному списку та в базі даних роботів Інтернету. Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху. Використовуйте знак * , як показано нижче, щоб заблокувати доступ всім пошуковим роботам ( крім роботів AdsBot, які потрібно вказувати окремо). Рекомендуємо ознайомитися зі списком роботів Google. Приклади:# Приклад 1. Блокування доступу лише роботу Googlebot User-agent: Googlebot Disallow: / # Приклад 2. Блокування доступу роботам Googlebot та AdsBot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Приклад 3. Блокування доступу всім роботам , за винятком AdsBot User-agent: * Disallow: /
Disallow: . Вказує на каталог або сторінку щодо кореневого домену, який не можна сканувати агенту користувача, визначеному вище. Якщо це сторінка, необхідно вказати повний шлях до неї, як в адресному рядку браузера. Якщо це каталог, шлях до нього має закінчуватися косою межею (/). Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху.
Allow: Принаймні одна директива Disallow: або Allow: має бути в кожній групі. Вказує на каталог або сторінку щодо кореневого домену, який можна сканувати агенту користувача, визначеному вище. Використовується, щоб скасувати директиву Disallow та дозволити сканування підкаталогу або сторінки в закритому для сканування каталозі. Якщо це сторінка, необхідно вказати повний шлях до неї, як в адресному рядку браузера. Якщо це каталог, шлях до нього має закінчуватися косою межею (/). Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху.
Sitemap: Необов'язкова директива, таких у файлі може бути кілька або зовсім.Вказує на розташування файлу Sitemap, який використовується на цьому сайті. URL має бути повним. Google не обробляє та не перевіряє варіанти URL з префіксами http та https або з елементом www та без нього. Файли Sitemap повідомляють Google, який контент потрібносканувати і як відрізнити його від контенту, який можна, можливоабо не можнасканувати. Приклад: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Інші правила ігноруються.

Ще один приклад

Файл robots.txt складається із груп. Кожна з них починається з рядка User-agent, що визначає робота, який повинен дотримуватися правил. Нижче наведено приклад файлу з двома групами та з пояснювальними коментарями до обох.

# Блокувати доступ Googlebot до каталогів example.com/directory1/... і example.com/directory2/... # але дозволити доступ до каталогу directory2/subdirectory1/... # Доступ до всіх інших каталогів дозволено за замовчуванням. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Блокувати доступ до всього сайту іншою пошуковою системою. User-agent: anothercrawler Disallow: /

Повний синтаксис файлу robots.txt

Повний синтаксис описаний у цій статті. Рекомендуємо вам ознайомитися з нею, тому що у синтаксисі файлу robots.txt є деякі важливі нюанси.

Корисні правила

Ось кілька поширених правил для файлу robots.txt:

Правило	приклад
Заборона сканування всього сайту.Слід врахувати, що в деяких випадках URL-адреси сайту можуть бути присутніми в індексі, навіть якщо вони не були проскановані. Зверніть увагу, що це правило не стосується робіт AdsBot , яких потрібно вказувати окремо.	User-agent: * Disallow: /
Щоб заборонити сканування каталогу та всього його змісту, поставте після назви каталогу косу межу. Не використовуйте файл robots.txt для захисту конфіденційної інформації! Для цього слід застосовувати аутентифікацію. URL, сканування яких заборонено файлом robots.txt, можуть бути проіндексовані, а вміст файлу robots.txt може переглянути будь-який користувач, і таким чином дізнатися про місцезнаходження файлів з конфіденційною інформацією.	User-agent: * Disallow: /calendar/ Disallow: /junk/
Щоб дозволити сканування лише для одного пошукового робота	User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Щоб дозволити сканування для всіх пошукових роботів, за винятком одного	User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Щоб заборонити сканування окремої сторінки, вкажіть цю сторінку після косої межі.	User-agent: * Disallow: /private_file.html
Щоб приховати певне зображення від робота Google Картинок	User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Щоб приховати всі зображення з вашого сайту від робота Google Картинок	User-agent: Googlebot-Image Disallow: /
Щоб заборонити сканування всіх файлів певного типу(у даному випадку GIF)	User-agent: Googlebot Disallow: /*.gif$
Щоб заблокувати певні сторінки сайту, але продовжувати на них показ оголошень AdSense, використовуйте правило Disallow для всіх роботів, за винятком Mediapartners-Google. В результаті цей робот зможе отримати доступ до віддалених результатів пошуку сторінок, щоб підібрати оголошення для показу тому чи іншому користувачеві.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Щоб вказати URL, який закінчується на певному фрагменті, використовуйте символ $. Наприклад, для URL, що закінчуються на .xls, використовуйте наступний код:	User-agent: Googlebot Disallow: /*.xls$

Більшість роботів добре спроектовані і не створюють жодних проблем для власників сайтів. Але якщо бот написаний дилетантом або «щось пішло не так», то він може створювати суттєве навантаження на сайт, який він оминає. До речі, павуки зовсім не заходять на сервер подібно до вірусів — вони просто запитують потрібні їм сторінки віддалено (по суті це аналоги браузерів, але без функції перегляду сторінок).

Robots.txt - директива user-agent і роботи пошукових систем

Роботс.тхт має зовсім не складний синтаксис, який дуже докладно описаний, наприклад, хелпе яндексаі хелпе Гугла. Зазвичай у ньому вказується, якого пошукового бота призначені описані нижче директиви: ім'я бота (" User-agent"), що дозволяють (" Allow") та забороняючі (" Disallow"), а також активно використовується "Sitemap" для вказівки пошукачам, де саме знаходиться файл карти.

Стандарт створювався досить давно і щось було додано пізніше. Є директиви та правила оформлення, які будуть зрозумілі лише роботами певних пошукових систем. У рунеті інтерес представляють в основному лише Яндекс і Гугл, а значить саме з їхніми хелпами зі складання robots.txt слід ознайомитись особливо детально (посилання я навів у попередньому абзаці).

Наприклад, раніше для пошукової системиЯндекс було корисним вказати, вашого вебпроекту є головним у спеціальній директиві "Host", яку розуміє тільки ця пошукова система (ну, ще й Майл.ру, бо у них пошук від Яндекса). Щоправда, на початку 2018 року Яндекс все ж таки скасував Hostі тепер її функції як і в інших пошукових систем виконує 301-редирект.

Якщо навіть ваш ресурс немає дзеркал, то корисно буде вказати, який з варіантів написання є головним - .

Тепер поговоримо трохи про синтаксис цього файлу. Директиви в robots.txt мають такий вигляд:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Правильний код має містити хоча б одну директиву Disallowпісля кожного запису "User-agent". Порожній файлпередбачає дозвіл на індексування всього сайту.

User-agent

Директива «User-agent»має містити назву пошукового бота. За допомогою неї можна налаштувати правила поведінки для кожної конкретної пошукової системи (наприклад, створити заборону індексації окремої папкитільки для Яндекса). Приклад написання «User-agent», адресованої всім роботам, що зайшли на ваш ресурс, виглядає так:

User-agent: *

Якщо ви хочете в «User-agent» задати певні умови тільки для одного бота, наприклад, Яндекса, то потрібно написати так:

User-agent: Yandex

Назва роботів пошукових систем та їх роль у файлі robots.txt

Робот кожної пошукової системимає свою назву (наприклад, для рамблера це StackRambler). Тут я наведу список найвідоміших із них:

Google http://www.google.com Googlebot Яндекс http://www.ya.ru Yandex Бінг http://www.bing.com/ bingbot

У великих пошукових систем іноді, крім основних ботів, є окремі екземпляри для індексації блогів, новин, зображень і т.д. Багато інформації з різновидів ботів ви можете отримати (для Яндекса) і (для Google).

Як бути у цьому випадку? Якщо потрібно написати правило заборони індексації, яке повинні виконати всі типи роботів Гугла, то використовуйте назву Googlebot і решта павуків цього пошуковика теж послухаються. Проте, можна заборону давати лише, наприклад, на індексацію картинок, вказавши як User-agent бот Googlebot-Image. Зараз це не дуже зрозуміло, але на прикладах, на мою думку, буде простіше.

Приклади використання директив Disallow і Allow у роботі.

Наведу кілька простих прикладів використання директивіз поясненням його дій.

Наведений нижче код дозволяє всім роботам (на це вказує зірочка в User-agent) проводити індексацію всього вмісту без жодних винятків. Це задається порожній директивою Disallow.
User-agent: * Disallow:
Наступний код навпаки повністю забороняє всім пошуковикам додавати в індекс сторінки цього ресурсу. Встановлює це Disallow із «/» у полі значення.
User-agent: * Disallow: /
У цьому випадку буде заборонятися всім роботам переглядати вміст каталогу /image/ (http://mysite.ru/image/ — абсолютний шлях до цього каталогу) User-agent: * Disallow: /image/
Щоб заблокувати один файл, достатньо буде прописати його абсолютний шлях до нього (читайте): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Забігаючи трохи вперед, скажу, що простіше використовувати символ зірочки (*), щоб не писати повний шлях:
Disallow: /*private_file.html У наведеному нижче прикладі будуть заборонені директорія "image", а також усі файли та директорії, що починаються з символів "image", тобто файли: "image.htm", "images.htm", каталоги: "image", " images1», «image34» і т. д.): User-agent: * Disallow: /image Справа в тому, що за замовчуванням наприкінці запису мається на увазі зірочка, яка замінює будь-які символи, у тому числі і їх відсутність. Читайте про це нижче.ми дозволяємо доступ. Добре доповнює Disallow. Наприклад, такою умовою пошуковому роботу Яндекса ми забороняємо викачувати (індексувати) все, крім вебсторінок, адреса яких починається з /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow:
Ну, або такий очевидний приклад використання зв'язки Allow і Disallow:
User-agent: * Disallow: /catalog Allow: /catalog/auto
При описі шляхів для директив Allow-Disallow можна використовувати символи "*" та "$", задаючи таким чином певні логічні вирази.
1. Символ "*"(зірочка)означає будь-яку (зокрема порожню) послідовність символів. Наступний приклад забороняє всім пошуковим системам індексацію файлів з розширення «.php»: User-agent: * Disallow: *.php$
2. Навіщо потрібний на кінці знак $ (долара)? Справа в тому, що за логікою складання файлу robots.txt, в кінці кожної директиви дописується стандартна зірочка (її немає, але вона є). Наприклад, ми пишемо: Disallow: /images
  Маючи на увазі, що це те саме, що:
  Disallow: /images*
  Тобто. це правило забороняє індексацію всіх файлів (вебсторінок, картинок та інших типів файлів) адреса яких починається з /images, а далі слідує все що завгодно (див. приклад вище). Так ось, символ $просто скасовує цю умовчу (непроставляється) зірочку на кінці. Наприклад:
  Disallow: /images$
  Забороняє лише індексацію файлу /images, але не /images.html чи /images/primer.html. Ну, а в першому прикладі ми заборонили індексацію тільки файлів, що закінчуються на .php (мають таке розширення), щоб нічого зайвого не зачепити:
  Disallow: *.php$

У багатьох движках користувачі (людино-зрозумілі Урли), тоді як Урли, генеровані системою, мають питання "?" на адресу. Цим можна скористатися та написати таке правило у robots.txt: User-agent: * Disallow: /*?

Зірочка після знаку питання напрошується, але вона, як ми з вами з'ясували трохи вище, вже мається на увазі на кінці. Таким чином ми заборонимо індексацію сторінок пошуку та інших службових сторінок створюваних двигуном, до яких може дотягнутися пошуковий робот. Зайвим не буде, бо питання найчастіше CMS використовують як ідентифікатор сеансу, що може призводити до потрапляння в індекс дублів сторінок.

Директиви Sitemap та Host (для Яндекса) у Robots.txt

Щоб уникнути виникнення неприємних проблем із дзеркалами сайту, раніше рекомендувалося додавати в robots.txt директиву Host, яка вказував боту Yandex на головне дзеркало.

Директива Host - вказує головне дзеркало сайту для Яндекса

Наприклад, раніше, якщо ви ще не перейшли на захищений протоколВказувати в Host потрібно було не повний Урл, а доменне ім'я(Без http://, тобто..ru). Якщо вже перейшли на https, то вказувати потрібно буде повний Урл (типу https://myhost.ru).

Чудовий інструмент для боротьби з дублями контенту - пошуковик просто не індексуватиме сторінку, якщо в Canonical прописаний інший урл. Наприклад, для такої сторінки мого блогу (сторінки з пагінацією) Canonical вказує на https://сайт і жодних проблем із дублюванням тайтлів виникнути не повинно.

Але це я відволікся...
Якщо ваш проект створено на основі якогось двигуна, то дублювання контенту матиме місцез високою ймовірністю, а значить потрібно з ним боротися, в тому числі і за допомогою заборони в robots.txt, а особливо в мета-тегу, бо в першому випадку Google заборона може і проігнорувати, а ось на метатег наплювати він вже не зможе ( так вихований).
Наприклад, в WordPress сторінкиз дуже схожим вмістом можуть потрапити в індекс пошукових систем, якщо дозволена індексація і вмісту рубрик, і вмісту архіву тегів, і вмісту тимчасових архівів. Але якщо за допомогою описаного вище мета-тегу Robots створити заборону для архіву тегів та тимчасового архіву (можна теги залишити, а заборонити індексацію вмісту рубрик), то дублювання контенту не виникне. Як це зробити описано за посиланням наведеним трохи вище (на плагін ОлІнСеоПак)
Підсумовуючи скажу, що файл Роботс призначений для завдання глобальних правил заборони доступу в цілі директорії сайту, або файли і папки, в назві яких присутні задані символи (за маскою). Приклади завдання таких заборон ви можете переглянути трохи вище.
Тепер давайте розглянемо конкретні приклади робота, призначеного для різних двигунів - Joomla, WordPress і SMF. Природно, що всі три варіанти, створені для різних CMS, суттєво (якщо не сказати кардинально) відрізнятимуться один від одного. Правда, у всіх у них буде один загальний момент, і цей момент пов'язаний з пошуковою системою Яндекс.
Т.к. у рунеті Яндекс має досить велику вагу, то потрібно враховувати всі нюанси його роботи, і тут нам допоможе директива Host. Вона у явній формі вкаже цьому пошуковику головне дзеркало вашого сайту.
Для неї рекомендують використовувати окремий блог User-agent, призначений лише для Яндекса (User-agent: Yandex). Це пов'язано з тим, що інші пошукові системи можуть не розуміти Host і, відповідно, її включення до запису User-agent, призначеного для всіх пошукових систем (User-agent: *), може призвести до негативних наслідків і неправильної індексації.
Як справи насправді — сказати важко, бо алгоритми роботи пошуку — це річ у собі, тому краще зробити так, як радять. Але в цьому випадку доведеться продублювати в директиві User-agent: Yandex усі ті правила, які ми задали User-agent: * . Якщо ви залишите User-agent: Yandex з порожнім Disallow: , то таким чином ви дозволите Яндексу заходити куди завгодно і тягти все поспіль в індекс.
Robots для WordPress
Не наводитиму приклад файлу, який рекомендують розробники. Ви самі можете його подивитися. Багато блогерів взагалі не обмежують роботів Яндекса і Гугла в їх прогулянках по вмісту движка WordPress. Найчастіше в блогах можна зустріти роботс, автоматично заповнений плагіном.
Але, на мою думку, все-таки слід допомогти пошуку в нелегкій справі відсіювання зерен від полови. По-перше, на індексацію цього сміття піде багато часу у роботів Яндекса та Гугла, і може зовсім не залишитися часу для додавання до індексу вебсторінок з вашими новими статтями. По-друге, роботи, що лазять по сміттєвих файлах движка, будуть створювати додаткове навантаження на сервер вашого хоста, що не є добре.
Мій варіант цього файлу ви можете подивитися. Він старий, давно не змінювався, але я намагаюся дотримуватися принципу «не чини те, що не ламалося», а вам уже вирішувати: використовувати його, зробити свій чи ще в когось підглянути. У мене там ще заборона індексації сторінок з пагінацією була прописана донедавна (Disallow: */page/), але нещодавно я його прибрав, сподіваючись на Canonical, про який писав вище.
А взагалі, єдино правильного файлудля WordPress, мабуть, не існує. Можна, звичайно ж, реалізувати в ньому будь-які передумови, але хтось сказав, що вони будуть правильними. Варіантів ідеальних robots.txt у мережі багато.
Наведу дві крайності:
можна знайти мегафайлище з докладними поясненнями (символом # відокремлюються коментарі, які в реальному файлі краще видалити): User-agent: * # загальні правила для роботів, крім Яндекса та Google, # т.к. для них правила нижче Disallow: /cgi-bin # папка на хостингу Disallow: /? # всі параметри запиту на головній Disallow: /wp- # всі файли WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # якщо є підкаталог /wp/, де встановлена CMS ( якщо ні, # правило можна видалити) Disallow: *?s= # пошук Disallow: *&s= # пошук Disallow: /search/ # пошук Disallow: /author/ # архів автора Disallow: /users/ # архів авторів Disallow: */ trackback # трекбеки, повідомлення в коментарях про появу відкритої # посилання на статтю Disallow: */feed # всі фіди Disallow: */rss # rss фід Disallow: */embed # всі вбудовування Disallow: */wlwmanifest.xml # xml-файл Windows Live Writer (якщо не використовуєте, # правило можна видалити) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm= # посилання з utm-мітками Disallow: *openstat= # посилання з позначками openstat Allow: */uploads # відкриваємо папку з файлами uploads User-agent: GoogleBot # правила для Google (коментарі не дублюю) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # відкриваємо js-скрипти всередині /wp - (/*/ - для пріоритету) Allow: /*/*.css # відкриваємо css-файли всередині /wp- (/*/ - для пріоритету) Allow: /wp-*.png # картинки в плагінах, cache папці та і т.д. Allow: /wp-*.jpg # картинки в плагінах, cache папці і т.д. Allow: /wp-*.jpeg # картинки в плагінах, cache папці і т.д. Allow: /wp-*.gif # картинки в плагінах, cache папці і т.д. Allow: /wp-admin/admin-ajax.php # використовується плагінами, щоб не блокувати JS і CSS User-agent: Yandex # правила для Яндекса (коментарі не дублюю) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендує не закривати # від індексування, а видаляти параметри міток, # Google такі правила не підтримує Clean-Param: openstat # аналогічно # Вкажіть один або кілька файлів Sitemap(Дублювати для кожного User-agent # не потрібно). Google XML Sitemap створює дві карти сайту, як у прикладі нижче. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Вкажіть головне дзеркало сайту, як у прикладі нижче (з WWW / без WWW, якщо HTTPS # то пишемо протокол, якщо потрібно вказати порт, вказуємо). Команду Host розуміє #Яндекс і Mail.RU, Google не враховує. Host: www.site.ru
А ось можна взяти на озброєння приклад мінімалізму: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

Істина, мабуть, лежить десь посередині. Ще не забудьте прописати мета-тег Robots для «зайвих» сторінок, наприклад, за допомогою чудового плагіна — . Він також допоможе і Canonical налаштувати.
Правильний robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
В принципі, тут практично все враховано і працює добре. Єдине, до нього слід додати окреме правило User-agent: Yandex для вставки директиви Host, що визначає головне дзеркало для Яндекса, а також вказати шлях до файлу Sitemap.
Тому в остаточному вигляді правильний robots для Joomla, на мою думку, повинен виглядати так:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Host: vash_sait.ru (або www.vash_sait.ru) User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /* .jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://шлях до вашої карти XML формату
Так, ще зверніть увагу, що у другому варіанті є директиви Allow, що дозволяють індексацію стилів, скриптів та картинок. Написано це спеціально для Гугла, бо його Googlebot іноді лається, що в роботсі заборонено індексацію цих файлів, наприклад, з папки з темою оформлення, що використовується. Навіть погрожує за це знижувати в ранжируванні.
Тому заздалегідь цю справу дозволяємо індексувати за допомогою Allow. Те саме, до речі, і в прикладі файлу для Вордпрес було.

Удачі вам! До швидких зустрічей на сторінках блогу сайт
Вам може бути цікаво
Домени з www і без нього - історія появи, використання 301 редиректу для їх склеювання
Дзеркала, дублі сторінок та URL адреси - аудит вашого сайту або що може бути причиною краху при його SEO просуванні SEO для новачків: 10 основних пунктів технічного аудиту сайту
Bing вебмастер - центр для вебмайстрів від пошукової системи
Гугл вебмайстер - інструменти Search Console(Google Webmaster)
Як обійти поширені помилки при просуванні сайту
Як просунути сайт самостійно, покращуючи внутрішню оптимізацію під ключові словата видаляючи дублі контенту
Яндекс Вебмайстер - індексація, посилання, видимість сайту, вибір регіону, авторство та перевірка на віруси в Yandex Webmaster

Створення файлу

Robots.txt – це файл із інструкціями для пошукових роботів. Він створюється в корені сайту. Ви можете просто створити його на своєму робочому столі за допомогою блокнота, як створюється будь-який текстовий файл.

Для цього тиснемо правою кнопкою миші по порожньому простору, вибираємо Створити – текстовий документ(Не Word). Він відкриється за допомогою звичайного блокнота. Назвіть його robots, розширення у нього і так уже правильне – txt. Це все, що стосується створення файлу.

Як скласти robots.txt

Тепер залишається заповнити файл потрібними вказівками. Власне, у команд для роботів найпростіший синтаксис набагато простіше, ніж у будь-якій мові програмування. Взагалі заповнити файл можна двома способами:

Подивитися в іншого сайту, скопіювати та змінити під структуру свого проекту.

Написати самому

Про перший спосіб я вже писав. Він підходить, якщо у сайтів однакові движки і немає істотної різниці у функціоналі. Наприклад, всі сайти на Wordpress мають однакову структуру, однак можуть бути різні розширення, на кшталт форуму, інтернет-магазину та безлічі додаткових каталогів. Якщо ви хочете знати, як змінити robots.txt читайте цю статтю, можна також ознайомитися з попередньою, але і в цій буде сказано досить багато.

Наприклад, у вас на сайті є каталог /source, де зберігаються вихідні джерела до тих статей, що ви пишите на блог, а в іншого веб-майстра немає такої директорії. І ви, наприклад, хочете закрити папку source від індексації. Якщо ви скопіюєте robots.txt в іншого ресурсу, там такої команди не буде. Вам доведеться дописувати свої інструкції, видаляти непотрібне тощо.

Так що в будь-якому випадку корисно знати основи синтаксису інструкцій для роботів, які ви зараз розберемо.

Як писати свої інструкції роботам?

Перше, з чого починається файл, це із вказівки того, до яких пошукових машин звернені інструкції. Це робиться так:

User-agent: Yandex Або User-agent: Googlebot

User - agent : Yandex

User-agent: Googlebot

Жодних точок з комою в кінці рядка ставити не потрібно, це вам не програмування). Загалом, тут зрозуміло, що в першому випадку інструкції читатиме лише бот Яндекса, у другому – лише Гугла. Якщо команди мають бути виконані всіма роботами, пишуть так: User-agent:

Чудово. Зі зверненням до робіт ми розібралися. Це не складно. Ви можете уявити це на простому прикладі. У вас є троє молодших братів, Вася, Діма та Петрик, а ви головний. Батьки пішли і сказали вам, щоб ви стежили за ними.

Усі троє чогось просять у вас. Уяви, що потрібно дати їм відповідь так, ніби пишеш інструкції пошуковим роботам. Це буде виглядати приблизно так:

User-agent: Vasya Allow: піти на футбол User-agent: Dima Disallow: піти на футбол (Діма минулого разу розбив скло сусідам, він покараний) User-agent: Petya Allow: сходити в кіно шоці, що повинен у тебе ще й дозволу запитувати, ну та гаразд, нехай іде).

Таким чином, Вася радісно зашнуровує кросівки, Діма з опущеною головою дивиться у вікно на брата, який уже думає, скільки голів заб'є сьогодні (Діма отримав команду disallow, тобто заборону). Ну а Петя вирушає у своє кіно.

З цього прикладу неважко зрозуміти, що Allow – це дозвіл, а Disallow – заборона. Але в robots.txt ми не людям роздаємо команди, а роботам, тому замість конкретних справ там прописуються адреси сторінок та каталогів, які потрібно дозволити чи заборонити індексувати.

Наприклад, я маю сайт site.ru. Він на движку wordpress. Починаю писати інструкції:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну і т.д.

User-agent: *

Disallow : / wp - admin /

Disallow : / wp - content /

Disallow : / wp - includes /

Disallow : / source /

Нуїт. буд.

По-перше, я звернувся до всіх робіт. По-друге, поставив заборону на індексацію папок самого движка, але при цьому відкрив роботу доступ до папки із завантаженнями. Там зазвичай зберігаються всі картинки, які зазвичай не закривають від індексації, якщо планується отримувати трафік з пошуку за картинками.

Ну і пам'ятайте, я раніше у статті говорив про те, що у вас можуть бути додаткові каталоги? Ви можете створити їх самостійно для різних цілей. Наприклад, на одному з моїх сайтів є папка flash, куди я кидаю флеш-ігри, щоб потім їх запустити на сайті. Або source – у цій папці можуть зберігатися файли, доступні користувачам для завантаження.

Загалом, абсолютно не має значення, як називається папка. Якщо її потрібно закрити, вказуємо шлях до неї та команду Disallow.

Команда Allow потрібна саме для того, щоб вже у закритих розділах відкрити якісь частини. Адже за умовчанням, якщо у вас не буде файлу robots.txt, весь сайт буде доступний для індексування. Це і добре (точно щось важливе не закриєте помилково), і в той же час погано (будуть відкриті файли та папки, яких не повинно бути у видачі).

Щоб краще зрозуміти цей момент, пропоную ще раз переглянути цей шматок:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow : / wp - content /

Allow : / wp - content / uploads /

Як бачите, спочатку ми забороняємо індексацію всього каталогу wp-content. У ньому зберігаються всі ваші шаблони, плагіни, але там є і картинки. Очевидно, що їх можна і відкрити. Для цього нам потрібна команда Allow.

Додаткові параметри

Перелічені команди – не єдине, що можна вказати у файлі. Також є такі: Host – вказує на головне дзеркало сайту. Хто не знав, будь-який сайт за замовчуванням має два варіанти написання його доменного імені: domain.com і www.domain.com.

Щоб не виникло проблем, необхідно вказати як головне дзеркало якийсь один варіант. Це можна зробити як у інструментах для веб-майстрів, так і у файлі Robots.txt. Для цього пишемо: Host: domain.com

Що дає? Якщо хтось спробує потрапити на ваш сайт так: www.domain.com – його автоматично перекине на варіант без www, тому що його буде визнано головним дзеркалом.

Друга директива – sitemap. Я думаю, ви вже зрозуміли, що в ній задається шлях до карти сайту в xml-форматі. Приклад: http://domain.com/sitemap.xml

Знову ж таки, завантажити картку ви можете і в Яндекс.Вебмайстрі, також її можна вказати в robots.txt, щоб робот прочитав цей рядок і чітко зрозумів, де йому шукати карту сайту. Для робота карта сайту така ж важлива, як для Васі – м'яч, з яким він піде на футбол. Це все одно, що він питає у тебе (як у старшого брата) десь м'яч. А ти йому:

За диваном

Тепер ви знаєте, як правильно налаштувати та змінити robots.txt для яндекса і взагалі будь-якого іншого пошуковика під свої потреби.

Що дає налаштування файлу?

Про це я також говорив раніше, але скажу ще раз. Завдяки чітко налаштованому файлу з командами для роботів ви зможете спати спокійніше, знаючи, що робот не залізе в непотрібний розділ і не візьме в індекс непотрібні сторінки.

Я також говорив, що налаштування robots.txt не рятує від усього. Зокрема, вона не рятує від дублів, які виникає через те, що двигуни недосконалі. Прям як люди. Ви дозволили Васі йти на футбол, але не факт, що він там не наробить того ж, що і Діма. Отак і з дублями: команду дати можна, але точно не можна бути впевненим, що щось зайве не пролізе до індексу, зіпсувавши позиції.

Дублі теж не треба боятися, як вогню. Наприклад, той же Яндекс більш-менш нормально ставиться до сайтів, у яких серйозні технічні косяки. Інша справа, що якщо запустити справу, то і справді можна втратити серйозний відсоток трафіку до себе. Втім, незабаром у нашому розділі, присвяченому SEO, буде стаття про дублі, тоді і з ними воюватимемо.

Як мені отримати нормальний robots.txt, якщо я нічого не розумію?

Зрештою, створення robots.txt – це не створення сайту. Якось простіше, тому ви цілком можете банально скопіювати вміст файлу у будь-якого успішного блогера. Звичайно, якщо у вас є сайт на WordPress. Якщо він на іншому движку, то вам і сайти потрібно шукати на цих же cms. Як переглянути вміст файлу на чужому сайті я вже казав: Domain.com/robots.txt

Підсумок

Я думаю, тут більше нема про що говорити, тому що не треба робити складання інструкцій для роботів вашою метою на рік. Це те завдання, яке під силу виконати навіть новачкові за 30-60 хвилин, а професіоналу взагалі всього за пару хвилин. Все у вас вийде і можете в цьому не сумніватися.

А щоб дізнатися інші корисні та важливі фішки для просування та розкрутки блогу, можете переглянути наш унікальний . Якщо ви застосуєте звідти 50-100% рекомендацій, зможете в майбутньому успішно просувати будь-які сайти.

Спершу розповім, що таке robots.txt.

Robots.txt– файл, який знаходиться у кореневій папці сайту, де прописуються спеціальні інструкції для пошукових роботів. Ці інструкції необхідні для того, щоб при заході на сайт, робот не враховував сторінку / розділ, тобто ми закриваємо сторінку від індексації.

Навіщо потрібен robots.txt

Файл robots.txt вважається ключовою вимогою при SEO-оптимізації будь-якого сайту. Відсутність цього файлу може негативно вплинути на навантаження з боку роботів і повільної індексації і, навіть більше, сайт повністю не буде проіндексований. Відповідно користувачі не зможуть перейти на сторінки через Яндекс та Google.

Чи вплив robots.txt на пошукові системи?

Пошукові системи(у особливості Google) проіндексують сайт, але якщо файлу robots.txt немає, то, як і говорив не всі сторінки. Якщо такий файл, то роботи керуються правилами, які вказуються в цьому файлі. Існує кілька видів пошукових роботів, якщо одні можуть враховувати правило, інші ігнорують. Зокрема, робот GoogleBot не враховує директиву Host і Crawl-Delay, робот YandexNews зовсім недавно перестав враховувати директиву Crawl-Delay, а роботи YandexDirect і YandexVideoParser ігнорують загальноприйняті директиви в robots.txt (але враховують ті, які враховують ті, які враховують ті, які враховують ті, які враховують ті, які враховують ті, які враховують ті, які в них є).

Навантажують сайт найбільше роботи, які підвантажують контент із вашого сайту. Відповідно, якщо ми вкажемо роботу, які сторінки індексувати, а які ігнорувати, а також з якими тимчасовими проміжками підвантажувати контент зі сторінок (це більше хитається великих сайтів, у яких є більше 100 000 сторінок в індексі пошукових систем). Це дозволить значно полегшити роботу індексацію та процес завантаження контенту з сайту.

До непотрібних пошукових систем можна віднести файли які відносяться до CMS, наприклад, у Wordpress – /wp-admin/. Крім цього, скрипти ajax, json, що відповідають за спливаючі форми, банери, виведення каптчі і таке інше.

Більшість роботів також рекомендую закрити від індексації всі файли Javascript і CSS. Але для GoogleBot та Yandex такі файли краще індексувати, оскільки вони використовуються пошуковими системами для аналізу зручності сайту та його ранжування.

Що таке директива robots.txt?

Директиви- Це і є правила для пошукових роботів. Перші стандарти написання robots.txt і відповідно з'явилися в 1994, а розширений стандарт у 1996 році. Однак, як ви вже знаєте, не всі роботи підтримують ті чи інші директиви. Тому нижче я розписав, чим керуються основні роботи при індексації сторінок сайту.

Що означає User-agent?

Це найголовніша директива, яка визначає для яких пошукових роботів діятимуть дотримуватися подальших правил.

Для всіх роботів:

Для певного робота:

User-agent: Googlebot

Регістр у robots.txt не стіл важливий, писати можна як Googlebot так і Googlebot

Пошукові роботи Google

Пошукові роботи Яндекса


	основний індексуючий робот Яндекса
	Використовується в сервісі Яндекс.Картинки
	Використовується у сервісі Яндекс.Відео
	Мультимедійні дані
	Пошук по блогах
	Пошуковий робот, який звертається до сторінки при додаванні її через форму «Додати URL»
	робот, що індексує піктограми сайтів (favicons)
	Яндекс.Директ
	Яндекс.Метрика
	Використовується у сервісі Яндекс.Каталог
	Використовується у сервісі Яндекс.Новини
YandexImageResizer	Пошуковий робот мобільних сервісів

Пошукові роботи Bing, Yahoo, Mail.ru, Rambler

Директиви Disallow та Allow

Disallow закриває від індексування розділи та сторінки вашого сайту. Відповідно Allow навпаки відкриває їх.

Є деякі особливості.

По-перше, додаткові оператори - *, $ та #. Навіщо вони використовуються?

“*” – це будь-яка кількість символів та їх відсутність. За замовчуванням вона вже знаходиться в кінці рядка, тому ставити її ще разу немає сенсу.

“$” - Вказує, що символ перед ним повинен йти останнім.

“#” – коментар, все, що йде після цього символу, робот не враховує.

Приклади використання Disallow:

Disallow: *?s=

Disallow: /category/

Відповідно пошуковий робот закриє сторінки типу:

Але відкриті для індексації будуть сторінки виду:

Тепер вам необхідно зрозуміти, як виконуються правила з вкладеністю. Порядок запису директив дуже важливий. Спадкування правил визначається за тим, які директорії зазначені, тобто якщо ми хочемо закрити сторінку/документ від індексації достатньо прописати директиву. Давайте подивимося на прикладі

Це наш файл robots.txt

Disallow: /template/

Ця директива вказується також у будь-якому місці, причому можна прописати кілька файлів sitemap.

Директива Host у robots.txt

Ця директива необхідна для вказівки головного дзеркала сайту (часто www або без). Зверніть увагу, що директива host вказується без протоколу http://, але з https://. Директиву враховують лише пошукові роботи Яндекса та Mail.ru, а іншими роботами, зокрема GoogleBot, правило не буде враховано. Host прописувати 1 раз у файлі robots.txt

Приклад з http://

Host: website.ru

Приклад з https://

Директива Crawl-delay

Встановлює часовий інтервал індексування пошуковим роботом сторінок сайту. Значення вказується в секундах і мілісекундах.

Приклад:

Застосовується переважно на великих інтернет-магазинах, інформаційних сайтах, порталах, де відвідуваність сайту від 5 000 на день. Необхідний для того, щоб пошуковий робот запитував на індексування в певний проміжок часу. Якщо не вказувати цю директиву, це може створити серйозне навантаження на сервер.

Оптимальне значення crawl-delay для кожного сайту своє. Для пошукових систем Mail, Bing, Yahoo значення можна виставити мінімальне значення 0.25, 0.3, оскільки ці пошуковики можуть переобходити ваш сайт раз на місяць, 2 місяці і так далі (дуже рідко). Для Яндекса краще встановити більше значення.

Якщо навантаження вашого сайту мінімальне, то вказувати цю директиву немає сенсу.

Директива Clean-param

Правило цікаве тим, що повідомляє краулер, що сторінки з певними параметрами немає необхідності індексувати. Прописується 2 аркументи: URL сторінки та параметр. Ця директива підтримується пошуковою системою Яндекс.

Приклад:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

User-agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Allow: /plugins/*.css

Allow: /plugins/*.js

Allow: /plugins/*.png

Allow: /plugins/*.jpg

Allow: /plugins/*.gif

User-agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Allow: /plugins/*.css

Allow: /plugins/*.js

Allow: /plugins/*.png

Allow: /plugins/*.jpg

Allow: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

У прикладі ми прописали правила для 3 різних роботів.

Куди додати robots.txt?

Додається до кореневої папки сайту. Крім того, щоб по ньому можна було перейти за посиланням:

Як перевірити robots.txt?

Яндекс Вебмайстер

На вкладці Інструменти вибираєте Аналіз robots.txt і далі натискаєте перевірити

Google Search Console

На вкладці Cкануваннявибираєте Інструмент перевірки файлу robots.txtі далі натискаєте перевірити.

Висновок:

Файл robots.txt повинен бути обов'язково на кожному сайті, що просувається, і лише правильне його налаштування дозволить отримати необхідну індексацію.

Ну і насамкінець, якщо у вас виникли питання задавайте їх у коментарях під статтею і ще мені цікаво, а як ви прописуєте robots.txt?

Розшифрування значень:

User-agent: * - Ви звертаєтеся відразу до всіх пошукових систем, Yandex - тільки до Яндексу.
Disallow: перелічені папки та файли, які заборонені для індексації
Host – пропишіть назву вашого сайту без www.
Sitemap: посилання на XML-картку сайту.

Файл помістіть до кореневої директорії сайту за допомогою Filezilla або через сайт хостера. Скидайте до головної директорії, щоб він був доступний за посиланням: ваш_сайт.ру/robots.txt

Він підійде лише тим, хто має ЧПУ (посилання прописані словами, а чи не як p=333). Достатньо зайти в Налаштування – Постійні посилання, вибрати нижній варіант та в полі прописати /%postname%

Деякі вважають за краще створювати цей файл самостійно:

Для початку створіть блокнот на комп'ютері та назвіть його robots (не використовуйте верхній регістр). Наприкінці налаштувань його розмір не повинен перевищувати 500 кб.

User-agent- Назва пошукової системи (Yandex, Googlebot, StackRambler). Якщо ви хочете звернутися відразу до всіх, поставте зірочку *

А потім вкажіть сторінки або папки, які не можна індексувати цю роботу за допомогою Disallow:

Спочатку перераховані три директорії, та був конкретний файл.

Щоб дозволити індексувати все та всім, потрібно прописати:

User-agent: *
Disallow:

Налаштування robots.txt для Яндекс та Google

Для Яндексаобов'язково потрібно додати директиву host, щоб не з'являлося дублі сторінок. Це слово розуміє тільки бот від Яндекса, тому прописуйте вказівки для нього окремо.

Для Googleнемає жодних доповнень. Єдине, треба знати, як до нього звертатися. У розділі User-agent потрібно писати:

Googlebot;
Googlebot-Image – якщо обмежуєте індексацію зображень;
Googlebot-Mobile - для мобільної версіїсайту.

Як перевірити працездатність файлу robots.txt

Це можна зробити в розділі «Інструменти для веб-майстрів» пошукача Googleабо на сайті Яндекс.Вебмайстер у розділі Перевірити robots.txt.

Якщо будуть помилки, виправте їх та перевірте ще раз. Досягніть хорошого результату, потім не забудьте скопіювати правильний код в robots.txt і залити його на сайт.

Тепер ви маєте уявлення, як створити robots.txt для всіх пошукових систем. Початківцям рекомендую використовувати готовий файл, підставивши назву свого сайту.