Korrekter Robots-Text. So bearbeiten Sie die Robots-TXT-Datei. Nicht zulassen

Guten Tag, liebe Freunde! Alles, was Sie wissen, ist das Suchmaschinenoptimierung- eine verantwortungsvolle und heikle Angelegenheit. Um ein akzeptables Ergebnis zu erzielen, müssen Sie absolut jedes kleine Detail berücksichtigen.

Heute sprechen wir über robots.txt – eine Datei, die jedem Webmaster bekannt ist. Es enthält die grundlegendsten Anweisungen für Suchroboter. In der Regel befolgen sie gerne die vorgegebenen Anweisungen und verweigern bei falscher Zusammenstellung die Indizierung der Webressource. Als Nächstes erkläre ich Ihnen, wie Sie die richtige Version von robots.txt erstellen und wie Sie sie konfigurieren.

Im Vorwort habe ich bereits beschrieben, was es ist. Jetzt werde ich Ihnen sagen, warum es notwendig ist. Robots.txt ist eine kleine Textdatei, die im Stammverzeichnis der Website gespeichert wird. Es wird von Suchmaschinen verwendet. Darin sind die Indexierungsregeln klar dargelegt, d. h. welche Abschnitte der Website indiziert (zur Suche hinzugefügt) werden müssen und welche nicht.

Normalerweise sind technische Abschnitte einer Website von der Indizierung ausgeschlossen. Gelegentlich werden nicht eindeutige Seiten auf die schwarze Liste gesetzt (ein Beispiel hierfür ist das Kopieren und Einfügen der Datenschutzrichtlinie). Hier werden den Robotern die Prinzipien der Arbeit mit Abschnitten „erklärt“, die indiziert werden müssen. Sehr oft werden Regeln für mehrere Roboter separat vorgeschrieben. Wir werden weiter darüber sprechen.

Wenn Sie robots.txt richtig konfigurieren, wird Ihre Website garantiert im Ranking steigen Suchmaschinen. Roboter berücksichtigen nur nützliche Inhalte und ignorieren doppelte oder technische Abschnitte.

robots.txt erstellen

Um eine Datei zu erstellen, nutzen Sie einfach die Standardfunktionalität Ihres Betriebssystem, und laden Sie es dann per FTP auf den Server hoch. Wo es liegt (auf dem Server), ist leicht zu erraten – an der Wurzel. Normalerweise heißt dieser Ordner public_html.

Sie können problemlos darauf zugreifen, indem Sie beispielsweise einen beliebigen FTP-Client oder einen integrierten FTP-Client verwenden Dateimanager. Selbstverständlich werden wir keine leeren Robots auf den Server hochladen. Schreiben wir dort einige grundlegende Anweisungen (Regeln).

User-Agent: *
Erlauben: /

Wenn Sie diese Zeilen in Ihrer Robots-Datei verwenden, kontaktieren Sie alle Robots (User-Agent-Direktive), sodass diese Ihre gesamte Website indizieren können (einschließlich aller technischen Seiten. Zulassen: /)

Natürlich ist diese Option für uns nicht besonders geeignet. Die Datei wird für die Suchmaschinenoptimierung nicht besonders nützlich sein. Es bedarf definitiv einer ordentlichen Abstimmung. Aber vorher schauen wir uns alle wichtigen Anweisungen und robots.txt-Werte an.

Richtlinien

User-Agent	Einer der wichtigsten, denn er gibt an, welche Roboter die Regeln befolgen sollen, die ihm folgen. Die Regeln werden bis zum nächsten User-Agent in der Datei berücksichtigt.
Erlauben	Ermöglicht die Indizierung beliebiger Ressourcenblöcke. Zum Beispiel: „/“ oder „/tag/“.
Nicht zulassen	Im Gegenteil, es verbietet die Indexierung von Abschnitten.
Seitenverzeichnis	Pfad zur Sitemap (im XML-Format).
Gastgeber	Hauptspiegel (mit oder ohne www, oder wenn Sie mehrere Domains haben). Hier wird auch das sichere Protokoll https (sofern verfügbar) angegeben. Wenn Sie über Standard-http verfügen, müssen Sie es nicht angeben.
Crawl-Verzögerung	Mit seiner Hilfe können Sie das Intervall festlegen, in dem Roboter Ihre Website besuchen und Dateien herunterladen. Hilft, die Belastung des Hosts zu reduzieren.
Clean-param	Ermöglicht Ihnen, die Indizierung von Parametern auf bestimmten Seiten zu deaktivieren (z. B. www.site.com/cat/state?admin_id8883278). Im Gegensatz zu früheren Anweisungen werden hier 2 Werte angegeben (die Adresse und der Parameter selbst).

Dies sind alles Regeln, die von Flaggschiff-Suchmaschinen unterstützt werden. Mit ihrer Hilfe werden wir unsere Roboter erschaffen, die größtenteils in verschiedenen Variationen arbeiten verschiedene Typen Websites.

Einstellungen

Um die Robots-Datei richtig zu konfigurieren, müssen wir genau wissen, welche Abschnitte der Site indiziert werden sollen und welche nicht. Im Fall einer einfachen einseitigen Website mit HTML + CSS müssen wir nur ein paar grundlegende Anweisungen schreiben, wie zum Beispiel:

User-Agent: *
Erlauben: /
Sitemap: site.ru/sitemap.xml
Host: www.site.ru

Hier haben wir die Regeln und Werte für alle Suchmaschinen festgelegt. Es ist jedoch besser, separate Anweisungen für Google und Yandex hinzuzufügen. Es wird so aussehen:

User-Agent: *
Erlauben: /

Benutzeragent: Yandex
Erlauben: /
Nicht zulassen: /politika

Benutzeragent: GoogleBot
Erlauben: /
Nicht zulassen: /tags/

Sitemap: site.ru/sitemap.xml
Host: site.ru

Jetzt werden absolut alle Dateien auf unserer HTML-Site indiziert. Wenn wir eine Seite oder ein Bild ausschließen möchten, müssen wir dies angeben relativer Link zu diesem Fragment in Disallow.

Sie können die automatischen Dateigenerierungsdienste von Robots nutzen. Ich garantiere nicht, dass Sie mit ihrer Hilfe eine vollkommen korrekte Version erstellen, aber Sie können es als Einstieg versuchen.

Zu diesen Diensten gehören:

Mit ihrer Hilfe können Sie robots.txt erstellen automatischer Modus. Persönlich empfehle ich diese Option dringend nicht, da es viel einfacher ist, sie manuell durchzuführen und sie an Ihre Plattform anzupassen.

Wenn wir von Plattformen sprechen, meine ich alle Arten von CMS, Frameworks, SaaS-Systemen und vielem mehr. Als nächstes werden wir darüber sprechen, wie man die WordPress- und Joomla-Roboterdatei einrichtet.

Zuvor möchten wir jedoch einige allgemeine Regeln hervorheben, die Ihnen beim Erstellen und Einrichten von Robotern für fast jede Website helfen können:

Indizierung verbieten:

Site-Administrator;
persönliches Büro und Registrierungs-/Anmeldeseiten;
Warenkorb, Daten aus Bestellformularen (für einen Online-Shop);
cgi-Ordner (befindet sich auf dem Host);
Servicebereiche;
Ajax- und JSON-Skripte;
UTM- und Openstat-Tags;
verschiedene Parameter.

Öffnen (erlauben):

Bilder;
JS- und CSS-Dateien;
andere Elemente, die von Suchmaschinen berücksichtigt werden müssen.

Vergessen Sie außerdem nicht, am Ende die Daten der Sitemap (Pfad zur Sitemap) und des Hosts (Hauptspiegel) anzugeben.

Robots.txt für WordPress

Um eine Datei zu erstellen, müssen wir robots.txt auf die gleiche Weise im Stammverzeichnis der Site ablegen. In diesem Fall können Sie den Inhalt mit denselben FTP- und Dateimanagern ändern.

Es gibt eine bequemere Option: Erstellen Sie eine Datei mithilfe von Plugins. Insbesondere Yoast SEO verfügt über eine solche Funktion. Das Bearbeiten von Robotern direkt über das Admin-Panel ist viel bequemer, daher verwende ich selbst diese Arbeitsmethode mit robots.txt.

Wie Sie diese Datei erstellen, bleibt Ihnen überlassen; für uns ist es wichtiger, genau zu verstehen, welche Anweisungen darin enthalten sein sollten. Auf meinen Websites, auf denen WordPress läuft, verwende ich diese Option:

User-Agent: * # Regeln für alle Roboter, außer Google und Yandex

Nicht zulassen: /cgi-bin # Ordner mit Skripten
Nicht zulassen: /? # Parameter anfordern mit Startseite
Nicht zulassen: /wp- # Dateien des CSM selbst (mit dem Präfix wp-)
Nicht zulassen: *?s= # \
Nicht zulassen: *&s= # alles rund um die Suche
Nicht zulassen: /search/ # /
Nicht zulassen: /Autor/ # Autorenarchive
Nicht zulassen: /users/ # und Benutzer
Nicht zulassen: */trackback # Benachrichtigungen von WP, dass jemand auf Sie verlinkt
Nicht zulassen: */feed # XML-Feed
Nicht zulassen: */rss # und RSS
Nicht zulassen: */embed # integrierte Elemente
Nicht zulassen: /xmlrpc.php #WordPress-API
Nicht zulassen: *utm= # UTM-Tags
Nicht zulassen: *openstat= # Openstat-Tags
Nicht zulassen: /tag/ # Tags (falls verfügbar)
Zulassen: */uploads # offene Downloads (Bilder usw.)

Benutzeragent: GoogleBot # für Google
Nicht zulassen: /cgi-bin
Nicht zulassen: /?
Nicht zulassen: /wp-
Nicht zulassen: *?s=
Nicht zulassen: *&s=
Nicht zulassen: /search/
Nicht zulassen: /Autor/
Nicht zulassen: /users/
Nicht zulassen: */trackback
Nicht zulassen: */feed
Nicht zulassen: */rss
Nicht zulassen: */embed
Nicht zulassen: /xmlrpc.php
Nicht zulassen: *utm=
Nicht zulassen: *openstat=
Nicht zulassen: /tag/
Zulassen: */uploads
Erlauben: /*/*.js # JS-Dateien öffnen
Erlauben: /*/*.css # und CSS
Erlauben: /wp-*.png # und Bilder im PNG-Format
Erlauben: /wp-*.jpg # \
Erlauben: /wp-*.jpeg # und andere Formate
Erlauben: /wp-*.gif # /
# funktioniert mit Plugins

Benutzeragent: Yandex # für Yandex
Nicht zulassen: /cgi-bin
Nicht zulassen: /?
Nicht zulassen: /wp-
Nicht zulassen: *?s=
Nicht zulassen: *&s=
Nicht zulassen: /search/
Nicht zulassen: /Autor/
Nicht zulassen: /users/
Nicht zulassen: */trackback
Nicht zulassen: */feed
Nicht zulassen: */rss
Nicht zulassen: */embed
Nicht zulassen: /xmlrpc.php
Nicht zulassen: /tag/
Zulassen: */uploads
Erlauben: /*/*.js
Erlauben: /*/*.css
Erlauben: /wp-*.png
Erlauben: /wp-*.jpg
Erlauben: /wp-*.jpeg
Erlauben: /wp-*.gif
Erlauben: /wp-admin/admin-ajax.php
# saubere UTM-Tags
Clean-Param: openstat # und vergessen Sie nicht Openstat

Seitenverzeichnis: # Geben Sie den Pfad zur Sitemap an
Host: https://site.ru # Hauptspiegel

Aufmerksamkeit! Vergessen Sie beim Kopieren von Zeilen in eine Datei nicht, alle Kommentare (Text nach #) zu entfernen.

Diese robots.txt-Option ist bei Webmastern, die WP verwenden, am beliebtesten. Ist er ideal? Nein. Sie können versuchen, etwas hinzuzufügen oder im Gegenteil etwas zu entfernen. Bedenken Sie jedoch, dass bei der Optimierung der Text-Engine eines Roboters häufig Fehler passieren. Wir werden weiter darüber sprechen.

Robots.txt für Joomla

Und obwohl im Jahr 2018 nur wenige Menschen Joomla verwenden, glaube ich, dass dieses wunderbare CMS nicht ignoriert werden kann. Wenn Sie Projekte auf Joomla bewerben, müssen Sie auf jeden Fall eine Robots-Datei erstellen. Wie wollen Sie sonst verhindern, dass unnötige Elemente indiziert werden?

Wie im vorherigen Fall können Sie eine Datei manuell erstellen, indem Sie sie einfach auf den Host hochladen, oder für diese Zwecke ein Modul verwenden. In beiden Fällen müssen Sie es richtig konfigurieren. So sieht die richtige Option für Joomla aus:

User-Agent: *
Erlauben: /*.css?*$
Erlauben: /*.js?*$
Erlauben: /*.jpg?*$
Erlauben: /*.png?*$
Nicht zulassen: /cache/
Nicht zulassen: /*.pdf
Nicht zulassen: /administrator/
Nicht zulassen: /installation/
Nicht zulassen: /cli/
Nicht zulassen: /libraries/
Nicht zulassen: /Sprache/
Nicht zulassen: /components/
Nicht zulassen: /modules/
Nicht zulassen: /includes/
Nicht zulassen: /bin/
Nicht zulassen: /component/
Nicht zulassen: /tmp/
Nicht zulassen: /index.php
Nicht zulassen: /plugins/
Nicht zulassen: /*mailto/

Nicht zulassen: /logs/
Nicht zulassen: /component/tags*
Nicht zulassen: /*%
Nicht zulassen: /layouts/

Benutzeragent: Yandex
Nicht zulassen: /cache/
Nicht zulassen: /*.pdf
Nicht zulassen: /administrator/
Nicht zulassen: /installation/
Nicht zulassen: /cli/
Nicht zulassen: /libraries/
Nicht zulassen: /Sprache/
Nicht zulassen: /components/
Nicht zulassen: /modules/
Nicht zulassen: /includes/
Nicht zulassen: /bin/
Nicht zulassen: /component/
Nicht zulassen: /tmp/
Nicht zulassen: /index.php
Nicht zulassen: /plugins/
Nicht zulassen: /*mailto/

Nicht zulassen: /logs/
Nicht zulassen: /component/tags*
Nicht zulassen: /*%
Nicht zulassen: /layouts/

Benutzeragent: GoogleBot
Nicht zulassen: /cache/
Nicht zulassen: /*.pdf
Nicht zulassen: /administrator/
Nicht zulassen: /installation/
Nicht zulassen: /cli/
Nicht zulassen: /libraries/
Nicht zulassen: /Sprache/
Nicht zulassen: /components/
Nicht zulassen: /modules/
Nicht zulassen: /includes/
Nicht zulassen: /bin/
Nicht zulassen: /component/
Nicht zulassen: /tmp/
Nicht zulassen: /index.php
Nicht zulassen: /plugins/
Nicht zulassen: /*mailto/

Nicht zulassen: /logs/
Nicht zulassen: /component/tags*
Nicht zulassen: /*%
Nicht zulassen: /layouts/

Host: site.ru # Vergessen Sie nicht, die Adresse hier in Ihre zu ändern
Sitemap: site.ru/sitemap.xml # und hier

Dies reicht in der Regel aus, um zu verhindern, dass unnötige Dateien in den Index gelangen.

Fehler beim Setup

Sehr oft machen Menschen beim Erstellen und Einrichten einer Robots-Datei Fehler. Hier sind die häufigsten davon:

Die Regeln werden nur für User-Agent angegeben.
Host und Sitemap fehlen.
Das Vorhandensein des http-Protokolls in der Host-Direktive (Sie müssen nur https angeben).
Beim Öffnen/Schließen von Bildern werden die Verschachtelungsregeln nicht eingehalten.
UTM- und Openstat-Tags werden nicht geschlossen.
Schreiben von Host- und Sitemap-Anweisungen für jeden Roboter.
Oberflächliche Ausarbeitung der Akte.

Es ist sehr wichtig, diese kleine Datei richtig zu konfigurieren. Wenn Sie schwerwiegende Fehler machen, können Sie einen erheblichen Teil des Datenverkehrs verlieren. Seien Sie daher bei der Einrichtung äußerst vorsichtig.

Wie überprüfe ich eine Datei?

Für diese Zwecke ist es besser, spezielle Dienste von Yandex und Google zu nutzen, da diese Suchmaschinen am beliebtesten und gefragtesten sind (meist die einzigen, die verwendet werden); es macht keinen Sinn, Suchmaschinen wie Bing, Yahoo oder in Betracht zu ziehen Wanderer.

Betrachten wir zunächst die Option mit Yandex. Gehen Sie zu Webmaster. Gehen Sie dann zu Extras – Analyse von robots.txt.

Hier können Sie die Datei auf Fehler überprüfen und in Echtzeit prüfen, welche Seiten zur Indexierung geöffnet sind und welche nicht. Sehr angenehm.

Google hat genau den gleichen Dienst. Lass uns gehen Suchkonsole. Suchen Sie die Registerkarte „Scannen“ und wählen Sie „Robots.txt File Check Tool“ aus.

Die Funktionen sind hier genau die gleichen wie im häuslichen Dienst.

Bitte beachten Sie, dass mir 2 Fehler angezeigt werden. Dies liegt daran, dass Google die Anweisungen zum Löschen der Parameter, die ich für Yandex angegeben habe, nicht erkennt:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Darauf sollten Sie nicht achten, da Google-Robots ausschließlich GoogleBot-Regeln verwenden.

Abschluss

Die robots.txt-Datei ist für die SEO-Optimierung Ihrer Website sehr wichtig. Gehen Sie mit aller Verantwortung an die Einrichtung heran, denn bei falscher Umsetzung kann alles verloren gehen.

Beachten Sie alle Anweisungen, die ich in diesem Artikel gegeben habe, und vergessen Sie nicht, dass Sie meine Robotervarianten nicht genau kopieren müssen. Es ist durchaus möglich, dass Sie die einzelnen Anweisungen genauer verstehen und die Datei an Ihren speziellen Fall anpassen müssen.

Und wenn Sie robots.txt und das Erstellen von Websites auf WordPress tiefer verstehen möchten, dann lade ich Sie dazu ein. Hier erfahren Sie, wie Sie ganz einfach eine Website erstellen und nicht vergessen, diese für Suchmaschinen zu optimieren.

Das erste, was ein Suchbot auf Ihrer Website tut, ist, nach der robots.txt-Datei zu suchen und diese zu lesen. Was ist diese Datei? ist eine Reihe von Anweisungen für eine Suchmaschine.

Er ist Textdatei, mit der Erweiterung txt, die sich im Stammverzeichnis der Site befindet. Diese Anweisungen teilen dem Suchroboter mit, welche Seiten und Dateien auf der Website indiziert werden sollen und welche nicht. Es zeigt auch den Hauptspiegel der Site an und wo Sie nach der Sitemap suchen können.

Wofür wird es benötigt robots-Datei.txt? Für die ordnungsgemäße Indexierung Ihrer Website. Damit die Suche keine doppelten Seiten, diverse Serviceseiten und Dokumente enthält. Sobald Sie die Anweisungen in Robots richtig konfigurieren, bewahren Sie Ihre Site vor vielen Problemen mit der Indizierung und Site-Spiegelung.

So erstellen Sie die richtige robots.txt

Es ist ganz einfach, robots.txt zu erstellen, lasst uns erstellen Text dokument in einem Standard-Windows-Notizblock. In dieser Datei schreiben wir Anweisungen für Suchmaschinen. Als nächstes speichern Sie diese Datei unter dem Namen „robots“ und der Texterweiterung „txt“. Alles kann nun auf das Hosting hochgeladen werden, im Stammordner der Site. Bitte beachten Sie, dass Sie nur ein „Robots“-Dokument für eine Site erstellen können. Wenn diese Datei nicht auf der Site vorhanden ist, „entscheidet“ der Bot automatisch, dass alles indiziert werden kann.

Da es nur eine gibt, enthält sie Anweisungen für alle Suchmaschinen. Darüber hinaus können Sie sowohl separate Anweisungen für jedes PS als auch eine allgemeine Anleitung für alle gleichzeitig aufschreiben. Die Trennung der Anweisungen für verschiedene Such-Bots erfolgt durch die User-Agent-Direktive. Lassen Sie uns weiter unten mehr darüber sprechen.

Robots.txt-Anweisungen

Die Datei „für Roboter“ kann die folgenden Anweisungen zur Verwaltung der Indizierung enthalten: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Schauen wir uns jede Anweisung genauer an.

User-Agent-Anweisung

User-Agent-Anweisung– gibt an, für welche Suchmaschine die Anweisungen gelten (genauer gesagt, für welchen bestimmten Bot). Steht ein „*“, dann ist die Anleitung für alle Roboter gedacht. Wenn ein bestimmter Bot angegeben wird, beispielsweise der Googlebot, gelten die Anweisungen nur für den Hauptindexierungsroboter von Google. Wenn außerdem separate Anweisungen für den Googlebot und für alle anderen Subsysteme vorliegen, liest Google nur seine eigenen Anweisungen und ignoriert die allgemeine. Der Yandex-Bot wird dasselbe tun. Schauen wir uns ein Beispiel für das Schreiben einer Direktive an.

Benutzeragent: YandexBot – Anweisungen nur für den Haupt-Indizierungsbot von Yandex
Benutzeragent: Yandex – Anleitung für alle Yandex-Bots
User-Agent: * – Anweisungen für alle Bots

Disallow- und Allow-Anweisungen

Disallow- und Allow-Anweisungen– Anweisungen dazu geben, was indexiert werden soll und was nicht. Disallow gibt den Befehl, eine Seite oder einen gesamten Abschnitt der Site nicht zu indizieren. Im Gegenteil: „Zulassen“ gibt an, was indiziert werden muss.

Disallow: / – verbietet die Indizierung der gesamten Website
Disallow: /papka/ – verbietet die Indizierung des gesamten Inhalts des Ordners
Disallow: /files.php – verbietet die Indizierung der Datei files.php

Zulassen: /cgi-bin – ermöglicht die Indizierung von Cgi-bin-Seiten

Die Verwendung von Sonderzeichen in den Disallow- und Allow-Anweisungen ist möglich und oft auch einfach notwendig. Sie werden zur Angabe regulärer Ausdrücke benötigt.

Sonderzeichen * – ersetzt eine beliebige Zeichenfolge. Es wird standardmäßig am Ende jeder Regel zugewiesen. Auch wenn Sie es nicht registriert haben, weist das PS es selbst zu. Anwendungsbeispiel:

Disallow: /cgi-bin/*.aspx – verbietet die Indizierung aller Dateien mit der Erweiterung .aspx
Disallow: /*foto – verbietet die Indizierung von Dateien und Ordnern, die das Wort foto enthalten

Das Sonderzeichen $ hebt die Wirkung des Sonderzeichens „*“ am Ende der Regel auf. Zum Beispiel:

Disallow: /example$ – verbietet die Indizierung von „/example“, aber nicht „/example.html“.

Und wenn Sie es ohne das Sonderzeichen $ schreiben, funktioniert die Anweisung anders:

Disallow: /example – verbietet sowohl „/example“ als auch „/example.html“

Sitemap-Richtlinie

Sitemap-Richtlinie– soll dem Suchmaschinenroboter anzeigen, wo sich die Sitemap auf dem Hosting befindet. Das Sitemap-Format sollte sitemaps.xml sein. Für eine schnellere und vollständigere Indexierung der Site ist eine Sitemap erforderlich. Darüber hinaus besteht eine Sitemap nicht unbedingt aus einer Datei, es können mehrere davon vorhanden sein. Direktnachrichtenformat:

Sitemap: http://site/sitemaps1.xml
Sitemap: http://site/sitemaps2.xml

Host-Anweisung

Host-Anweisung- Zeigt dem Roboter den Hauptspiegel der Site an. Was auch immer im Index der Site Mirrors steht, Sie müssen diese Direktive immer angeben. Wenn Sie es nicht angeben, indiziert der Yandex-Roboter mindestens zwei Versionen der Website mit und ohne www. Bis der Spiegelroboter sie zusammenklebt. Beispieleintrag:

Host: www.site
Host: Website

Im ersten Fall indiziert der Roboter die Version mit www, im zweiten Fall ohne. In der robots.txt-Datei darf nur eine Host-Direktive angegeben werden. Wenn Sie mehrere davon eingeben, verarbeitet und berücksichtigt der Bot nur den ersten.

Eine gültige Host-Anweisung muss die folgenden Daten enthalten:
— geben Sie das Verbindungsprotokoll an (HTTP oder HTTPS);
- richtig geschrieben Domainname(Sie können keine IP-Adresse registrieren);
– Portnummer, falls erforderlich (z. B. Host: site.com:8080).

Falsch erteilte Anweisungen werden einfach ignoriert.

Crawl-Delay-Anweisung

Crawl-Delay-Anweisung ermöglicht es Ihnen, die Belastung des Servers zu reduzieren. Dies ist erforderlich, falls Ihre Website dem Ansturm verschiedener Bots ausgesetzt ist. Die Crawl-Delay-Anweisung teilt dem Suchbot die Wartezeit zwischen dem Ende des Herunterladens einer Seite und dem Beginn des Herunterladens einer anderen Seite auf der Website mit. Die Anweisung muss unmittelbar nach den Anweisungseinträgen „Disallow“ und/oder „Allow“ stehen. Der Yandex-Suchroboter kann Bruchwerte lesen. Beispiel: 1,5 (eineinhalb Sekunden).

Clean-param-Direktive

Clean-param-Direktive Wird für Websites benötigt, deren Seiten dynamische Parameter enthalten. Wir sprechen von solchen, die den Inhalt der Seiten nicht beeinflussen. Hierbei handelt es sich um verschiedene Dienstinformationen: Sitzungskennungen, Benutzer, Referrer usw. Damit es keine Duplikate dieser Seiten gibt, wird diese Anweisung verwendet. Sie wird dem PS mitteilen, die Empfangsinformationen nicht erneut hochzuladen. Auch die Belastung des Servers und die Zeit, die der Roboter zum Crawlen der Website benötigt, werden reduziert.

Clean-Parameter: s /forum/showthread.php

Dieser Eintrag teilt dem PS mit, dass der s-Parameter für alle URLs, die mit /forum/showthread.php beginnen, als unbedeutend betrachtet wird. Die maximale Eintragslänge beträgt 500 Zeichen.

Wir haben die Anweisungen geklärt und können mit der Einrichtung unserer Roboterdatei fortfahren.

robots.txt einrichten

Fahren wir direkt mit dem Einrichten der robots.txt-Datei fort. Es muss mindestens zwei Einträge enthalten:

User-Agent:– gibt an, für welche Suchmaschine die folgenden Anweisungen gelten.
Nicht zulassen:– Gibt an, welcher Teil der Website nicht indiziert werden soll. Es kann sowohl eine einzelne Seite einer Website als auch ganze Abschnitte von der Indizierung blockieren.

Darüber hinaus können Sie angeben, dass diese Anweisungen für alle Suchmaschinen oder nur für eine bestimmte Suchmaschine gelten. Dies ist in der User-Agent-Direktive angegeben. Wenn Sie möchten, dass alle Bots die Anweisungen lesen, geben Sie ein Sternchen ein

Wenn Sie Anweisungen für einen bestimmten Roboter schreiben möchten, müssen Sie dessen Namen angeben.

Benutzeragent: YandexBot

Ein vereinfachtes Beispiel einer korrekt zusammengestellten Robots-Datei sähe wie folgt aus:

User-Agent: *
Nicht zulassen: /files.php
Nicht zulassen: /Abschnitt/
Host: Website

Wo, * weist darauf hin, dass die Anleitung für alle PS bestimmt ist;
Nicht zulassen: /files.php– verbietet die Indizierung der Datei file.php;
Nicht zulassen: /foto/— verbietet die Indexierung des gesamten Abschnitts „Foto“ mit allen angehängten Dateien;
Host: Website– teilt Robotern mit, welcher Spiegel indiziert werden soll.

Wenn es auf Ihrer Website keine Seiten gibt, die von der Indizierung ausgeschlossen werden müssen, sollte Ihre robots.txt-Datei so aussehen:

User-Agent: *
Nicht zulassen:
Host: Website

Robots.txt für Yandex (Yandex)

Um anzugeben, dass diese Anweisungen für die Yandex-Suchmaschine bestimmt sind, müssen Sie im User-Agent Folgendes angeben: Yandex-Direktive. Wenn wir außerdem „Yandex“ eingeben, indizieren alle Yandex-Roboter die Site, und wenn wir „YandexBot“ angeben, ist dies ein Befehl nur für den Hauptindexierungsroboter.

Es ist auch notwendig, die „Host“-Direktive anzugeben, in der der Hauptspiegel der Site angegeben werden soll. Wie ich oben geschrieben habe, geschieht dies, um doppelte Seiten zu verhindern. Ihre korrekte robots.txt-Datei für Yandex sieht folgendermaßen aus.

Robots.txt ist eine Textdatei, die Site-Indexierungsparameter für die enthält Suchmaschine Roboter.

Empfehlungen zum Inhalt der Datei

Yandex unterstützt die folgenden Anweisungen:

Richtlinie	Was tut es
User-Agent *
Nicht zulassen
Seitenverzeichnis
Clean-param
Erlauben
Crawl-Verzögerung

Richtlinie	Was tut es
User-Agent *	Gibt den Roboter an, für den die in robots.txt aufgeführten Regeln gelten.
Nicht zulassen	Verbietet die Indizierung von Website-Abschnitten oder einzelnen Seiten.
Seitenverzeichnis	Gibt den Pfad zur Sitemap-Datei an, die auf der Site veröffentlicht wird.
Clean-param	Zeigt dem Robot an, dass die Seiten-URL Parameter (wie UTM-Tags) enthält, die bei der Indizierung ignoriert werden sollten.
Erlauben	Ermöglicht die Indizierung von Website-Abschnitten oder einzelnen Seiten.
Crawl-Verzögerung	Gibt das Mindestintervall (in Sekunden) an, das der Suchroboter nach dem Laden einer Seite warten soll, bevor er mit dem Laden einer anderen Seite beginnt.

* Obligatorische Richtlinie.

Am häufigsten benötigen Sie die Anweisungen „Disallow“, „Sitemap“ und „Clean-param“. Beispiel:

User-Agent: * # Geben Sie die Roboter an, für die die Anweisungen festgelegt sind. Disallow: /bin/ # deaktiviert Links aus dem Warenkorb. Disallow: /search/ # deaktiviert Seitenlinks der auf der Site eingebetteten Suche. Disallow: /admin/ # deaktiviert Links aus dem Admin-Panel. Sitemap: http://example.com/sitemap # Geben Sie für den Robot die Sitemap-Datei der Site an Clean-param: ref /some_dir/get_book.pl

Roboter von anderen Suchmaschinen und Diensten interpretieren die Anweisungen möglicherweise anders. Damit der Roboter die Datei robots.txt berücksichtigen kann, muss er sich im Stammverzeichnis der Website befinden und mit HTTP 200-Code antworten. Der Indexierungsroboter unterstützt nicht die Verwendung von Dateien, die auf anderen Websites gehostet werden.

Mit dem Tool können Sie die Antwort des Servers und die Erreichbarkeit von robots.txt für den Roboter überprüfen.

Wenn Ihre robots.txt-Datei zu einer anderen robots.txt-Datei weiterleitet (z. B. beim Verschieben einer Site), fügen Sie die Umleitungszielsite zu Yandex.Webmaster hinzu und überprüfen Sie die Rechte zum Verwalten dieser Site.

Robots.txt ist eine Textdatei, die Site-Indexierungsparameter für Suchmaschinen-Robots enthält.

Yandex unterstützt die folgenden Anweisungen:

Richtlinie	Was macht
User-Agent *
Nicht zulassen
Seitenverzeichnis
Clean-param
Erlauben
Crawl-Verzögerung

Richtlinie	Was macht
User-Agent *	Gibt einen Roboter an, für den die in robots.txt aufgeführten Regeln gelten.
Nicht zulassen	Verbietet die Indizierung von Abschnitten oder einzelnen Seiten der Website.
Seitenverzeichnis	Gibt den Pfad zur Sitemap-Datei an, die sich auf der Site befindet.
Clean-param	Zeigt dem Robot an, dass die Seiten-URL Parameter (z. B. UTM-Tags) enthält, die bei der Indizierung nicht berücksichtigt werden müssen.
Erlauben	Ermöglicht die Indizierung von Abschnitten oder einzelnen Seiten der Website.
Crawl-Verzögerung	Legt die minimale Zeitspanne (in Sekunden) fest, die der Roboter zwischen dem Ende des Ladens einer Seite und dem Beginn des Ladens der nächsten verbringt.

* Obligatorische Richtlinie.

Die am häufigsten benötigten Anweisungen sind Disallow, Sitemap und Clean-param. Zum Beispiel:

Benutzeragent: * #geben Sie an, für welche Robots-Anweisungen installiert sind\nDisallow: /bin/ # verbietet Links aus dem „Warenkorb“.\nDisallow: /search/ # verbietet Links zu Seiten, die in die Such-Site integriert sind\nDisallow: /admin / # verbietet Links vom Admin-Panel\nSitemap: http://example.com/sitemap # verweisen den Roboter auf die Sitemap-Datei für die Site\nClean-param: ref /some_dir/get_book.pl

Robots anderer Suchmaschinen und Dienste interpretieren Anweisungen möglicherweise anders.

Notiz. Der Roboter berücksichtigt die Groß-/Kleinschreibung beim Schreiben von Teilzeichenfolgen (Name oder Pfad zur Datei, Robotername) und berücksichtigt die Groß-/Kleinschreibung nicht bei den Namen von Anweisungen.

Verwendung des kyrillischen Alphabets

Die Verwendung von Kyrillisch ist in der robots.txt-Datei und den HTTP-Headern des Servers verboten.

Die robots.txt-Datei ist eine der wichtigsten Dateien bei der Optimierung jeder Website. Sein Fehlen kann zu einer hohen Belastung der Website durch Suchroboter und einer langsamen Indizierung und Neuindizierung führen falsche Einstellung dazu, dass die Seite komplett aus der Suche verschwindet oder einfach nicht indiziert wird. Folglich wird es nicht in Yandex, Google und anderen Suchmaschinen durchsucht. Schauen wir uns alle Nuancen an korrekte Einstellungen robots.txt.

Zunächst ein kurzes Video, das Ihnen einen allgemeinen Überblick darüber gibt, was eine robots.txt-Datei ist.

Wie wirkt sich robots.txt auf die Site-Indexierung aus?

Suchroboter indizieren Ihre Website unabhängig davon, ob eine robots.txt-Datei vorhanden ist. Wenn eine solche Datei vorhanden ist, können sich Roboter an den Regeln orientieren, die in dieser Datei geschrieben sind. Gleichzeitig ignorieren einige Roboter möglicherweise bestimmte Regeln oder einige Regeln gelten möglicherweise nur für einige Bots. Insbesondere verwendet GoogleBot nicht die Host- und Crawl-Delay-Anweisungen, YandexNews hat kürzlich damit begonnen, die Crawl-Delay-Anweisung zu ignorieren, und YandexDirect und YandexVideoParser ignorieren allgemeinere Anweisungen in Robotern (orientieren sich jedoch an den speziell für sie festgelegten Anweisungen).

Mehr zu Ausnahmen:
Yandex-Ausnahmen
Roboter-Ausnahmestandard (Wikipedia)

Die maximale Belastung der Website wird durch Roboter verursacht, die Inhalte von Ihrer Website herunterladen. Indem Sie also angeben, was genau indiziert und was ignoriert werden soll und in welchen Zeitabständen heruntergeladen werden soll, können Sie einerseits die Belastung der Website durch Roboter erheblich reduzieren und andererseits die Geschwindigkeit erhöhen Download-Prozess durch Verhindern des Crawlens unnötiger Seiten.

Zu diesen unnötigen Seiten gehören Ajax, JSON-Skripte, die für Popup-Formulare, Banner, Captcha-Ausgabe usw. verantwortlich sind, Bestellformulare und ein Warenkorb mit allen Schritten zum Kauf, Suchfunktionen, persönliches Konto, Admin-Panel.

Für die meisten Roboter ist es außerdem ratsam, die Indizierung aller JS- und CSS-Dateien zu deaktivieren. Für GoogleBot und Yandex müssen solche Dateien jedoch der Indexierung überlassen werden, da sie von Suchmaschinen verwendet werden, um den Komfort der Website und ihr Ranking zu analysieren (Google-Proof, Yandex-Proof).

Robots.txt-Anweisungen

Richtlinien sind Regeln für Roboter. Es gibt eine W3C-Spezifikation vom 30. Januar 1994 und einen erweiterten Standard von 1996. Allerdings unterstützen nicht alle Suchmaschinen und Robots bestimmte Richtlinien. In diesem Zusammenhang ist es für uns nützlicher, nicht den Standard zu kennen, sondern zu wissen, wie sich die Hauptroboter an bestimmte Richtlinien orientieren.

Schauen wir sie uns der Reihe nach an.

User-Agent

Dies ist die wichtigste Direktive, die bestimmt, für welche Roboter die Regeln gelten.

Für alle Roboter:
User-Agent: *

Für einen bestimmten Bot:
Benutzeragent: GoogleBot

Bitte beachten Sie, dass bei robots.txt die Groß-/Kleinschreibung nicht beachtet wird. Diese. Der Benutzeragent für Google kann genauso einfach wie folgt geschrieben werden:
Benutzeragent: Googlebot

Nachfolgend finden Sie eine Tabelle der wichtigsten Benutzeragenten verschiedener Suchmaschinen.

Bot	Funktion
Google
Googlebot	Der wichtigste Indexierungsroboter von Google
Googlebot-Neuigkeiten	Google Nachrichten
Googlebot-Bild	Google Bilder
Googlebot-Video	Video
Medienpartner-Google
Medienpartner	Google AdSense, Google Mobile AdSense
AdsBot-Google	Qualitätsprüfung der Zielseite
AdsBot-Google-Mobile-Apps	Googlebot für Apps
Yandex
YandexBot	Der wichtigste Indexierungsroboter von Yandex
YandexImages	Yandex.Bilder
YandexVideo	Yandex.Video
YandexMedia	Multimediadaten
YandexBlogs	Blog-Suchroboter
YandexAddurl	ein Roboter, der auf eine Seite zugreift, wenn diese über das Formular „URL hinzufügen“ hinzugefügt wird
YandexFavicons	Roboter, der Website-Symbole (Favicons) indiziert
YandexDirect	Yandex.Direct
YandexMetrika	Yandex.Metrica
YandexKatalog	Yandex.Katalog
YandexNews	Yandex.News
YandexImageResizer	mobiler Serviceroboter
Bing
Bingbot	Bings wichtigster Indexierungsroboter
Yahoo!
Schlürfen	Hauptindexierungsroboter Yahoo!
Mail.Ru
Mail.Ru	Hauptindexierungsroboter Mail.Ru
Wanderer
StackRambler	Zuvor war der wichtigste Indexierungsroboter Rambler. Seit dem 23. Juni 2011 stellt Rambler jedoch die Unterstützung seiner eigenen Suchmaschine ein und nutzt nun die Yandex-Technologie für seine Dienste. Nicht mehr relevant.

Nicht zulassen und zulassen

„Disallow“ blockiert die Indexierung von Seiten und Abschnitten der Website.
Zulassen erzwingt die Indizierung von Seiten und Abschnitten der Website.

Aber so einfach ist es nicht.

Zunächst müssen Sie die zusätzlichen Operatoren kennen und verstehen, wie sie verwendet werden – das sind *, $ und #.

* ist eine beliebige Anzahl von Zeichen, einschließlich deren Abwesenheit. In diesem Fall müssen Sie am Ende der Zeile kein Sternchen einfügen; es wird davon ausgegangen, dass es standardmäßig dort steht.
$ – gibt an, dass das Zeichen davor das letzte sein soll.
# ist ein Kommentar; alles nach diesem Zeichen in der Zeile wird vom Roboter nicht berücksichtigt.

Anwendungsbeispiele:

Nicht zulassen: *?s=
Nicht zulassen: /category/$

Zweitens müssen Sie verstehen, wie verschachtelte Regeln ausgeführt werden.
Denken Sie daran, dass die Reihenfolge, in der die Anweisungen geschrieben werden, nicht wichtig ist. Die Vererbung der Regeln, was bei der Indizierung geöffnet oder geschlossen werden soll, wird durch die angegebenen Verzeichnisse bestimmt. Schauen wir es uns anhand eines Beispiels an.

Zulassen: *.css
Nicht zulassen: /template/

http://site.ru/template/ – von der Indizierung ausgeschlossen
http://site.ru/template/style.css – von der Indizierung ausgeschlossen
http://site.ru/style.css – zur Indizierung geöffnet
http://site.ru/theme/style.css – zur Indizierung geöffnet

Wenn für die Indizierung alle .css-Dateien geöffnet sein müssen, müssen Sie dies zusätzlich für jeden der geschlossenen Ordner registrieren. In unserem Fall:

Zulassen: *.css
Zulassen: /template/*.css
Nicht zulassen: /template/

Auch hier ist die Reihenfolge der Richtlinien nicht wichtig.

Seitenverzeichnis

Direktive zur Angabe des Pfades zur XML-Sitemap-Datei. Die URL wird auf die gleiche Weise geschrieben wie in der Adressleiste.

Zum Beispiel,

Sitemap: http://site.ru/sitemap.xml

Die Sitemap-Direktive wird an einer beliebigen Stelle in der robots.txt-Datei angegeben, ohne an einen bestimmten Benutzeragenten gebunden zu sein. Sie können mehrere Sitemap-Regeln angeben.

Gastgeber

Direktive zur Angabe des Hauptspiegels der Site (in den meisten Fällen: mit www oder ohne www). Bitte beachten Sie, dass der Hauptspiegel OHNE http://, sondern MIT https:// angegeben wird. Bei Bedarf wird auch der Port angegeben.
Die Direktive wird nur von Yandex- und Mail.Ru-Bots unterstützt. Andere Roboter, insbesondere GoogleBot, berücksichtigen den Befehl nicht. Gastgeber ist nur einmal registriert!

Beispiel 1:
Host: site.ru

Beispiel 2:
Host: https://site.ru

Crawl-Verzögerung

Richtlinie zum Festlegen des Zeitintervalls zwischen dem Herunterladen von Website-Seiten durch den Roboter. Unterstützt von Yandex-Robotern, Mail.Ru, Bing, Yahoo. Der Wert kann in ganzzahligen oder gebrochenen Einheiten (Trennzeichen ist ein Punkt) und die Zeit in Sekunden eingestellt werden.

Beispiel 1:
Kriechverzögerung: 3

Beispiel 2:
Crawl-Verzögerung: 0,5

Wenn die Site eine geringe Auslastung aufweist, besteht keine Notwendigkeit, eine solche Regel festzulegen. Wenn die Indizierung von Seiten durch einen Roboter jedoch dazu führt, dass die Website die Grenzwerte überschreitet oder eine erhebliche Auslastung bis hin zu Serverausfällen auftritt, hilft diese Anweisung, die Auslastung zu reduzieren.

Je höher der Wert, desto weniger Seiten Der Roboter lädt in einer Sitzung herunter. Der optimale Wert wird für jeden Standort individuell ermittelt. Es ist besser, mit nicht sehr großen Werten zu beginnen – 0,1, 0,2, 0,5 – und diese schrittweise zu erhöhen. Für Suchmaschinen-Robots, die für Werbeergebnisse weniger wichtig sind, wie Mail.Ru, Bing und Yahoo, können Sie zunächst höhere Werte einstellen als für Yandex-Robots.

Clean-param

Diese Regel teilt dem Crawler mit, dass URLs mit den angegebenen Parametern nicht indiziert werden sollen. Die Regel gibt zwei Argumente an: einen Parameter und die Abschnitts-URL. Die Richtlinie wird von Yandex unterstützt.

Clean-Param: Autoren-ID http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Andere Optionen

In der erweiterten robots.txt-Spezifikation finden Sie auch die Parameter Request-Rate und Visit-Time. Allerdings sind sie es dieser Moment werden von den großen Suchmaschinen nicht unterstützt.

Die Bedeutung der Richtlinien:
Anforderungsrate: 1/5 – Laden Sie nicht mehr als eine Seite in fünf Sekunden
Besuchszeit: 0600-0845 – Seiten werden nur zwischen 6:00 und 8:45 Uhr (GMT) geladen.

Robots.txt wird geschlossen

Wenn Sie Ihre Website so konfigurieren müssen, dass sie NICHT von Suchrobotern indiziert wird, müssen Sie die folgenden Anweisungen angeben:

User-Agent: *
Nicht zulassen: /

Stellen Sie sicher, dass diese Anweisungen auf den Testseiten Ihrer Website geschrieben sind.

robots.txt richtig einrichten

Für Russland und die GUS-Staaten, wo der Anteil von Yandex erheblich ist, sollten Richtlinien für alle Roboter und getrennt für Yandex und Google vorgeschrieben werden.

Um robots.txt richtig zu konfigurieren, verwenden Sie den folgenden Algorithmus:

Schließen Sie das Site-Admin-Panel für die Indizierung
Schließen Sie Ihr persönliches Konto, Ihre Autorisierung und Ihre Registrierung von der Indexierung
Sperren Sie die Indexierung Ihres Warenkorbs, Ihrer Bestellformulare, Liefer- und Bestelldaten
Schließen Sie Ajax- und JSON-Skripte aus der Indizierung
Schließen Sie den CGI-Ordner für die Indizierung
Blockieren Sie die Indizierung von Plugins, Themes, JS und CSS für alle Roboter außer Yandex und Google
Deaktivieren Sie die Suchfunktion für die Indizierung
Abschnitte des Indexierungsdienstes ausschließen, die bei der Suche keinen Wert für die Website liefern (Fehler 404, Liste der Autoren)
Blockieren Sie die Indizierung technischer doppelter Seiten sowie von Seiten, auf denen der gesamte Inhalt in der einen oder anderen Form von anderen Seiten (Kalender, Archive, RSS) dupliziert wird.
Blockieren Sie Seiten mit Filter-, Sortier- und Vergleichsparametern von der Indizierung
Blockieren Sie Seiten mit UTM-Tags und Sitzungsparametern von der Indizierung
Überprüfen Sie mithilfe des Parameters „site:“, was von Yandex und Google indiziert wird (geben Sie „site:site.ru“ in die Suchleiste ein). Wenn die Suche Seiten enthält, die ebenfalls von der Indexierung ausgeschlossen werden müssen, fügen Sie sie zu robots.txt hinzu
Geben Sie Sitemap und Host an
Geben Sie bei Bedarf Crawl-Delay und Clean-Param ein
Überprüfen Sie die Richtigkeit von robots.txt mit den Tools von Google und Yandex (unten beschrieben).
Überprüfen Sie nach 2 Wochen erneut, ob die Suchergebnisse neue Seiten, die nicht indiziert werden sollten. Wiederholen Sie bei Bedarf die oben genannten Schritte.

Beispiel robots.txt

# Ein Beispiel für eine robots.txt-Datei zum Einrichten einer hypothetischen Site https://site.ru User-Agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 Benutzeragent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Nicht zulassen: *sort= Nicht zulassen: *view= Nicht zulassen: *utm= Erlauben: /plugins/*.css Erlauben: /plugins/*.js Erlauben: /plugins/*.png Erlauben: /plugins/ *.jpg Erlauben: /plugins/*.gif Benutzeragent: Yandex Nicht zulassen: /admin/ Nicht zulassen: /plugins/ Nicht zulassen: /search/ Nicht zulassen: /cart/ Nicht zulassen: */?s= Nicht zulassen: *sort= Nicht zulassen: *view= Zulassen: /plugins/*.css Zulassen: /plugins/*.js Zulassen: /plugins/*.png Zulassen: /plugins/*.jpg Zulassen: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Verzögerung: 0,5 Sitemap: https://site.ru/sitemap.xml Host: https://site.ru

Wie fügt man robots.txt hinzu und wo befindet es sich?

Nachdem Sie die robots.txt-Datei erstellt haben, muss sie auf Ihrer Website unter site.ru/robots.txt platziert werden – d. h. im Stammverzeichnis. Der Suchroboter greift immer auf die Datei unter der URL /robots.txt zu

So überprüfen Sie robots.txt

Robots.txt wird über die folgenden Links überprüft:

In Yandex.Webmaster – auf der Registerkarte Extras>Robots.txt-Analyse
IN Google Search Console- auf der Registerkarte „Scannen“ > Dateiinspektionstool „Robots.txt“.

Typische Fehler in robots.txt

Am Ende des Artikels werde ich einige nennen typische Fehler robots.txt-Datei

robots.txt fehlt
in robots.txt ist die Website von der Indizierung ausgeschlossen (Disallow: /)
Die Datei enthält nur die grundlegendsten Anweisungen, es gibt keine detaillierte Ausarbeitung der Datei
In der Datei werden Seiten mit UTM-Tags und Sitzungskennungen nicht für die Indizierung blockiert
Die Datei enthält nur Anweisungen
Zulassen: *.css
Zulassen: *.js
Zulassen: *.png
Zulassen: *.jpg
Zulassen: *.gif
während die CSS-, JS-, PNG-, JPG- und GIF-Dateien durch andere Anweisungen in einer Reihe von Verzeichnissen geschlossen werden
Die Host-Direktive wird mehrmals angegeben
Das HTTP-Protokoll ist in Host nicht angegeben
Der Pfad zur Sitemap ist falsch oder es wurde das falsche Protokoll oder der Site Mirror angegeben

P.S.

P.S.2

Nützliches Video von Yandex (Achtung! Einige Empfehlungen sind nur für Yandex geeignet).

Korrekter Robots-Text. So bearbeiten Sie die Robots-TXT-Datei. Nicht zulassen – „Steine“ platzieren

robots.txt erstellen

Richtlinien

Einstellungen

Robots.txt für WordPress

Robots.txt für Joomla

Fehler beim Setup

Wie überprüfe ich eine Datei?

Abschluss

So erstellen Sie die richtige robots.txt

Robots.txt-Anweisungen

User-Agent-Anweisung

Disallow- und Allow-Anweisungen

Sitemap-Richtlinie

Host-Anweisung

Crawl-Delay-Anweisung

Clean-param-Direktive

robots.txt einrichten

Robots.txt für Yandex (Yandex)

Empfehlungen zum Inhalt der Datei

Verwendung des kyrillischen Alphabets

Wie wirkt sich robots.txt auf die Site-Indexierung aus?

Robots.txt-Anweisungen

User-Agent

Nicht zulassen und zulassen

Seitenverzeichnis

Gastgeber

Crawl-Verzögerung

Clean-param

Andere Optionen

Robots.txt wird geschlossen

robots.txt richtig einrichten

Beispiel robots.txt

Wie fügt man robots.txt hinzu und wo befindet es sich?

So überprüfen Sie robots.txt

Typische Fehler in robots.txt

P.S.

P.S.2