Roboter-Textinhalte. So bearbeiten Sie die Robots-TXT-Datei. Was bewirkt das Einrichten einer Datei?

Die robots.txt-Datei befindet sich im Stammverzeichnis Ihrer Site. Auf der Website www.example.com sieht die Adresse der robots.txt-Datei beispielsweise wie folgt aus: www.example.com/robots.txt. Die robots.txt-Datei ist eine reguläre Textdatei, das dem Robot-Ausschlussstandard entspricht und eine oder mehrere Regeln enthält, von denen jede einem bestimmten Suchroboter den Zugriff auf einen bestimmten Pfad auf der Website verweigert oder zulässt.

Hier ist ein Beispiel einfache Datei robots.txt mit zwei Regeln. Nachfolgend finden Sie Erläuterungen.

# Gruppe 1 User-Agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-Agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

Erläuterungen

Ein Benutzeragent namens Googlebot sollte das Verzeichnis http://example.com/nogooglebot/ und seine Unterverzeichnisse nicht crawlen.
Alle anderen Benutzeragenten haben Zugriff auf die gesamte Site (kann weggelassen werden, das Ergebnis ist das gleiche, da standardmäßig voller Zugriff gewährt wird).
Sitemap-Datei Diese Site befindet sich unter http://www.example.com/sitemap.xml.

Nachfolgend finden Sie einige Tipps zum Arbeiten mit robots.txt-Dateien. Wir empfehlen Ihnen, die vollständige Syntax dieser Dateien zu studieren, da die zu ihrer Erstellung verwendeten Syntaxregeln nicht offensichtlich sind und Sie sie verstehen müssen.

Format und Layout

Sie können in fast jedem Browser eine robots.txt-Datei erstellen Texteditor mit Unterstützung für UTF-8-Kodierung. Vermeiden Sie die Verwendung von Textverarbeitungsprogrammen, da diese Dateien häufig in einem proprietären Format speichern und illegale Zeichen wie geschweifte Anführungszeichen hinzufügen, die von Suchrobotern nicht erkannt werden.

Verwenden Sie beim Erstellen und Testen von robots.txt-Dateien ein Testtool. Es ermöglicht Ihnen, die Syntax einer Datei zu analysieren und herauszufinden, wie sie auf Ihrer Website funktionieren wird.

Regeln bezüglich Dateiformat und Speicherort

Die Datei sollte robots.txt heißen.
Es sollte nur eine solche Datei auf der Site geben.
Die robots.txt-Datei muss eingefügt werden Wurzelverzeichnis Website. Um beispielsweise das Crawlen aller Seiten der Website http://www.example.com/ zu steuern, sollte sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden. Es sollte sich nicht in einem Unterverzeichnis befinden(zum Beispiel an der Adresse http://example.com/pages/robots.txt). Wenn Sie Schwierigkeiten beim Zugriff auf das Stammverzeichnis haben, wenden Sie sich an Ihren Hosting-Anbieter. Wenn Sie keinen Zugriff auf das Stammverzeichnis der Site haben, verwenden Sie eine alternative Blockierungsmethode wie Meta-Tags.
Die robots.txt-Datei kann mit zu Adressen hinzugefügt werden Subdomains(zum Beispiel http:// Webseite.example.com/robots.txt) oder nicht standardmäßige Ports (zum Beispiel http://example.com: 8181 /robots.txt).
Jeder Text nach dem #-Symbol gilt als Kommentar.

Syntax

Die robots.txt-Datei muss eine UTF-8-codierte Textdatei sein (die ASCII-Zeichencodes enthält). Andere Zeichensätze können nicht verwendet werden.
Die robots.txt-Datei besteht aus Gruppen.
Jede Gruppe kann mehrere enthalten Regeln, eine pro Zeile. Diese Regeln werden auch genannt Richtlinien.
Die Gruppe umfasst die folgenden Informationen:
- Zu welchem User-Agent Es gelten die Gruppenrichtlinien.
- Zugang haben.
- Auf welche Verzeichnisse oder Dateien greift dieser Agent zu? Kein Zugang.
Gruppenanweisungen werden von oben nach unten gelesen. Der Roboter befolgt nur die Regeln einer Gruppe mit dem Benutzeragenten, der ihm am ehesten entspricht.
Standardmäßig wird davon ausgegangen dass der Benutzeragent ihn verarbeiten kann, wenn der Zugriff auf eine Seite oder ein Verzeichnis nicht durch eine Disallow:-Regel blockiert ist.
Regeln Groß- und Kleinschreibung beachten. Daher gilt die Regel „Disallow: /file.asp“ für die URL http://www.example.com/file.asp, nicht jedoch für http://www.example.com/File.asp.

In robots.txt-Dateien verwendete Anweisungen

User-Agent: Obligatorische Richtlinie, davon können mehrere in einer Gruppe vorhanden sein. Bestimmt die Suchmaschine Roboter Es müssen Regeln gelten. Jede Gruppe beginnt mit dieser Zeile. Die meisten Benutzeragenten im Zusammenhang mit Googlebots finden Sie in einer speziellen Liste und in der Internet Robots Database. Das Platzhalterzeichen * wird unterstützt, um ein Präfix, Suffix eines Pfads oder den gesamten Pfad anzugeben. Verwenden Sie das *-Zeichen wie im Beispiel unten gezeigt, um den Zugriff für alle Crawler zu blockieren ( außer AdsBot-Robotern, die separat angegeben werden muss). Wir empfehlen Ihnen, sich mit der Liste der Google-Robots vertraut zu machen. Beispiele:# Beispiel 1. Blockieren des Zugriffs nur auf Googlebot User-Agent: Googlebot Disallow: / # Beispiel 2. Blockieren des Zugriffs auf Googlebot und AdsBot-Robots User-Agent: Googlebot User-Agent: AdsBot-Google Disallow: / # Beispiel 3. Blockieren des Zugriffs auf alle Roboter, mit Ausnahme von AdsBot User-agent: * Disallow: /
Nicht zulassen: . Verweist auf ein Verzeichnis oder eine Seite relativ zur Stammdomäne, die vom oben definierten Benutzeragenten nicht gecrawlt werden kann. Wenn es sich um eine Seite handelt, muss der vollständige Pfad zu dieser angegeben werden, wie in der Adressleiste des Browsers. Wenn es sich um ein Verzeichnis handelt, muss der Pfad mit einem Schrägstrich (/) enden. Das Platzhalterzeichen * wird unterstützt, um ein Präfix, Suffix eines Pfads oder den gesamten Pfad anzugeben.
Erlauben: In jeder Gruppe muss mindestens eine Disallow:- oder Allow:-Anweisung vorhanden sein. Verweist auf ein Verzeichnis oder eine Seite relativ zur Stammdomäne, die vom oben definierten Benutzeragenten gecrawlt werden kann. Wird verwendet, um die Disallow-Anweisung zu überschreiben und das Scannen eines Unterverzeichnisses oder einer Seite in einem Verzeichnis zu ermöglichen, das zum Scannen geschlossen ist. Wenn es sich um eine Seite handelt, muss der vollständige Pfad zu dieser angegeben werden, wie in der Adressleiste des Browsers. Wenn es sich um ein Verzeichnis handelt, muss der Pfad mit einem Schrägstrich (/) enden. Das Platzhalterzeichen * wird unterstützt, um ein Präfix, Suffix eines Pfads oder den gesamten Pfad anzugeben.
Seitenverzeichnis: Eine optionale Direktive; die Datei kann mehrere oder keine davon enthalten. Gibt den Speicherort der auf dieser Website verwendeten Sitemap an. Die URL muss vollständig sein. Google verarbeitet oder validiert keine URL-Variationen mit den Präfixen http und https oder mit oder ohne das www-Element. Sitemaps teilen Google mit, welchen Inhalt sie haben müssen scannen und wie man ihn von Inhalten unterscheidet Kann oder es ist verboten Scan. Beispiel: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Andere Regeln werden ignoriert.

Noch ein Beispiel

Die robots.txt-Datei besteht aus Gruppen. Jeder von ihnen beginnt mit einer User-Agent-Zeile, die den Roboter definiert, der die Regeln befolgen muss. Nachfolgend finden Sie ein Beispiel für eine Datei mit zwei Gruppen und erläuternden Kommentaren für beide.

# Blockieren Sie den Zugriff des Googlebots auf example.com/directory1/... und example.com/directory2/... #, erlauben Sie jedoch den Zugriff auf Verzeichnis2/subdirectory1/... # Der Zugriff auf alle anderen Verzeichnisse ist standardmäßig zulässig. User-Agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blockieren Sie den Zugriff auf die gesamte Website für eine andere Suchmaschine. Benutzeragent: anothercrawler Disallow: /

Vollständige Syntax der robots.txt-Datei

Die vollständige Syntax wird in diesem Artikel beschrieben. Wir empfehlen Ihnen, sich damit vertraut zu machen, da die Syntax der robots.txt-Datei einige wichtige Nuancen aufweist.

Nützliche Regeln

Hier sind einige allgemeine Regeln für die robots.txt-Datei:

Regel	Beispiel
Verbot des Crawlens der gesamten Website. Bitte beachten Sie, dass in einigen Fällen Website-URLs im Index vorhanden sein können, auch wenn sie nicht gecrawlt wurden. Bitte beachten Sie, dass diese Regel nicht für AdsBot-Robots gilt, die separat angegeben werden müssen.	Benutzeragent: * Nicht zulassen: /
Um das Scannen eines Verzeichnisses und seines gesamten Inhalts zu verhindern, fügen Sie nach dem Verzeichnisnamen einen Schrägstrich ein. Verwenden Sie die robots.txt-Datei nicht zum Schutz vertraulicher Informationen! Für diese Zwecke sollte die Authentifizierung verwendet werden. URLs, die von der robots.txt-Datei nicht gecrawlt werden dürfen, können indiziert werden, und der Inhalt der robots.txt-Datei kann von jedem Benutzer eingesehen werden und so den Speicherort von Dateien mit vertraulichen Informationen offenlegen.	Benutzeragent: * Nicht zulassen: /calendar/ Nicht zulassen: /junk/
Um das Crawlen nur durch einen Crawler zu ermöglichen	Benutzeragent: Googlebot-news Zulassen: / Benutzeragent: * Nicht zulassen: /
Um das Crawlen für alle Crawler außer einem zu ermöglichen	User-Agent: Unnecessarybot Disallow: / User-Agent: * Allow: /
Um zu verhindern, dass eine bestimmte Seite gecrawlt wird Geben Sie diese Seite nach dem Schrägstrich an.	Benutzeragent: * Nicht zulassen: /private_file.html
Um ein bestimmtes Bild vor dem Google Bilder-Roboter auszublenden	User-Agent: Googlebot-Image Disallow: /images/dogs.jpg
Um alle Bilder Ihrer Website vor dem Google Bilder-Roboter auszublenden	User-Agent: Googlebot-Image Disallow: /
Um zu verhindern, dass alle Dateien eines bestimmten Typs gescannt werden(in diesem Fall GIF)	User-Agent: Googlebot Disallow: /*.gif$
Um bestimmte Seiten Ihrer Website zu blockieren, auf denen jedoch weiterhin AdSense-Anzeigen geschaltet werden sollen, verwenden Sie die Disallow-Regel für alle Robots außer Mediapartners-Google. Dadurch kann dieser Roboter auf Seiten zugreifen, die aus den Suchergebnissen entfernt wurden, um Anzeigen auszuwählen, die einem bestimmten Benutzer angezeigt werden sollen.	User-Agent: * Disallow: / User-Agent: Mediapartners-Google Allow: /
Um eine URL anzugeben, die bei einem bestimmten Fragment endet, verwenden Sie das $-Symbol. Verwenden Sie beispielsweise für URLs, die auf .xls enden, den folgenden Code:	User-Agent: Googlebot Disallow: /*.xls$

Die meisten Roboter sind gut konzipiert und bereiten Website-Besitzern keine Probleme. Wenn der Bot jedoch von einem Amateur geschrieben wurde oder „etwas schief gelaufen ist“, kann er die gecrawlte Website erheblich belasten. Übrigens dringen Spinnen überhaupt nicht wie Viren in den Server ein – sie fordern einfach die benötigten Seiten aus der Ferne an (tatsächlich handelt es sich dabei um Analoga von Browsern, jedoch ohne Seitenanzeigefunktion).

Robots.txt – User-Agent-Anweisung und Suchmaschinen-Bots

Robots.txt hat eine sehr einfache Syntax, die beispielsweise in ausführlich beschrieben wird Yandex-Hilfe Und Google-Hilfe. Es gibt normalerweise an, für welchen Such-Bot die folgenden Anweisungen gedacht sind: Bot-Name (" User-Agent"), erlauben (" Erlauben") und verbieten (" Nicht zulassen„) und „Sitemap“ wird auch aktiv verwendet, um Suchmaschinen genau anzuzeigen, wo sich die Kartendatei befindet.

Der Standard wurde vor ziemlich langer Zeit erstellt und später wurde etwas hinzugefügt. Es gibt Richtlinien und Gestaltungsregeln, die nur von Robots bestimmter Suchmaschinen verstanden werden. In RuNet sind nur Yandex und Google von Interesse, was bedeutet, dass Sie sich besonders ausführlich mit deren Hilfe beim Kompilieren von robots.txt vertraut machen sollten (die Links habe ich im vorherigen Absatz bereitgestellt).

Zum Beispiel früher für Suchmaschine Für Yandex war es nützlich, in der speziellen „Host“-Direktive anzugeben, dass Ihr Webprojekt das Hauptprojekt ist, was nur diese Suchmaschine versteht (also auch Mail.ru, weil ihre Suche von Yandex stammt). Stimmt, Anfang 2018 Yandex hat Host immer noch abgesagt und jetzt werden seine Funktionen, wie die anderer Suchmaschinen, durch eine 301-Weiterleitung ausgeführt.

Auch wenn Ihre Ressource keine Spiegelungen hat, ist es hilfreich anzugeben, welche Schreibweise die wichtigste ist – .

Lassen Sie uns nun ein wenig über die Syntax dieser Datei sprechen. Anweisungen in robots.txt sehen so aus:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Der richtige Code sollte enthalten mindestens eine „Disallow“-Anweisung nach jedem „User-Agent“-Eintrag. Leere Akte impliziert die Erlaubnis, die gesamte Website zu indizieren.

User-Agent

„User-Agent“-Direktive muss den Namen des Suchbots enthalten. Damit können Sie Verhaltensregeln für jede einzelne Suchmaschine festlegen (z. B. ein Verbot der Indizierung eines separaten Ordners nur für Yandex erstellen). Ein Beispiel für das Schreiben eines „Benutzeragenten“, der an alle Bots gerichtet ist, die Ihre Ressource besuchen, sieht folgendermaßen aus:

User-Agent: *

Wenn Sie bestimmte Bedingungen im „User-Agent“ nur für einen Bot, zum Beispiel Yandex, festlegen möchten, müssen Sie Folgendes schreiben:

Benutzeragent: Yandex

Name der Suchmaschinen-Robots und ihre Rolle in der robots.txt-Datei

Bot jeder Suchmaschine hat einen eigenen Namen (für einen Rambler ist es beispielsweise StackRambler). Hier werde ich eine Liste der berühmtesten von ihnen geben:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Große Suchmaschinen haben das manchmal außer den Haupt-Bots, es gibt auch separate Instanzen für die Indizierung von Blogs, Nachrichten, Bildern usw. Sie können viele Informationen zu den Bot-Typen (für Yandex) und (für Google) erhalten.

Wie soll es in diesem Fall sein? Wenn Sie eine Regel zum Verbot der Indexierung schreiben müssen, der alle Arten von Google-Robots folgen müssen, dann verwenden Sie den Namen Googlebot, und alle anderen Spider dieser Suchmaschine werden sich ebenfalls daran halten. Allerdings können Sie beispielsweise die Indizierung von Bildern nur verbieten, indem Sie den Googlebot-Image-Bot als User-Agent angeben. Das ist zwar nicht ganz klar, aber mit Beispielen wird es meiner Meinung nach einfacher.

Beispiele für die Verwendung der Disallow- und Allow-Anweisungen in robots.txt

Ich gebe Ihnen ein paar einfache. Beispiele für die Verwendung von Direktiven mit einer Erklärung seines Handelns.

Der folgende Code ermöglicht allen Bots (gekennzeichnet durch ein Sternchen im User-Agent), alle Inhalte ohne Ausnahmen zu indizieren. Dies ist gegeben leere Direktive Disallow. Benutzeragent: * Nicht zulassen:
Der folgende Code hingegen verbietet allen Suchmaschinen vollständig, Seiten dieser Ressource zum Index hinzuzufügen. Setzt dies mit „/“ im Wertfeld auf „Nicht zulassen“. Benutzeragent: * Nicht zulassen: /
In diesem Fall wird es allen Bots untersagt, den Inhalt des Verzeichnisses /image/ anzuzeigen (http://mysite.ru/image/ ist der absolute Pfad zu diesem Verzeichnis). User-Agent: * Disallow: /image/
Um eine Datei zu blockieren, reicht es aus, ihren absoluten Pfad zu ihr zu registrieren (lesen): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Wenn ich etwas vorausschaue, sage ich, dass es einfacher ist, das Sternchen (*)-Symbol zu verwenden, um nicht den vollständigen Pfad zu schreiben:
Nicht zulassen: /*private_file.html
Im folgenden Beispiel wird das Verzeichnis „image“ sowie alle Dateien und Verzeichnisse, die mit den Zeichen „image“ beginnen, verboten, d. h. Dateien: „image.htm“, „images.htm“, Verzeichnisse: „image“, „ images1“, „image34“ usw.): User-Agent: * Disallow: /image Tatsache ist, dass am Ende des Eintrags standardmäßig ein Sternchen steht, das alle Zeichen ersetzt, auch deren Abwesenheit. Lesen Sie weiter unten darüber.
Mit Hilfe Erlaube Anweisungen Wir erlauben den Zugang. Ergänzungen gut verbieten. Mit dieser Bedingung verbieten wir beispielsweise, dass der Yandex-Suchroboter alles herunterlädt (indiziert), außer Webseiten, deren Adresse mit /cgi-bin beginnt: Benutzeragent: Yandex Zulassen: /cgi-bin Nicht zulassen: /
Nun, oder dieses offensichtliche Beispiel für die Verwendung der Kombination „Zulassen“ und „Nicht zulassen“:
Benutzeragent: * Nicht zulassen: /catalog Erlauben: /catalog/auto
Bei der Beschreibung von Pfaden für Allow-Disallow-Anweisungen können Sie die Symbole verwenden „*“ und „$“, wodurch bestimmte logische Ausdrücke definiert werden.
1. Symbol "*"(Stern) bezeichnet eine beliebige (auch leere) Zeichenfolge. Das folgende Beispiel verhindert, dass alle Suchmaschinen Dateien mit der Erweiterung „.php“ indizieren: User-agent: * Disallow: *.php$
2. Warum wird es am Ende benötigt? $-Zeichen? Tatsache ist, dass gemäß der Logik der Kompilierung der robots.txt-Datei am Ende jeder Anweisung ein Standardsternchen hinzugefügt wird (es ist nicht vorhanden, scheint aber vorhanden zu sein). Wir schreiben zum Beispiel: Disallow: /images
  Dies bedeutet, dass dies dasselbe ist wie:
  Nicht zulassen: /images*
  Diese. Diese Regel verbietet die Indizierung aller Dateien (Webseiten, Bilder und andere Dateitypen), deren Adresse mit /images beginnt und alles folgt (siehe Beispiel oben). Also, $-Symbol Am Ende wird einfach das Standard-Sternchen gelöscht. Zum Beispiel:
  Nicht zulassen: /images$
  Verhindert nur die Indizierung der Datei /images, nicht jedoch /images.html oder /images/primer.html. Nun, im ersten Beispiel haben wir die Indizierung nur von Dateien mit der Endung .php (mit einer solchen Erweiterung) verboten, um nichts Unnötiges abzufangen:
  Nicht zulassen: *.php$

In vielen Engines haben Benutzer (für Menschen lesbare URLs) ein Fragezeichen „?“, während vom System generierte URLs ein Fragezeichen haben. in der Adresse. Das können Sie sich zunutze machen und folgende Regel in robots.txt schreiben: User-agent: * Disallow: /*?

Das Sternchen nach dem Fragezeichen liegt auf der Hand, ist aber, wie wir oben herausgefunden haben, bereits am Ende impliziert. Daher verbieten wir die Indizierung von Suchseiten und anderen von der Suchmaschine erstellten Serviceseiten, die der Suchroboter erreichen kann. Es wird nicht überflüssig sein, da das Fragezeichen von CMS am häufigsten als Sitzungskennung verwendet wird, was dazu führen kann, dass doppelte Seiten in den Index aufgenommen werden.

Sitemap- und Host-Anweisungen (für Yandex) in Robots.txt

Um unangenehme Probleme mit Site-Spiegeln zu vermeiden, wurde zuvor empfohlen, der robots.txt eine Host-Direktive hinzuzufügen, die den Yandex-Bot auf den Hauptspiegel verwies.

Host-Direktive – gibt den Hauptspiegel der Site für Yandex an

Zum Beispiel früher, wenn Sie noch nicht auf ein sicheres Protokoll umgestellt haben, war es notwendig, im Host nicht die vollständige URL anzugeben, sondern Domainname(ohne http://, also.ru). Wenn Sie bereits auf https umgestellt haben, müssen Sie die vollständige URL angeben (z. B. https://myhost.ru).

Ein wunderbares Tool zur Bekämpfung von Duplicate Content – die Suchmaschine indiziert die Seite einfach nicht, wenn eine andere URL in Canonical registriert ist. Beispielsweise verweist Canonical für eine solche Seite meines Blogs (Seite mit Paginierung) auf https://site und es sollte keine Probleme mit der Duplizierung von Titeln geben.

Aber ich schweife ab...
Wenn Ihr Projekt auf Basis einer beliebigen Engine erstellt wird, dann Es kommt zu doppeltem Inhalt mit hoher Wahrscheinlichkeit, was bedeutet, dass Sie dagegen ankämpfen müssen, auch mit Hilfe eines Verbots in robots.txt und insbesondere im Meta-Tag, da Google im ersten Fall das Verbot möglicherweise ignorieren kann, es aber nicht mehr kann mich einen Dreck um das Meta-Tag zu scheren (das so angesprochen wurde).
Zum Beispiel in WordPress-Seiten mit sehr ähnlichem Inhalt können in den Suchmaschinenindex aufgenommen werden, wenn die Indizierung des Inhalts von Kategorien, des Inhalts des Tag-Archivs und des Inhalts temporärer Archive zulässig ist. Wenn Sie jedoch mithilfe des oben beschriebenen Robots-Meta-Tags ein Verbot des Tag-Archivs und des temporären Archivs erstellen (Sie können die Tags belassen und die Indizierung des Inhalts der Kategorien verbieten), kommt es nicht zu einer Duplizierung des Inhalts. Wie das geht, ist im oben angegebenen Link (zum OlInSeoPak-Plugin) beschrieben.
Zusammenfassend möchte ich sagen, dass die Robots-Datei dazu gedacht ist, globale Regeln festzulegen, um den Zugriff auf ganze Site-Verzeichnisse oder auf Dateien und Ordner zu verweigern, deren Namen bestimmte Zeichen enthalten (durch Maske). Beispiele für die Festlegung solcher Verbote finden Sie weiter oben.
Schauen wir uns nun konkrete Beispiele von Robotern an, die für verschiedene Engines entwickelt wurden – Joomla, WordPress und SMF. Natürlich unterscheiden sich alle drei Optionen, die für verschiedene CMS erstellt wurden, erheblich (wenn nicht sogar radikal) voneinander. Eines haben sie zwar alle gemeinsam, und dieser Moment hängt mit der Yandex-Suchmaschine zusammen.
Weil In RuNet hat Yandex ziemlich viel Gewicht, dann müssen wir alle Nuancen seiner Arbeit berücksichtigen, und hier sind wir Die Host-Direktive hilft. Es zeigt dieser Suchmaschine explizit den Hauptspiegel Ihrer Website an.
Hierzu wird empfohlen, einen separaten User-Agent-Blog zu verwenden, der nur für Yandex gedacht ist (User-Agent: Yandex). Dies liegt daran, dass andere Suchmaschinen Host möglicherweise nicht verstehen und seine Aufnahme in den für alle Suchmaschinen vorgesehenen User-Agent-Datensatz (User-Agent: *) daher zu negativen Folgen und einer falschen Indizierung führen kann.
Es ist schwer zu sagen, wie die Situation wirklich ist, da Suchalgorithmen eine Sache für sich sind und es daher besser ist, den Empfehlungen Folge zu leisten. Aber in diesem Fall müssen wir in der User-agent: Yandex-Direktive alle Regeln duplizieren, die wir User-agent: * festlegen. Wenn Sie User-agent: Yandex mit einem leeren Disallow: verlassen, erlauben Sie Yandex auf diese Weise, überall hinzugehen und alles in den Index zu ziehen.
Roboter für WordPress
Ich werde kein Beispiel für eine Datei geben, die die Entwickler empfehlen. Sie können es sich selbst ansehen. Viele Blogger beschränken Yandex- und Google-Bots bei ihren Spaziergängen durch den Inhalt der WordPress-Engine überhaupt nicht. Am häufigsten findet man in Blogs Roboter, die automatisch mit einem Plugin gefüllt werden.
Aber meiner Meinung nach sollten wir die Suche dennoch bei der schwierigen Aufgabe unterstützen, die Spreu vom Weizen zu trennen. Erstens wird es für Yandex- und Google-Bots viel Zeit in Anspruch nehmen, diesen Müll zu indizieren, und es bleibt möglicherweise keine Zeit mehr, Webseiten mit Ihren neuen Artikeln zum Index hinzuzufügen. Zweitens erzeugen Bots, die durch die Dateien der Garbage Engine kriechen, eine zusätzliche Belastung auf dem Server Ihres Hosts, was nicht gut ist.
Sie können meine Version dieser Datei selbst sehen. Es ist alt und wurde schon lange nicht mehr verändert, aber ich versuche, dem Grundsatz „Repariere nicht, was nicht kaputt ist“ zu folgen, und es liegt an Ihnen, zu entscheiden: Verwenden Sie es, machen Sie es selbst oder stehlen Sie es jemand anderes. Ich hatte bis vor kurzem auch ein Verbot der Indizierung von Seiten mit Paginierung (Disallow: */page/), aber vor kurzem habe ich es entfernt und mich auf Canonical verlassen, über das ich oben geschrieben habe.
Und überhaupt, die einzig richtige Datei für WordPress existiert wahrscheinlich nicht. Natürlich können Sie darin alle Voraussetzungen umsetzen, aber wer hat gesagt, dass sie richtig sind? Es gibt viele Optionen für die ideale robots.txt im Internet.
Ich nenne zwei Extreme:
Sie können eine Megadatei mit detaillierten Erklärungen finden (das #-Symbol trennt Kommentare, die besser in einer echten Datei gelöscht werden sollten): User-Agent: * # Allgemeine Regeln für Roboter, außer Yandex und Google, # weil Für sie gelten die folgenden Regeln. Disallow: /cgi-bin # Ordner auf dem Hosting Disallow: /? # alle Anforderungsparameter auf der Hauptseite nicht zulassen: /wp- # alle WP-Dateien: /wp-json/, /wp-includes, /wp-content/plugins nicht zulassen: /wp/ # wenn es ein Unterverzeichnis /wp/ gibt, wo das CMS ist installiert (wenn nicht, # kann die Regel gelöscht werden) Nicht zulassen: *?s= # Suche nicht zulassen: *&s= # Suche nicht zulassen: /search/ # Suche nicht zulassen: /author/ # Autorenarchiv nicht zulassen: /users/ # Autorenarchiv Nicht zulassen: */ trackback # Trackbacks, Benachrichtigungen in Kommentaren über das Erscheinen eines offenen # Link zu einem Artikel Nicht zulassen: */feed # alle Feeds nicht zulassen: */rss # RSS-Feed nicht zulassen: */embed # alle Einbettungen nicht zulassen : */wlwmanifest.xml # Manifest-XML-Datei Windows Live Writer (wenn Sie es nicht verwenden, # kann die Regel gelöscht werden) Disallow: /xmlrpc.php # WordPress-API-Datei Disallow: *utm= # Links mit utm-Tags Disallow : *openstat= # Links mit OpenStat-Tags zulassen: */uploads # Ordner mit den hochgeladenen Dateien öffnen Benutzeragent: GoogleBot # Regeln für Google (Ich dupliziere keine Kommentare) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss nicht zulassen: */embed nicht zulassen: */wlwmanifest.xml nicht zulassen: /xmlrpc.php nicht zulassen: *utm= nicht zulassen: *openstat= zulassen: */uploads zulassen: /*/*.js # JS-Skripte in /wp öffnen - (/*/ – für Priorität) Erlauben: /*/*.css # Öffnen von CSS-Dateien in /wp- (/*/ – für Priorität) Erlauben: /wp-*.png # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.jpg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.jpeg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.gif # Bilder in Plugins, Cache-Ordnern usw. Zulassen: /wp-admin/admin-ajax.php # Wird von Plugins verwendet, um JS und CSS nicht zu blockieren. Benutzeragent: Yandex # Regeln für Yandex (Ich dupliziere keine Kommentare) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss nicht zulassen: */embed nicht zulassen: */wlwmanifest.xml nicht zulassen: /xmlrpc.php zulassen: */uploads zulassen: /*/*.js zulassen: /*/*.css zulassen: /wp-*.png zulassen: /wp-*.jpg Erlauben: /wp-*.jpeg Erlauben: /wp-*.gif Erlauben: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex empfiehlt, # die Indizierung nicht zu blockieren, sondern zu löschen Tag-Parameter, # Google unterstützt solche Regeln nicht. Clean-Param: openstat # ähnlich # Geben Sie eine oder mehrere Sitemap-Dateien an (kein Duplikat für jeden User-Agent # erforderlich). Google XML Sitemap erstellt zwei Sitemaps wie im folgenden Beispiel. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Geben Sie den Hauptspiegel der Site an, wie im Beispiel unten (mit WWW / ohne WWW, wenn HTTPS # dann Protokoll schreiben, wenn Sie einen Port angeben müssen, geben Sie ihn an). Der Host-Befehl wird von # Yandex und Mail.RU verstanden, Google berücksichtigt ihn nicht. Host: www.site.ru
Aber Sie können ein Beispiel für Minimalismus verwenden: User-Agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site. ru/sitemap.xml

Die Wahrheit liegt wahrscheinlich irgendwo in der Mitte. Vergessen Sie auch nicht, das Robots-Meta-Tag für „zusätzliche“ Seiten hinzuzufügen, beispielsweise mit dem wunderbaren Plugin – . Es hilft Ihnen auch bei der Einrichtung von Canonical.
Korrigieren Sie robots.txt für Joomla
Benutzeragent: * Nicht zulassen: /administrator/ Nicht zulassen: /bin/ Nicht zulassen: /cache/ Nicht zulassen: /cli/ Nicht zulassen: /components/ Nicht zulassen: /includes/ Nicht zulassen: /installation/ Nicht zulassen: /sprache/ Nicht zulassen: /layouts/ Nicht zulassen: /libraries/ Nicht zulassen: /logs/ Nicht zulassen: /modules/ Nicht zulassen: /plugins/ Nicht zulassen: /tmp/
Im Prinzip ist hier fast alles berücksichtigt und es funktioniert gut. Das Einzige ist, dass Sie eine separate User-Agent: Yandex-Regel hinzufügen sollten, um die Host-Direktive einzufügen, die den Hauptspiegel für Yandex definiert, und auch den Pfad zur Sitemap-Datei anzugeben.
Daher in der endgültigen Form Richtige Roboter für Joomla sollte meiner Meinung nach so aussehen:
Benutzeragent: Yandex Nicht zulassen: /administrator/ Nicht zulassen: /cache/ Nicht zulassen: /includes/ Nicht zulassen: /installation/ Nicht zulassen: /sprache/ Nicht zulassen: /libraries/ Nicht zulassen: /modules/ Nicht zulassen: /plugins/ Nicht zulassen: /tmp/ Nicht zulassen: /layouts/ Nicht zulassen: /cli/ Nicht zulassen: /bin/ Nicht zulassen: /logs/ Nicht zulassen: /components/ Nicht zulassen: /component/ Nicht zulassen: /component/tags* Nicht zulassen: /*mailto/ Nicht zulassen: /*.pdf Nicht zulassen : /*% Nicht zulassen: /index.php Host: vash_sait.ru (oder www.vash_sait.ru) Benutzeragent: * Erlauben: /*.css?*$ Erlauben: /*.js?*$ Erlauben: /* .jpg?*$ Erlauben: /*.png?*$ Nicht zulassen: /administrator/ Nicht zulassen: /cache/ Nicht zulassen: /includes/ Nicht zulassen: /installation/ Nicht zulassen: /sprache/ Nicht zulassen: /libraries/ Nicht zulassen: /modules/ Nicht zulassen : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://Pfad zu Ihrer XML-Formatzuordnung
Ja, beachten Sie auch, dass es in der zweiten Option Anweisungen gibt Zulassen, ermöglicht die Indizierung von Stilen, Skripten und Bildern. Dies wurde speziell für Google geschrieben, da sich dessen Googlebot manchmal darüber beschwert, dass die Indizierung dieser Dateien, beispielsweise aus dem Ordner mit dem verwendeten Theme, in den Robots verboten ist. Dafür droht er sogar mit einer Herabstufung seines Rankings.
Deshalb erlauben wir, dass das Ganze vorab mit Allow indiziert wird. Das Gleiche passierte übrigens auch in der Beispieldatei für WordPress.

Viel Erfolg! Bis bald auf den Seiten der Blog-Site
Du könntest interessiert sein
Domains mit und ohne www – die Geschichte ihres Erscheinens, die Verwendung von 301-Weiterleitungen, um sie zusammenzuhalten
Mirrors, doppelte Seiten und URL-Adressen – eine Prüfung Ihrer Website oder was die Ursache für das Scheitern bei der SEO-Werbung sein könnte SEO für Einsteiger: 10 Hauptpunkte eines technischen Website-Audits
Bing Webmaster – Zentrum für Webmaster der Bing-Suchmaschine
Google Webmaster Tools Suchkonsole(Google Webmaster)
So vermeiden Sie häufige Fehler beim Bewerben einer Website
So bewerben Sie selbst eine Website, indem Sie die Onpage-Optimierung verbessern Stichworte und Entfernen doppelter Inhalte
Yandex Webmaster – Indizierung, Links, Site-Sichtbarkeit, Regionsauswahl, Urheberschaft und Virenprüfung in Yandex Webmaster

Erstellen der Datei selbst

Robots.txt ist eine Datei mit Anweisungen für Suchroboter. Es wird im Stammverzeichnis der Site erstellt. Sie können es jetzt mit Notepad auf Ihrem Desktop erstellen, genau wie Sie jede Textdatei erstellen.

Klicken Sie dazu mit der rechten Maustaste auf den leeren Bereich und wählen Sie Erstellen – Text dokument(nicht Word). Es wird mit einem normalen Notizblock geöffnet. Nennen Sie es Roboter, die Erweiterung ist bereits korrekt – txt. Das ist alles für die Erstellung der Datei selbst.

So erstellen Sie robots.txt

Jetzt müssen Sie nur noch die Datei mit den notwendigen Anweisungen füllen. Tatsächlich haben Befehle für Roboter die einfachste Syntax, viel einfacher als in jeder anderen Programmiersprache. Im Allgemeinen können Sie die Datei auf zwei Arten füllen:

Schauen Sie sich eine andere Site an, kopieren Sie sie und passen Sie sie an die Struktur Ihres Projekts an.

Schreiben Sie es selbst

Über die erste Methode habe ich bereits geschrieben. Es eignet sich, wenn die Seiten über die gleichen Engines verfügen und es keine wesentlichen Unterschiede in der Funktionalität gibt. Beispielsweise haben alle WordPress-Seiten die gleiche Struktur, es können jedoch verschiedene Erweiterungen vorhanden sein, etwa ein Forum, ein Online-Shop und viele zusätzliche Verzeichnisse. Wenn Sie wissen möchten, wie man robots.txt ändert, lesen Sie diesen Artikel. Sie können auch den vorherigen Artikel lesen, aber dieser wird ziemlich viel sagen.

Sie verfügen beispielsweise über ein /source-Verzeichnis auf Ihrer Website, in dem die Quellen für die Artikel gespeichert sind, die Sie in Ihrem Blog schreiben, aber ein anderer Webmaster verfügt nicht über ein solches Verzeichnis. Und Sie möchten beispielsweise den Quellordner von der Indizierung ausschließen. Wenn Sie robots.txt von einer anderen Ressource kopieren, gibt es dort keinen solchen Befehl. Sie müssen Ihre Anweisungen hinzufügen, unnötige Dinge löschen usw.

Daher ist es auf jeden Fall nützlich, die grundlegende Syntax von Anweisungen für Roboter zu kennen, die wir nun analysieren werden.

Wie schreibe ich Anweisungen an Roboter?

Die Datei beginnt zunächst mit einem Hinweis darauf, an welche Suchmaschinen die Anweisungen gerichtet sind. Das geht so:

User-Agent: Yandex oder User-Agent: Googlebot

Benutzeragent: Yandex

Benutzeragent: Googlebot

Es ist nicht nötig, am Ende der Zeile irgendwelche Semikolons einzufügen, da dies für Sie keine Programmierung darstellt. Generell ist klar, dass im ersten Fall nur der Yandex-Bot die Anweisungen liest, im zweiten Fall nur Google. Wenn Befehle von allen Robotern ausgeführt werden müssen, schreiben Sie Folgendes: Benutzeragent:

Großartig. Wir haben den Appell an Roboter geklärt. Es ist nicht schwer. Sie können es sich vorstellen einfaches Beispiel. Du hast drei jüngere Brüder, Vasya, Dima und Petya, und du bist der wichtigste. Deine Eltern sind gegangen und haben dir gesagt, du sollst ein Auge auf sie haben.

Alle drei bitten dich um etwas. Stellen Sie sich vor, Sie müssten ihnen eine Antwort geben, als würden Sie Anweisungen für Suchroboter schreiben. Es wird ungefähr so aussehen:

User-Agent: Vasya Erlauben: zum Fußball gehen User-Agent: Dima Verbieten: zum Fußball gehen (Dima hat das letzte Mal das Glas seiner Nachbarn zerbrochen, er wurde bestraft) User-Agent: Petya Erlauben: ins Kino gehen (Petya ist schon 16 und er ist generell schockiert, dass ich dich auch um Erlaubnis bitten soll, aber na ja, lass ihn gehen).

So schnürt Vasya fröhlich seine Turnschuhe, Dima schaut mit gesenktem Kopf aus dem Fenster auf seinen Bruder, der schon darüber nachdenkt, wie viele Tore er heute schießen wird (Dima erhielt den Disallow-Befehl, also ein Verbot). Nun, Petja geht ins Kino.

Anhand dieses Beispiels ist leicht zu verstehen, dass „Erlauben“ eine Erlaubnis und „Verbieten“ ein Verbot ist. Aber in robots.txt geben wir Befehle nicht an Menschen, sondern an Roboter, sodass dort statt spezifischer Aufgaben die Adressen von Seiten und Verzeichnissen geschrieben werden, deren Indizierung zugelassen oder verboten werden muss.

Ich habe zum Beispiel eine Website site.ru. Es wird von WordPress betrieben. Ich fange an, Anweisungen zu schreiben:

Benutzeragent: * Nicht zulassen: /wp-admin/ Nicht zulassen: /wp-content/ Nicht zulassen: /wp-includes/ Erlauben: /wp-content/uploads/ Nicht zulassen: /source/ Nun, usw.

User-Agent: *

Nicht zulassen: /wp-admin/

Nicht zulassen: /wp-content/

Nicht zulassen: /wp-includes/

Nicht zulassen: /Quelle/

Nuit. D.

Zuerst habe ich mich an alle Roboter gewandt. Zweitens habe ich die Indizierung der Engine-Ordner blockiert, aber gleichzeitig dem Roboter Zugriff auf den Download-Ordner gewährt. Normalerweise werden alle Bilder dort gespeichert und normalerweise nicht für die Indizierung blockiert, wenn Sie Datenverkehr über die Bildersuche erhalten möchten.

Erinnern Sie sich daran, dass ich weiter oben in dem Artikel gesagt habe, dass Sie zusätzliche Verzeichnisse haben können? Sie können sie für verschiedene Zwecke selbst erstellen. Auf einer meiner Websites gibt es beispielsweise einen Flash-Ordner, in dem ich Flash-Spiele ablege, damit ich sie auf der Website starten kann. Oder Quelle – In diesem Ordner können Dateien gespeichert werden, die den Benutzern zum Herunterladen zur Verfügung stehen.

Im Allgemeinen spielt es keine Rolle, wie der Ordner heißt. Wenn Sie es schließen müssen, geben Sie den Pfad dazu und den Befehl „Disallow“ an.

Der Befehl „Zulassen“ wird gerade benötigt, um einige Teile bereits geschlossener Abschnitte zu öffnen. Denn wenn Sie keine robots.txt-Datei haben, steht standardmäßig die gesamte Site für die Indizierung zur Verfügung. Das ist sowohl gut (Sie schließen sicher nicht versehentlich etwas Wichtiges) als auch schlecht (es werden Dateien und Ordner geöffnet, die nicht in den Suchergebnissen enthalten sein sollten).

Um diesen Punkt besser zu verstehen, schlage ich vor, dass Sie sich diesen Artikel noch einmal ansehen:

Nicht zulassen: /wp-content/ Erlauben: /wp-content/uploads/

Nicht zulassen: /wp-content/

Erlauben: /wp-content/uploads/

Wie Sie sehen, blockieren wir zunächst die Indizierung des gesamten wp-content-Verzeichnisses. Es speichert alle Ihre Vorlagen und Plugins, enthält aber auch Bilder. Selbstverständlich können sie geöffnet werden. Aus diesem Grund benötigen wir den Befehl „Zulassen“.

Zusätzliche Optionen

Die aufgeführten Befehle sind nicht die einzigen Dinge, die in der Datei angegeben werden können. Es gibt auch diese: Host – gibt den Hauptspiegel der Site an. Für diejenigen, die es nicht wussten: Jede Website verfügt über zwei Standardschreibweisen für ihren Domainnamen: domain.com und www.domain.com.

Um Probleme zu vermeiden, müssen Sie eine Option als Hauptspiegel angeben. Dies kann sowohl in den Webmaster-Tools als auch in der Robots.txt-Datei erfolgen. Dazu schreiben wir: Host: domain.com

Was bringt das? Wenn jemand versucht, auf Ihre Website wie diese zu gelangen: www.domain.com, wird er automatisch auf die Version ohne www umgeleitet, da diese als Hauptspiegel erkannt wird.

Die zweite Direktive ist Sitemap. Ich denke, Sie verstehen bereits, dass es den Pfad zur Sitemap im XML-Format angibt. Beispiel: http://domain.com/sitemap.xml

Auch hier können Sie die Karte in Yandex.Webmaster hochladen, Sie können sie auch in robots.txt angeben, damit der Roboter diese Zeile liest und klar versteht, wo er nach der Sitemap suchen muss. Für einen Roboter ist eine Sitemap genauso wichtig wie für Vasya – der Ball, mit dem er zum Fußball gehen wird. Es ist, als würde er dich (wie ein älterer Bruder) fragen, wo der Ball ist. Und du sagst ihm:

Hinter dem Sofa

Jetzt wissen Sie, wie Sie robots.txt für Yandex und im Allgemeinen jede andere Suchmaschine richtig konfigurieren und an Ihre Bedürfnisse anpassen.

Was bewirkt die Dateianpassung?

Darüber habe ich auch bereits gesprochen, aber ich werde es noch einmal sagen. Dank einer klar konfigurierten Datei mit Befehlen für Roboter können Sie ruhiger schlafen, da Sie wissen, dass der Roboter nicht in einen unnötigen Abschnitt kriecht und keine unnötigen Seiten in den Index aufnimmt.

Ich habe auch gesagt, dass das Einrichten von robots.txt nicht alles löst. Insbesondere werden Sie dadurch nicht vor Duplikaten bewahrt, die aufgrund der Tatsache entstehen, dass die Motoren nicht perfekt sind. Genau wie Menschen. Du hast Vasya erlaubt, zum Fußball zu gehen, aber es ist keine Tatsache, dass er dort nicht dasselbe tun wird wie Dima. Dasselbe gilt auch für Duplikate: Sie können einen Befehl erteilen, aber Sie können nicht sicher sein, dass sich nicht etwas Zusätzliches in den Index einschleicht und die Positionen ruiniert.

Es besteht auch kein Grund, sich vor Doppelgängern wie Feuer zu fürchten. Beispielsweise behandelt Yandex Websites mit schwerwiegenden technischen Problemen mehr oder weniger normal. Eine andere Sache ist, dass Sie, wenn Sie ein Unternehmen gründen, tatsächlich einen erheblichen Prozentsatz des Traffics an sich selbst verlieren können. Bald wird es jedoch in unserem SEO-Bereich einen Artikel über Duplikate geben, dann werden wir uns mit ihnen befassen.

Wie bekomme ich eine normale robots.txt, wenn ich selbst nichts verstehe?

Schließlich ist das Erstellen von robots.txt nicht das Erstellen einer Website. Irgendwie ist es einfacher: Sie können den Inhalt der Datei einfach von jedem mehr oder weniger erfolgreichen Blogger kopieren. Natürlich, wenn Sie eine WordPress-Site haben. Wenn es sich um eine andere Engine handelt, müssen Sie nach Websites suchen, die dasselbe CMS verwenden. Ich habe bereits erklärt, wie man den Inhalt einer Datei auf der Website einer anderen Person anzeigt: Domain.com/robots.txt

Endeffekt

Ich denke, es gibt hier nicht viel mehr zu sagen, denn das Schreiben von Roboteranweisungen sollte nicht Ihr Ziel für das Jahr sein. Dies ist eine Aufgabe, die selbst ein Anfänger in 30–60 Minuten erledigen kann, und ein Profi kann sie im Allgemeinen in nur wenigen Minuten erledigen. Sie werden Erfolg haben und daran können Sie keinen Zweifel haben.

Und um weitere nützliche und wichtige Tipps zum Bewerben und Bewerben eines Blogs zu erfahren, können Sie sich unseren einzigartigen Blog ansehen. Wenn Sie 50–100 % der Empfehlungen von dort anwenden, können Sie in Zukunft jede beliebige Website erfolgreich bewerben.

Zuerst erkläre ich Ihnen, was robots.txt ist.

Robots.txt– eine Datei, die sich im Stammordner der Site befindet und in die spezielle Anweisungen für Suchroboter geschrieben werden. Diese Anweisungen sind notwendig, damit der Roboter beim Betreten der Website die Seite/den Abschnitt nicht berücksichtigt; mit anderen Worten, wir schließen die Seite aus der Indexierung aus.

Warum brauchen Sie robots.txt?

Die robots.txt-Datei gilt als eine wichtige Voraussetzung für die SEO-Optimierung absolut jeder Website. Das Fehlen dieser Datei kann sich negativ auf die Belastung durch Roboter und eine langsame Indizierung auswirken und darüber hinaus wird die Website nicht vollständig indiziert. Dementsprechend können Benutzer nicht über Yandex und Google auf Seiten zugreifen.

Auswirkungen von robots.txt auf Suchmaschinen?

Suchmaschinen(V Google-Funktionen) indiziert die Site, aber wenn es keine robots.txt-Datei gibt, dann, wie gesagt, nicht alle Seiten. Wenn eine solche Datei vorhanden ist, orientieren sich die Roboter an den Regeln, die in dieser Datei angegeben sind. Darüber hinaus gibt es verschiedene Arten von Suchrobotern; einige können die Regel berücksichtigen, während andere sie ignorieren. Insbesondere berücksichtigt der GoogleBot-Roboter nicht die Host- und Crawl-Delay-Anweisungen, der YandexNews-Roboter berücksichtigt seit kurzem nicht mehr die Crawl-Delay-Anweisung und die YandexDirect- und YandexVideoParser-Roboter ignorieren allgemein akzeptierte Anweisungen in robots.txt (aber berücksichtigen Sie diejenigen, die speziell für sie geschrieben wurden).

Die Website wird am meisten von Robotern geladen, die Inhalte von Ihrer Website laden. Wenn wir dem Roboter dementsprechend mitteilen, welche Seiten er indizieren und welche ignorieren soll, sowie in welchen Zeitintervallen Inhalte von den Seiten geladen werden sollen (dies gilt eher für große Websites, die mehr als 100.000 Seiten im Suchmaschinenindex haben). Dadurch wird es für den Roboter viel einfacher, Inhalte von der Website zu indizieren und herunterzuladen.

Zu den für Suchmaschinen unnötigen Dateien gehören beispielsweise Dateien, die zum CMS gehören in Wordpress – /wp-admin/. Darüber hinaus sind Ajax- und JSON-Skripte für Popup-Formulare, Banner, Captcha-Ausgabe usw. verantwortlich.

Für die meisten Roboter empfehle ich außerdem, die Indizierung aller Javascript- und CSS-Dateien zu blockieren. Für GoogleBot und Yandex ist es jedoch besser, solche Dateien zu indizieren, da sie von Suchmaschinen verwendet werden, um den Komfort der Website und ihr Ranking zu analysieren.

Was ist eine robots.txt-Direktive?

Richtlinien– Das sind die Regeln für Suchroboter. Die ersten Standards zum Schreiben von robots.txt und dementsprechend erschienen 1994 und der erweiterte Standard 1996. Wie Sie jedoch bereits wissen, unterstützen nicht alle Roboter bestimmte Anweisungen. Daher habe ich im Folgenden beschrieben, woran sich die wichtigsten Roboter bei der Indizierung von Website-Seiten orientieren.

Was bedeutet Benutzeragent?

Dies ist die wichtigste Richtlinie, die bestimmt, welche Suchroboter weitere Regeln befolgen.

Für alle Roboter:

Für einen bestimmten Bot:

Benutzeragent: Googlebot

Das Register in robots.txt ist nicht wichtig, Sie können sowohl Googlebot als auch googlebot schreiben

Google-Suchroboter

Yandex-Suchroboter


	Der wichtigste Indexierungsroboter von Yandex
	Wird im Yandex.Images-Dienst verwendet
	Wird im Yandex.Video-Dienst verwendet
	Multimediadaten
	Blog-Suche
	Ein Suchroboter, der auf eine Seite zugreift, wenn er diese über das Formular „URL hinzufügen“ hinzufügt
	Roboter, der Website-Symbole (Favicons) indiziert
	Yandex.Direct
	Yandex.Metrica
	Wird im Yandex.Catalog-Dienst verwendet
	Wird im Yandex.News-Dienst verwendet
YandexImageResizer	Suchroboter für mobile Dienste

Suchroboter Bing, Yahoo, Mail.ru, Rambler

Disallow- und Allow-Anweisungen

„Disallow“ blockiert die Indizierung von Abschnitten und Seiten Ihrer Website. Dementsprechend öffnet Allow sie im Gegenteil.

Es gibt einige Besonderheiten.

Erstens sind die zusätzlichen Operatoren *, $ und #. Wofür werden sie benutzt?

“*” – Dies ist eine beliebige Anzahl von Zeichen und deren Abwesenheit. Standardmäßig befindet es sich bereits am Ende der Zeile, sodass es keinen Sinn macht, es erneut einzufügen.

“$” – gibt an, dass das Zeichen davor an letzter Stelle stehen soll.

“#” – Kommentar, der Roboter berücksichtigt nicht alles, was nach diesem Symbol kommt.

Beispiele für die Verwendung von Disallow:

Nicht zulassen: *?s=

Nicht zulassen: /category/

Dementsprechend schließt der Suchroboter Seiten wie:

Aber Seiten wie diese sind zur Indexierung geöffnet:

Jetzt müssen Sie verstehen, wie Verschachtelungsregeln ausgeführt werden. Die Reihenfolge, in der Anweisungen geschrieben werden, ist absolut wichtig. Die Vererbung von Regeln hängt davon ab, welche Verzeichnisse angegeben sind. Das heißt, wenn wir die Indizierung einer Seite/eines Dokuments blockieren möchten, reicht es aus, eine Direktive zu schreiben. Schauen wir uns ein Beispiel an

Dies ist unsere robots.txt-Datei

Nicht zulassen: /template/

Diese Direktive kann auch an einer beliebigen Stelle angegeben werden und es können mehrere Sitemap-Dateien angegeben werden.

Host-Direktive in robots.txt

Diese Anweisung ist erforderlich, um den Hauptspiegel der Website anzugeben (häufig mit oder ohne www). Bitte beachten Sie, dass die Host-Direktive ohne das http://-Protokoll, aber mit dem https://-Protokoll angegeben wird. Die Richtlinie wird nur von den Suchrobotern Yandex und Mail.ru berücksichtigt, andere Roboter, einschließlich GoogleBot, berücksichtigen die Regel nicht. Der Host sollte einmal in der robots.txt-Datei angegeben werden

Beispiel mit http://

Host: website.ru

Beispiel mit https://

Crawl-Delay-Anweisung

Legt das Zeitintervall für die Indexierung von Website-Seiten durch einen Suchroboter fest. Der Wert wird in Sekunden und Millisekunden angegeben.

Beispiel:

Es wird hauptsächlich in großen Online-Shops, Informationsseiten und Portalen verwendet, wo der Seitenverkehr bei 5.000 pro Tag liegt. Es ist erforderlich, dass der Suchroboter innerhalb eines bestimmten Zeitraums eine Indexierungsanfrage stellt. Wenn diese Anweisung nicht angegeben wird, kann dies zu einer erheblichen Belastung des Servers führen.

Der optimale Crawl-Verzögerungswert ist für jede Site unterschiedlich. Für die Suchmaschinen Mail, Bing, Yahoo kann der Wert auf einen Mindestwert von 0,25, 0,3 eingestellt werden, da diese Suchmaschinen-Robots Ihre Website einmal im Monat, 2 Monate usw. crawlen können (sehr selten). Für Yandex ist es besser, einen höheren Wert einzustellen.

Wenn die Auslastung Ihrer Site minimal ist, macht es keinen Sinn, diese Anweisung anzugeben.

Clean-param-Direktive

Die Regel ist interessant, weil sie dem Crawler mitteilt, dass Seiten mit bestimmten Parametern nicht indiziert werden müssen. Es werden zwei Argumente angegeben: Seiten-URL und Parameter. Diese Anweisung wird von der Yandex-Suchmaschine unterstützt.

Beispiel:

Nicht zulassen: /admin/

Nicht zulassen: /plugins/

Nicht zulassen: /search/

Nicht zulassen: /Warenkorb/

Nicht zulassen: *sort=

Nicht zulassen: *view=

Benutzeragent: GoogleBot

Nicht zulassen: /admin/

Nicht zulassen: /plugins/

Nicht zulassen: /search/

Nicht zulassen: /Warenkorb/

Nicht zulassen: *sort=

Nicht zulassen: *view=

Erlauben: /plugins/*.css

Erlauben: /plugins/*.js

Erlauben: /plugins/*.png

Erlauben: /plugins/*.jpg

Erlauben: /plugins/*.gif

Benutzeragent: Yandex

Nicht zulassen: /admin/

Nicht zulassen: /plugins/

Nicht zulassen: /search/

Nicht zulassen: /Warenkorb/

Nicht zulassen: *sort=

Nicht zulassen: *view=

Erlauben: /plugins/*.css

Erlauben: /plugins/*.js

Erlauben: /plugins/*.png

Erlauben: /plugins/*.jpg

Erlauben: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

Im Beispiel haben wir die Regeln für 3 verschiedene Bots aufgeschrieben.

Wo wird robots.txt hinzugefügt?

Zum Stammordner der Site hinzugefügt. Außerdem, damit Sie dem Link folgen können:

Wie überprüfe ich robots.txt?

Yandex-Webmaster

Wählen Sie auf der Registerkarte „Extras“ die Option „Robots.txt-Analyse“ aus und klicken Sie dann auf „Prüfen“.

Google Search Console

Auf der Registerkarte Scannen wählen Robots.txt-Dateiinspektionstool und klicken Sie dann auf „Prüfen“.

Abschluss:

Die robots.txt-Datei muss auf jeder beworbenen Website vorhanden sein und nur ihre korrekte Konfiguration ermöglicht Ihnen die erforderliche Indizierung.

Und schließlich: Wenn Sie noch Fragen haben, stellen Sie diese in den Kommentaren unter dem Artikel. Ich frage mich auch: Wie schreibt man robots.txt?

Erklärung der Werte:

User-Agent: * – Sie greifen auf alle Suchmaschinen gleichzeitig zu, Yandex – nur Yandex.
Nicht zulassen: Listet Ordner und Dateien auf, deren Indizierung verboten ist
Host – Geben Sie den Namen Ihrer Website ohne www ein.
Sitemap: Link zur XML-Sitemap.

Platzieren Sie die Datei mit Filezilla oder über die Hosting-Site im Stammverzeichnis der Site. Veröffentlichen Sie es im Hauptverzeichnis, damit es über den Link your_site.ru/robots.txt verfügbar ist

Es ist nur für diejenigen geeignet, die über CNC-Maschinen verfügen (Links sind in Worten geschrieben, nicht in der Form p=333). Gehen Sie einfach zu Einstellungen – Permalinks, wählen Sie die untere Option und geben Sie /%postname% in das Feld ein.

Manche Leute ziehen es vor, diese Datei selbst zu erstellen:

Erstellen Sie zunächst einen Notizblock auf Ihrem Computer und nennen Sie ihn „Robots“ (nicht verwenden). Großbuchstaben). Am Ende der Einstellungen sollte die Größe nicht mehr als 500 KB betragen.

User-Agent– Name der Suchmaschine (Yandex, Googlebot, StackRambler). Wenn Sie alle gleichzeitig ansprechen möchten, setzen Sie einen Stern *

Geben Sie dann die Seiten oder Ordner an, die dieser Roboter nicht indizieren soll Nicht zulassen:

Zuerst werden drei Verzeichnisse aufgelistet und dann eine bestimmte Datei.

Um die Indexierung von allem und jedem zu ermöglichen, müssen Sie Folgendes schreiben:

User-Agent: *
Nicht zulassen:

Einrichten von robots.txt für Yandex und Google

Für Yandex Sie müssen unbedingt die Host-Direktive hinzufügen, um doppelte Seiten zu vermeiden. Dieses Wort wird nur vom Yandex-Bot verstanden. Schreiben Sie daher die Anweisungen dafür separat auf.

Für Google es gibt keine Extras. Das Einzige, was Sie wissen müssen, ist, wie Sie darauf zugreifen können. Im Abschnitt „Benutzeragent“ müssen Sie Folgendes schreiben:

Googlebot;
Googlebot-Image – wenn Sie die Bildindizierung einschränken;
Googlebot-Mobile – für mobile Version Website.

So überprüfen Sie die Funktionalität der robots.txt-Datei

Dies kann im Abschnitt „Webmaster-Tools“ erfolgen Google-Suchmaschine oder auf der Yandex.Webmaster-Website im Abschnitt „Robots.txt prüfen“.

Wenn Fehler vorliegen, korrigieren Sie diese und überprüfen Sie sie erneut. Um ein gutes Ergebnis zu erzielen, vergessen Sie nicht, den richtigen Code in robots.txt zu kopieren und auf die Website hochzuladen.

Jetzt haben Sie eine Idee, wie Sie robots.txt für alle Suchmaschinen erstellen können. Für Anfänger empfehle ich die Verwendung einer vorgefertigten Datei, die den Namen Ihrer Website ersetzt.