Die anderen Artikel dieser Reihe beschäftigen sich mit OG Meta Tags, Sitemaps, Cookies und Redirects.
Kurzer Abriss
Worum geht’s? Mit der robots.txt-Datei kann festgelegt werden, auf welche Seiten die Crawler der Suchmaschinen zugreifen dürfen.
Wieso sollte ich Bescheid wissen? Wenn Suchresultate deiner Webseite nicht richtig dargestellt werden oder nicht gefunden werden, könnte sich eine Überprüfung der robots.txt-Datei lohnen.
Warum ist das wichtig? Damit die Suchmaschinen wissen, wie sie mit deiner Webseite umgehen sollen, ist es wichtig, eine robots.txt-Datei zu haben.
Wie machen wir das bei Code Crush? Bei jeder von CodeCrush erstellten Webseite wird eine robots.txt-Datei erstellt. Standardmässig erlauben wir den Zugriff auf alle Seiten und bauen den Link zur Sitemap ein.
Was ist die robots.txt-Datei?
Die robots.txt-Datei ist eine meist sehr kurze Textdatei, welche den Umgang der Suchmaschinen mit deiner Webseite steuert. Dabei wird eingestellt, auf welche Seiten die Crawler der Suchmaschinen zugreifen dürfen.
Crawler sind automatisierte Programme der Suchmaschinen, welche deine Webseite scannen und Inhalte deiner Webseite für die Darstellung der Suchresultate übernehmen.
Wird eine Datei über die robots.txt-Datei blockiert, kann sie immer noch von Suchmaschinen gefunden werden, aber es werden keine zusätzlichen Informationen, wie zum Beispiel die Seitenbeschreibung mehr angezeigt.
Zudem kann in der robots.txt-Datei ein Verweis zur Sitemap gemacht werden, damit die Suchmaschinen direkt wissen, welche Seiten überhaupt existieren.
Wie erstelle ich eine robots.txt-Datei?
Erstelle eine neue, leere Datei mit dem Namen robots.txt
Mit der Eigenschaft User-agent kann angegeben werden, für welchen Crawler die Regeln gelten. So kannst du unterschiedliche Suchmaschienen bei Bedarf anders behandeln.
Direkt unterhalb der Zeile, in welcher du den user-agent festlegst, kannst du mit Allow und Disallow festlegen, auf welche Seiten der Crawler zugreifen darf oder eben nicht. Wenn alle Seiten gecrawlt oder blockiert werden sollen, kannst du einen / verwenden.
Verlinke am Ende der robots.txt-Datei deine Sitemap mit der Sitemap-Eigenschaft.
Lade die Datei robots.txt in das Stammverzeichnis deiner Webseite hoch.
Beispiele
Beispiel, bei dem deine gesamte Webseite von allen Suchmaschinen gecrawlt werden darf:
User-agent: *
Allow: /
Sitemap: https://example.org/sitemap.xml
Beispiel, bei dem deine gesamte Webseite von allen Suchmaschinen nicht gecrawlt werden darf:
User-agent: *
Disallow: /
Sitemap: https://example.org/sitemap.xml
Beispiel, bei dem deine gesamte Webseite von Google nicht gecrawlt werden darf, aber von allen anderen Suchmaschinen schon:
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /
Sitemap: https://example.org/sitemap.xml
Beispiel, bei dem die Unterseite "intern" von allen Suchmaschinen nicht gecrawlt werden darf:
User-agent: *
Disallow: /intern
Sitemap: https://example.org/sitemap.xml
Testing
Du bist nicht sicher, ob deine Webseite über eine robots.txt-Datei verfügt, oder möchtest einfach testen, ob alles richtig funktioniert?
Rufe die robots.txt-Datei direkt über die Adresszeile in deinem Browser auf. Dazu gehst du am Besten auf die Startseite und ergänzt den Eintrag mit /robots.txt (https://example.org/robots.txt).
Alternativ kannst du deine Seite mit dem robots.txt-Checker von TechnicalSEO überprüfen.