BLOG

Wozu braucht es Robots?

Wir stellen dir in einer 5-teiligen Blogserie verschiedene Themen vor, mit denen du beim Aufbau einer neuen Webseite bestimmt in Kontakt kommen wirst. In diesem Beitrag stellen wir die robots.txt-Datei vor.


Ueli Schmalz - 17. Februar 2023

SERIE-POST 5/5 | WEBENTWICKLUNG - AUFBAU EINER WEBSEITE - BLOGSERIE

Die anderen Artikel dieser Reihe beschäftigen sich mit OG Meta Tags, Sitemaps, Cookies und Redirects.


Kurzer Abriss


Worum geht’s? Mit der robots.txt-Datei kann festgelegt werden, auf welche Seiten die Crawler der Suchmaschinen zugreifen dürfen.

Wieso sollte ich Bescheid wissen? Wenn Suchresultate deiner Webseite nicht richtig dargestellt werden oder nicht gefunden werden, könnte sich eine Überprüfung der robots.txt-Datei lohnen.

Warum ist das wichtig? Damit die Suchmaschinen wissen, wie sie mit deiner Webseite umgehen sollen, ist es wichtig, eine robots.txt-Datei zu haben.

Wie machen wir das bei Code Crush? Bei jeder von CodeCrush erstellten Webseite wird eine robots.txt-Datei erstellt. Standardmässig erlauben wir den Zugriff auf alle Seiten und bauen den Link zur Sitemap ein.


Was ist die robots.txt-Datei?


Die robots.txt-Datei ist eine meist sehr kurze Textdatei, welche den Umgang der Suchmaschinen mit deiner Webseite steuert. Dabei wird eingestellt, auf welche Seiten die Crawler der Suchmaschinen zugreifen dürfen.

Crawler sind automatisierte Programme der Suchmaschinen, welche deine Webseite scannen und Inhalte deiner Webseite für die Darstellung der Suchresultate übernehmen.

Wird eine Datei über die robots.txt-Datei blockiert, kann sie immer noch von Suchmaschinen gefunden werden, aber es werden keine zusätzlichen Informationen, wie zum Beispiel die Seitenbeschreibung mehr angezeigt.

Zudem kann in der robots.txt-Datei ein Verweis zur Sitemap gemacht werden, damit die Suchmaschinen direkt wissen, welche Seiten überhaupt existieren.


Wie erstelle ich eine robots.txt-Datei?


  1. Erstelle eine neue, leere Datei mit dem Namen robots.txt

  2. Mit der Eigenschaft User-agent kann angegeben werden, für welchen Crawler die Regeln gelten. So kannst du unterschiedliche Suchmaschienen bei Bedarf anders behandeln.

  3. Direkt unterhalb der Zeile, in welcher du den user-agent festlegst, kannst du mit Allow und Disallow festlegen, auf welche Seiten der Crawler zugreifen darf oder eben nicht. Wenn alle Seiten gecrawlt oder blockiert werden sollen, kannst du einen / verwenden.

  4. Verlinke am Ende der robots.txt-Datei deine Sitemap mit der Sitemap-Eigenschaft.

  5. Lade die Datei robots.txt in das Stammverzeichnis deiner Webseite hoch.


Beispiele


Beispiel, bei dem deine gesamte Webseite von allen Suchmaschinen gecrawlt werden darf:

User-agent: *
Allow: /

Sitemap: https://example.org/sitemap.xml


Beispiel, bei dem deine gesamte Webseite von allen Suchmaschinen nicht gecrawlt werden darf:

User-agent: *
Disallow: /

Sitemap: https://example.org/sitemap.xml


Beispiel, bei dem deine gesamte Webseite von Google nicht gecrawlt werden darf, aber von allen anderen Suchmaschinen schon:

User-agent: *
Allow: /

User-agent: Googlebot
Disallow: /

Sitemap: https://example.org/sitemap.xml


Beispiel, bei dem die Unterseite "intern" von allen Suchmaschinen nicht gecrawlt werden darf:

User-agent: *
Disallow: /intern

Sitemap: https://example.org/sitemap.xml


Testing


Du bist nicht sicher, ob deine Webseite über eine robots.txt-Datei verfügt, oder möchtest einfach testen, ob alles richtig funktioniert?

Rufe die robots.txt-Datei direkt über die Adresszeile in deinem Browser auf. Dazu gehst du am Besten auf die Startseite und ergänzt den Eintrag mit /robots.txt (https://example.org/robots.txt).

Alternativ kannst du deine Seite mit dem robots.txt-Checker von TechnicalSEO überprüfen.

Autor:in

Ueli Schmalz

Meine Begeisterung für das Programmieren habe ich während dem Studium entdeckt. Am meisten erfüllt es mich, wenn ich durch ein paar Zeilen Code eine mühsame, wiederkehrende Aufgabe vereinfachen kann.

Kontakt

Ich freue mich über einen Anruf oder eine E-Mail!