Sagen Sie uns Ihre Meinung zum Kontakt-Formular Zur Startseite
Design Hosting Produkte Magazin Profil
SiteMap
  WebLog
  Assoziativ-Speicher
  Bedeutung des Internets
  eMail-Schutz gegen Spam
  eMail-Schutz mittels gnuPG
  Internet für Firmen
  [PHP] Skript-Optimierungen
  robots.txt
  Symbole im Internet
  Suchtext-Markierung
zum Kundenportal

 Suchen:


[Home] - [Magazin] - robots.txt

Um seine Adresse bekannt zu machen und schneller gefunden zu werden, ist es üblich, sich an Suchmaschinen anzumelden. Doch was viele vergessen: die meisten Suchmaschinen suchen als erstes nach einer ganz bestimmten Datei: der "robots.txt".

Um zu verstehen, wofür diese Datei dient, sollte man zuerst wissen, was ein Robot - oder Spider - ist: Robots sind Programme, die von Suchmaschinen genutzt werden, um Internet-Seiten zu durchforsten. Dabei hangeln sie sich von Seite zu Seite und nehmen den Inhalt in eine Liste, genannt Index auf. Dieser Index ist das Kernstück einer jeden Suchmaschine. Wie man aufgenommen wird und welche Prioritäten bei der Aufnahme gesetzt werden, hängt dabei von der Suchmaschine ab: Google bspw. bewertet vorrangig den Inhalt während andere Suchmaschinen die Meta-Tags bevorzugen. Diese Spider gelangen durch unterschiedliche Methoden auf eine Seite: die wohl wichtigste Methode ist das Anmelden an der Suchmaschine selbst. Befindet sich das Programm erst mal auf einer Seite, wird diese auch nach Links durchsucht. Nach der Aufnahme in den Index folgt der Robot dann diesen Links nacheinander, wodurch die gesamte Seite in den Index aufgenommen wird.

Nun ist es aber oft nicht gewünscht, dass der Robot bestimmten Links folgt: das könnten interne Seiten sein oder schlichtweg Seiten, die der Öffentlichkeit nicht zugänglich sein sollen. Damit der Webmaster hierüber Kontrolle erhält, gibt es die Datei "robots.txt". Es handelt sich dabei um eine Text-Datei, die öffentlich zugänglich und somit auch im Browser aufrufbar ist. Sie muss sich im Stammverzeichnis befinden und klein geschrieben werden. Außerdem darf pro Domain nur eine solche Datei vorhanden sein.

Der Aufbau der Datei:

In der Datei "robots.txt" können mehrere Regeln hintereinander definiert werden. Dabei bestehen die Regeln aus zwei Teilen:

  1. für wen gilt diese Regel
  2. Angaben, welche Dateien oder Ordner erlaubt bzw. nicht erlaubt sind.

Jede Suchmaschine hat ihren eigenen Robot, der meißt auch einen eindeutigen Namen hat. So ist es möglich, anhand der Log-Datei des Servers, der alle Zugriffe auf eine Seite protokolliert, zu überprüfen, ob ein bestimmter Robot die Seite bereits indexiert hat und welche Seiten dies waren. AltaVistas Robot nennt sich zum Beispiel "Scooter". Im Internet kursieren einige Listen über die aktuellen Namen der Spider und zu den dazugehörigen Suchmaschinen.

Um nun einen Robot direkt anzusprechen, muss man eine Zeile mit "User-Agent:" beginnen, gefolgt von dem Namen der Suchmaschine. Dies könnte zum Beispiel so aussehen:

User-Agent: Scooter

Sollte die Regel für alle Robots gelten, muss ein Joker verwendet werden. Dabei dient das dafür bekannte Stenchen (*):

User-Agent: *

Um nun einen Ordner oder eine Seite zu sperren, muss man eine neue Zeile mit "Disallow:" beginnen. Das sieht dann so aus:

User-Agent: *
Disallow: /geheimerOrdner/
Disallow: /zugangZuGeheim.html

Sie sollten jedoch bedenken, dass die Datei "robots.txt" öffentlich sichtbar ist und ein kundiger Internet-Nutzer diese Datei bzw. diesen Ordner, den Sie sperren ließen, wohl einsehen kann. Um dies zu unterbinden, müssen Sie eine ".htaccess"-Datei verwenden. Haben Sie eine Seite nicht verlinkt und wollen Sie diese Seite auch nicht von Suchmaschinen aufnehmen lassen, müssen Sie diese Seite auch nicht in der Datei "robots.txt" aufnehmen, da der Robot wie oben erwähnt nur den verlinkten Seiten folgt.

Wollen Sie eine ganz bestimmte Seite trotzdem aufnehmen lassen, obwohl sie nicht verlinkt wurde, können Sie das auch in der "robots.txt" schreiben. Sie nutzen dazu einfach den begriff "Allow:".

User-Agent: *
Disallow: /geheimerOrdner/
Disallow: /zugangZuGeheim.html
Allow: /index2.html

Diese Methode dient auch dazu, Seiten anzumelden, die von den Robots ausgelassen wurden, obwohl sie verlinkt wurden. Dies mussten wir schon des öfteren feststellen.

Zusätzlich zu Robots, die Seiten in Ihre Suchmaschinen aufnehmen, gibt es leider inzwischen auch Robots, die nach eMail-Adressen suchen und Sie mit unnötiger und nervender Werbung belästigen. Sie können gegen diese Robots nur ihre eMail-Adresse kodieren, wie wir es unter "eMail-Schutz gegen Spam" beschreiben, und zusätzlich versuchen, diese Robots anzuweisen, Ihre Seite nicht zu indexieren:

User-agent: EmailCollector:
Disallow: /

Ob diese Robots jedoch diese Datei berücksichtigen, ist fraglich.

Bei vielen Robots ist es auch möglich, Dateien mit einer bestimmten Endung nicht indexieren zu lassen. Dazu muss man nur das aus RegExp bekannte Zeichen "$" verwenden. Dieses Zeichen wird verwendet, wenn man den Text am Ende haben will:

User-agent: *
Disallow: /*.gif$

Hierdurch wird erreicht, dass kein Robot Bilder mit der Endung "Gif" aufnimmt (viele Suchmaschinen bieten ja inzwischen auch eine Bildersuche an).

Nach unseren Informationen ist es unrelevant, ob Sie innerhalb der Datei "robots.txt" groß oder klein schreiben. Nur die Datei muss klein geschrieben werden. Dies liegt am Datei-System des Servers. (MB)

CleanSkinFx - Bildoptimierer

Ein extrem gutes Freeware-Programm, um vor allem Porträts zu verbessern.

Zeitungs-Style mittels CSS

Eindrucksvoll kann man hier sehen, wozu CSS in der Lage ist. Zeitungen lassen sich so einfach umsetzen.

Bundesamt für Sicherheit

Das Bundesamt für Sicherheit zeigt Ihnen, worauf Sie achten müssen.

Impressum
Datenschutzerklärung
Kontakt-Formular
Steckbrief
AGB


zum Forum