Robots

Ein Robot (Spider) ist ein Programm, welches automatisch das Internet nach Internetressourcen durchsucht. Volltext-Suchmaschinen benutzen Robots, um Webseiten sowie deren URL mit Suchwörtern zu indizieren bzw. indexieren (d.h. eine Webseite wird  von dem Spider besucht und nach bestimmten, suchmaschinenspezifischen Kriterien ausgewertet. Damit ein Besucher zu einem bestimmten Stichwort oder mehreren Stichwörtern bzw. auch komplexen Suchanfragen eine Webseite oder einen Webinhalt findet,  legt die Suchmaschine einen internen Index an, der mit Hilfe der Spider erstellt wurde und das Ergebnis der Auswertungen darstellt. Schickt ein User also eine Suchanfrage an eine Suchmaschine ab, so wird nicht das gesamte Internet durchsucht, sondern  der interne Index der Suchmaschine).  Webmaster können mit dem Mata-Tag: "robots" in ihren Websites kenntlich machen, wie die Webseite von den Suchmaschinen indiziert werden soll.  In der Datei robots.txt die der Webmaster auf der Root seines Verzeichnisses ablegt, kann er festlegen, ob die Webinhalte von seiner Internetpräsenz von den Crawlern ausgewertet werden dürfen: er kann auch Teile seiner Webressourcen davon ausschliessen  oder nur bestimmte Suchmaschinen-Crawler ausschliessen.
→ robots-dot-txt 
Robots werden auch Spider oder Webcrawler genannt, oder in der Kurzform einfach: Bot.                                           
Siehe auch:    Suchmaschinen-Ranking   Link-Popularität   suchmaschinen   Invisible-Web   Meta-Tags   Google   robots-dot-text   Second-Extended-Filesystem   

  Offline-Browser

Ein Offline-Browser (auch Web-Spider oder Web Crawler genannt) ist eine Software, mit deren Hilfe man ganz oder teilweise Internetpräsenzen auf die Festplatte herunterladen kann und sie, wie der Name schon suggeriert, auch offline verfügbar machen kann.  Der Offline-Browser spidert alle Hyperlinks einer URL, kann allen internen (oder externen) Verlinkungen folgen und speichert die gefundenen Dokumente oder Grafiken.  Auch alle gefundenen E-Mail Adressen können je nach Programm aufgezeichnet werden. Beim Spidern ist  es meist möglich, die Suche auf die Haupt-URL zu begrenzen und/oder eine bestimmte Verlinkungstiefe festzulegen, ab der abgebrochen werden soll.  Da Offline-Browser oft von Webservern erkannt und ausgeschlossen werden, haben einige die Fähigkeit sich als jemand anderes auszugeben, als sie sind: man kann den User-Agent einstellen, z. B. auf einen harmlosen Browser wie Mozilla oder Netscape.                                                 
Siehe auch:    Hyperlink   Browser   Webserver   Robots   robots-dot-text   URL   URI   Hypertext   E-Mail   

  robots-dot-text

In der Datei "robots.txt", die auf der Root des Webservers/Webspaces abgelegt wird, kann man definieren, inwiefern die Spider (Robots) der Suchmaschinen Dateien auf dem Webspace/Webserver indizieren (in den Index der Suchmaschine aufnehmen und  damit für Suchanfragen sichtbar) sollen. Möchte man, dass bestimmte Dateien von den Spidern ausgeschlossen werden,  z. B. weil sie nicht öffentlich sind oder Zugriffsstatistiken enthalten, so kann man das in der "robots.txt" festlegen. Falls alle Dateien gespidert werden dürfen, so lautet der zu hinterlegende Text:
User-agent:*
Disallow: 
Falls kein Spider die Dateien indizieren darf:
User-agent: *
Disallow: /
Falls nur bestimmte Dateien ausgeschlossen werden sollen, hier die Dateien "zähler.txt" und "statistik.php" → lautet die "robots.txt": 
User-agent: *
Disallow: zähler.txt
Disallow: statistik.php 
Falls beispielsweise die Spider von Google und MSN für das Verzeichnis /forum ausgeschlossen werden sollen, so sollte folgendes in der robots.txt stehen:
User-agent: Googlebot/2.1
User-agent: WebMoose
Disallow: /forum 
Es darf pro Domain nur eine "robots.txt" existieren.                                             
Siehe auch:    suchmaschinen   Keywords   Suchmaschinen-Ranking   Robots   Google   Volltext-Suchmaschinen   META-Suchmaschine   

  Invisible-Web

Beim sog. "Invisible Web" handelt es sich um Internet-Ressourcen, die nicht von den Robots (oder Spidern, Webcrawler) der Suchmaschinen indiziert (indexiert) werden können. Darunter fallen Webseiten, die  durch Webserver-seitige Programme dynamisch erzeugt werden (z. B.mit PHP, MySQL oder JSP, Java Servlets), Abbildungen und andere nicht indizierbare statische Seiten.                                                       
Siehe auch:    suchmaschinen   Robots   Volltext-Suchmaschinen   PHP   MySQL   JSP   Java-Servlet   Google   PageRank-Algorithmus   

  Meta-Tags

Meta-Tags werden verwendet, um Robots (Suchmaschinen-Bots, Spider, Webcrawler) Zusatzinformationen einer HTML-Seite zu liefern. In Meta-Tags können Ländercodes, Schlüsselwörter keywords des Inhalts,  Seitenbeschreibung in Kurzfassung description oder Angaben über  Seiten-Aktualisierungsintervalle der Suchmaschinen, beschrieben sein. Die Meta-Tags werden im Kopf Head einer HTML-Seite hinterlegt.                                                     
Siehe auch:    suchmaschinen   Keywords   Robots   HTML   Volltext-Suchmaschinen   META-Suchmaschine   Metadaten   robots-dot-text