| Robots | |||||
|
Ein Robot (Spider) ist ein Programm, welches automatisch das Internet nach Internetressourcen durchsucht. Volltext-Suchmaschinen benutzen Robots, um Webseiten sowie deren URL mit Suchwörtern zu indizieren bzw. indexieren (d.h. eine Webseite wird von dem Spider besucht und nach bestimmten, suchmaschinenspezifischen Kriterien ausgewertet. Damit ein Besucher zu einem bestimmten Stichwort oder mehreren Stichwörtern bzw. auch komplexen Suchanfragen eine Webseite oder einen Webinhalt findet, legt die Suchmaschine einen internen Index an, der mit Hilfe der Spider erstellt wurde und das Ergebnis der Auswertungen darstellt. Schickt ein User also eine Suchanfrage an eine Suchmaschine ab, so wird nicht das gesamte Internet durchsucht, sondern der interne Index der Suchmaschine). Webmaster können mit dem Mata-Tag: "robots" in ihren Websites kenntlich machen, wie die Webseite von den Suchmaschinen indiziert werden soll. In der Datei robots.txt die der Webmaster auf der Root seines Verzeichnisses ablegt, kann er festlegen, ob die Webinhalte von seiner Internetpräsenz von den Crawlern ausgewertet werden dürfen: er kann auch Teile seiner Webressourcen davon ausschliessen oder nur bestimmte Suchmaschinen-Crawler ausschliessen. → robots-dot-txt Robots werden auch Spider oder Webcrawler genannt, oder in der Kurzform einfach: Bot. |
|||||
| Siehe auch: Suchmaschinen-Ranking Link-Popularität suchmaschinen Invisible-Web Meta-Tags Google robots-dot-text Second-Extended-Filesystem | |||||
| Offline-Browser | |||||
|
Ein Offline-Browser (auch Web-Spider oder Web Crawler genannt) ist eine Software, mit deren Hilfe man ganz oder teilweise Internetpräsenzen auf die Festplatte herunterladen kann und sie, wie der Name schon suggeriert, auch offline verfügbar machen kann. Der Offline-Browser spidert alle Hyperlinks einer URL, kann allen internen (oder externen) Verlinkungen folgen und speichert die gefundenen Dokumente oder Grafiken. Auch alle gefundenen E-Mail Adressen können je nach Programm aufgezeichnet werden. Beim Spidern ist es meist möglich, die Suche auf die Haupt-URL zu begrenzen und/oder eine bestimmte Verlinkungstiefe festzulegen, ab der abgebrochen werden soll. Da Offline-Browser oft von Webservern erkannt und ausgeschlossen werden, haben einige die Fähigkeit sich als jemand anderes auszugeben, als sie sind: man kann den User-Agent einstellen, z. B. auf einen harmlosen Browser wie Mozilla oder Netscape. |
|||||
| Siehe auch: Hyperlink Browser Webserver Robots robots-dot-text URL URI Hypertext E-Mail | |||||
| robots-dot-text | |||||
|
In der Datei "robots.txt", die auf der Root des Webservers/Webspaces abgelegt wird, kann man definieren, inwiefern die Spider (Robots) der Suchmaschinen Dateien auf dem Webspace/Webserver indizieren (in den Index der Suchmaschine aufnehmen und damit für Suchanfragen sichtbar) sollen. Möchte man, dass bestimmte Dateien von den Spidern ausgeschlossen werden, z. B. weil sie nicht öffentlich sind oder Zugriffsstatistiken enthalten, so kann man das in der "robots.txt" festlegen. Falls alle Dateien gespidert werden dürfen, so lautet der zu hinterlegende Text: User-agent:* Disallow: Falls kein Spider die Dateien indizieren darf: User-agent: * Disallow: / Falls nur bestimmte Dateien ausgeschlossen werden sollen, hier die Dateien "zähler.txt" und "statistik.php" → lautet die "robots.txt": User-agent: * Disallow: zähler.txt Disallow: statistik.php Falls beispielsweise die Spider von Google und MSN für das Verzeichnis /forum ausgeschlossen werden sollen, so sollte folgendes in der robots.txt stehen: User-agent: Googlebot/2.1 User-agent: WebMoose Disallow: /forum Es darf pro Domain nur eine "robots.txt" existieren. |
|||||
| Siehe auch: suchmaschinen Keywords Suchmaschinen-Ranking Robots Google Volltext-Suchmaschinen META-Suchmaschine | |||||
| Invisible-Web | |||||
|
Beim sog. "Invisible Web" handelt es sich um Internet-Ressourcen, die nicht von den Robots (oder Spidern, Webcrawler) der Suchmaschinen indiziert (indexiert) werden können. Darunter fallen Webseiten, die durch Webserver-seitige Programme dynamisch erzeugt werden (z. B.mit PHP, MySQL oder JSP, Java Servlets), Abbildungen und andere nicht indizierbare statische Seiten. |
|||||
| Siehe auch: suchmaschinen Robots Volltext-Suchmaschinen PHP MySQL JSP Java-Servlet Google PageRank-Algorithmus | |||||
| Meta-Tags | |||||
|
Meta-Tags werden verwendet, um Robots (Suchmaschinen-Bots, Spider, Webcrawler) Zusatzinformationen einer HTML-Seite zu liefern. In Meta-Tags können Ländercodes, Schlüsselwörter keywords des Inhalts, Seitenbeschreibung in Kurzfassung description oder Angaben über Seiten-Aktualisierungsintervalle der Suchmaschinen, beschrieben sein. Die Meta-Tags werden im Kopf Head einer HTML-Seite hinterlegt. |
|||||
| Siehe auch: suchmaschinen Keywords Robots HTML Volltext-Suchmaschinen META-Suchmaschine Metadaten robots-dot-text | |||||