| Robots | |||||
|
Ein Robot (Spider) ist ein Programm, welches automatisch das Internet nach Internetressourcen durchsucht. Volltext-Suchmaschinen benutzen Robots, um Webseiten sowie deren URL mit Suchwörtern zu indizieren bzw. indexieren (d.h. eine Webseite wird von dem Spider besucht und nach bestimmten, suchmaschinenspezifischen Kriterien ausgewertet. Damit ein Besucher zu einem bestimmten Stichwort oder mehreren Stichwörtern bzw. auch komplexen Suchanfragen eine Webseite oder einen Webinhalt findet, legt die Suchmaschine einen internen Index an, der mit Hilfe der Spider erstellt wurde und das Ergebnis der Auswertungen darstellt. Schickt ein User also eine Suchanfrage an eine Suchmaschine ab, so wird nicht das gesamte Internet durchsucht, sondern der interne Index der Suchmaschine). Webmaster können mit dem Mata-Tag: "robots" in ihren Websites kenntlich machen, wie die Webseite von den Suchmaschinen indiziert werden soll. In der Datei robots.txt die der Webmaster auf der Root seines Verzeichnisses ablegt, kann er festlegen, ob die Webinhalte von seiner Internetpräsenz von den Crawlern ausgewertet werden dürfen: er kann auch Teile seiner Webressourcen davon ausschliessen oder nur bestimmte Suchmaschinen-Crawler ausschliessen. → robots-dot-txt Robots werden auch Spider oder Webcrawler genannt, oder in der Kurzform einfach: Bot. |
|||||
| Siehe auch: Suchmaschinen-Ranking Link-Popularität suchmaschinen Invisible-Web Meta-Tags Google robots-dot-text Second-Extended-Filesystem | |||||
| Meta-Tags | |||||
|
Meta-Tags werden verwendet, um Robots (Suchmaschinen-Bots, Spider, Webcrawler) Zusatzinformationen einer HTML-Seite zu liefern. In Meta-Tags können Ländercodes, Schlüsselwörter keywords des Inhalts, Seitenbeschreibung in Kurzfassung description oder Angaben über Seiten-Aktualisierungsintervalle der Suchmaschinen, beschrieben sein. Die Meta-Tags werden im Kopf Head einer HTML-Seite hinterlegt. |
|||||
| Siehe auch: suchmaschinen Keywords Robots HTML Volltext-Suchmaschinen META-Suchmaschine Metadaten robots-dot-text | |||||
| Offline-Browser | |||||
|
Ein Offline-Browser (auch Web-Spider oder Web Crawler genannt) ist eine Software, mit deren Hilfe man ganz oder teilweise Internetpräsenzen auf die Festplatte herunterladen kann und sie, wie der Name schon suggeriert, auch offline verfügbar machen kann. Der Offline-Browser spidert alle Hyperlinks einer URL, kann allen internen (oder externen) Verlinkungen folgen und speichert die gefundenen Dokumente oder Grafiken. Auch alle gefundenen E-Mail Adressen können je nach Programm aufgezeichnet werden. Beim Spidern ist es meist möglich, die Suche auf die Haupt-URL zu begrenzen und/oder eine bestimmte Verlinkungstiefe festzulegen, ab der abgebrochen werden soll. Da Offline-Browser oft von Webservern erkannt und ausgeschlossen werden, haben einige die Fähigkeit sich als jemand anderes auszugeben, als sie sind: man kann den User-Agent einstellen, z. B. auf einen harmlosen Browser wie Mozilla oder Netscape. |
|||||
| Siehe auch: Hyperlink Browser Webserver Robots robots-dot-text URL URI Hypertext E-Mail | |||||
| Bot | |||||
|
Ein Bot ist ein Gegner in einem Computerspiel, der von dem Rechner mit Hilfe einer KI-Software (Künstliche Intelligenz) gesteuert wird. Dadurch kann ein Spieler gegen computergesteuerte Gegner antreten. Als Bot bezeichnet man auch Computerprogramme, die eine relativ einfache, sich wiederholende Aufgabe ausführen. Die Spider oder Webcrawler der Suchmaschinen sind beispielsweise solche (Ro)Bots. Wenn Bots in einem ferngesteuerten Netzwerk von Rechnern innerhalb des Internet miteinander kommunizieren spricht man von einem Botnet. Diese Netzwerke von Bots werden durch Schadsoftware wie Computer-Würmer oder Trojaner welche die betroffenen Rechner befallen aufgebaut. Botnets können Denial-of-Service Attacken ausführen oder eine Spam-Netzwerk aufbauen: einige Rechner des infizierten Netzwerkes werden zu Spam-Servern umfunktioniert. Die Rechner von harmlosen Usern werden zu sogenannten Zombie-PCs: das sind vom User unbemerkt umfunktionierte Rechner welche grossen Schaden innerhalb eines Netzwerkes verursachen können. |
|||||
| Siehe auch: Egoshooter Suchmaschine Künstliche-Intelligenz Robots robots-dot-text DoS-Attack E-Mail-Server Spam Trojanisches-Pferd Computer-Wurm | |||||
| Invisible-Web | |||||
|
Beim sog. "Invisible Web" handelt es sich um Internet-Ressourcen, die nicht von den Robots (oder Spidern, Webcrawler) der Suchmaschinen indiziert (indexiert) werden können. Darunter fallen Webseiten, die durch Webserver-seitige Programme dynamisch erzeugt werden (z. B.mit PHP, MySQL oder JSP, Java Servlets), Abbildungen und andere nicht indizierbare statische Seiten. |
|||||
| Siehe auch: suchmaschinen Robots Volltext-Suchmaschinen PHP MySQL JSP Java-Servlet Google PageRank-Algorithmus | |||||
| Webserver | |||||
|
Ein Webserver ist ein Server im Internet oder Intranet, der ein oder mehrere Webseiten und Dienste verwaltet. Wird mittels eines Web-Browsers eine Internet-Adresse aufgerufen, wird dies dem Webserver mitgeteilt. Der Webserver überprüft, ob die gewünschte Adresse direkt zugänglich ist oder gibt, wenn die angeforderte Adresse nicht gültig ist, eine Fehlermeldung aus. Die Informationen werden zu den WWW-Clients mittels Hypertext Transfer Protocol übertragen. Webserver-Leistungen und Webserver-Technologien Ein Webserver kann CGI-Skripte, serverseitige Scriptsprachen und Programme wie PHP und MySQL, JSP und ASP sowie Server Container (Servlets, ASP.NET und Sprachen der .NET Framework Laufzeitumgebung Common Language Runtime (CLR) bzw. der Common Language Infrastructure (CLI) wie Visual-Basic.NET, C++.NET, J# oder C++/CIL) oder Web Services (XML-RPC, SOAP) zur Verfügung stellen. Diese programmierten Teile der Webseiten werden nur auf dem Webserver ausgeführt und sind auch für die User nicht sichtbar. Die WWW-Clients bekommen auf ihren Web-Browser nur den HTML-Quelltext zu sehen. Bekannte Webserver Bekannte Webserver sind z. B.: Apache-HTTP-Server, IIS (Internet-Information-Server) von Microsoft (heute: Internet Information Services), NCSA-Server (National Center for Supercomputing Applications) und CERN-Server. Das NCSA ist auch bekannt für den Browser NCSA-Mosaic, einer der ersten Internet Browser, der ausser Text auch Grafiken darstellen konnte, ohne diese extra laden zu müssen. Bekannte Server die hauptsächlich für die Entwicklung von Webseiten bzw. als Applikationsserver verwendet werden sind: Apache Tomcat oder BEA WebLogic Server. Letztere werden vor allem bei Servlets und JSP bzw. serverseitigen Java Umgebungen eingesetzt. Logfiles und Logfile-Analyse Datenverkehr auf dem Webserver wird in Logfiles gesammelt ("geloggt") und ausgewertet. Damit kann man bestimmen, welcher Agent mit welcher IP-Adresse was auf welcher Webseite gemacht hat (Visits, Views, Hits, Files, Kilobytes usw.). Die Analyse der Logfiles kann mit speziellen Logfile-Auswertungs-Tools erleichtert werden. Oftmals müssen Suchmaschinen-Bots (Robots, Spider, Crawler), Web-Crawler bzw. Web-Spider (z. B. Majestic12) oder Offline-Browser (z. B. HTTrack, Website Extractor) herausgefiltert werden. Manchmal ist es besser, ungewünschte Agents aus zu schliessen, z. B. im Script oder durch Editieren der robots-dot-txt. HTTP ist ein verbindungs- und zustandsloses Protokoll, so dass eine eindeutige Zuordnung nicht immer möglich ist. Zu dem können vorgeschaltete Proxy-Server diese Zuordnung erschweren, da sie sich gegenüber dem Webserver als Client ausweisen. Ausser den bereits Genannten folgt hier eine Auswahl weiterer Webserver: Zope, Cherokee Webserver, AOLserver, Tux, Goron, Caudium, lighttpd (BSD) oder Litespeed. |
|||||
| Siehe auch: Web-Service Logdatei Server-Error Offline-Browser Apache-HTTP-Server PHP Apache-Tomcat JSP SOAP Zope | |||||
| Volltext-Suchmaschinen | |||||
|
Volltext-Suchmaschinen im Internet, wie z. B. 'Google', 'Bing', 'AltaVista', 'Ask.com', 'Yahoo' oder 'Web.de', aktualisieren ihre Datenbank automatisch, indem sie in regelmässigen Abständen das Internet mit Robots (Spider, Webcrawler) durchforsten. Das Ranking der Webseiten auf den Suchergebnisseiten (SERP: Search Engine Ranking Position) hängt davon ab, nach welchem Algorithmus bzw. welchen Kriterien die Suchmaschinen-Betreiber die Webseiten indexieren. Es entscheidet darüber, welche Webseiten auf den Suchergebnisseite einer Suchanfrage bezüglich bestimmter Suchwörter (Keywords) zuerst angezeigt werden. Bei Google wird der PageRank-Algorithmus eingesetzt. Dieser wird von Zeit zu Zeit modifiziert, um aktuellen Erfordernissen Rechnung zu tragen oder geänderten Zielen und Kriterien des Google Managements. |
|||||
| Siehe auch: META-Suchmaschine Suchmaschine Keywords Robots Search-Engine-Optimization PageRank-Algorithmus Semantische-Suchmachine Suchmaschinen-Ranking Bing Google | |||||