Robots

Ein Robot (Spider) ist ein Programm, welches automatisch das Internet nach Internetressourcen durchsucht. Volltext-Suchmaschinen benutzen Robots, um Webseiten sowie deren URL mit Suchwörtern zu indizieren bzw. indexieren (d.h. eine Webseite wird  von dem Spider besucht und nach bestimmten, suchmaschinenspezifischen Kriterien ausgewertet. Damit ein Besucher zu einem bestimmten Stichwort oder mehreren Stichwörtern bzw. auch komplexen Suchanfragen eine Webseite oder einen Webinhalt findet,  legt die Suchmaschine einen internen Index an, der mit Hilfe der Spider erstellt wurde und das Ergebnis der Auswertungen darstellt. Schickt ein User also eine Suchanfrage an eine Suchmaschine ab, so wird nicht das gesamte Internet durchsucht, sondern  der interne Index der Suchmaschine).  Webmaster können mit dem Mata-Tag: "robots" in ihren Websites kenntlich machen, wie die Webseite von den Suchmaschinen indiziert werden soll.  In der Datei robots.txt die der Webmaster auf der Root seines Verzeichnisses ablegt, kann er festlegen, ob die Webinhalte von seiner Internetpräsenz von den Crawlern ausgewertet werden dürfen: er kann auch Teile seiner Webressourcen davon ausschliessen  oder nur bestimmte Suchmaschinen-Crawler ausschliessen.
→ robots-dot-txt 
Robots werden auch Spider oder Webcrawler genannt, oder in der Kurzform einfach: Bot.                                           
Siehe auch:    Suchmaschinen-Ranking   Link-Popularität   suchmaschinen   Invisible-Web   Meta-Tags   Google   robots-dot-text   Second-Extended-Filesystem   

  Meta-Tags

Meta-Tags werden verwendet, um Robots (Suchmaschinen-Bots, Spider, Webcrawler) Zusatzinformationen einer HTML-Seite zu liefern. In Meta-Tags können Ländercodes, Schlüsselwörter keywords des Inhalts,  Seitenbeschreibung in Kurzfassung description oder Angaben über  Seiten-Aktualisierungsintervalle der Suchmaschinen, beschrieben sein. Die Meta-Tags werden im Kopf Head einer HTML-Seite hinterlegt.                                                     
Siehe auch:    suchmaschinen   Keywords   Robots   HTML   Volltext-Suchmaschinen   META-Suchmaschine   Metadaten   robots-dot-text   

  Offline-Browser

Ein Offline-Browser (auch Web-Spider oder Web Crawler genannt) ist eine Software, mit deren Hilfe man ganz oder teilweise Internetpräsenzen auf die Festplatte herunterladen kann und sie, wie der Name schon suggeriert, auch offline verfügbar machen kann.  Der Offline-Browser spidert alle Hyperlinks einer URL, kann allen internen (oder externen) Verlinkungen folgen und speichert die gefundenen Dokumente oder Grafiken.  Auch alle gefundenen E-Mail Adressen können je nach Programm aufgezeichnet werden. Beim Spidern ist  es meist möglich, die Suche auf die Haupt-URL zu begrenzen und/oder eine bestimmte Verlinkungstiefe festzulegen, ab der abgebrochen werden soll.  Da Offline-Browser oft von Webservern erkannt und ausgeschlossen werden, haben einige die Fähigkeit sich als jemand anderes auszugeben, als sie sind: man kann den User-Agent einstellen, z. B. auf einen harmlosen Browser wie Mozilla oder Netscape.                                                 
Siehe auch:    Hyperlink   Browser   Webserver   Robots   robots-dot-text   URL   URI   Hypertext   E-Mail   

  Bot

Ein Bot ist ein Gegner in einem Computerspiel, der von dem Rechner mit Hilfe einer KI-Software (Künstliche Intelligenz) gesteuert wird. Dadurch kann ein Spieler gegen computergesteuerte Gegner antreten.  Als Bot bezeichnet man auch Computerprogramme, die eine relativ einfache, sich wiederholende Aufgabe ausführen. Die Spider oder Webcrawler der Suchmaschinen sind beispielsweise solche (Ro)Bots.  Wenn Bots in einem ferngesteuerten Netzwerk von Rechnern innerhalb des Internet miteinander kommunizieren spricht man von einem Botnet. Diese Netzwerke von Bots werden durch Schadsoftware wie Computer-Würmer oder Trojaner welche die betroffenen Rechner  befallen aufgebaut. Botnets können Denial-of-Service Attacken ausführen oder eine Spam-Netzwerk aufbauen: einige Rechner des infizierten Netzwerkes werden zu Spam-Servern umfunktioniert. Die Rechner von harmlosen Usern werden zu sogenannten Zombie-PCs:  das sind vom User unbemerkt umfunktionierte Rechner welche grossen Schaden innerhalb eines Netzwerkes verursachen können.                                                 
Siehe auch:    Egoshooter   Suchmaschine   Künstliche-Intelligenz   Robots   robots-dot-text   DoS-Attack   E-Mail-Server   Spam   Trojanisches-Pferd   Computer-Wurm

  Invisible-Web

Beim sog. "Invisible Web" handelt es sich um Internet-Ressourcen, die nicht von den Robots (oder Spidern, Webcrawler) der Suchmaschinen indiziert (indexiert) werden können. Darunter fallen Webseiten, die  durch Webserver-seitige Programme dynamisch erzeugt werden (z. B.mit PHP, MySQL oder JSP, Java Servlets), Abbildungen und andere nicht indizierbare statische Seiten.                                                       
Siehe auch:    suchmaschinen   Robots   Volltext-Suchmaschinen   PHP   MySQL   JSP   Java-Servlet   Google   PageRank-Algorithmus   

  Webserver

Ein Webserver ist ein Server im Internet oder Intranet, der ein oder mehrere Webseiten und Dienste verwaltet. Wird mittels eines Web-Browsers eine Internet-Adresse aufgerufen, wird dies dem Webserver mitgeteilt.  Der Webserver überprüft, ob die gewünschte Adresse direkt zugänglich ist oder gibt, wenn die angeforderte Adresse nicht gültig ist, eine Fehlermeldung aus. Die Informationen werden zu den WWW-Clients mittels Hypertext Transfer Protocol  übertragen.

Webserver-Leistungen und Webserver-Technologien
Ein Webserver kann CGI-Skripte, serverseitige Scriptsprachen und Programme wie PHP und MySQL, JSP und  ASP sowie Server Container (Servlets, ASP.NET und Sprachen der .NET Framework Laufzeitumgebung Common Language Runtime (CLR) bzw. der  Common Language Infrastructure (CLI) wie Visual-Basic.NET, C++.NET, J# oder C++/CIL) oder Web Services (XML-RPC, SOAP) zur Verfügung stellen.  Diese programmierten Teile der Webseiten werden nur auf dem Webserver ausgeführt und sind auch für die User nicht sichtbar. Die WWW-Clients bekommen auf ihren Web-Browser nur den HTML-Quelltext zu sehen. 

Bekannte Webserver
Bekannte Webserver sind z. B.: Apache-HTTP-Server, IIS (Internet-Information-Server) von Microsoft (heute: Internet Information Services),  NCSA-Server (National Center for Supercomputing Applications) und CERN-Server. Das NCSA ist auch bekannt für den Browser NCSA-Mosaic, einer der ersten Internet Browser, der ausser Text auch Grafiken darstellen konnte,  ohne diese extra laden zu müssen. Bekannte Server die hauptsächlich für die Entwicklung von Webseiten bzw. als Applikationsserver verwendet werden sind:  Apache Tomcat oder BEA WebLogic Server. Letztere werden vor allem bei Servlets und JSP bzw. serverseitigen Java Umgebungen eingesetzt. 

Logfiles und Logfile-Analyse
Datenverkehr auf dem Webserver wird in Logfiles gesammelt ("geloggt") und ausgewertet. Damit kann man bestimmen,  welcher Agent mit welcher IP-Adresse was auf welcher Webseite gemacht hat (Visits, Views, Hits, Files, Kilobytes usw.). Die Analyse  der Logfiles kann mit speziellen Logfile-Auswertungs-Tools erleichtert werden. Oftmals müssen Suchmaschinen-Bots (Robots, Spider, Crawler), Web-Crawler bzw. Web-Spider (z. B. Majestic12) oder Offline-Browser (z. B. HTTrack, Website Extractor)  herausgefiltert werden. Manchmal ist es besser, ungewünschte Agents aus zu schliessen, z. B. im Script oder durch Editieren der robots-dot-txt.  HTTP ist ein verbindungs- und zustandsloses Protokoll, so dass eine eindeutige Zuordnung nicht immer möglich ist. Zu dem können vorgeschaltete Proxy-Server diese Zuordnung erschweren, da sie sich gegenüber dem Webserver als Client ausweisen.  Ausser den bereits Genannten folgt hier eine Auswahl weiterer Webserver: Zope, Cherokee Webserver, AOLserver, Tux, Goron, Caudium, lighttpd (BSD) oder Litespeed.                           
Siehe auch:    Web-Service   Logdatei   Server-Error   Offline-Browser   Apache-HTTP-Server   PHP   Apache-Tomcat   JSP   SOAP   Zope

  Volltext-Suchmaschinen

Volltext-Suchmaschinen im Internet, wie z. B. 'Google', 'Bing', 'AltaVista', 'Ask.com', 'Yahoo' oder 'Web.de', aktualisieren ihre Datenbank automatisch, indem sie in regelmässigen Abständen das Internet mit Robots (Spider, Webcrawler) durchforsten.  Das Ranking der Webseiten auf den Suchergebnisseiten (SERP: Search Engine Ranking Position) hängt davon ab, nach welchem Algorithmus bzw. welchen Kriterien die Suchmaschinen-Betreiber die Webseiten indexieren.  Es entscheidet darüber, welche Webseiten auf den Suchergebnisseite einer Suchanfrage  bezüglich bestimmter Suchwörter (Keywords) zuerst angezeigt werden. Bei Google wird der PageRank-Algorithmus eingesetzt. Dieser wird von Zeit zu Zeit modifiziert, um aktuellen Erfordernissen Rechnung zu tragen oder geänderten  Zielen und Kriterien des Google Managements.                                                 
Siehe auch:    META-Suchmaschine   Suchmaschine   Keywords   Robots   Search-Engine-Optimization   PageRank-Algorithmus   Semantische-Suchmachine   Suchmaschinen-Ranking   Bing   Google