| Suchmaschinen | |||||
|
Search-Engines: Im Internet können auf den Websites der Suchmaschinen-Betreiber Stichworte in ein Listenfeld eingetragen werden. Die Suchmaschinen vergleichen die Sichwörter mit denen ihrer Datenbanken. Als Ergebnis der Suchanfrage werden Websites mit ihrer URL angezeigt, die der Suchanfrage entsprechen. Bei fast allen Suchmaschinen kann man seine eigene Website anmelden, diese werden dann von Robots besucht. Zahlt man für den Eintrag, wird die eigene Seite in der Regel im Ranking höher bewertet und der Eintrag in die Datenbank beschleunigt. Arten von Suchmaschinen Grundsätzlich kann man unterscheiden zwischen: Volltext-Suchmaschinen, Webkatalogen, Meta-Suchmaschinen und semantischen Suchmaschinen. Die Suchmaschinen haben unterschiedliche Qualitäten in Bezug auf ihre Fähigkeit, Webseiten in ihrer Tiefe zu indizieren. Google, MSN, Altavista und weitere Suchmaschinen, Meta-Suchmaschinen Marktführer ist unangefochten Google, gefolgt von der MSN Suchmaschine Bing, Yahoo und Altavista. Weitere wichtige Suchmaschinen sind: Lycos, Fireball, Web.de, Metacrawler (Meta-Suchmaschine), Vivisimo, (Clustered Results) oder Ask Jeeves. Google dominiert unangefochten den Markt und diversifiziert sich immer mehr mit Diensten (Google AdWords, Google AdSense, GMail, Desktop Search, Picasa, Google Analytics usw.) oder in Richtung Web 2.0 Anwendungen (YouTube). Ranking durch Algorithmen, PageRank-Algorithmus, TrustRank Dabei bewertet Google Webseiten nach dem PageRank-Algorithmus. Wichtig sind Webseiten anderer Web-Admins, die möglichst thematisch zueinander passen und aufeinander verlinken. Meta-Tags wie Keywords sind immer unwichtiger. Eventuell soll der PageRank-Algorithmus durch den TrustRank (Trusted Web) abgelöst werden. Beim TrustRank werden Webseiten nach einem bestimmten Verfahren bewertet. Es entsteht ein semantisches "Trusted Web", bei dem die qualitative Nachbarschaft von Webseiten, die miteinander verlinkt sind, bedeutend ist. Dadurch soll Web-Spam wie Doorway-Pages, Link-Farmen oder Google-Bombs bekämpft werden. Verfeinerte Indexierungs-Algorithmen, Bildersuche, Personalisierung, Clustered-Results Moderne Suchmaschinen wie Bing von Microsoft, Vivisimo u.a. haben immer verfeinerte Indexierungs-Algorithmen, Bildersuche, Personalisierung, abgestufte Darstellung von Suchergebnissen oder Clustered Results (Vivisimo - Clustering Engine). |
|||||
| Siehe auch: Suchmaschinen-Ranking URL META-Suchmaschine Robots Volltext-Suchmaschinen Google PageRank-Algorithmus Backlink Link-Popularität Search-Engine-Optimization | |||||
| Es wurden weitere Begriffe gefunden: | |||||
| Search-Engine-Optimization | |||||
|
Search Engine Optimization (SEO) ist ein sehr aktuelles Thema und behandelt die Optimierung von Suchergebnissen für bestimmte Webseiten und Suchmaschinen. Je besser man eine Webseite in den Suchergebnissen der wichtigsten Suchmaschinen wie Google, Bing (Live Search, MSN), Yahoo, Lycos, Altavista uvam. findet, desto eher kann man mit dieser Webseite Erfolg haben. SERP und Keywords Wichtig zu wissen um in die Top 10 SERPs (Search Engine Ranking Position) zu kommen sind die eigenen Keywords (Schlüsselwörter), welche zur Auffindbarkeit der Domain und ihrer Inhalte wichtig sind bzw. die Konversions-Rate erhöhen. Diese Schlüsselwörter gilt es richtig und angemessen zu platzieren, im Text, bei bestimmten Tags, den Überschriften (Title-Tag) oder Meta-Tags. Dabei spielen die Ranking Algorithmen der Suchmaschinen eine gewichtige Rolle. Je besser man diese kennt, desto eher kann man sich in der Platzierung der Schlüsselwörter anpassen. Selbstverständlich sind die Suchmaschinenbetreiber bestrebt, ihre Sortieralgorithmen nicht an die Öffentlichkeit dringen zu lassen. Denn nur, wenn eine Suchmaschine zuverlässig Seiten mit den von den Nutzern gesuchten Informationen ausgibt, bleibt sie relevant. Dementsprechend wehren sich die Betreiber gegen Manipulationsversuche. Auf der anderen Seite versuchen aber natürlich Firmen und Privatleute ihre Internetpräsenz bei den Suchmaschinen nach Möglichkeit in den Top-10-SERPs zu platzieren. Dabei kann eine professionelle SEO Agentur eine sinnvolle Hilfe sein. SERP steht auch für Search Engine Result Page. SERP und Backlinks, Trusted Web, PageRank Von den wichtigen Suchmaschinen, insbesondere Google, wird auch die Verlinkungsstruktur der Domain berücksichtigt. Beim PageRank Algorithmus spielen deswegen Backlinks, also Links auf anderen Domains fremder Admins auf die eigene Seite, eine Rolle. Je mehr Backlinks und je besser die Qualität dieser Backlinks, desto eher steigt die Seite im PageRank auf. Qualität der Backlinks bedeutet in diesem Zusammenhang, dass diese steigt, je mehr die verweisende Seite in einem thematischen Zusammenhang mit der verlinkten Domain steht. Der TrustRank geht noch einen Schritt weiter und bewertet einzelne Domains nach ihrer "Vertrauenswürdigkeit" im Web und bewertet Backlinks von diesen Seiten um so höher, so dass ein Netz aus "Trusted Webs" entsteht. Tipps von Google Google empfiehlt den Webdesignern, möglichst einzigartige und akkurate Title-Tags, also Seitenüberschriften, anzulegen. Das Description-Meta-Tag sollte korrekt ausgefüllt sein. Viel erreichen kann man auch, indem man die Domain-URL suchmaschinen-freundlich wählt: je eher das wichtigste Schlüsselwort in der URL vorkommt, desto besser wird die Domain darunter gefunden. Verkauft jemand beispielsweise Bürosoftware und hat für sich als bedeutenstes Schlüsselwort "Office-Software" identifiziert, so sollte dieser Ausdruck möglichst in der Domain vorkommen, oder auch wichtige Keywords in den HTML-Dokumenten erwähnen. Die Navigation und Platzierung der Linkstruktur spielt auch eine Rolle. Eine übersichtliche Navigation und eine zentrale Index-Datei mit allen (bis zu möglichst nicht mehr als 3) Linkblöcken sind von Vorteil. Den Wert der Seite aus Sicht der Suchmaschinen steigert auch, wenn entsprechender Content, also textbasierte oder bilder- und/oder medienbasierte Inhalte, in der Seite zu finden ist. Die Benennung der Links und die Unterlegung von Textstellen mit Fettschrift (Bold- oder Strong-Tag) spielen auch eine Rolle. Ebenso sollten Überschriften bewusst gewählt werden, ebenso Bilder und deren Beschriftungen, denn den Text auf Bildern selber kann die Suchmaschine nicht auslesen. Nützlich ist es auch eine Datei Robots.txt auf der Domain-Root anzulegen. Die Online und Offline-Promotion der Webseite spielt auch eine Rolle. Google selber bietet hierfür vor allem Google AdWords an. Bei Google AdWords kann man die CPC-Rate und sein Budget selber festlegen. Je höher die CPC-Rate, desto höher liegt das Ranking der eigenen Anzeige verglichen mit konkurrierenden Anzeigen bezogen auf bestimmte Keywords. Die Vernetzung mit der entsprechenden Community fördert die eigene Position. Hilfe bei der Auswahl der eigenen Keywords kann man von einer Keyword-Datenbank bekommen oder beispielsweise dem MetaGear 2 Web-Assoziator. Vermeiden sollten man Suchmaschinen-Spamming, also die manipulative Verbesserung seiner SERPs. Wenn eine Suchmaschine Suchmaschinen-Spamming entdeckt kann es zum Ausschluss der Seite aus dem Index führen. Google bewertet auch die Ladezeiten und die Länge der Domain. Empfehlenswert ist die Benutzung der Google Webmaster-Tools und Google PageSpeed. Professionelles SEO Es gibt Eintragsdienste und Firmen welche sich mit SEO beschäftigen. Ein besseres Ergebnis in den SERPs oder eine Top-10-SERP ist meistens dann nur noch eine Frage des Budget's und der Anpassungsfähigkeit der Kundenwebseite an die Optimierungsschritte des Ranking-Anbieters. In der Regel ist den Firmen heutzutage die Bedeutung der SERP bewusst, so dass es weniger auf Überzeugungsarbeit als auf das Budget ankommt, denn das Wissen der Ranking Firmen um das Know-How wird auch immer perfekter. Die Suchmaschinen ihrerseits rüsten auch in ihren Algorithmen immer mehr auf um z. B. relevanten Content von (kopiertem) Füll-Content zu unterscheiden. Sie setzen dazu z.B. Latent Semantic Indexing (LSI) ein. Um Webseiten semantisch zu optimieren, kann man Latent Semantic Optimization (LSO) einsetzen. Verwandt mit SEO sind SEM (Search Engine Marketing) und SMO (Social Media Optimization). Über SEO informieren kann man sich auch im Internet bei z. B. der Online-Zeitschrift Suchradar, Linkvendor.com oder bei Online Agenturen, SEO-Firmen oder Angaben der Suchmaschinen-Betreiber selber. Informationen über die Besucher Nützlich zur Optimierung der eigenen Webseite sind auch Informationen über die eigenen Besucher, die man durch Einsicht in die Logfiles beim Provider oder selbsterstellte bzw. im Internet angebotene Logfileanalyse-Tools bekommt. Auch mit Hilfe von Google-Analytics (ehemals Urchin) lassen sich Einblicke in das Surfverhalten der User bekommen und die Konversions-Rate steigern. |
|||||
| Siehe auch: Suchmaschinen-Ranking robots-dot-text Meta-Description-Tag PageRank-Algorithmus suchmaschinen Volltext-Suchmaschinen META-Suchmaschine Backlink Logdatei Google | |||||
| Link: http://www.suchradar.de | |||||
| Robots | |||||
|
Ein Robot (Spider) ist ein Programm, welches automatisch das Internet nach Internetressourcen durchsucht. Volltext-Suchmaschinen benutzen Robots, um Webseiten sowie deren URL mit Suchwörtern zu indizieren bzw. indexieren (d.h. eine Webseite wird von dem Spider besucht und nach bestimmten, suchmaschinenspezifischen Kriterien ausgewertet. Damit ein Besucher zu einem bestimmten Stichwort oder mehreren Stichwörtern bzw. auch komplexen Suchanfragen eine Webseite oder einen Webinhalt findet, legt die Suchmaschine einen internen Index an, der mit Hilfe der Spider erstellt wurde und das Ergebnis der Auswertungen darstellt. Schickt ein User also eine Suchanfrage an eine Suchmaschine ab, so wird nicht das gesamte Internet durchsucht, sondern der interne Index der Suchmaschine). Webmaster können mit dem Mata-Tag: "robots" in ihren Websites kenntlich machen, wie die Webseite von den Suchmaschinen indiziert werden soll. In der Datei robots.txt die der Webmaster auf der Root seines Verzeichnisses ablegt, kann er festlegen, ob die Webinhalte von seiner Internetpräsenz von den Crawlern ausgewertet werden dürfen: er kann auch Teile seiner Webressourcen davon ausschliessen oder nur bestimmte Suchmaschinen-Crawler ausschliessen. → robots-dot-txt Robots werden auch Spider oder Webcrawler genannt, oder in der Kurzform einfach: Bot. |
|||||
| Siehe auch: Suchmaschinen-Ranking Link-Popularität suchmaschinen Invisible-Web Meta-Tags Google robots-dot-text Second-Extended-Filesystem | |||||
| Google-Server | |||||
|
Google betreibt in seinen Datenzentren Server aus eigener Herstellung bzw. handelsübliche PC-Server, welche nach Google's Kriterien aufgebaut wurden. Die Anlage der unterbrechungsfreien Stromversorgung verfügt über einen Wirkungsgrad von 99,9 %, da sie mit Akkus ausgestattet ist, welche bei einem etwaigen Ausfall der Stromversorgung die Spanne bis zum Anspringen der Notstromversorgung überbrücken. Eine günstige Energiebilanz der Server ist für Google besonders wichtig, denn das Einsparen von Energie zahlt sich doppelt aus: die Server sind in modularen Datenzentren mit Containern zu ca. 1160 Stück untergebracht und das Abführen der Wärme mit einer Klimaanlage ist ein Faktor der durch niedrigen Energieverbrauch der Server ebenfalls günstig ausfallen soll. Aufbau der Server Die Server basieren auf Mainboards von Gigabyte in einem 19 Zoll-Rack. Als Prozessoren fungieren sowohl Intel- als auch AMD-x86-CPUs. Es sind 2 Festplatten montiert und das Motherboard verfügt über 8 RAM-Steckplätze, welche auch oft alle belegt sind. Da Google sehr viele Server im Betrieb hat, rechnen sich die Kosten sehr schnell auf, so dass Google auch im internen Aufbau sein Augenmerk auf Energieeffizienz lenkt: jeder Server verfügt über einen Spannungswandler der die üblichen 12 V Wechselstrom der Netzteile in 5 V Gleichstrom umwandelt, was einer Batterieversorgung gleicht und für die 5 V Bauteile angemessen ist. Auf 5 V Netzteile wird ganz verzichtet, so dass die Umwandlung allein innerhalb der Server stattfindet. Diese Vorgehensweise erhöht die Kosten pro Mainboard um 1 bis 2 $, bringt jedoch eine höhere Energieeffizienz, da die Stromversorgung zum einen mehr an der Spitze ihrer Kapazität ausgelastet ist und Google profitiert sogar von der Tatsache der höheren Energieeffizienz der Stromversorgung über Kupfer bei 12 V im Vergleich zu 5 V, da auf 5 V Netzteile ganz verzichtet wird. Google Server PUE: Datacenter Energie Effektivität gemessen durch Power Usage Effectiveness (PUE) Google arbeitet mit hoher Effektivität daran, die Energieffizienz seiner Datenzentren zu erhöhen. Diese wird gemessen durch den Standard der PUE (Power Usage Effectiveness) welcher durch ein Konsortium namens Green Grid erstellt wurde. Die PUE misst, wieviel Energie direkt für Computing Services verwendet wird im Vergleich zum Energieaufwand für Kühlung, Beleuchtung oder Wasserverbrauch. Man versucht auch den Kohlendioxid-Aus-Stoß und den Stromverbrauch allgemein zu minimieren, Wasser wird im Recycling-Verfahren wieder Gewonnen, selbst der Elektroschrott soll wiederverwendet oder minimiert werden. Außerdem existiert bei Google ein strategisches Vorgehen, daß in Kooperation mit Partnern und Mitarbeitern den Energieverbrauch minimieren soll. Ein Idealwert von 1 hieße, dass keine Energie für Extra-Kosten verwendet würde. Ein Wert von 1,5 würde bedeuten, dass die Hälfte der Energie für Verlustleistung verwendet würde. Die PUE-Werte von Google sind nachahmenswert niedrig: im dritten Quartal 2008 war der Google-PUE bei 1,21, aber er fiel auf 1,20 für das vierte Quartal und auf 1,19 für das erste Quartal des Jahres 2009. Angestrebt wird ein noch niedrigerer Wert. Die PUE-Werte sind auch wetterabhängig, beste erreichte Werte für jüngere Datenzentren liegen bei 1,12. Das Design der Server stammt von Ben Jai und wird seit 2005 nun bereits in der 7. Generation verwendet. Quelle: Google Server |
|||||
| Siehe auch: Google Green-Grid Google-BigTable Server Webserver Web-Service BackRub Search-Engine-Optimization | |||||
| Link: http://news.cnet.com/8301-1001_3-10209580-92.html | |||||
| Bing | |||||
|
Bing ist der Nachfolger von Live Search, der MSN Suchmaschine von Microsoft. Bing wurde vor allem gegen Google positioniert und soll den User bei der täglichen Arbeit entlasten, z.B. bei Einkäufen im Internet, oder bei der Recherche, bei Entscheidungen soll Bing unterstützen, bei der Produktsuche helfen eine Auswahl zu treffen, Reisevorbereitungen sollen unterstützt werden oder Bildungsangebote sortiert dargeboten werden. Der Suchalgortihmus in Bing wurde zur Vorgängersuchmaschine wesentlich verbessert. Bing bietet die Kategorien Bilder, Karten, Shopping, Nachrichten und Videos, als Hintergrundbild dienen malerische Landschaften. Bing bietet strukturierte Suchergebnisse an. Microsoft will seine Suchtechnologie weiter verbessern und ist deswegen eine Koopeation mit Yahoo eingegangen. Google wiederum arbeitet an Caffeine, einer schnelleren Version von Google. In Caffeine wurde der Google Code gründlich entschlackt und aufgearbeitet. Man kann vermuten, dass sich Caffeine gegen Bing positionieren wird, auch wenn Google die Arbeiten an diesem Projekt als Routinegeneralüberholung darstellt. Google will mit dem Projekt Caffeine insbesondere die Menge der durchsuchten Seiten, die Geschwindigkeit und Genauigkeit der Suche und die erfasste Reichweite verbessern. |
|||||
| Siehe auch: Google Suchmaschine Volltext-Suchmaschinen PageRank-Algorithmus Search-Engine-Optimization AdServer Abrechnungsverfahren-von-Online-Werbung Bill-Gates | |||||
| BackRub | |||||
|
Backlinks, Hypertextanalyse, Semantische Umgebung BackRub ist der technische Vorläufer der Suchmaschine Google. BackRub wurde von den damaligen Stanford Doktoranden Sergey Brin und Lawrance Page in Stanford am Computer Science Department entwickelt. Die Entwickler erkannten den Wert von Suchmaschinen für das Internet und deren mögliche semantische Power. Der Name BackRub leitet sich ab aus der Analyse von Backlinks zum Bewerten von Webseiten. Im Konzept für BackRub sind schon enthalten: Hypertextanalyse, semantische Umgebung und Keywords, der PageRank und die Formel sowie die technische Architektur von Google. Die Tatsache der Implementierung auf Linux Server mit C und C++ für die Algorithmen ist ebenfalls im entsprechenden White Paper zu BackRub zu finden. BackRub Technik, URL Crawler, Parser, WordID, DocID, Indexer Nachdem Crawler und URLCrawler das Web durchsucht haben werden die Webpages nach bestimmten Kriterien durch einen Parser geparst. Ein Wörter Lexikon mit über 14 Millionen Wörtern hilft beim Erkennen von Wörtern. Es werden WordIDs und DocIDs vergeben. Indexiert werden die Seiten durch einen Indexer und einen Sorter. Repository, Barrels, URL-Resolver, Anchor File Der Indexer liest das Repository aus, entpackt die Dokumente und parst sie. Jedes Dokument wird in Bezug gesetzt zu einer Gruppe von definierten Wortstämmen die 'Hits' genannt werden. Die Hits beinhalten das Wort, die Position im Dokument sowie eine Abkürzung für die Typo-Grösse und die Gross-Klein-Schreibweise. Der Indexer verteilt diese Hits auf eine Anzahl von 'Barrels', wodurch ein vorsortierter Forward Index entsteht. Weitehin parst der Indexer alle Hyperlinks in einem Dokument und speichert die Informationen darüber in einem Anchor File. Das Anchor File enthält Informationen darüber, von wo nach wo der Link genau führt, sowie den dazugehörigen Text. Der URL-Resolver liest das Anchor File aus und wandelt relative URLs in absolute URLs um. Den absoluten URLs werden DocIDs zugeordnet. Forward Index, Link-Datenbank, DocID Der Anchor Text wird dem Forward Index zugeordnet, welcher mit den DocIDs und den Anchor Punkten verknüpft ist. Der URL-Resolver generiert auch eine Link-Datenbank, welche aus Paaren von DocIDs besteht. Mit Hilfe dieser Link Datenbank wird der PageRank berechnet. Der Sorter bedient sich der Barrels, die nach DocID sortiert sind und sortiert sie nach WordID um: dadurch wird der Inverted Index erzeugt. Ein Programm, das DumpLexikon genannt wird, nimmt diese erzeugten Listen zusammen mit dem Lexikon, welches durch den Indexer generiert wurde, und erzeugt ein neues Lexikon, welches von dem Searcher verwendet wird. Der Searcher läuft auf einem Web Server und benutzt das Lexikon welches durch DumpLexikon bereitgestellt wurde zusammen mit dem Inverted Index und dem PageRank um Suchanfragen zu beantworten. Die Datenstruktur von Google ist so konzipiert, dass eine optimale Verarbeitung von grossen Datenstrukturen und Indexen gewährleistet ist und das Web entsprechend schnell gecrawalt werden kann. Dies wird zu geringst möglichen Kosten gemacht. Trotz der enormen Datenmengen bleibt eine Suche auf den Festplattensystemen i.d.R. unter 10 ms bis zur Antwort. Google vermeidet das Suchen auf den Festplattensystemen wo immer das möglich ist, was auch einen grossen Einfluss auf die Systemarchitektur von Google hatte. Google verwendet das Konzept von BigFiles. BigFiles sind virtuelle Files welche eine Mehrzahl von File Systemen umspannt und durch 64-Bit Integers adressierbar sind. Die Allokation auf Multiple File Systemen wird automatisch durchgeführt. Das BigFile Konzept beinhaltet die Allokation und Deallokation von File Deskriptoren sowie Optionen zum Packen von Daten. Das Repository beinhaltet die volle HTML-Struktur der Webseiten. Jede Seite ist durch zlib komprimiert. Im Repository sind die Dokumente nacheinander gespeichert und vorgefertigt durch die DocID, URL und Länge. Das Repository benötigt für den Zugang keine weitere Datenstruktur: die hilft beim Aufrecht erhalten der Datenkonsistenz und erleichtert die Entwicklerarbeit. Batch Update Modus, Width File, Batch Lauf Der Dokumenten Index beinhaltet die Informationen über jedes Dokument. Er ist in einer MySQL ISAM Struktur festgelegt, sortiert nach DocID. Die Informationen die an jedem Eintrag festgelegt sind beinhalten den laufenden Dokumenten Status, einen Zeiger zum Repository, eine Prüfsumme für das Dokument und einige statistische Angaben. Wenn das Dokument gecrawlt wurde, enthält es auch einen Zeiger zu einem variablen Width File, welches docinfo genannt wird. Docinfo enhält die URL und den Title. Wenn das Dokument noch nicht gecrwalt wurde zeigt der Zeiger auf die URLList, welche ausschliesslich die URL enthält. Die Entscheidung für die Design Struktur resultiert aus dem Bedürfnis nach einer kompakten Datenstruktur und der Möglichkeit, einen Eintrag in einer einzigen Suchaktion zu durchsuchen. Zusätzlich gibt es ein File welches URLs in DocIDs umwandelt. Es handelt sich um eine Liste von URL Prüfsummen mit den zugehörigen DocIDs welche nach der Prüfsumme sortiert sind. Um die DocID einer bestimmten URL zu finden, wird die Prüfsumme der betreffenden URL ermittelt und eine binäre Suche über der Prüfsumme durchgeführt um die DocID zu finden. URLs können in DocIDs in einem Batch-Lauf umgewandelt werden in dem sie mit dem File zusammengeführt werden. Mit dieser Technik wandelt der URLResolver URLs in DocIDs um. Dieser Batch Update Modus ist sehr bedeutend für den Erfolg von Google, da man ansonsten für jeden Link eine Suche durchführen müsste, was impliziert dass man für eine Platte mit einem Link Data Set von 322 Millionen Einträgen einen Monat brauchen würde. Das Lexikon hat verschiedene Ausprägungen: es kommt in der BackRub Implemetierung mit einem Hauptspeicher von 256 MB aus. Es enthält in dieser Ausführung 14 Millionen Wörter und ist in 2 Teilen implemetiert: eine Wortliste die untereinander verbunden und durch Nullen getrennt ist und eine Hash Tabelle von Zeigern. Forward Index, Invertierter Index Der Forward Index ist vorsortiert und in 64 Barrels gespeichert. Jeder Barrel enthält eine Bandbreite von WordIDs. Der Invertierte Index enthält dieselben Barrells, die jedoch durch den Sorter verarbeitet wurden. Für eine valide WordID enthält das Lexikon einen Zeiger an die entsprechende WordID im Barrel. Er zeigt auf eine Doclist der DocID zusammen mit der entsprechenden Hit List. Die Doclist repräsentiert alle Vorkommnisse von Wörtern in allen Dokumenten. |
|||||
| Siehe auch: Google Google-Server suchmaschinen Robots Repository linux MyISAM Second-Extended-Filesystem Fourth-Extended-Filesystem C-Plus-Plus | |||||
| Link: http://infolab.stanford.edu/~backrub/google.html | |||||
| PageRank-Algorithmus | |||||
|
Der PageRank-Algorithmus bewertet Webseiten nach deren externen Verlinkungsstruktur: in dem rekursiven Algorithmus wird jeder Webseite ein Gewicht, dass sich aus der Anzahl auf sie verweisender Seiten (Linkpopularität) ergibt, zugeordnet. Linkpopularität Die Linkpopularität bezieht sich dabei auf Backlinks: Backlinks sind Rückverweise auf eine Webseite: es handelt sich aus dem Betrachtungsstandpunkt einer Webseite gesehen um Hyperlinks auf anderen Webseiten, die auf diese Seite verweisen. Weiterhin spielt das Gewicht der verweisenden Seiten eine Rolle: je höher deren Gewicht, desto grösser ist der Effekt. Der PageRank ist somit dem Verhalten eines zufällig durch das Internet surfenden Users nachempfunden: er korreliert mit der Wahrscheinlichkeit, dass ein Surfer auf eine bestimmte Internet-Präsenz stösst. Web-Spam und Erweiterung des PageRank um qualitative Kriterien Diese Form des PageRank-Algorithmus ist wegen der Übergewichtung von Verlinkungen (Problem des Web-Spam: Link-Farmen, Doorway-Pages, Google-Bombs, Forum-, Blog- und Gästebuch-Spam), die keine qualitativen Aussagen machen in die Kritik geraten. Heute hat Google diese Form des PageRank um qualitative Kriterien erweitert um Web-Spam zu bekämpfen: bei der Linkpopularität spielt es eine Rolle, um welche Art von Seite es sich handelt, insbesondere, ob diese thematisch verwandt ist mit der verlinkten Webseite. Weiterhin spielen eine Rolle: die relevante Keyword-Dichte bezogen auf das Thema der Seite, die Aktualität und der Umfang der Webseite. TrustRank Der PageRank könnte bald durch den TrustRank abgelöst oder ergänzt werden. Eventuell sind die Kriterien heute schon so verändert, dass es dem TrustRank nahe kommt. Beim TrustRank werden Webseiten nach einem bestimmten Verfahren bewertet. Es entsteht ein semantisches "Trusted Web", bei dem die qualitative Nachbarschaft von Webseiten, die verlinkt sind, bedeutend ist. Dies wird erreicht, indem bestimmte, SPAM-freie Webseiten als vertrauenswürdige Autorität (Authority-Sites) hervorgehoben werden: diese werden vor der Einstufung entsprechend überprüft und dann festgelegt. Danach wird die gesamte externe Linkstruktur des Internets ausgehend von diesen Authority-Sites bewertet. Dieser Prozess kann sich in mehrere Ebenen aufsplitten. Mit TrustRank soll Web-Spam und Doorway-Pages sowie Google-Bombs bekämpft werden. |
|||||
| Siehe auch: Google Backlink suchmaschinen Volltext-Suchmaschinen Hyperlink Rekursiv algorithmus Spam Link-Popularität Search-Engine-Optimization | |||||
| Semantische-Suchmachine | |||||
|
Semantische Suchmaschinen sollen auf eine Frage in einer natürlichen Sprache eine Antwort geben können. Die Antwort ist natürlich noch nicht perfekt, hängt sie doch von ihrem (statischen) Index ab. Weiterhin sollen solche Suchmaschinen semantische Pfade zu Schlüsselwörtern aufzeigen. Also im Kontext verwandte und weiterführende Begriffe aufzeigen, sowie Kookkurrenzen, Kollokationen, Homonyme, Morpheme oder Synonyme, eben nach Wortklassen analysieren. Semantische Suchmaschinen sind noch in der Entwicklungsphase, es gab aber schon einige beachtliche Versuche, wie von Ask Jeeves oder Answer Bus. Falls das so genannte Grid, eine Art Weiterentwicklung des Internets, verwirklicht werden wird, sollen solche Suchmachinen mit Suchanfragen derart umgehen können, dass sie in der Lage sind, aus den Inhalten des Web, dynamisch neue Informationszusammenstellungen (auch aus Datenbanken im Web) zu generieren, die in dieser Form, ausser auf der jeweiligen Ergebnisseite der Suchanfrage nirgendwo im Web (statisch) zu finden sind. Heutige Versuche beschränken sich auf eine lexikalische und syntaktische Analyse und einer (eingeschränkten) semantischen Analyse sowie einer Analyse nach Wortklassen, wie z. B. das Wortschatz Projekt der Uni Leipzig. Dies birgt allerdings schon grosses Potential: das Aufzeigen von semantischen Pfaden und der semantischen Umgebung (z.B.: Eingabe: Apple - Ausgabe: links: Macintosh → G5 → Intel, rechts: Microsoft → Windows → WMP, oben: iPod → iTunes → MP3, unten: Mac-OS → Mac OS X → Mac-OS X Server. |
|||||
| Siehe auch: suchmaschinen Volltext-Suchmaschinen META-Suchmaschine Semantik NEOGRID meyer88 Mac-OS-X Mac-OS-X-Server Microsoft Google | |||||
| Invisible-Web | |||||
|
Beim sog. "Invisible Web" handelt es sich um Internet-Ressourcen, die nicht von den Robots (oder Spidern, Webcrawler) der Suchmaschinen indiziert (indexiert) werden können. Darunter fallen Webseiten, die durch Webserver-seitige Programme dynamisch erzeugt werden (z. B.mit PHP, MySQL oder JSP, Java Servlets), Abbildungen und andere nicht indizierbare statische Seiten. |
|||||
| Siehe auch: suchmaschinen Robots Volltext-Suchmaschinen PHP MySQL JSP Java-Servlet Google PageRank-Algorithmus | |||||