PageRank-Algorithmus

Der PageRank-Algorithmus bewertet Webseiten nach deren externen Verlinkungsstruktur: in dem rekursiven Algorithmus wird jeder Webseite ein Gewicht, dass sich aus der Anzahl auf sie verweisender Seiten (Linkpopularität) ergibt, zugeordnet. 

Linkpopularität
Die Linkpopularität bezieht sich dabei auf Backlinks: Backlinks sind Rückverweise auf eine Webseite: es handelt sich aus dem Betrachtungsstandpunkt einer  Webseite gesehen um Hyperlinks auf anderen Webseiten, die auf diese Seite verweisen. Weiterhin spielt das Gewicht der verweisenden Seiten eine Rolle: je höher deren Gewicht, desto grösser ist der  Effekt. Der PageRank ist somit dem Verhalten eines zufällig durch das Internet surfenden Users nachempfunden: er korreliert mit der Wahrscheinlichkeit, dass ein Surfer auf eine bestimmte Internet-Präsenz stösst. 

Web-Spam und Erweiterung des PageRank um qualitative Kriterien
Diese Form des PageRank-Algorithmus ist wegen der Übergewichtung von Verlinkungen (Problem des Web-Spam: Link-Farmen, Doorway-Pages, Google-Bombs, Forum-, Blog- und Gästebuch-Spam),  die keine qualitativen Aussagen machen in die Kritik geraten. Heute hat Google diese Form des PageRank um qualitative Kriterien erweitert um Web-Spam zu bekämpfen:  bei der Linkpopularität spielt es eine Rolle, um welche Art von Seite es sich handelt, insbesondere, ob diese thematisch verwandt ist mit der verlinkten Webseite. Weiterhin spielen eine Rolle:  die relevante Keyword-Dichte bezogen auf das Thema der Seite, die Aktualität und der Umfang der Webseite.

TrustRank
Der PageRank könnte bald durch den TrustRank abgelöst oder ergänzt werden.  Eventuell sind die Kriterien heute schon so verändert, dass es dem TrustRank nahe kommt.  Beim TrustRank werden Webseiten nach einem bestimmten Verfahren bewertet. Es entsteht ein semantisches "Trusted Web", bei dem die qualitative Nachbarschaft von Webseiten, die verlinkt sind, bedeutend ist. Dies wird erreicht, indem bestimmte, SPAM-freie  Webseiten als vertrauenswürdige Autorität (Authority-Sites) hervorgehoben werden: diese werden vor der Einstufung entsprechend überprüft und dann festgelegt. Danach wird die gesamte externe Linkstruktur des Internets  ausgehend von diesen Authority-Sites bewertet. Dieser Prozess kann sich in mehrere Ebenen aufsplitten. Mit TrustRank soll Web-Spam und Doorway-Pages sowie Google-Bombs bekämpft werden.                                   
Siehe auch:    Google   Backlink   suchmaschinen   Volltext-Suchmaschinen   Hyperlink   Rekursiv   algorithmus   Spam   Link-Popularität   Search-Engine-Optimization

  Google

Google wird Marktführer
Google ist die weltweit am meisten genutzte Suchmaschine des Internet. Die Firma Google Inc. wurde 1998 von Lawrence Page und Sergey Brin gegründet. Im Jahr 2006 verfügte Google über einen Marktanteil von über 80%,  bei einer Indexgrösse von über 8 Milliarden Webseiten und ca. 60 Milliarden Dokumenten und über 1,1 Milliarden Bildern. Der Name von Google leitet sich von Googol ab, dies ist der Name der Zahl 1x 10 ^ 100 (eine 1 mit hundert Nullen),  den sich Milton Sirotta, der Neffe des Mathematikers Edward Kasner ausgedacht hat. Zur Legende zählt, dass der Markenname Google durch einen Rechtschreibfehler aus Googol entstanden sei.

Technologie und Logistik, Googleware
Google ist  verteilt auf mehrere Rechenzentren rund um die Welt, die mit handelsüblichen PCs ausgestattet sind. In jedem Rechenzentrum befinden sich Rechnercluster mit einer verteilten, redundanten und nach oben leicht skalierbaren Architektur. Die aktuelle  Zahl der Server lag 2006 bei 450.000. Der Festplattenspeicher befindet sich im Petabytebereich, der Arbeitsspeicher im Terabytebereich. Das Prinzip der verteilten Datenhaltung ist bei Google ausgereift: die Googleware ermöglicht ein Verschmelzen von  Hardware und OS, so dass man kurzfristig Server in ein Rack schieben kann, die das OS automatisch laden und sich integrieren. Google betreibt redundante Datenhaltung so dass der Index in 3 Kontinenten unabhängig verfügbar ist.  Google erreicht in Deutschland ca. 28 Mio Nutzer, eine Suchanfrage benötigt durchschnittlich 0,2 Sekunden und beschäftigt ca. 300 - 700 Server. Google ist in 112 Sprachen verfügbar auf 158 Domains.

Der PageRank Algorithmus 
Entscheidend für die Reihenfolge der Ergebnisausgabe bei Suchanfragen ist der Ranking Algorithmus. Google arbeitet mit dem PageRank-Algorithmus: entscheidend beim PageRank ist die Anzahl der Webseiten (und deren eigener PageRank Wert  sowie die thematische Nähe zur verlinkten Seite), die auf eine Seite verlinken (= Backlinks: Rückverweise, die aus dem Betrachtungsstandpunkt einer Webseite von anderen Webseiten auf sich selber verlinken), die relevante Keyword-Dichte bezogen  auf das Thema der Seite, die Aktualität und der Umfang der Webseite. Der PageRank geht von 0 bis 10 (mit 10 als höchstem Wert) und wird z. B. von der Google Toolbar im Internet Explorer oder dem Firefox Add-On "Search Status"angezeigt. Unabhängig vom  PageRank sind die Ranking Positionen für Suchergebnisseiten einzelner Keywords zu bewerten. Um in die Top-10-SERP (Search Engine Result Page oder Search Engine Ranking Position) zu gelangen, sollte man SEO (Search Engine  Optimization, Suchmaschinenoptimierung) betreiben.

Web-Spam und TrustRank
Eventuell wird der PageRank bald durch den TrustRank ersetzt. Beim TrustRank werden Webseiten nach einem bestimmten Verfahren bewertet. Es entsteht ein semantisches  "Trusted Web", bei dem die qualitative Nachbarschaft von Webseiten, die miteinander verlinkt sind, bedeutend ist. Dadurch soll Web-Spam wie Doorway-Pages, Link-Farmen oder Google-Bombs bekämpft  werden.

Implementierung von Google, Google AdWords, Google AdSense
Google wurde in C und C++ implementiert und läuft auf Linux und Solaris. Mit Google AdWords kann man auf Google  Keyword-gesteuerte Anzeigen schalten. Der Werbetreibende hat volle Kontrolle über sein Budget und sein CPC (Cost per Click). Google AdSense erlaubt es dem Web-Admin, keyword- bzw. kontextgesteuerte Werbung auf seiner Webseite zu platzieren. 

Google-Dienste
Google bietet einige Dienste, z. T. durch Akquisitionen (wie z. B. Kaltix Corp., Keyhole Corp., Urchin Software Corp., YouTube, DoubleClick, Postini) an: Produktsuche (ehemals Froogle), GMail, Google-News, Google-Base, Google Bücher,  Google-Earth (Keyhole Corp.), Google Analytics (ehemals Urchin), Google Docs & Spreadsheets (Online Textverarbeitung (ehemals Writely) und Tabellenkalkulation), Google Blog Search, Google Calender,  Google Reader, Google Talk, Google Finance, Google Desktop Search oder Picasa oder Google Plus (G+). Google penetriert immer mehr den Online (und Offline)-Werbemarkt und ist nach der Akquisition von Double Click seinem  Ziel einer beherrschenden Stellung auf diesem Markt ein gutes Stück näher gekommen. Google Apps for Your Domain bietet eine Reihe von Hosted Communications Services: GMail Web E-Mail, G-Talk Instant Messaging und Voice Calling Services,  Collaborative Calendering durch Google Calendar sowie Web-Design, Web-Publishing und Web-Hosting mit Google Page Creator. In Vorbereitung ist das Google Betriebssystem basierend auf dem Browser Chrome: Chrome-OS. Android ist das Handy-OS.

Google IPO 
Das IPO (Initial Public Offering) von Google wurde 2004 durch Venture Capital von Sequoia Capital und Kleiner Perkins Caufield & Byers (KPCB) mitfinanziert. Konsortialführer waren Morgan Stanley und Credit Suisse First Boston.  Beim Börsengang mit dabei waren 29 weitere Banken, u. a. Goldman Sachs, die Citigroup, die Deutsche Bank, Lehman Brothers oder Merrill Lynch. Google nahm durch diesen IPO ca. 2,7 Milliarden Dollar ein.  Die Aktienstruktur wurde so gewählt, dass Page und Brin eine höchstmögliche Kontrolle darüber bekamen: sie kontrollieren jeweils ca. 16% davon (Page beim Börsengang 38,6 Mio Aktien, Brin 38,5 Mio Aktien, Eric Schmidt 14,8 Mio Aktien sowie Kleiner Perkins  und Sequoia Capital mit jeweils 23,9 Mio Aktien). Der Umsatz von Google betrug 1999 noch 220.000 Dollar. Der Quartalsumsatz von 1/2004 lag bei 389,6  Millionen Dollar, bei einen Nettogewinn von 64 Millionen Dollar, der Jahresumsatz lag 2003 (2002) bei 961,8 (347,8) Mio $. Der Umsatz stieg pro Quartal seit dem Börsengang um jeweils ca. 50%. Die Börsenkapitalisierung betrug 2007  158 Milliarden Dollar. Der Kurs der Google Aktie bewegte sich bis auf ca. 700 $ Ende 2007 und danach in einer Range zwischen 450 und 600 Dollar.  2006 wurde Google zur einflussreichsten Marke der Welt gewählt. Frühe Investoren die ab 1999 oder später einstiegen waren neben Sequoia Capital und KPCB auch private  Investoren wie Andreas von Bechtolsheim (Sun Microsystems), Arnold Schwarzenegger, Tiger Woods, Henry Kissinger oder Shaquille O'Neal.  Bechtolsheim soll auf Einladung von Stanford Professor David R. Cheriton, der Brin und Page beim Google-Projekt unterstützte, eine Vorführung einer frühen PC-Version von Google bekommen haben und war gleich so begeistert und vom Erfolg von Google  überzeugt, dass er angeblich gleich einen 1 Million $ Scheck gezückt haben soll, obwohl es noch gar keine Firmengründung für Google gab. Andy Bechtolsheim schlug vor, diese Firma direkt zu gründen, und war damit einer der Early Bird Investoren.
Siehe auch:    Volltext-Suchmaschinen   Suchmaschinen-Ranking   PageRank-Algorithmus   BackRub   Google-BigTable   Google-Server   AdServer   Search-Engine-Optimization   Semantische-Suchmachine   Social-Network-Dienste

  Search-Engine-Optimization

Search Engine Optimization (SEO) ist ein sehr aktuelles Thema und behandelt die Optimierung von Suchergebnissen für bestimmte Webseiten und Suchmaschinen.  Je besser man eine Webseite in den Suchergebnissen der wichtigsten Suchmaschinen wie Google, Bing (Live Search, MSN), Yahoo, Lycos, Altavista uvam. findet, desto eher kann man mit dieser Webseite Erfolg haben.

SERP und Keywords 
Wichtig zu wissen um in die Top 10 SERPs (Search Engine Ranking Position) zu kommen sind die eigenen Keywords (Schlüsselwörter), welche zur Auffindbarkeit der Domain und ihrer Inhalte wichtig sind bzw. die Konversions-Rate erhöhen.  Diese Schlüsselwörter gilt es richtig und angemessen zu platzieren, im Text, bei bestimmten Tags, den Überschriften (Title-Tag) oder Meta-Tags. Dabei spielen die Ranking Algorithmen der Suchmaschinen eine gewichtige Rolle. Je besser man diese kennt,  desto eher kann man sich in der Platzierung der Schlüsselwörter anpassen. Selbstverständlich sind die Suchmaschinenbetreiber  bestrebt, ihre Sortieralgorithmen nicht an die Öffentlichkeit dringen zu lassen. Denn nur, wenn eine Suchmaschine zuverlässig Seiten mit den von den Nutzern gesuchten Informationen ausgibt, bleibt sie relevant. Dementsprechend wehren sich  die Betreiber gegen Manipulationsversuche. Auf der anderen Seite versuchen aber natürlich Firmen und Privatleute ihre Internetpräsenz  bei den Suchmaschinen nach Möglichkeit in den Top-10-SERPs zu platzieren. Dabei kann eine  professionelle SEO Agentur eine sinnvolle Hilfe sein. SERP steht auch für Search Engine Result Page.

SERP und Backlinks, Trusted Web, PageRank 
Von den wichtigen Suchmaschinen, insbesondere Google, wird auch die Verlinkungsstruktur der Domain berücksichtigt. Beim PageRank Algorithmus spielen deswegen Backlinks, also Links auf anderen Domains fremder Admins auf die eigene Seite,  eine Rolle. Je mehr Backlinks und je besser die Qualität dieser Backlinks, desto eher steigt die Seite im PageRank auf. Qualität der Backlinks bedeutet in diesem Zusammenhang, dass diese steigt, je mehr die verweisende Seite in einem thematischen  Zusammenhang mit der verlinkten Domain steht. Der TrustRank geht noch einen Schritt weiter und bewertet einzelne Domains nach ihrer "Vertrauenswürdigkeit" im Web und bewertet Backlinks von diesen Seiten um so höher, so dass ein Netz aus "Trusted Webs"  entsteht.

Tipps von Google
Google empfiehlt den Webdesignern, möglichst einzigartige und akkurate Title-Tags, also Seitenüberschriften, anzulegen. Das Description-Meta-Tag sollte korrekt ausgefüllt sein.  Viel erreichen kann man auch, indem man die Domain-URL suchmaschinen-freundlich wählt: je eher das wichtigste Schlüsselwort in der URL vorkommt, desto besser wird die Domain darunter gefunden. Verkauft jemand beispielsweise Bürosoftware und hat für sich  als bedeutenstes Schlüsselwort "Office-Software" identifiziert, so sollte dieser Ausdruck möglichst in der Domain vorkommen, oder auch wichtige Keywords in den HTML-Dokumenten erwähnen.  Die Navigation und Platzierung der Linkstruktur spielt auch eine Rolle. Eine übersichtliche Navigation und eine zentrale Index-Datei mit allen (bis zu möglichst nicht mehr als 3) Linkblöcken sind von Vorteil. Den Wert der Seite aus Sicht der  Suchmaschinen steigert auch, wenn entsprechender Content, also textbasierte oder bilder- und/oder medienbasierte Inhalte, in der Seite zu finden ist.  Die Benennung der Links und die Unterlegung von Textstellen mit Fettschrift (Bold- oder Strong-Tag) spielen auch eine Rolle. Ebenso sollten Überschriften bewusst gewählt werden, ebenso Bilder und deren Beschriftungen, denn den Text auf Bildern selber  kann die Suchmaschine nicht auslesen. Nützlich ist es auch eine Datei Robots.txt auf der Domain-Root anzulegen. Die Online und Offline-Promotion der Webseite spielt auch eine Rolle. Google selber bietet hierfür vor allem Google AdWords an.  Bei Google AdWords kann man die CPC-Rate und sein Budget selber festlegen. Je höher die CPC-Rate, desto höher liegt das Ranking der eigenen Anzeige verglichen mit konkurrierenden  Anzeigen bezogen auf bestimmte Keywords. Die Vernetzung mit der entsprechenden Community fördert die eigene Position. Hilfe bei der Auswahl der eigenen Keywords kann man von einer Keyword-Datenbank bekommen  oder beispielsweise dem MetaGear 2 Web-Assoziator. Vermeiden sollten man Suchmaschinen-Spamming, also die manipulative Verbesserung seiner SERPs. Wenn eine Suchmaschine Suchmaschinen-Spamming  entdeckt kann es zum Ausschluss der Seite aus dem Index führen. Google bewertet auch die Ladezeiten und die Länge der Domain. Empfehlenswert ist die Benutzung der Google Webmaster-Tools und Google PageSpeed. 

Professionelles SEO
Es gibt Eintragsdienste und Firmen welche sich mit SEO beschäftigen. Ein besseres Ergebnis in den SERPs oder eine Top-10-SERP ist meistens dann nur noch eine Frage des Budget's und der Anpassungsfähigkeit der Kundenwebseite an  die Optimierungsschritte des Ranking-Anbieters. In der Regel ist den Firmen heutzutage die Bedeutung der SERP bewusst, so dass es weniger auf Überzeugungsarbeit als auf das Budget ankommt, denn das Wissen der Ranking Firmen um  das Know-How wird auch immer perfekter. Die Suchmaschinen ihrerseits rüsten auch in ihren Algorithmen immer mehr auf um z. B. relevanten Content von (kopiertem) Füll-Content zu unterscheiden. Sie setzen dazu z.B. Latent Semantic Indexing (LSI) ein. Um  Webseiten semantisch zu optimieren, kann man Latent Semantic Optimization (LSO) einsetzen. Verwandt mit SEO sind SEM (Search Engine Marketing) und SMO (Social Media Optimization).  Über SEO informieren kann man sich auch im Internet bei z. B. der Online-Zeitschrift Suchradar, Linkvendor.com oder bei Online Agenturen, SEO-Firmen oder Angaben der Suchmaschinen-Betreiber selber. 

Informationen über die Besucher
Nützlich zur Optimierung der eigenen Webseite sind auch Informationen über die eigenen Besucher, die man durch Einsicht in die Logfiles beim Provider oder selbsterstellte bzw. im Internet angebotene  Logfileanalyse-Tools bekommt. Auch mit Hilfe von Google-Analytics (ehemals Urchin) lassen sich Einblicke in das Surfverhalten der User bekommen und die Konversions-Rate steigern.
Siehe auch:    Suchmaschinen-Ranking   robots-dot-text   Meta-Description-Tag   PageRank-Algorithmus   suchmaschinen   Volltext-Suchmaschinen   META-Suchmaschine   Backlink   Logdatei   Google
Link: http://www.suchradar.de


  BackRub

Backlinks, Hypertextanalyse, Semantische Umgebung
BackRub ist der technische Vorläufer der Suchmaschine Google. BackRub wurde von den damaligen Stanford Doktoranden Sergey Brin und Lawrance Page in Stanford am Computer Science Department entwickelt.  Die Entwickler erkannten den Wert von Suchmaschinen für das Internet und deren mögliche semantische Power. Der Name BackRub leitet sich ab aus der Analyse von Backlinks zum Bewerten von Webseiten. Im Konzept für  BackRub sind schon enthalten: Hypertextanalyse, semantische Umgebung und Keywords, der PageRank und die Formel sowie die technische Architektur von Google. Die Tatsache der Implementierung auf Linux Server mit C und C++ für die Algorithmen  ist ebenfalls im entsprechenden White Paper zu BackRub zu finden.

BackRub Technik, URL Crawler, Parser, WordID, DocID, Indexer
Nachdem Crawler und URLCrawler das Web durchsucht haben werden die Webpages nach bestimmten  Kriterien durch einen Parser geparst. Ein Wörter Lexikon mit über 14 Millionen Wörtern hilft beim Erkennen von Wörtern. Es werden WordIDs und DocIDs vergeben. Indexiert werden die Seiten durch einen Indexer und einen  Sorter.

Repository, Barrels, URL-Resolver, Anchor File
Der Indexer liest das Repository aus, entpackt die Dokumente und parst sie.  Jedes Dokument wird in Bezug gesetzt zu einer Gruppe von definierten Wortstämmen die 'Hits' genannt werden. Die Hits beinhalten das Wort, die Position im Dokument sowie eine Abkürzung für die Typo-Grösse und die Gross-Klein-Schreibweise.  Der Indexer verteilt diese Hits auf eine Anzahl von 'Barrels', wodurch ein vorsortierter Forward Index entsteht. Weitehin parst der Indexer alle Hyperlinks in einem Dokument und speichert die Informationen darüber in einem Anchor File. Das Anchor File  enthält Informationen darüber, von wo nach wo der Link genau führt, sowie den dazugehörigen Text. Der URL-Resolver liest das Anchor File aus und wandelt relative URLs in absolute URLs um. Den absoluten URLs werden DocIDs zugeordnet. 

Forward Index, Link-Datenbank, DocID
Der Anchor Text wird dem Forward Index zugeordnet, welcher mit den DocIDs und den Anchor Punkten verknüpft ist. Der URL-Resolver generiert auch eine Link-Datenbank, welche aus Paaren von DocIDs besteht.  Mit Hilfe dieser Link Datenbank wird der PageRank berechnet. Der Sorter bedient sich der Barrels, die nach DocID sortiert sind und sortiert sie nach WordID um: dadurch wird der Inverted Index erzeugt. 

Ein Programm, das DumpLexikon genannt wird, nimmt diese erzeugten Listen zusammen mit dem Lexikon, welches durch den Indexer generiert wurde, und erzeugt ein neues Lexikon, welches von dem Searcher verwendet wird. 

Der Searcher läuft auf einem Web Server und benutzt das Lexikon welches durch DumpLexikon bereitgestellt wurde zusammen mit dem Inverted Index und dem PageRank um Suchanfragen zu beantworten.  Die Datenstruktur von Google ist so konzipiert, dass eine optimale Verarbeitung von grossen Datenstrukturen und Indexen gewährleistet ist und das Web entsprechend schnell gecrawalt werden kann. Dies wird zu geringst möglichen Kosten gemacht. Trotz der  enormen Datenmengen bleibt eine Suche auf den Festplattensystemen i.d.R. unter 10 ms bis zur Antwort. Google vermeidet das Suchen auf den Festplattensystemen wo immer das möglich ist, was auch einen grossen  Einfluss auf die Systemarchitektur von Google hatte.

Google verwendet das Konzept von BigFiles. BigFiles sind virtuelle Files welche eine Mehrzahl von File Systemen umspannt und durch 64-Bit Integers adressierbar sind.  Die Allokation auf Multiple File Systemen wird automatisch durchgeführt. Das BigFile Konzept beinhaltet die Allokation und Deallokation von File Deskriptoren sowie Optionen zum Packen von Daten. 

Das Repository beinhaltet die volle HTML-Struktur der Webseiten. Jede Seite ist durch zlib komprimiert. Im Repository sind die Dokumente nacheinander gespeichert und vorgefertigt durch die DocID, URL und Länge. Das Repository  benötigt für den Zugang keine weitere Datenstruktur: die hilft beim Aufrecht erhalten der Datenkonsistenz und erleichtert die Entwicklerarbeit.

Batch Update Modus, Width File, Batch Lauf 
Der Dokumenten Index beinhaltet die Informationen über jedes Dokument. Er ist in einer MySQL ISAM Struktur festgelegt, sortiert nach DocID. Die Informationen die an jedem Eintrag festgelegt sind beinhalten den laufenden Dokumenten Status, einen Zeiger  zum Repository, eine Prüfsumme für das Dokument und einige statistische Angaben. Wenn das Dokument gecrawlt wurde, enthält es auch einen Zeiger zu einem variablen Width File, welches docinfo genannt wird. Docinfo enhält die URL und den Title.  Wenn das Dokument noch nicht gecrwalt wurde zeigt der Zeiger auf die URLList, welche ausschliesslich die URL enthält.  Die Entscheidung für die Design Struktur resultiert aus dem Bedürfnis nach einer kompakten Datenstruktur und der Möglichkeit, einen Eintrag in einer einzigen Suchaktion zu durchsuchen. Zusätzlich gibt es ein File welches URLs in DocIDs umwandelt.  Es handelt sich um eine Liste von URL Prüfsummen mit den zugehörigen DocIDs welche nach der Prüfsumme sortiert sind. Um die DocID einer bestimmten URL zu finden, wird die Prüfsumme der betreffenden URL ermittelt und eine binäre Suche  über der Prüfsumme durchgeführt um die DocID zu finden. URLs können in DocIDs in einem Batch-Lauf umgewandelt werden in dem sie mit dem File zusammengeführt werden. Mit dieser Technik wandelt der URLResolver URLs in DocIDs um. Dieser Batch Update  Modus ist sehr bedeutend für den Erfolg von Google, da man ansonsten für jeden Link eine Suche durchführen müsste, was impliziert dass man für eine Platte mit einem Link Data Set von 322 Millionen Einträgen einen Monat brauchen würde.

Das  Lexikon hat verschiedene Ausprägungen: es kommt in der BackRub Implemetierung mit einem Hauptspeicher von 256 MB aus. Es enthält in dieser Ausführung 14 Millionen Wörter und ist in 2 Teilen implemetiert: eine Wortliste die untereinander verbunden und  durch Nullen getrennt ist und eine Hash Tabelle von Zeigern.

Forward Index, Invertierter Index
Der Forward Index ist vorsortiert und in 64 Barrels gespeichert.  Jeder Barrel enthält eine Bandbreite von WordIDs.

Der Invertierte Index enthält dieselben Barrells, die jedoch durch den Sorter verarbeitet wurden. Für eine valide WordID enthält das Lexikon  einen Zeiger an die entsprechende WordID im Barrel. Er zeigt auf eine Doclist der DocID zusammen mit der entsprechenden Hit List. Die Doclist repräsentiert alle Vorkommnisse von Wörtern in allen Dokumenten.
Siehe auch:    Google   Google-Server   suchmaschinen   Robots   Repository   linux   MyISAM   Second-Extended-Filesystem   Fourth-Extended-Filesystem   C-Plus-Plus
Link: http://infolab.stanford.edu/~backrub/google.html