meyer88

Fehlertolerante Systeme oder Fehlertolerante Suchalgorithmen sind in der Lage, auftretende Fehler abzufangen und entsprechend, auch auf die Fehlermeldung abgestimmt, zu reagieren. Unvollständigkeiten  oder Fehler bei der Eingabe in ein Suchenfeld sollten dem Nutzer nicht einfach als 'error messages' quittiert werden. Eine mögliche Strategie für fehlertolerantes Suchen mit PHP und MySQL ist:

  1. Eine Datenbankabfrage sucht nach einem Stichwort im Klartext.

// (...)
$Titel_Stichwort="Mainboard";
$STRSQL_01="SELECT master.idmaster, master.titel, master.body
  FROM master WHERE master.titel = \"$Titel_Stichwort\"
Order by master.titel asc limit 0,1 ";
// (...)

  2. Liefert die MySQL-Abfrage keine Ergebnismenge wird das Suchwort mit einer "function" in ein phonetisches Suchmuster umgewandelt.
  2.1 Dies könnte in PHP mit dem Befehl soundex() geschehen oder
2.2 mit einer 'eigenen' buchstabenorientierten Substitutionsmethode:

  // Basierend aus dem Artikel "Schreibweisentolerante Suchroutine in dBase implementiert"
// c't - Magazin für Computertechnik 1988, Heft 10, Georg Wilde, Carsten Meyer

function meyer88($Substitution){

  // Alle Buchstaben werden zunächst in Großbuchstaben umgewandelt

$Substitution=strtoupper($Substitution);

// Buchstabenorientierte Substitutionsmethode:
// wandelt Buchstabenkombinationen in gleichlautendes Equivalent um

  $finde = array(

"SC","SZ","CZ","TZ","TS","DS","PH","PF",
"QU","UE","EU","AE","OE","KS","EI","EY",
"K","G","Q","Ü","I","J","ß","F","W","P","T");

  $ersetze = array(

"C","C","C","C","C","C","V","V",
"KV","Y","OY","E","Ö","X","AY","AY",
"C","C","C","Y","Y","Y","S","V","V","B","D");

  for($I=0;$I<27;$I++){
$Substitution = str_replace($finde[$I],$ersetze[$I],$Substitution);
// Doppelte Buchstaben werden entfernt
$Substitution = preg_replace('/(.)\1/', '$1', $Substitution);
}

  return $Substitution
}

3. Die nächste Datenbankabfrage sucht nun das neue Suchmuster. Denkbar ist ein relationales Datenbanksystem: Mit der Tabelle "master" und einer 1:n-Beziehung zu einer Detail-Tabelle: "slave" mit dem Feld: "phonetik"    ⇔ Bedingung hierfür ist, dass zuvor in der Tabelle ein mit demselben Algorithmus (meyer88) indexiertes Feld "phonetik" generiert wurde.

$Titel_Schlagwort_Phonetik=meyer88($Titel_Stichwort);

  $STRSQL_02="SELECT distinct master.idmaster, master.titel, master.body
FROM slave Right JOIN master ON
slave.idslave = master.idmaster
  WHERE slave.phonetik = \"$Titel_Schlagwort_Phonetik\"
Order by slave.phonetik asc";

4. Die Ergebnismenge der Schlagwörter aus $STRSQL_02 lassen sich nun auf mehrere Arten mit dem ursprünglichen Suchwort:  "$Titel_Stichwort" vergleichen.
⇒ In PHP gibt es hierfür zwei Methoden, um ein Maß für die Unterschiede zweier Wörter zurückzuliefern:
  similar_text() => Berechnet die Ähnlichkeit zweier Zeichenketten und
  levenshtein() => Die Levenshtein-Distanz wurde erstmalig 1965 von dem russischer Mathematiker Wladimir Iossifowitsch Lewenstein, als die "minimale Anzahl von Löschungen, Einfügungen und Ersetzungen" definiert, die ein Wort X in das Wort Y umwandelt.

                     
Siehe auch:    Semantische-Suchmachine   NEOGRID   Künstliche-Intelligenz   Objektorientierte-Programmierung   

  Semantische-Suchmachine

Semantische Suchmaschinen sollen auf eine Frage in einer natürlichen Sprache eine Antwort geben können. Die Antwort ist natürlich noch nicht perfekt, hängt sie doch von ihrem (statischen) Index ab. Weiterhin sollen solche Suchmaschinen semantische  Pfade zu Schlüsselwörtern aufzeigen. Also im Kontext verwandte und weiterführende Begriffe aufzeigen, sowie Kookkurrenzen, Kollokationen, Homonyme, Morpheme oder Synonyme, eben nach Wortklassen analysieren. Semantische Suchmaschinen sind noch in der  Entwicklungsphase, es gab aber schon einige beachtliche Versuche, wie von Ask Jeeves oder Answer Bus. Falls das so genannte Grid, eine Art Weiterentwicklung des Internets, verwirklicht werden wird, sollen solche Suchmachinen mit Suchanfragen derart  umgehen können, dass sie in der Lage sind, aus den Inhalten des Web, dynamisch neue Informationszusammenstellungen (auch aus Datenbanken im Web) zu generieren, die in dieser Form,  ausser auf der jeweiligen Ergebnisseite der Suchanfrage nirgendwo im Web (statisch) zu finden sind. Heutige Versuche beschränken sich auf eine lexikalische und syntaktische Analyse und einer (eingeschränkten)  semantischen Analyse sowie einer Analyse nach Wortklassen, wie z. B. das Wortschatz Projekt der Uni Leipzig. Dies birgt allerdings schon grosses  Potential: das Aufzeigen von semantischen Pfaden und der semantischen Umgebung (z.B.: Eingabe: Apple - Ausgabe:  links: Macintosh → G5 → Intel, rechts: Microsoft → Windows → WMP, oben: iPod → iTunes → MP3, unten: Mac-OS → Mac OS X → Mac-OS X Server.                                           
Siehe auch:    suchmaschinen   Volltext-Suchmaschinen   META-Suchmaschine   Semantik   NEOGRID   meyer88   Mac-OS-X   Mac-OS-X-Server   Microsoft   Google

  NEOGRID
Vereinslogo des Neogrid e.V. Vereinslogo des Neogrid e.V.
Neogrid ist ein Online EDV Lexikon für Computer Fachwörter und Online Kompendium der Informationstechnologie.

The Grid und komplexe Suchanfragen, Antwortmaschine, Wolframs Alpha
Der Name leitet sich ab aus Neo und The Grid, einer zukünftigen  Entwicklung des Internet, bei der komplexe Suchanfragen möglich sein sollen, die Informationen generieren, die in derselben Form vorher nicht (zumindest nicht statisch) vorhanden waren. Im Grid ist also semantisches Surfen möglich.  Vorläufer gibt es schon heute: das Simile (Semantic Interoperability of Metadata and Information in unLike Environments) Projekt des MIT (Massachusetts Institute of Technology).  Eine Anwendung ist z. B. Piggy Bank. Mit diesem Plug-In wird der Firefox Browser zu einem semantischen Browser umgewandelt. Auch manche Suchmaschinen können schon direkte Fragen beantworten: Answer Bus und Ask Jeeves. Semantische Suchmaschinen sind  eine zukünftige Anwendungsform im Internet. Wolframs Alpha ist eine Weiterentwicklung und eine Antwortmaschine, welche direkte Fragen beantworten kann.  Die Algorithmische Power zieht Stephen Wolfram aus seiner Software Mathematica (http://www.wolfram.com/products/mathematica/index.html) und der Mathworld (http://mathworld.wolfram.com/). 

Neogrid Features
NEOGRID erlaubt auch intelligentes  Suchen und Finden: es werden alle Ergebnisse angezeigt, die in einer phonetischen Verbindung mit dem Suchwort stehen, sortiert nach dem Grad der Übereinstimmung. Die verwandten  Begriffe erlauben es, die fachliche "Umgebung" eines Suchergebnisses zu erforschen. Man kann sich auch anhand der verwandten Begriffe durch einen bestimmten Themenkreis durchklicken. Eine weitere Besonderheit sind die redaktionell bearbeiteten  Suchbegriffe, die für jeden EDV-Begriff angelegt werden. Einen historischen Überblick über die EDV-Geschichte bietet der Menüpunkt Computer-Geschichte: die EDV Zeitleiste erlaubt dem Anwender, wenn er will nach  Filtern sortiert, EDV-Begriffe im historischen Zusammenhang zu erforschen. Von 1646 bis heute sind die wichtigsten Ereignisse der EDV Historie auf einen Blick visualisiert. Die Filter umfassen Hardware, Software, Firmen, Personen, Informatik,  Netzwerk, Mikrochip, Programmiersprachen, Internet, Highlights der EDV Geschichte und Jahreszahlen. Jahreszahlen können übrigens auch ins Suchfeld eingegeben werden. Damit können gezielt Begriffe abgefragt werden, die mit einem bestimmten Datum  in Verbindung stehen. NEOGRID hat eine fehlertolerante Suche integriert. Durch die fehlertolerante Suche werden dem User bei Vertippern oder Rechtschreibfehlern eine Auswahl von Begriffen dargeboten,  die eine gewisse phonetische Ähnlichkeit zu den Eingaben des Users aufweisen.  Es werden Alternativen angeboten die aus dem Pool der readaktionell bearbeiteten Suchbegriffe stammen und jedem Suchbegriff entsprechend zugeordnet sind.  Im IT Glossar können die wichtigsten Fachbegriffe der Welt der Informationstechnologie nachgelesen werden. 

Neogrid IT-Blog
Zusätzlich hat der Neogrid e.V. einen IT-Weblog eingerichtet, der sich mit IT-Themen und Themen aus anderen Wissenschaften beschäftigt. 

HIXGRID - The Science Network
Ein weiteres Projekt des Neogrid e.V. ist das Wissenschaftsnetzwerk HIXGRID (hixgrid.de), welches den 'Advanced Science Ansatz verfolgt,  einer Mischung aus interdisziplinärer Wissenschaft und Elementen aus der emotionalen Intelligenz  (Motto: Feel Science). Wissenschaftler aus der ganzen Welt sind eingeladen, den Stand der Wissenschaft voranzutreiben und ihre Ideen und Arbeiten zu präsentieren und mit anderen Interessierten zu teilen.  Die Science-Plattform HIXGRID wurde mit der Open Source Social Network Engine Elgg erstellt.                 
Siehe auch:    Science-Network-Hixgrid   meyer88   Künstliche-Intelligenz   Semantische-Suchmachine   computerkunst   PHP   MySQL   Objektorientierte-Programmierung   Elgg   
Link: http://mathworld.wolfram.com


  Information-Retrieval

Wissen und Informationssysteme
Das Wissen aus Informationssystemen nach den Suchkriterien des Users optimal und im korrekten semantischen Kontext zu erlangen ist ein Problem des Information Retrieval.  Es gibt unterschiedliche Informationssysteme wie Verteilte Datenbanken oder einzelne Datenbanken, Webbasierte Systeme, Unternehmensbasierte Systeme, (online) Bibliotheken, Datenspeicher, KI-Systeme, Dokumentenmanagementsysteme, Filesysteme, CMS-Systeme  oder Unternehmensinformationssysteme wie CRM- oder ERM-Systeme oder andere Informationsarchitekturen. Dabei können die Wissensdisziplinen der IR-Systeme auch interdisziplinär sein und neben Wirtschaftswissenschaften und  soziologischen Wissenschaften auch Naturwissenschaften, Kultur und Musik auch Informationswissenschaften oder Informatik u.a. Disziplinen umfassen. 

Wissen selber ist nie vollständig und nie völlig korrekt sondern steht im semantischen und themenbezogenen Kontext.  Eine wahre Herausforderung ist es, Wissen und Informationen nach den entsprechenden Suchkriterien zusammen zu stellen und auf zu bereiten, so dass es für die Intention des Anfragestellers verwendbar ist  und möglicherweise eine neue, intelligente Zusammenstellung zu generieren, die so vorher in den einzelnen Ablagestellen des jeweiligen Informationssystems, nicht an zu treffen war.  Deswegen werden auch spezielle Anforderungen an die Intelligenz bzw. KI des Suchsystems gestellt.

Precision und Recall 
Die Ergebnismenge wird durch die Parameter Precison und Recall eingeteilt. Precision (Genauigkeit) meint hier die Relevanz der Suchtreffer: Es handelt sich um den Quotienten aus der Anzahl der relevanten Treffer und der zugrundeliegenden Suchmenge  (Precison = T/(T+N) wobei T die relevanten Treffer darstellt und N die nichtrelevanten Treffer, die im Suchergebnis enthalten sind = Balast).  Recall (Vollständigkeit) ist ein Begriff der ausdrückt, wie komplett die Ergebnismenge ist. Es handelt sich um den Quotient aus der Anzahl der relevanten Treffer und der Gesamtzahl der relevanten Dokumente in der Suchmenge  (Recall= T/(T+V), wobei V die Anzahl der relevanten Dokumente ist, die nicht in der Treffermenge enthalten sind =Verlust).

Wissensbarrieren und Wissensdisziplinen 
Es gibt verschiedene Barrieren um an Wissen zu kommen: technologische Barrieren, Sprachbarrieren, Know-How-Barrieren (Wissen um die KI und die Abfragetechnologie),  geografische, politische und kulturelle Barrieren oder finanzielle und intellektuelle Barrieren.

Information Retrieval Systeme arbeiten mit Hilfe von verschiedenen Wissenschaften um Ihren Dienst ausführen  zu können: die Informationswissenschaft, Archivierungs- und Bibliothekswissenschaften, Dokumentationswissenschaft, Informatik, Wissensforschung und Sprachwissenschaft bzw. Computerlinguistik und der Künstlichen Intelligenz  als Spezialgebiet der Informatik. Auch die Wirtschaftswissenschaften sind involviert, da sie sich mit Unternehmensinformationssystemen und mit der Organisation von Informations- und Kommunikationssystemen und dem Wissensmanagement befassen. 

Relevanz und Pertinenz
Grundlegende Begriffe für das Information Retrieval sind auch Relevanz und Pertinenz. Relevanz bezieht sich auf den objektiven, nutzerunabhängigen Nutzen eines Dokumentes oder einer  Information. Ein relevantes Dokument bezieht sich auf den objektiven Nutzen einer Information, wenn sie zur Vorbereitung einer Entscheidung dient, eine Lücke im Wissen (Knowledge Gap) schließt oder es als objektiver Indikator für die Erfüllung  bestimmter Thesen dient.

Die Pertinenz eines Dokumentes bezieht sich auf den subjektiven Nutzen des Suchenden: Eine relevantes Dokument bezieht sich auf den subjektiven Nutzen einer Information, wenn sie zur subjektiven Vorbereitung einer  Entscheidung dient, eine Lücke im Wissen schließt oder es als subjektiver Indikator für die Erfüllung bestimmter Thesen dient.

CIN und POIN
Weiterhin unterscheidet man den Concrete Information Need (CIN)  und den Problem Oriented Information Need (POIN). Der CIN bezieht sich auf die Übertragung von Fakten während der POIN konkrete, auch komplexe Fragestellungen beantworten soll. Beim POIN  sind die thematischen Grenzen nicht exakt definierbar, die Formulierung der Suchanfrage ist terminologisch nicht festgelegt durch exakte Terme, um die Anfrage zu beantworten sind verschiedene Dokumente notwendig,  das Anfrageproblem kann erweitert oder modifiziert werden durch zusätzliche Informationen wie Literaturangaben oder Dokumente die eine solche Erweiterung ermöglichen, es kommt stark auf die Ausformulierung der Suchanfrage und der  systembedingten Möglichkeiten dazu an, der Erweiterungsbedarf der ursprünglichen Suchanfrage steigt mit der Komplexität der Fragestellung, das Ergebnis der Suchanfrage steht nicht von vorne herein weitesgehend fest.

Retrievalsysteme 
Retrievalsysteme gibt es für digitale Textdokumente oder digitale Audio-, Bild- oder Videofiles. Zusätzlich gibt es unterschiedliche Formen der Indexierung dieser Files und der Kontrollierbarkeit durch Abfragesysteme bzw. Suchtermini.  Die Architektur von Retrievalsystemen umfasst unterschiedliche Hierarchien der Informationsebenen - vom Betriebssystem, dem Datenbankmanagementsystem, dem Dokumentenmanagementsystem, dem Computerlinguistischen System, den  Schnittstellen bis zu dem jeweiligen Ablagesystem auf den Datenspeichern.

Dabei gibt es unterschiedliche Hürden zu überwinden: das Erkennen von Spam oder Dubletten, die Fähigkeit zum Deep Scanning in Datenbanken oder dem Web, die Handhabung  unterschiedlicher Technologien und Arten von Dokumenten bzw. der Fähigkeit dynamische Inhalte zu erkennen (z.B. PHP/MySQL Dokumente) und dem Sichtbarmachen des Invisible Web durch entsprechende Crawler. Auch das Erkennen unterschiedlicher  Organisationsstrategien wie FIFO, LIFO oder das Erkennen semantischer Kontexte.

Ein gutes Retrieval System sollte auch unterschiedliche Abfragestrategien beherrschen wie Boolesches Retrieval: die Verknüpfung von Datensätzen mit Logischen Operatoren.  Eine Erweiterung durch Fuzzy Logic oder Gewichtung der Ergebnisse ist auch möglich. Auch Fehlertolerante Systeme sind möglich. Retrieval Modelle können auf mengenorientierten Modellen, algebraischen Modellen oder probabilistischen Modellen basieren.

Siehe auch:    informatik   datenbank   Künstliche-Intelligenz   Dokumentenmanagementsystem   Boolesche-Algebra   Semantik   meyer88   internet   ERP   Fuzzy-Logik