| meyer88 | |||||
|
Fehlertolerante Systeme oder Fehlertolerante Suchalgorithmen sind in der Lage, auftretende Fehler abzufangen und entsprechend, auch auf die Fehlermeldung abgestimmt, zu reagieren. Unvollständigkeiten oder Fehler bei der Eingabe in ein Suchenfeld sollten dem Nutzer nicht einfach als 'error messages' quittiert werden. Eine mögliche Strategie für fehlertolerantes Suchen mit PHP und MySQL ist: 1. Eine Datenbankabfrage sucht nach einem Stichwort im Klartext. // (...) $Titel_Stichwort="Mainboard"; $STRSQL_01="SELECT master.idmaster, master.titel, master.body FROM master WHERE master.titel = \"$Titel_Stichwort\" Order by master.titel asc limit 0,1 "; // (...) 2. Liefert die MySQL-Abfrage keine Ergebnismenge wird das Suchwort mit einer "function" in ein phonetisches Suchmuster umgewandelt. 2.1 Dies könnte in PHP mit dem Befehl soundex() geschehen oder 2.2 mit einer 'eigenen' buchstabenorientierten Substitutionsmethode: // Basierend aus dem Artikel "Schreibweisentolerante Suchroutine in dBase implementiert" // c't - Magazin für Computertechnik 1988, Heft 10, Georg Wilde, Carsten Meyer function meyer88($Substitution){ // Alle Buchstaben werden zunächst in Großbuchstaben umgewandelt $Substitution=strtoupper($Substitution); // Buchstabenorientierte Substitutionsmethode: // wandelt Buchstabenkombinationen in gleichlautendes Equivalent um $finde = array( "SC","SZ","CZ","TZ","TS","DS","PH","PF", "QU","UE","EU","AE","OE","KS","EI","EY", "K","G","Q","Ü","I","J","ß","F","W","P","T"); $ersetze = array( "C","C","C","C","C","C","V","V", "KV","Y","OY","E","Ö","X","AY","AY", "C","C","C","Y","Y","Y","S","V","V","B","D"); for($I=0;$I<27;$I++){ $Substitution = str_replace($finde[$I],$ersetze[$I],$Substitution); // Doppelte Buchstaben werden entfernt $Substitution = preg_replace('/(.)\1/', '$1', $Substitution); } return $Substitution } 3. Die nächste Datenbankabfrage sucht nun das neue Suchmuster. Denkbar ist ein relationales Datenbanksystem: Mit der Tabelle "master" und einer 1:n-Beziehung zu einer Detail-Tabelle: "slave" mit dem Feld: "phonetik" ⇔ Bedingung hierfür ist, dass zuvor in der Tabelle ein mit demselben Algorithmus (meyer88) indexiertes Feld "phonetik" generiert wurde. $Titel_Schlagwort_Phonetik=meyer88($Titel_Stichwort); $STRSQL_02="SELECT distinct master.idmaster, master.titel, master.body FROM slave Right JOIN master ON slave.idslave = master.idmaster WHERE slave.phonetik = \"$Titel_Schlagwort_Phonetik\" Order by slave.phonetik asc"; 4. Die Ergebnismenge der Schlagwörter aus $STRSQL_02 lassen sich nun auf mehrere Arten mit dem ursprünglichen Suchwort: "$Titel_Stichwort" vergleichen. ⇒ In PHP gibt es hierfür zwei Methoden, um ein Maß für die Unterschiede zweier Wörter zurückzuliefern: similar_text() => Berechnet die Ähnlichkeit zweier Zeichenketten und levenshtein() => Die Levenshtein-Distanz wurde erstmalig 1965 von dem russischer Mathematiker Wladimir Iossifowitsch Lewenstein, als die "minimale Anzahl von Löschungen, Einfügungen und Ersetzungen" definiert, die ein Wort X in das Wort Y umwandelt. |
|||||
| Siehe auch: Semantische-Suchmachine NEOGRID Künstliche-Intelligenz Objektorientierte-Programmierung | |||||
| Semantische-Suchmachine | |||||
|
Semantische Suchmaschinen sollen auf eine Frage in einer natürlichen Sprache eine Antwort geben können. Die Antwort ist natürlich noch nicht perfekt, hängt sie doch von ihrem (statischen) Index ab. Weiterhin sollen solche Suchmaschinen semantische Pfade zu Schlüsselwörtern aufzeigen. Also im Kontext verwandte und weiterführende Begriffe aufzeigen, sowie Kookkurrenzen, Kollokationen, Homonyme, Morpheme oder Synonyme, eben nach Wortklassen analysieren. Semantische Suchmaschinen sind noch in der Entwicklungsphase, es gab aber schon einige beachtliche Versuche, wie von Ask Jeeves oder Answer Bus. Falls das so genannte Grid, eine Art Weiterentwicklung des Internets, verwirklicht werden wird, sollen solche Suchmachinen mit Suchanfragen derart umgehen können, dass sie in der Lage sind, aus den Inhalten des Web, dynamisch neue Informationszusammenstellungen (auch aus Datenbanken im Web) zu generieren, die in dieser Form, ausser auf der jeweiligen Ergebnisseite der Suchanfrage nirgendwo im Web (statisch) zu finden sind. Heutige Versuche beschränken sich auf eine lexikalische und syntaktische Analyse und einer (eingeschränkten) semantischen Analyse sowie einer Analyse nach Wortklassen, wie z. B. das Wortschatz Projekt der Uni Leipzig. Dies birgt allerdings schon grosses Potential: das Aufzeigen von semantischen Pfaden und der semantischen Umgebung (z.B.: Eingabe: Apple - Ausgabe: links: Macintosh → G5 → Intel, rechts: Microsoft → Windows → WMP, oben: iPod → iTunes → MP3, unten: Mac-OS → Mac OS X → Mac-OS X Server. |
|||||
| Siehe auch: suchmaschinen Volltext-Suchmaschinen META-Suchmaschine Semantik NEOGRID meyer88 Mac-OS-X Mac-OS-X-Server Microsoft Google | |||||
| NEOGRID | |||||
|
Neogrid ist ein Online EDV Lexikon für Computer Fachwörter und Online Kompendium der Informationstechnologie. The Grid und komplexe Suchanfragen, Antwortmaschine, Wolframs Alpha Der Name leitet sich ab aus Neo und The Grid, einer zukünftigen Entwicklung des Internet, bei der komplexe Suchanfragen möglich sein sollen, die Informationen generieren, die in derselben Form vorher nicht (zumindest nicht statisch) vorhanden waren. Im Grid ist also semantisches Surfen möglich. Vorläufer gibt es schon heute: das Simile (Semantic Interoperability of Metadata and Information in unLike Environments) Projekt des MIT (Massachusetts Institute of Technology). Eine Anwendung ist z. B. Piggy Bank. Mit diesem Plug-In wird der Firefox Browser zu einem semantischen Browser umgewandelt. Auch manche Suchmaschinen können schon direkte Fragen beantworten: Answer Bus und Ask Jeeves. Semantische Suchmaschinen sind eine zukünftige Anwendungsform im Internet. Wolframs Alpha ist eine Weiterentwicklung und eine Antwortmaschine, welche direkte Fragen beantworten kann. Die Algorithmische Power zieht Stephen Wolfram aus seiner Software Mathematica (http://www.wolfram.com/products/mathematica/index.html) und der Mathworld (http://mathworld.wolfram.com/). Neogrid Features NEOGRID erlaubt auch intelligentes Suchen und Finden: es werden alle Ergebnisse angezeigt, die in einer phonetischen Verbindung mit dem Suchwort stehen, sortiert nach dem Grad der Übereinstimmung. Die verwandten Begriffe erlauben es, die fachliche "Umgebung" eines Suchergebnisses zu erforschen. Man kann sich auch anhand der verwandten Begriffe durch einen bestimmten Themenkreis durchklicken. Eine weitere Besonderheit sind die redaktionell bearbeiteten Suchbegriffe, die für jeden EDV-Begriff angelegt werden. Einen historischen Überblick über die EDV-Geschichte bietet der Menüpunkt Computer-Geschichte: die EDV Zeitleiste erlaubt dem Anwender, wenn er will nach Filtern sortiert, EDV-Begriffe im historischen Zusammenhang zu erforschen. Von 1646 bis heute sind die wichtigsten Ereignisse der EDV Historie auf einen Blick visualisiert. Die Filter umfassen Hardware, Software, Firmen, Personen, Informatik, Netzwerk, Mikrochip, Programmiersprachen, Internet, Highlights der EDV Geschichte und Jahreszahlen. Jahreszahlen können übrigens auch ins Suchfeld eingegeben werden. Damit können gezielt Begriffe abgefragt werden, die mit einem bestimmten Datum in Verbindung stehen. NEOGRID hat eine fehlertolerante Suche integriert. Durch die fehlertolerante Suche werden dem User bei Vertippern oder Rechtschreibfehlern eine Auswahl von Begriffen dargeboten, die eine gewisse phonetische Ähnlichkeit zu den Eingaben des Users aufweisen. Es werden Alternativen angeboten die aus dem Pool der readaktionell bearbeiteten Suchbegriffe stammen und jedem Suchbegriff entsprechend zugeordnet sind. Im IT Glossar können die wichtigsten Fachbegriffe der Welt der Informationstechnologie nachgelesen werden. Neogrid IT-Blog Zusätzlich hat der Neogrid e.V. einen IT-Weblog eingerichtet, der sich mit IT-Themen und Themen aus anderen Wissenschaften beschäftigt. HIXGRID - The Science Network Ein weiteres Projekt des Neogrid e.V. ist das Wissenschaftsnetzwerk HIXGRID (hixgrid.de), welches den 'Advanced Science Ansatz verfolgt, einer Mischung aus interdisziplinärer Wissenschaft und Elementen aus der emotionalen Intelligenz (Motto: Feel Science). Wissenschaftler aus der ganzen Welt sind eingeladen, den Stand der Wissenschaft voranzutreiben und ihre Ideen und Arbeiten zu präsentieren und mit anderen Interessierten zu teilen. Die Science-Plattform HIXGRID wurde mit der Open Source Social Network Engine Elgg erstellt. |
|||||
| Siehe auch: Science-Network-Hixgrid meyer88 Künstliche-Intelligenz Semantische-Suchmachine computerkunst PHP MySQL Objektorientierte-Programmierung Elgg | |||||
| Link: http://mathworld.wolfram.com | |||||
| Information-Retrieval | |||||
|
Wissen und Informationssysteme Das Wissen aus Informationssystemen nach den Suchkriterien des Users optimal und im korrekten semantischen Kontext zu erlangen ist ein Problem des Information Retrieval. Es gibt unterschiedliche Informationssysteme wie Verteilte Datenbanken oder einzelne Datenbanken, Webbasierte Systeme, Unternehmensbasierte Systeme, (online) Bibliotheken, Datenspeicher, KI-Systeme, Dokumentenmanagementsysteme, Filesysteme, CMS-Systeme oder Unternehmensinformationssysteme wie CRM- oder ERM-Systeme oder andere Informationsarchitekturen. Dabei können die Wissensdisziplinen der IR-Systeme auch interdisziplinär sein und neben Wirtschaftswissenschaften und soziologischen Wissenschaften auch Naturwissenschaften, Kultur und Musik auch Informationswissenschaften oder Informatik u.a. Disziplinen umfassen. Wissen selber ist nie vollständig und nie völlig korrekt sondern steht im semantischen und themenbezogenen Kontext. Eine wahre Herausforderung ist es, Wissen und Informationen nach den entsprechenden Suchkriterien zusammen zu stellen und auf zu bereiten, so dass es für die Intention des Anfragestellers verwendbar ist und möglicherweise eine neue, intelligente Zusammenstellung zu generieren, die so vorher in den einzelnen Ablagestellen des jeweiligen Informationssystems, nicht an zu treffen war. Deswegen werden auch spezielle Anforderungen an die Intelligenz bzw. KI des Suchsystems gestellt. Precision und Recall Die Ergebnismenge wird durch die Parameter Precison und Recall eingeteilt. Precision (Genauigkeit) meint hier die Relevanz der Suchtreffer: Es handelt sich um den Quotienten aus der Anzahl der relevanten Treffer und der zugrundeliegenden Suchmenge (Precison = T/(T+N) wobei T die relevanten Treffer darstellt und N die nichtrelevanten Treffer, die im Suchergebnis enthalten sind = Balast). Recall (Vollständigkeit) ist ein Begriff der ausdrückt, wie komplett die Ergebnismenge ist. Es handelt sich um den Quotient aus der Anzahl der relevanten Treffer und der Gesamtzahl der relevanten Dokumente in der Suchmenge (Recall= T/(T+V), wobei V die Anzahl der relevanten Dokumente ist, die nicht in der Treffermenge enthalten sind =Verlust). Wissensbarrieren und Wissensdisziplinen Es gibt verschiedene Barrieren um an Wissen zu kommen: technologische Barrieren, Sprachbarrieren, Know-How-Barrieren (Wissen um die KI und die Abfragetechnologie), geografische, politische und kulturelle Barrieren oder finanzielle und intellektuelle Barrieren. Information Retrieval Systeme arbeiten mit Hilfe von verschiedenen Wissenschaften um Ihren Dienst ausführen zu können: die Informationswissenschaft, Archivierungs- und Bibliothekswissenschaften, Dokumentationswissenschaft, Informatik, Wissensforschung und Sprachwissenschaft bzw. Computerlinguistik und der Künstlichen Intelligenz als Spezialgebiet der Informatik. Auch die Wirtschaftswissenschaften sind involviert, da sie sich mit Unternehmensinformationssystemen und mit der Organisation von Informations- und Kommunikationssystemen und dem Wissensmanagement befassen. Relevanz und Pertinenz Grundlegende Begriffe für das Information Retrieval sind auch Relevanz und Pertinenz. Relevanz bezieht sich auf den objektiven, nutzerunabhängigen Nutzen eines Dokumentes oder einer Information. Ein relevantes Dokument bezieht sich auf den objektiven Nutzen einer Information, wenn sie zur Vorbereitung einer Entscheidung dient, eine Lücke im Wissen (Knowledge Gap) schließt oder es als objektiver Indikator für die Erfüllung bestimmter Thesen dient. Die Pertinenz eines Dokumentes bezieht sich auf den subjektiven Nutzen des Suchenden: Eine relevantes Dokument bezieht sich auf den subjektiven Nutzen einer Information, wenn sie zur subjektiven Vorbereitung einer Entscheidung dient, eine Lücke im Wissen schließt oder es als subjektiver Indikator für die Erfüllung bestimmter Thesen dient. CIN und POIN Weiterhin unterscheidet man den Concrete Information Need (CIN) und den Problem Oriented Information Need (POIN). Der CIN bezieht sich auf die Übertragung von Fakten während der POIN konkrete, auch komplexe Fragestellungen beantworten soll. Beim POIN sind die thematischen Grenzen nicht exakt definierbar, die Formulierung der Suchanfrage ist terminologisch nicht festgelegt durch exakte Terme, um die Anfrage zu beantworten sind verschiedene Dokumente notwendig, das Anfrageproblem kann erweitert oder modifiziert werden durch zusätzliche Informationen wie Literaturangaben oder Dokumente die eine solche Erweiterung ermöglichen, es kommt stark auf die Ausformulierung der Suchanfrage und der systembedingten Möglichkeiten dazu an, der Erweiterungsbedarf der ursprünglichen Suchanfrage steigt mit der Komplexität der Fragestellung, das Ergebnis der Suchanfrage steht nicht von vorne herein weitesgehend fest. Retrievalsysteme Retrievalsysteme gibt es für digitale Textdokumente oder digitale Audio-, Bild- oder Videofiles. Zusätzlich gibt es unterschiedliche Formen der Indexierung dieser Files und der Kontrollierbarkeit durch Abfragesysteme bzw. Suchtermini. Die Architektur von Retrievalsystemen umfasst unterschiedliche Hierarchien der Informationsebenen - vom Betriebssystem, dem Datenbankmanagementsystem, dem Dokumentenmanagementsystem, dem Computerlinguistischen System, den Schnittstellen bis zu dem jeweiligen Ablagesystem auf den Datenspeichern. Dabei gibt es unterschiedliche Hürden zu überwinden: das Erkennen von Spam oder Dubletten, die Fähigkeit zum Deep Scanning in Datenbanken oder dem Web, die Handhabung unterschiedlicher Technologien und Arten von Dokumenten bzw. der Fähigkeit dynamische Inhalte zu erkennen (z.B. PHP/MySQL Dokumente) und dem Sichtbarmachen des Invisible Web durch entsprechende Crawler. Auch das Erkennen unterschiedlicher Organisationsstrategien wie FIFO, LIFO oder das Erkennen semantischer Kontexte. Ein gutes Retrieval System sollte auch unterschiedliche Abfragestrategien beherrschen wie Boolesches Retrieval: die Verknüpfung von Datensätzen mit Logischen Operatoren. Eine Erweiterung durch Fuzzy Logic oder Gewichtung der Ergebnisse ist auch möglich. Auch Fehlertolerante Systeme sind möglich. Retrieval Modelle können auf mengenorientierten Modellen, algebraischen Modellen oder probabilistischen Modellen basieren. |
|||||
| Siehe auch: informatik datenbank Künstliche-Intelligenz Dokumentenmanagementsystem Boolesche-Algebra Semantik meyer88 internet ERP Fuzzy-Logik | |||||