Information-Retrieval

Wissen und Informationssysteme
Das Wissen aus Informationssystemen nach den Suchkriterien des Users optimal und im korrekten semantischen Kontext zu erlangen ist ein Problem des Information Retrieval.  Es gibt unterschiedliche Informationssysteme wie Verteilte Datenbanken oder einzelne Datenbanken, Webbasierte Systeme, Unternehmensbasierte Systeme, (online) Bibliotheken, Datenspeicher, KI-Systeme, Dokumentenmanagementsysteme, Filesysteme, CMS-Systeme  oder Unternehmensinformationssysteme wie CRM- oder ERM-Systeme oder andere Informationsarchitekturen. Dabei können die Wissensdisziplinen der IR-Systeme auch interdisziplinär sein und neben Wirtschaftswissenschaften und  soziologischen Wissenschaften auch Naturwissenschaften, Kultur und Musik auch Informationswissenschaften oder Informatik u.a. Disziplinen umfassen. 

Wissen selber ist nie vollständig und nie völlig korrekt sondern steht im semantischen und themenbezogenen Kontext.  Eine wahre Herausforderung ist es, Wissen und Informationen nach den entsprechenden Suchkriterien zusammen zu stellen und auf zu bereiten, so dass es für die Intention des Anfragestellers verwendbar ist  und möglicherweise eine neue, intelligente Zusammenstellung zu generieren, die so vorher in den einzelnen Ablagestellen des jeweiligen Informationssystems, nicht an zu treffen war.  Deswegen werden auch spezielle Anforderungen an die Intelligenz bzw. KI des Suchsystems gestellt.

Precision und Recall 
Die Ergebnismenge wird durch die Parameter Precison und Recall eingeteilt. Precision (Genauigkeit) meint hier die Relevanz der Suchtreffer: Es handelt sich um den Quotienten aus der Anzahl der relevanten Treffer und der zugrundeliegenden Suchmenge  (Precison = T/(T+N) wobei T die relevanten Treffer darstellt und N die nichtrelevanten Treffer, die im Suchergebnis enthalten sind = Balast).  Recall (Vollständigkeit) ist ein Begriff der ausdrückt, wie komplett die Ergebnismenge ist. Es handelt sich um den Quotient aus der Anzahl der relevanten Treffer und der Gesamtzahl der relevanten Dokumente in der Suchmenge  (Recall= T/(T+V), wobei V die Anzahl der relevanten Dokumente ist, die nicht in der Treffermenge enthalten sind =Verlust).

Wissensbarrieren und Wissensdisziplinen 
Es gibt verschiedene Barrieren um an Wissen zu kommen: technologische Barrieren, Sprachbarrieren, Know-How-Barrieren (Wissen um die KI und die Abfragetechnologie),  geografische, politische und kulturelle Barrieren oder finanzielle und intellektuelle Barrieren.

Information Retrieval Systeme arbeiten mit Hilfe von verschiedenen Wissenschaften um Ihren Dienst ausführen  zu können: die Informationswissenschaft, Archivierungs- und Bibliothekswissenschaften, Dokumentationswissenschaft, Informatik, Wissensforschung und Sprachwissenschaft bzw. Computerlinguistik und der Künstlichen Intelligenz  als Spezialgebiet der Informatik. Auch die Wirtschaftswissenschaften sind involviert, da sie sich mit Unternehmensinformationssystemen und mit der Organisation von Informations- und Kommunikationssystemen und dem Wissensmanagement befassen. 

Relevanz und Pertinenz
Grundlegende Begriffe für das Information Retrieval sind auch Relevanz und Pertinenz. Relevanz bezieht sich auf den objektiven, nutzerunabhängigen Nutzen eines Dokumentes oder einer  Information. Ein relevantes Dokument bezieht sich auf den objektiven Nutzen einer Information, wenn sie zur Vorbereitung einer Entscheidung dient, eine Lücke im Wissen (Knowledge Gap) schließt oder es als objektiver Indikator für die Erfüllung  bestimmter Thesen dient.

Die Pertinenz eines Dokumentes bezieht sich auf den subjektiven Nutzen des Suchenden: Eine relevantes Dokument bezieht sich auf den subjektiven Nutzen einer Information, wenn sie zur subjektiven Vorbereitung einer  Entscheidung dient, eine Lücke im Wissen schließt oder es als subjektiver Indikator für die Erfüllung bestimmter Thesen dient.

CIN und POIN
Weiterhin unterscheidet man den Concrete Information Need (CIN)  und den Problem Oriented Information Need (POIN). Der CIN bezieht sich auf die Übertragung von Fakten während der POIN konkrete, auch komplexe Fragestellungen beantworten soll. Beim POIN  sind die thematischen Grenzen nicht exakt definierbar, die Formulierung der Suchanfrage ist terminologisch nicht festgelegt durch exakte Terme, um die Anfrage zu beantworten sind verschiedene Dokumente notwendig,  das Anfrageproblem kann erweitert oder modifiziert werden durch zusätzliche Informationen wie Literaturangaben oder Dokumente die eine solche Erweiterung ermöglichen, es kommt stark auf die Ausformulierung der Suchanfrage und der  systembedingten Möglichkeiten dazu an, der Erweiterungsbedarf der ursprünglichen Suchanfrage steigt mit der Komplexität der Fragestellung, das Ergebnis der Suchanfrage steht nicht von vorne herein weitesgehend fest.

Retrievalsysteme 
Retrievalsysteme gibt es für digitale Textdokumente oder digitale Audio-, Bild- oder Videofiles. Zusätzlich gibt es unterschiedliche Formen der Indexierung dieser Files und der Kontrollierbarkeit durch Abfragesysteme bzw. Suchtermini.  Die Architektur von Retrievalsystemen umfasst unterschiedliche Hierarchien der Informationsebenen - vom Betriebssystem, dem Datenbankmanagementsystem, dem Dokumentenmanagementsystem, dem Computerlinguistischen System, den  Schnittstellen bis zu dem jeweiligen Ablagesystem auf den Datenspeichern.

Dabei gibt es unterschiedliche Hürden zu überwinden: das Erkennen von Spam oder Dubletten, die Fähigkeit zum Deep Scanning in Datenbanken oder dem Web, die Handhabung  unterschiedlicher Technologien und Arten von Dokumenten bzw. der Fähigkeit dynamische Inhalte zu erkennen (z.B. PHP/MySQL Dokumente) und dem Sichtbarmachen des Invisible Web durch entsprechende Crawler. Auch das Erkennen unterschiedlicher  Organisationsstrategien wie FIFO, LIFO oder das Erkennen semantischer Kontexte.

Ein gutes Retrieval System sollte auch unterschiedliche Abfragestrategien beherrschen wie Boolesches Retrieval: die Verknüpfung von Datensätzen mit Logischen Operatoren.  Eine Erweiterung durch Fuzzy Logic oder Gewichtung der Ergebnisse ist auch möglich. Auch Fehlertolerante Systeme sind möglich. Retrieval Modelle können auf mengenorientierten Modellen, algebraischen Modellen oder probabilistischen Modellen basieren.

Siehe auch:    informatik   datenbank   Künstliche-Intelligenz   Dokumentenmanagementsystem   Boolesche-Algebra   Semantik   meyer88   internet   ERP   Fuzzy-Logik