| Information-Retrieval | |||||
|
Wissen und Informationssysteme Das Wissen aus Informationssystemen nach den Suchkriterien des Users optimal und im korrekten semantischen Kontext zu erlangen ist ein Problem des Information Retrieval. Es gibt unterschiedliche Informationssysteme wie Verteilte Datenbanken oder einzelne Datenbanken, Webbasierte Systeme, Unternehmensbasierte Systeme, (online) Bibliotheken, Datenspeicher, KI-Systeme, Dokumentenmanagementsysteme, Filesysteme, CMS-Systeme oder Unternehmensinformationssysteme wie CRM- oder ERM-Systeme oder andere Informationsarchitekturen. Dabei können die Wissensdisziplinen der IR-Systeme auch interdisziplinär sein und neben Wirtschaftswissenschaften und soziologischen Wissenschaften auch Naturwissenschaften, Kultur und Musik auch Informationswissenschaften oder Informatik u.a. Disziplinen umfassen. Wissen selber ist nie vollständig und nie völlig korrekt sondern steht im semantischen und themenbezogenen Kontext. Eine wahre Herausforderung ist es, Wissen und Informationen nach den entsprechenden Suchkriterien zusammen zu stellen und auf zu bereiten, so dass es für die Intention des Anfragestellers verwendbar ist und möglicherweise eine neue, intelligente Zusammenstellung zu generieren, die so vorher in den einzelnen Ablagestellen des jeweiligen Informationssystems, nicht an zu treffen war. Deswegen werden auch spezielle Anforderungen an die Intelligenz bzw. KI des Suchsystems gestellt. Precision und Recall Die Ergebnismenge wird durch die Parameter Precison und Recall eingeteilt. Precision (Genauigkeit) meint hier die Relevanz der Suchtreffer: Es handelt sich um den Quotienten aus der Anzahl der relevanten Treffer und der zugrundeliegenden Suchmenge (Precison = T/(T+N) wobei T die relevanten Treffer darstellt und N die nichtrelevanten Treffer, die im Suchergebnis enthalten sind = Balast). Recall (Vollständigkeit) ist ein Begriff der ausdrückt, wie komplett die Ergebnismenge ist. Es handelt sich um den Quotient aus der Anzahl der relevanten Treffer und der Gesamtzahl der relevanten Dokumente in der Suchmenge (Recall= T/(T+V), wobei V die Anzahl der relevanten Dokumente ist, die nicht in der Treffermenge enthalten sind =Verlust). Wissensbarrieren und Wissensdisziplinen Es gibt verschiedene Barrieren um an Wissen zu kommen: technologische Barrieren, Sprachbarrieren, Know-How-Barrieren (Wissen um die KI und die Abfragetechnologie), geografische, politische und kulturelle Barrieren oder finanzielle und intellektuelle Barrieren. Information Retrieval Systeme arbeiten mit Hilfe von verschiedenen Wissenschaften um Ihren Dienst ausführen zu können: die Informationswissenschaft, Archivierungs- und Bibliothekswissenschaften, Dokumentationswissenschaft, Informatik, Wissensforschung und Sprachwissenschaft bzw. Computerlinguistik und der Künstlichen Intelligenz als Spezialgebiet der Informatik. Auch die Wirtschaftswissenschaften sind involviert, da sie sich mit Unternehmensinformationssystemen und mit der Organisation von Informations- und Kommunikationssystemen und dem Wissensmanagement befassen. Relevanz und Pertinenz Grundlegende Begriffe für das Information Retrieval sind auch Relevanz und Pertinenz. Relevanz bezieht sich auf den objektiven, nutzerunabhängigen Nutzen eines Dokumentes oder einer Information. Ein relevantes Dokument bezieht sich auf den objektiven Nutzen einer Information, wenn sie zur Vorbereitung einer Entscheidung dient, eine Lücke im Wissen (Knowledge Gap) schließt oder es als objektiver Indikator für die Erfüllung bestimmter Thesen dient. Die Pertinenz eines Dokumentes bezieht sich auf den subjektiven Nutzen des Suchenden: Eine relevantes Dokument bezieht sich auf den subjektiven Nutzen einer Information, wenn sie zur subjektiven Vorbereitung einer Entscheidung dient, eine Lücke im Wissen schließt oder es als subjektiver Indikator für die Erfüllung bestimmter Thesen dient. CIN und POIN Weiterhin unterscheidet man den Concrete Information Need (CIN) und den Problem Oriented Information Need (POIN). Der CIN bezieht sich auf die Übertragung von Fakten während der POIN konkrete, auch komplexe Fragestellungen beantworten soll. Beim POIN sind die thematischen Grenzen nicht exakt definierbar, die Formulierung der Suchanfrage ist terminologisch nicht festgelegt durch exakte Terme, um die Anfrage zu beantworten sind verschiedene Dokumente notwendig, das Anfrageproblem kann erweitert oder modifiziert werden durch zusätzliche Informationen wie Literaturangaben oder Dokumente die eine solche Erweiterung ermöglichen, es kommt stark auf die Ausformulierung der Suchanfrage und der systembedingten Möglichkeiten dazu an, der Erweiterungsbedarf der ursprünglichen Suchanfrage steigt mit der Komplexität der Fragestellung, das Ergebnis der Suchanfrage steht nicht von vorne herein weitesgehend fest. Retrievalsysteme Retrievalsysteme gibt es für digitale Textdokumente oder digitale Audio-, Bild- oder Videofiles. Zusätzlich gibt es unterschiedliche Formen der Indexierung dieser Files und der Kontrollierbarkeit durch Abfragesysteme bzw. Suchtermini. Die Architektur von Retrievalsystemen umfasst unterschiedliche Hierarchien der Informationsebenen - vom Betriebssystem, dem Datenbankmanagementsystem, dem Dokumentenmanagementsystem, dem Computerlinguistischen System, den Schnittstellen bis zu dem jeweiligen Ablagesystem auf den Datenspeichern. Dabei gibt es unterschiedliche Hürden zu überwinden: das Erkennen von Spam oder Dubletten, die Fähigkeit zum Deep Scanning in Datenbanken oder dem Web, die Handhabung unterschiedlicher Technologien und Arten von Dokumenten bzw. der Fähigkeit dynamische Inhalte zu erkennen (z.B. PHP/MySQL Dokumente) und dem Sichtbarmachen des Invisible Web durch entsprechende Crawler. Auch das Erkennen unterschiedlicher Organisationsstrategien wie FIFO, LIFO oder das Erkennen semantischer Kontexte. Ein gutes Retrieval System sollte auch unterschiedliche Abfragestrategien beherrschen wie Boolesches Retrieval: die Verknüpfung von Datensätzen mit Logischen Operatoren. Eine Erweiterung durch Fuzzy Logic oder Gewichtung der Ergebnisse ist auch möglich. Auch Fehlertolerante Systeme sind möglich. Retrieval Modelle können auf mengenorientierten Modellen, algebraischen Modellen oder probabilistischen Modellen basieren. |
|||||
| Siehe auch: informatik datenbank Künstliche-Intelligenz Dokumentenmanagementsystem Boolesche-Algebra Semantik meyer88 internet ERP Fuzzy-Logik | |||||