Datenbank

Eine Datenbank ist im weitesten Sinne eine geordnete Ansammlung von Daten. In EDV-gestützten Systemen ist eine Datenbank eine Gruppe aufeinander bezogener Tabellen und der damit verbundenen Dateien,  die ein Verfahren zum Verwalten und zur Speicherung von grossen Datenmengen bereitstellen.

Datenbanksystem
Das Datenbanksystem (DBS, ~ Gesamtsystem)  einer elektronischen Datenverwaltung beinhaltet das Datenbankmanagementsystem (DBMS), die zentrale Verwaltungsstelle eines Datenbanksystems, die eigentliche DataBase (Datenbasis), welche die physikalischen Strukturen der Datensammlungen  darstellt und die dritte Komponente, die Kommunikationsschnittstelle (Data-Base-Communication-Interface), welche dem Benutzer den Dialog mit dem Datenbanksystem erlaubt. Zu den wesentlichen Aufgaben eines Datenbanksystems  gehört die strukturierte Erfassung von Informationen in vielen Bereichen der Wissenschaft, Wirtschaft und Verwaltung. 

Datenbankmanagementsystem (DBMS)
Das Datenbankmanagementsystem kümmert sich im Speziellen um die Erstellung, Editierung und Verknüpfung der Datenfelder. Weiterhin  ermöglicht es dem Anwender unterschiedliche Sichten (Views) auf die Datensätze zu erstellen durch Filterung und Sortierung der Daten (komplexe Suchanfragen). Weitere Aufgaben sind das Transaktionsmanagement zur  Verhinderung von INSERT-, UPDATE- und DELETE-Anomalien oder zur Verhinderung eines Deadlocks.

Datenbanktypen
Die bekanntesten Datenbanktypen sind: Hierarchische DatenbankNetzwerkdatenbank und die heute am meisten verbreitete Relationale Datenbank. Darüber hinaus erfreut sich die Objektrelationale Datenbank (ORDB) einer wachsenden Beliebtheit. Für spezielle Anwendungen mit vielen, großen Transaktionen sind NoSQL  Datenbanken sinnvoll.

Relationale Datenbanken
Relationale Datenbanken werden durch das Entity-Relationship-Modell (ERM) modelliert. Sie liegen in Tabellenform vor und sind untereinander durch Relationenalgebra verknüpfbar.  Redundanzen werden durch die Normalenformen vermieden. Um das Datenbankmanagement kümmert sich das RDBMS (Relationales Datenbankmanagementsystem). Bei  Objektrelationalen Datenbanken entsprechend das ORDBMS (Objektrelationales - Datenbankmanagementsystem).

Normierungsgremien für Datenbanken
Normierungsgremien für Datenbanken sind: 
CODASYL (Conference on Data Systems Languages)
ANSI-SPARC  (American National Standards Institute - Standards Planning and Requirements Committee).

Die ANSI-SPARC-Architektur
Die ANSI-SPARC-Architektur (auch 3-Schema-Architektur) definiert 3 Ebenen zur Beschreibung eines Datenbankschemas:  Interne Ebene (auch physische Ebene): beschreibt die Art und Weise wie Daten an welchen Orten gespeichert sind.  Design-Ziel der Internen Ebenenbeschreibung ist die Leistungsoptimierung. Konzeptuelle Ebene: beschreibt welche Daten gespeichert sind und die Beziehungen der Daten untereinander. Design-Ziel des Konzeptuellen Datenbankschemas ist  die redundanzfreie Speicherung der Daten. Die Externe Ebene soll verschiedene Sichten (Views) auf die Daten bereitstellen. Es werden verschiedene Masken und Schnittstellen angeboten.                         
Siehe auch:    1-1-Verbindung   1-n-Verbindung   Normalform   Schlüssel   Referentielle-Integrität   Transaktion   Konsistenz   NoSQL   Google-BigTable   Verteilte-Datenbank

  BLOB

Binary Large Object. Ein BLOB ist ein grosses File (z. B. Bild- oder Audiodatei), welches aufgrund seiner Grösse in einer Datenbank (oder als Down- bzw. Upload) gesondert behandelt werden muss.  In manchen Datenbanken können solche nicht weiter strukturierten Felddaten grosse Datenmengen als Feldinhalt speichern. Wenn bei einer Relationalen Datenbank eine Tabelle als BLOB ausgewiesen wird, speichert das  Datenbankmanagementsystem (DBMS) den Wert gesondert ab  und vermerkt in der Tabelle nur eine Referenz auf diesen Wert. Eine weitere Methode zur Speicherung grosser Objekte wird Object Pointer Interface (OPI) genannt.                                                   
Siehe auch:    datenbank   MySQL   Boolesche-Algebra   Referentielle-Integrität   ACID   Schlüssel   

  Integrität

Damit ein EDV-System einwandfrei funktioniert, müssen für seine Komponenten die Integritätsbedingungen erfüllt sein. Dies bedeutet, dass die Daten korrekt sind und sich durch Bearbeitung der Daten daran nichts ändert. Die Daten müssen das erforderliche  Format aufweisen, es dürfen keine INSERT-, DELETE- oder UPDATE-Anomalien auftreten. Alle Transaktionen müssen in sich geschlossen korrekt sein. Die Einhaltung der Integritätsbedingungen wird in modernen Systemen nicht dem Programmierer allein  überlassen. In relationalen Datenbanksystemen besteht die Möglichkeit, durch die Definition eines relationalen  Schemas Integritätsbedingungen festzulegen. Ein Beispiel hierfür sind Fremdschlüsselbeziehungen oder die Normalformen. Es wird festgeschrieben,  wie sich das System bei Änderungen verhalten soll. Wenn eine Änderung eine Integritätsbedingung verletzt, wird sie zurückgenommen oder es wird eine weitere Änderung gestartet, welche die Konsistenz des Systems wiederherstellt. Letzteres nennt man  Datenbanktrigger. Trigger werden vom Datenbankmanagementsystem eingesetzt.                                               
Siehe auch:    Referentielle-Integrität   Schlüssel   Konsistenz   Normalform   Rollback   Constraints   Transaktion   

  Referentielle-Integrität

Die Referentielle Integrität stellt die Datenkonsistenz und Datenintegrität sicher. Auch nach Änderungen der Daten dürfen keine Integritätsverletzungen auftreten. Die referentielle Integrität bezeichnet die  Integrität auf Beziehungsebene. Daneben gibt es noch die Wertebereichsintegrität (Integrität auf Datenfeldebene) und die Datenintegrität auf Datensatzebene. Die referentielle Integrität stellt die Konsistenz der Beziehungen zwischen Attributen von  Relationen her, und sichert die Einhaltung der Eindeutigkeit ihrer Schlüssel. Das Datenbankmanagementsystem stellt sicher, dass es zu keinen INSERT-, UPDATE- oder DELETE-Anomalien kommt. Dies wird durch Fremdschlüsselbeziehungen  zwischen zwei Relationen erreicht. Zwei Relationen besitzen ein gemeinsames Attribut. Dies ist in der Quellrelation der Primärschlüssel. Die andere Relation verweist bzw. referenziert über den Fremdschlüssel auf eben diesen Primärschlüssel.  Das Datenbankmanagementsystem überprüft die Existenz des Primärschlüssels und stellt sicher, dass die betreffende Relation nur gemeinsam mit dem Fremdschlüssel geändert oder gelöscht werden kann.  Transaktionen müssen komplett stimmig sein, sonst werden sie zurückgefahren (Rollback).                                               
Siehe auch:    Konsistenz   Schlüssel   Normalform   Integrität   Transaktion   ACID   Constraints   datenbank   Deadlock   Rollback

  Deadlock

Ein Deadlock ist in der Informatik ein Zustand, in dem sich mehrere Prozesse gegenseitig blockieren, weil der eine Prozess auf die Freigabe von Ressourcen wartet, die der andere Prozess belegt und vice versa. Dabei kann es sich auch um einen sich  blockierenden Kreislauf mehrerer Prozesse handeln.

Deadlock bei Datenbanken 
Dies können beispielsweise zwei oder mehrere Transaktionen bei einer Datenbank sein oder Prozesse bei einem Betriebssystem. Im Falle der Datenbank muss das Datenbankmanagementsystem (DBMS)  solche Deadlocks verhindern oder erkennen und auflösen.  Um Deadlocks zu verhindern muss das DBMS seine Prozesse sequentialisieren. Diese Deadlock-Lösungsstrategie kann nachteilig sein, da das DBMS auf parallele, sich gegenseitig triggernde Prozesse verzichten muss.  Um bereits bestehende Deadlocks zu erkennen und aufzulösen verbraucht das DBMS sehr viele Ressourcen.  Deswegen ist es eine gute Strategie, Prozesse erst nach einer Überprüfung freizugeben. Ausserdem sollte das DBMS auf verdächtige Prozesse, die in Wartestellung sind achten, z.B. i.V.m. einem Leerlauf des Prozessors.                                             
Siehe auch:    datenbank   betriebssysteme   Transaktion   ACID   Normalform   Rollback   Referentielle-Integrität   Konsistenz   Multiversion-Concurrency-Control   MySQL

  Information-Retrieval

Wissen und Informationssysteme
Das Wissen aus Informationssystemen nach den Suchkriterien des Users optimal und im korrekten semantischen Kontext zu erlangen ist ein Problem des Information Retrieval.  Es gibt unterschiedliche Informationssysteme wie Verteilte Datenbanken oder einzelne Datenbanken, Webbasierte Systeme, Unternehmensbasierte Systeme, (online) Bibliotheken, Datenspeicher, KI-Systeme, Dokumentenmanagementsysteme, Filesysteme, CMS-Systeme  oder Unternehmensinformationssysteme wie CRM- oder ERM-Systeme oder andere Informationsarchitekturen. Dabei können die Wissensdisziplinen der IR-Systeme auch interdisziplinär sein und neben Wirtschaftswissenschaften und  soziologischen Wissenschaften auch Naturwissenschaften, Kultur und Musik auch Informationswissenschaften oder Informatik u.a. Disziplinen umfassen. 

Wissen selber ist nie vollständig und nie völlig korrekt sondern steht im semantischen und themenbezogenen Kontext.  Eine wahre Herausforderung ist es, Wissen und Informationen nach den entsprechenden Suchkriterien zusammen zu stellen und auf zu bereiten, so dass es für die Intention des Anfragestellers verwendbar ist  und möglicherweise eine neue, intelligente Zusammenstellung zu generieren, die so vorher in den einzelnen Ablagestellen des jeweiligen Informationssystems, nicht an zu treffen war.  Deswegen werden auch spezielle Anforderungen an die Intelligenz bzw. KI des Suchsystems gestellt.

Precision und Recall 
Die Ergebnismenge wird durch die Parameter Precison und Recall eingeteilt. Precision (Genauigkeit) meint hier die Relevanz der Suchtreffer: Es handelt sich um den Quotienten aus der Anzahl der relevanten Treffer und der zugrundeliegenden Suchmenge  (Precison = T/(T+N) wobei T die relevanten Treffer darstellt und N die nichtrelevanten Treffer, die im Suchergebnis enthalten sind = Balast).  Recall (Vollständigkeit) ist ein Begriff der ausdrückt, wie komplett die Ergebnismenge ist. Es handelt sich um den Quotient aus der Anzahl der relevanten Treffer und der Gesamtzahl der relevanten Dokumente in der Suchmenge  (Recall= T/(T+V), wobei V die Anzahl der relevanten Dokumente ist, die nicht in der Treffermenge enthalten sind =Verlust).

Wissensbarrieren und Wissensdisziplinen 
Es gibt verschiedene Barrieren um an Wissen zu kommen: technologische Barrieren, Sprachbarrieren, Know-How-Barrieren (Wissen um die KI und die Abfragetechnologie),  geografische, politische und kulturelle Barrieren oder finanzielle und intellektuelle Barrieren.

Information Retrieval Systeme arbeiten mit Hilfe von verschiedenen Wissenschaften um Ihren Dienst ausführen  zu können: die Informationswissenschaft, Archivierungs- und Bibliothekswissenschaften, Dokumentationswissenschaft, Informatik, Wissensforschung und Sprachwissenschaft bzw. Computerlinguistik und der Künstlichen Intelligenz  als Spezialgebiet der Informatik. Auch die Wirtschaftswissenschaften sind involviert, da sie sich mit Unternehmensinformationssystemen und mit der Organisation von Informations- und Kommunikationssystemen und dem Wissensmanagement befassen. 

Relevanz und Pertinenz
Grundlegende Begriffe für das Information Retrieval sind auch Relevanz und Pertinenz. Relevanz bezieht sich auf den objektiven, nutzerunabhängigen Nutzen eines Dokumentes oder einer  Information. Ein relevantes Dokument bezieht sich auf den objektiven Nutzen einer Information, wenn sie zur Vorbereitung einer Entscheidung dient, eine Lücke im Wissen (Knowledge Gap) schließt oder es als objektiver Indikator für die Erfüllung  bestimmter Thesen dient.

Die Pertinenz eines Dokumentes bezieht sich auf den subjektiven Nutzen des Suchenden: Eine relevantes Dokument bezieht sich auf den subjektiven Nutzen einer Information, wenn sie zur subjektiven Vorbereitung einer  Entscheidung dient, eine Lücke im Wissen schließt oder es als subjektiver Indikator für die Erfüllung bestimmter Thesen dient.

CIN und POIN
Weiterhin unterscheidet man den Concrete Information Need (CIN)  und den Problem Oriented Information Need (POIN). Der CIN bezieht sich auf die Übertragung von Fakten während der POIN konkrete, auch komplexe Fragestellungen beantworten soll. Beim POIN  sind die thematischen Grenzen nicht exakt definierbar, die Formulierung der Suchanfrage ist terminologisch nicht festgelegt durch exakte Terme, um die Anfrage zu beantworten sind verschiedene Dokumente notwendig,  das Anfrageproblem kann erweitert oder modifiziert werden durch zusätzliche Informationen wie Literaturangaben oder Dokumente die eine solche Erweiterung ermöglichen, es kommt stark auf die Ausformulierung der Suchanfrage und der  systembedingten Möglichkeiten dazu an, der Erweiterungsbedarf der ursprünglichen Suchanfrage steigt mit der Komplexität der Fragestellung, das Ergebnis der Suchanfrage steht nicht von vorne herein weitesgehend fest.

Retrievalsysteme 
Retrievalsysteme gibt es für digitale Textdokumente oder digitale Audio-, Bild- oder Videofiles. Zusätzlich gibt es unterschiedliche Formen der Indexierung dieser Files und der Kontrollierbarkeit durch Abfragesysteme bzw. Suchtermini.  Die Architektur von Retrievalsystemen umfasst unterschiedliche Hierarchien der Informationsebenen - vom Betriebssystem, dem Datenbankmanagementsystem, dem Dokumentenmanagementsystem, dem Computerlinguistischen System, den  Schnittstellen bis zu dem jeweiligen Ablagesystem auf den Datenspeichern.

Dabei gibt es unterschiedliche Hürden zu überwinden: das Erkennen von Spam oder Dubletten, die Fähigkeit zum Deep Scanning in Datenbanken oder dem Web, die Handhabung  unterschiedlicher Technologien und Arten von Dokumenten bzw. der Fähigkeit dynamische Inhalte zu erkennen (z.B. PHP/MySQL Dokumente) und dem Sichtbarmachen des Invisible Web durch entsprechende Crawler. Auch das Erkennen unterschiedlicher  Organisationsstrategien wie FIFO, LIFO oder das Erkennen semantischer Kontexte.

Ein gutes Retrieval System sollte auch unterschiedliche Abfragestrategien beherrschen wie Boolesches Retrieval: die Verknüpfung von Datensätzen mit Logischen Operatoren.  Eine Erweiterung durch Fuzzy Logic oder Gewichtung der Ergebnisse ist auch möglich. Auch Fehlertolerante Systeme sind möglich. Retrieval Modelle können auf mengenorientierten Modellen, algebraischen Modellen oder probabilistischen Modellen basieren.

Siehe auch:    informatik   datenbank   Künstliche-Intelligenz   Dokumentenmanagementsystem   Boolesche-Algebra   Semantik   meyer88   internet   ERP   Fuzzy-Logik