Data-Mining

Mit Hilfe des Data Mining kann man versteckte Zusammenhänge in Datenbanken systematisch entdecken und extrahieren.  Data Mining ist ein Werkzeug um aus vorhandenen Daten anwendungsspezifisches Wissen zu generieren indem die Daten aus unterschiedlichen Blickwinkeln analysiert und nach geeigneten Kriterien zusammengefasst werden. 

Dabei kann es sich um betriebswirtschaftliche, allgemeinwissenschaftliche oder selbstdefinierte Kriterien handeln.  Häufig werden Kostensenkungspotentiale, Gewinn- und Einnahmensteigerung, Return on Investment (ROI) Kenndaten oder andere allgemeine Zielerreichungsgrade als Kriterien verwendet.  Eine Data-Mining-Software leistet die Analyse von Daten aus verschiedenen Betrachtungswinkeln mit spezifischen Zielerreichungskriterien.  Die Daten werden anwendungsbezogen eingeordnet und die sich daraus ergebenden Beziehungen und Zusammenhänge aggregiert dargestellt, z.B. als 2 oder mehrdimensionale Matrix oder Grafik.  Mit Hilfe eines Softwareanalysewerkzeuges zum Data Mining werden Korrelationen und Muster in den Rohdaten aufgespürt. Diese können in Datenbanken als Felder oder Werte gespeichert, sortiert und ausgewertet werden. 

Bei großen Informations- und Kommunikationssystemen verbindet Data Mining die Daten der Transaktionssysteme mit denen der Analysesysteme. Es werden Korrelationen und Muster in den Transaktionsdaten  analysiert mit Hilfe von festgelegten oder selbstdefinierten Benutzerabfragen. Dabei stehen mehrere Methoden der softwaregestützten Analyse zur Verfügung:  Statistisch-stochastische Methoden, KI-Systeme wie selbstlernende Algorithmen und neuronale Netze. 

Zusammenhänge in den Daten werden auf verschiedene Weise gesucht und erzeugt:  Zusammenfassung der Daten nach Klassen und Suche von Kriterien in vordefinierten Gruppen.  Bildung von Clustern indem die Daten nach logischen Beziehungen oder Zielgruppenpräferenzen gruppiert werden.  Identifizierung von Verbindungen indem Daten zueinander in vordefinierte Bezüge gebracht werden.  Bestimmung und Extrapolation sequentieller Muster zur Trendforschung und Verhaltensvorhersage von Zielgruppen. 

Die Durchführung des Data Mining erfolgt über den ETL-Prozess (Extract, Transform, Load) in Data-Warehousesystemen.  Dabei werden die auszuwertenden Daten in einer multidimensionalen, relationalen, semi-relationalen oder Key-Value Datenbank gespeichert und verarbeitet. Weiterhin werden die Daten den Fachexperten zugänglich gemacht und von spezieller  Anwendungssoftware ausgewertet.

Die Analyse erfolgt beispielsweise mit Hilfe von KI-Systemen wie neuronale Netze, Entscheidungsbäume, Expertensysteme oder Predictive Analytics Systeme. 

Entscheidungsbäume (Decision Tree) haben eine baumförmige Datenstruktur welche in ihren Ästen jeweils einen Satz (Set) von Entscheidungen beherbergen. Diese Entscheidungen definieren Regeln für die Klassifikation eines DataSet.  Zu den anwendungsspezifischen Methoden der Entscheidungsbäume zählt die CART-Methode (Classification and Regression Trees) und die CHAID-Methode (Chi Square Automatic Interaction Detection). Die CART und CHAID  Methoden sind Techniken mit deren Hilfe man bei Entscheidungsbäumen ein DataSet klassifizieren kann.  Sie stellen Regelsätze zur Verfügung, welche dazu dienen, die Einträge bei einem neuen, noch nicht klassifizierten DataSet intern zu bewerten, um vorhersagen zu können, welche Werte sie in der Zukunft annehmen könnten.   

Die Nächster Nachbar Methode ist eine Technik welche jeden Eintrag k in einem DataSet klassifiziert basierend auf den Daten des nächst ähnlichen, k+1ten DataSet aus einem historischen DataSet. 

Bei der Regelinduktion werden Wenn-Dann Regeln identifiziert und angewendet.         
Siehe auch:    OLAP   Data-Warehouse   SAP   Google   Google-Spanner   Stammdaten   Mandant   SAP-DXWB