Data Mining

Der Begriff Data Mining hat seinen Ursprung im Bergbau (engl. Mining). Dort werden mit großem technischen und technologischem Aufwand Unmengen von Gesteinen abgebaut und aufbereitet, um wertvolle Edelsteine und Edelmetalle zu selektieren. Analog zu der Vorgehensweise im Bergbau werden beim Data Mining riesige Mengen an Daten (Big Data) mit Hilfe von Algorithmen, künstlicher Intelligenz (KI), Statistik und Programmen durchforstet, um neue, gesicherte und für weitere Handlungen relevante Muster, Trends oder Zusammenhänge zu finden. Im Gegensatz zum herkömmlichen Controlling bietet es aber nicht nur die Möglichkeit, den Status Quo eines Unternehmens zu bestimmen, sondern auch Prognosen für zukünftige Situationen abzugeben. Die erkannten Muster können dann dazu beitragen, die Entscheidungsfindung bei bestimmten Problemen zu erleichtern. Eine Grundvoraussetzung für den erfolgreichen Einsatz des Data Mining ist eine hochwertige Datenbasis.

Im E-Commerce kann so bspw. festgestellt werden, welche Produkte häufig zusammen gekauft werden, um standardisierte Warenkörbe zu ermitteln. So kann das Angebot im Online Shop dahingehend ausgerichtet und optimiert werden. Es können aber auch Käuferprofile erstellt, Produktpreise prognostiziert oder die Nachfrage eines Produktes vorhergesagt werden.

Aufbau Data Mining

Um das Data Mining effektiv nutzen zu können und qualitativ hochwertige Ergebnisse zu generieren, benötigt man einen optimalen Arbeitsprozess. Hierfür eignet sich der Cross-Industry Standard Process for Data-Mining, kurz CRISP-DM, welcher eine bewährte Methode zur Anleitung der Data-Mining-Arbeit ist. Hierbei werden die einzelnen Phasen nicht linear durchlaufen, sondern es wird häufig zwischen den Phasen hin- und her gewechselt.

CRISP-DM, ©Rob Petersen BarnRaisers

  1. Business Understanding (Geschäftsverständnis): Festlegung der Ziele und Anforderungen.
  2. Data Understanding (Datenverständnis): Datensammlung bzw. erste Sichtung der zur Verfügung stehenden Daten.
  3. Data Preparation (Datenvorbereitung): Konstruktion und Formatierung des finalen Datensatzes für die Modellierung.
  4. Modeling (Modellierung): Optimierung der Parameter und Entwicklung geeigneter Modelle.
  5. Evaluation (Evaluierung): Auswahl des Modells, welches am besten geeignet ist und Auswertung der Ergebnisse.
  6. Deployment (Bereitstellung): Aufbereitung und Präsentation der Ergebnisse.