Knowledge Discovery in Databases
aus Wikipedia, der freien Enzyklopädie
Knowledge Discovery in Databases (KDD) stellt einen Oberbegriff zum bekannteren Begriff Data-Mining (data mining) dar. Generell ist die Zielsetzung des KDD, in gegebenen großen Datenmengen bislang unbekannte und nützliche Zusammenhänge zu erkennen. Während Data Mining meistens den Schritt der eigentlichen Datenanalyse meint, umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate.
Der KDD-Prozess läuft in einer Reihe von Schritten ab:
- Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
- Definition der Ziele der Wissensfindung
- Datenauswahl
- Datenbereinigung
- Datenreduktion (z. B. durch Transformationen)
- Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
- Data-Mining, die eigentliche Datenanalyse
- Interpretation der gewonnenen Erkenntnisse
Üblicherweise werden diese Schritte iterativ mehrfach durchlaufen.
Mit dem CRISP-DM wurde ein Vorgehensmodell für das Durchführen Knowledge Dicovery/Data Mining Projekten geschaffen.
[Bearbeiten] Software
- YALE ist ein frei erhältliches Open Source Tool für Maschinelles Lernen und Data-Mining, das die eher technischen Schritte der Wissensentdeckung (Datenauswahl, Datenbereinigung, Datenreduktion, Modellbildung, Visualisierung etc.) unterstützt