Data mining
Z Wikipédie
Tento článok alebo jeho časť si vyžaduje úpravu, aby zodpovedal vyššiemu štandardu kvality. Pozri aj stránky Ako upravovať stránku a Návody a štýl alebo diskusiu k článku. |
Data-mining je časť umelej inteligencie, ktorá sa venuje objavovaniu znalostí a súvislostí vo veľkých objemoch dát.
Existujú dva základne prístupy k data-miningu:
- zhora nadol (top-bottom) nazývaný aj priamy prístup
- zdola nahor (bottom-up) nazývaný aj nepriamy prístup
Prístup zhora nadol je charakterizovaný presne definovaných cieľom, ktorý sa snažíme dosiahnuť. Metodólogia aj použité prostriedky sa snažia dosiahnuť dosiahnutie tohoto cieľa s čo najväčšiou presnosťou.
Príklad: Ktorý z našich doterajších klientov si zakúpia aj náš nový produkt?
Prístup zdola nahor hľadá v dátach vzory, ktoré môžu byť potenciálne zaujímavé a necháva užívateľa rozhodnúť, či je daný vzor skutočne zaujímavých ako s novou získanou informáciu naložíme. Tento prístup je využívaný zväčša vo fáze skúmania dát na určenie možných cieľov a predbežného ohodnotenia ich prínosu.
Príklad: Existujú v portfóliou našich klientov špecifické skupiny s podobným správaním?
Metodológie data-miningu:
- CRISP DM (SPSS)
- SEMA (SAS)
- Virtuos cycle of data mining (Berry & Linoff)
- rôzne ďalšie
Úlohy riešené data-miningom:
- klasifikácia, zatriedenie objektov do skupín na základe predošlej skúsenosti
- predikcia, predikovanie budúceho správania sa objektov na základe skúsensti z minulosti
- zhlukovane, vytváranie skupín objektov na základe podobných vlastností
Aplikácie data-miningu v praxy:
- cross-sell, predaj ďalších produktov existujúcim zákazníkom
- up-sell, zvýšenie predaja daného produktu novým zákazníkom, predaj drahších produktov
- credit risk, modelovanie kreditného rizika klientov, t.j. pravdepodobnosti nesplácania úveru
- fraudy, identifikácia podvodov
- churn, identifikácia zákazníkov náchylných na prechod ku konkurencii
Odvetvia využívajúce data-mining:
- marketing, podpora pri výbere klientov do marketigových kampaní (cross-sell, up-sell)
- poisťovníctvo, identifikácia podvodov (churn), určovanie poistných sadzieb
- bankovníctvo, manažment rizika (credit risk)
- medicína, podpora pri stanovení pravdepobnosti danej diagnózy
- veľa iných
Algoritmy najčastejšie využívané pre data-mining:
- rozhodovanie stromy
- lineárna regresia
- logistická regresia
- naivný Bayesov klasifikátor
- Bayesove siete
- algoritmus k najbližsích susedov (KNN)
- k-means
- Kohonenove mapy
- neurónové siete
Softvér pre data-mining:
- SAS
- SPSS Clementine, SPSS Basev
- Statistica
- R (open source)
- Weka (open source)
- Yale (open source)
- Matlab
Odkazy: