New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
CRISP-DM - Wikipedie, otevřená encyklopedie

CRISP-DM

Z Wikipedie, otevřené encyklopedie

Životní cyklus projektu CRISP-DM
Životní cyklus projektu CRISP-DM

Vývoj metodologie CRISP-DM byl zahájen jako projekt evropské komise definující model standardního postupu při vytváření data miningových projektů. Tato metodologie je majetkem partnerů CRISP-DM konsorcia: NCR systems Engineering Kopenhagen, Daimler Chrysler atd.

Metodologie CRISP-DM rozděluje celý proces data miningového projektu do šesti základních etap, v rámci nichž dále rozlišuje další kroky. Těmito etapami jsou:

  • Definování cílů;
  • Porozumění datům;
  • Příprava dat;
  • Modelování;
  • Hodnocení výsledků;
  • Implementace vytvořeného modelu.


Obsah

[editovat] 1. Definování cílů

Vstupní fáze je zaměřena na definování cílů projektu a požadavků z obchodního hlediska. Poté na převedení znalostí na definici data miningového problému a předběžné navržení plánu, jak dosáhnout cílů. Aby projekt nebyl od samého počátku odsouzen k neúspěchu ve smyslu „zodpovězení špatné otázky“, je zapotřebí správně pochopit, čeho chce klient dosáhnout společně s určením důležitých faktorů, které mohou celkový výstup ovlivnit. Měl by být definován základní cíl projektu z podnikatelského hlediska. K základnímu cíli jsou obvykle připojeny ještě další otázky, na které by klient rád dostal odpověď. Přestože metodologie uvádí jako součást těchto úvah i otázku prostředí firmy a její obchodní situace na trhu, je možné v některých případech tuto oblast vynechat bez negativního vlivu na výsledek projektu. Jedná se o projekty, jejichž výstupy neovlivní přímo okolí organizace. Při definování cíle je zapotřebí definovat rovněž kritéria (z podnikatelského hlediska) pro hodnocení úspěšnosti nebo užitečnosti výstupu projektu. Tato kritéria mohou mít dvě odlišné formy. Mohou být objektivně měřitelná nebo subjektivně vnímatelná. Před započetím projektu by měly být známy všechny vstupy, které budou nutné či dostupné. Tyto vstupy zahrnují jak časové, finanční a hmotné prostředky (prostory, hardware, atd.), tak softwarové, lidské (obchodní experti, datoví specialisté, techničtí pracovníci, data miningoví pracovníci) a datové zdroje (neměnné extrakty, přístup k datovým skladům, provozním datům).

Dalším dokumentem, který se v této etapě vypracovává, je analýza přínosů a nákladů.

Nutnou součástí této etapy je sestavení plánu projektu, ve kterém je popsán způsob dosažení cílů data mining. Měly by být stanoveny kroky, které musí být vykonány, společně s jejich trváním, požadovanými zdroji, vstupy, výstupy a závislostmi. Součástí plánu je rovněž analýza závislostí mezi časovým harmonogramem a riziky. Projektový plán obsahuje detailní plán pro každou fázi. Plán je dynamický, což znamená, že na konci každé fáze je kontrován a aktualizován.


[editovat] 2. Porozumění datům

Další nepřeskočitelnou částí projektu je získání dat nebo přístup k datům, která jsou uvedena ve zdrojích. Tento výchozí sběr zahrnuje případně i nahrání dat, pokud je to nutné pro jejich pochopení. Všechny tyto operace by měly být popsány společně s metodami užitými k získání dat. Zaznamenány by rovněž měly být i problémy vzniklé během tohoto procesu a způsoby řešení pro případné použití v budoucnosti (při opakování stejného či podobného projektu).

Popsáním charakteristik dat, jako např. formátu, množství dat (počtu záznamů a polí v každé tabulce), popisu polí a dalších znaků, byl měla být zodpovězena otázka, zda-li data uspokojují podstatné požadavky. Již v této části se provádí zběžný průzkum dat. Tato analýza se zaměřuje na data miningové otázky, které mohou být zodpovězeny použitím dotazů, vizualizací a reporty. To zahrnuje: rozdělení klíčových atributů (např. cílová vlastnost pro úlohu predikce), vazby mezi páry nebo malým počtem atributů, výsledky jednoduché agregace, vlastnosti významných podskupin, jednoduché statistické analýzy. Tyto analýzy se mohou zaměřit přímo na cíl data miningového projektu a sloužit tak pro formulaci hypotéz, nebo pouze přispívat k popisu dat. Pokud je to vhodné, mohou být součástí i grafy a diagramy, které vyjadřují datové charakteristiky nebo které jsou vodítkem k zajímavým podskupinám v datech.


[editovat] 3. Příprava dat

Tato fáze bývá obvykle jednou z nejnáročnějších, neboť data bývají často v různých formátech, v různých tabulkách, obsahují chybějící hodnoty, jiné atributy potřebné pro analýzu chybějí úplně, atd. Musíme rozhodnout, která data budou použita pro analýzu. Kritérii jsou: souvislost s cíli data miningu, kvalita a technické podmínky jako např. omezení objemu dat nebo typů. V procesu výběru dat je nutné vybírat jak atributy (sloupečky), tak i záznamy (řádky) v tabulce.

Někdy vybraný nástroj či analytická technika vyžaduje, aby data měla určitou kvalitu. Potom je zapotřebí, aby záznamy prošly tzv. „čištěním“, což může zahrnovat např. vložení vhodných (standardních) hodnot nebo náročnější techniky (určení chybějících dat modelováním). Tyto změny by měly být dokumentovány zároveň se zvážením vlivu na výsledky analýz.

Organizace obvykle neshromažďují data s myšlenkou, že s nimi bude následně proveden tento typ analýz. Proto ve struktuře, ve které jsou záznamy uloženy, mohou chybět atributy bezpodmínečně nutné pro projekt. Potom musí být provedeny operace, jenž tyto nedostatky odstraní. Zahrnují např.: vytvoření odvozených atributů, úplně nových atributů nebo transformace hodnot stávajících atributů. Jak již bylo uvedeno, tak informace potřebné pro analýzu bývají uloženy v několika tabulkách. S tímto způsobem uložení však nedokáže většina data miningových nástrojů pracovat, a tak je zapotřebí sloučit data z několika tabulek do jediné. Sloučením se rozumí spojení dvou či více tabulek, které obsahují rozdílné informace o stejném objektu. Sloučená data mohou rovněž zahrnovat agregace. Agregací se mají na mysli operace, kde se nová hodnota počítá sumarizací informací z několika záznamů a nebo tabulek. Posledním krokem v přípravě dat je jejich naformátování. Formátovací transformace se týkají v prvé řadě syntaktických změn prováděných na datech, které nemění jejich význam. Některé nástroje mají požadavky na pořadí atributů, jako např. první pole musí být jedinečný identifikátor záznamu nebo poslední pole musí být označení, které má model určovat. Může být nutná i změna pořadí záznamů v datové sadě. Modelovací nástroj může vyžadovat, aby záznamy byly seřazeny podle hodnot výstupního atributu (kterým se označují záznamy při klasifikaci). Běžnou situací je, že záznamy v datové sadě jsou uspořádány určitým způsobem. Modelovací algoritmus však může vyžadovat, aby byly náhodně uspořádány. Např. pokud používáme neuronové sítě, je všeobecně lepší, aby data byla předána síti v náhodném pořadí, ačkoliv některé nástroje tuto změnu pořadí provádějí automaticky bez zásahu uživatele. Navíc se ještě provádějí zcela syntaktické změny odpovídající specifickým požadavkům jednotlivých modelovacích nástrojů. Např. odstranění čárek z textových polí v souboru, kde byly čárky použity jako oddělovače; zkrácení všech hodnot na maximálně 32 znaků, atd.


[editovat] 4. Modelování

Metodologie CRISP v úvodním kroku této fáze doporučuje vybrat konkrétní algoritmus (či algoritmy), který bude použit pro analýzu. Před vlastním sestavením modelu potřebujeme vytvořit postup nebo mechanismus, který bude testovat kvalitu a sílu (správnost) modelu. Např. při klasifikaci používáme běžně jako měřítko kvality data miningového modelu počet chybných klasifikací v procentním vyjádření. Proto obvykle rozdělujeme datovou sadu na sadu učící a testovací. Model je vytvářen na učící datové sadě a jeho kvalita je určována na testovací sadě dat. V průběhu samotného modelování je vytvářen jeden nebo více modelů. V používaných nástrojích bývá často množství parametrů, které mohou být různě měněny. Proto je nutné vždy důkladně zaznamenat všechny nastavené hodnoty. Dle CRISP bychom měli zaznamenat rovněž zdůvodnění, proč jsme vybrali zrovna tuto kombinaci nastavení. Zapisování všech nastavení, SQL dotazů apod. usnadňuje potom např. orientaci v datech nebo zabraňuje opakování některých operací. Nezbytnou součástí této etapy je ocenění modelů. Analytik ohodnocuje modely podle hledisek, kterými jsou v prvé řadě kritéria pro přesnost definovaná v první fázi. Pokud je to možné, bere rovněž v úvahu obchodní cíle a kritéria hodnotící obchodní úspěšnost. Protože však je jeho pohled spíše techničtější, spojuje se později s obchodním analytikem a expertem v dané oblasti, aby interpretovali výsledky v obchodních souvislostech.

[editovat] 5. Hodnocení výsledků

Předešlé hodnotící kroky používali pro hodnocení takové faktory jako přesnost a obecná platnost modelu. Tento krok hodnotí úroveň s jakou model dosahuje obchodních cílů a snaží se určit, zda-li je přítomen nějaký důvod (obchodní), proč je tento model nedostatečný. Vytvořený model je možné ohodnotit tím způsobem, že jej užijeme na reálné situace a sledujeme jeho kvalitu. Je však nutné zvážit časové a rozpočtové podmínky, zda-li umožňují takovéto hodnocení. Pokud je výsledný model označen jako schopným uspokojit obchodní potřeby, následuje důkladná revize celé data miningové úlohy a určuje se, zda-li nebyl přehlédnut nějaký důležitý faktor či úkol. Tato revize rovněž zahrnuje ujištění o kvalitě (o správném sestavení modelu; o použití atributů, které budou dostupné i pro budoucí analýzy).

S ohledem na výsledky hodnocení a revize procesu se rozhodne, jak pokračovat dále. Musí být rozhodnuto, zda ukončit tento projekt a přesunout se do fáze Implementace nebo zda zahájit další opakování některých fází nebo dokonce začít zcela nový data miningový projekt. Tento úkol zahrnuje analýzy zbývajících zdrojů a rozpočtu, které ovlivní rozhodnutí. Měly by být sepsány možné kroky společně s důvody pro a proti pro každou volbu a na závěr i rozhodnutí.

[editovat] 6. Implementace

Pro nasazení data miningových modelů do obchodních činností bere tento úkol výsledky hodnocení a vyvozuje z nich strategii pro implementaci. Pokud byl identifikován obecný postup pro vytvoření platného modelu (modelů), je zde tento postup dokumentován pro pozdější použití.

Během zavádění modelů by nemělo být opomenuto vytvoření plánů pro kontrolu a údržbu. Jejich význam roste, pokud se výsledky data miningových analýz mají stát součástí každodenních aktivit organizace. Důkladná příprava strategie údržby pomáhá vyhnout se zbytečně dlouhým obdobím, po která jsou data miningové výsledky špatně užívány. Z důvodu kontroly nasazení výsledků je nutný detailní plán kontrolní činnosti. Tento plán bere do úvahy specifický typ nasazení

Na konci projektu by měla být sepsána závěrečná zpráva. Ta může mít podobu buď stručného shrnutí a nebo může jít o závěrečné a vyčerpávající prezentování všech výsledků, jichž bylo dosaženo během celého procesu.

Závěrečným vypracovávaným dokumentem, který CRISP uvádí, je revize projektu. Někomu se možná může zdát, že tato zpráva je zbytečná, neboť se nepředává zákazníkovi ale slouží pro vnitřní potřeby data miningové firmy. Tato část by rozhodně neměla chybět. Jde o shromažďování podnikových znalostí (tzv. řízení znalostí). Pracovníci mají zhodnotit, co šlo dobře a co špatně, co bylo uděláno dobře a co je potřeba zlepšit. Shrnují důležité zkušenosti získané během projektu. Upozorňují na nebezpečná místa v analýze, na zavádějící přístupy nebo ukazatele pro výběr nejvhodnějších data miningových technik. Právě tyto zaznamenané individuální postřehy umožňují pracovníkům sdílet své zkušenosti a pracovat tak v dalších projektech efektivněji.

V jiných jazycích

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu