CRISP-DM je skratka pre medziodvetvový štandardný proces dolovania údajov. Metodológia CRISP-DM poskytuje štruktúrovaný prístup k plánovaniu projektu data miningu. Je to robustná a osvedčená metodika. Nenárokujeme si naň žiadne vlastníctvo. My sme si to nevymysleli. Sme konvertorom jeho výkonnej praktickosti, flexibility a užitočnosti pri používaní analýzy na riešenie obchodných problémov. Je to zlatá niť, ktorá sa tiahne takmer každým klientským stretnutím.
Tento model je idealizovaný sled udalostí. V praxi sa mnohé úlohy môžu vykonávať v inom poradí a často bude potrebné vrátiť sa k predchádzajúcim úlohám a zopakovať určité akcie. Model sa nesnaží zachytiť všetky možné cesty cez proces dolovania dát.
Ako CRISP pomáha?
CRISP DM poskytuje cestovnú mapu, poskytuje vám osvedčené postupy a poskytuje štruktúry pre lepšie a rýchlejšie výsledky používania dolovania údajov, takže pomáha podnikom nasledovať pri plánovaní a realizácii projektu dolovania údajov.
Fázy CRISP-DM
CRISP-DM poskytuje prehľad životného cyklu dolovania údajov ako procesný model. Model životného cyklu obsahuje šesť fáz, pričom šípky označujú najdôležitejšie a najčastejšie závislosti medzi fázami. Postupnosť fáz nie je striktná. A väčšina projektov sa medzi jednotlivými fázami pohybuje tam a späť podľa potreby. Model CRISP-DM je flexibilný a dá sa ľahko prispôsobiť.
Napríklad, ak sa vaša organizácia zameriava na odhalenie prania špinavých peňazí, pravdepodobne budete preosievať veľké množstvo údajov bez konkrétneho cieľa modelovania. Namiesto modelovania sa vaša práca zameria na prieskum a vizualizáciu údajov s cieľom odhaliť podozrivé vzorce vo finančných údajoch. CRISP-DM vám umožňuje vytvoriť model dolovania údajov, ktorý vyhovuje vašim potrebám.
Zahŕňa opisy typických fáz projektu, úlohy súvisiace s každou fázou a vysvetlenie vzťahov medzi týmito úlohami.
Fáza 1: Obchodné porozumenie
Prvou fázou procesu CRISP-DM je pochopenie toho, čo chcete dosiahnuť z obchodného hľadiska. Vaša organizácia môže mať konkurenčné ciele a obmedzenia, ktoré musia byť správne vyvážené. Cieľom tejto fázy procesu je odhaliť dôležité faktory ovplyvňujúce výsledok projektu. Zanedbanie tohto kroku môže znamenať veľa úsilia vynaloženého na vytvorenie správnych odpovedí na nesprávne otázky.
Aké sú požadované výstupy projektu?
Zhodnoťte aktuálnu situáciu
okrúhla matematika java
To zahŕňa podrobnejšie zisťovanie faktov o zdrojoch, obmedzeniach, predpokladoch a iných faktoroch, ktoré budete musieť zvážiť pri určovaní cieľa analýzy údajov a plánu projektu.
- Personál (obchodní experti, dátoví experti, technická podpora, data mining experti)
- Údaje (pevné výpisy, prístup k aktuálnym, skladovaným alebo prevádzkovým údajom)
- Výpočtové zdroje (hardvérové platformy)
- Softvér (nástroje na dolovanie údajov, iný relevantný softvér)
- Glosár relevantnej obchodnej terminológie tvorí súčasť obchodného chápania dostupného pre projekt. Vytvorenie tohto glosára je užitočným „vyvolávaním vedomostí“ a vzdelávacím cvičením.
- Slovník terminológie dolovania údajov je ilustrovaný príkladmi relevantnými pre daný obchodný problém.
Stanovte si ciele dolovania údajov
Obchodný cieľ stanovuje ciele v obchodnej terminológii. Cieľ dolovania údajov stanovuje ciele projektu z technického hľadiska. Obchodným cieľom môže byť napríklad zvýšenie predaja katalógu existujúcim zákazníkom. Cieľom dolovania údajov môže byť predpovedanie počtu miniaplikácií, ktoré si zákazník kúpi, vzhľadom na ich nákupy za posledné tri roky, demografické informácie (vek, plat, mesto atď.) a cenu položky.
Vytvorte plán projektu
Popíšte zamýšľaný plán na dosiahnutie cieľov dolovania údajov a obchodných cieľov. Váš plán by mal špecifikovať kroky, ktoré sa majú vykonať počas zvyšku projektu, vrátane počiatočného výberu nástrojov a techník.
1. Plán projektu: Uveďte fázy, ktoré sa majú v projekte vykonať, s ich trvaním, požadovanými zdrojmi, vstupmi, výstupmi a závislosťami. Ak je to možné, pokúste sa explicitne uviesť rozsiahle iterácie v procese dolovania údajov, napríklad opakovanie fáz modelovania a hodnotenia.
javascript trim podreťazec
V rámci plánu projektu je dôležité analyzovať závislosti medzi časovými harmonogramami a rizikami. Výsledky týchto analýz označte explicitne v pláne projektu, ideálne s opatreniami a odporúčaniami, ak sa riziká prejavia. Rozhodnite, ktorá stratégia hodnotenia sa použije vo fáze hodnotenia.
Váš projektový plán bude dynamický dokument. Na konci každej fázy skontrolujete pokrok a úspechy a podľa toho aktualizujete plán projektu. Konkrétne kontrolné body pre tieto aktualizácie by mali byť súčasťou plánu projektu.
2. Počiatočné hodnotenie nástrojov a techník: Na konci prvej fázy by ste mali vykonať počiatočné posúdenie nástrojov a techník. Napríklad vyberiete nástroj na dolovanie údajov, ktorý podporuje rôzne metódy pre rôzne fázy procesu. Je dôležité posúdiť nástroje a techniky na začiatku procesu, pretože výber nástrojov a techník môže ovplyvniť celý projekt.
Fáza 2: Pochopenie údajov
Druhá fáza procesu CRISP-DM vyžaduje, aby ste získali údaje uvedené v zdrojoch projektu. Tento počiatočný zber zahŕňa načítanie údajov, ak je to potrebné na pochopenie údajov. Napríklad, ak používate špecifický nástroj na pochopenie údajov, má zmysel načítať údaje do tohto nástroja. Ak získavate viacero zdrojov údajov, musíte zvážiť, ako a kedy ich integrujete.
Opíšte údaje
Preskúmajte „hrubé“ alebo „povrchové“ vlastnosti získaných údajov a podajte správu o výsledkoch.
Preskúmajte údaje
Počas tejto fázy budete riešiť otázky dolovania údajov pomocou dotazovania, vizualizácie údajov a techník vytvárania správ. Tieto môžu zahŕňať:
- Rozdelenie kľúčových atribútov
- Vzťahy medzi pármi alebo malým počtom atribútov
- Výsledky jednoduchých agregácií
- Vlastnosti významných subpopulácií
- Jednoduché štatistické analýzy
Tieto analýzy môžu priamo riešiť vaše ciele dolovania údajov. Môžu prispievať k opisu údajov a správam o kvalite alebo ich spresňovať a vkladať do transformačných a iných krokov prípravy údajov potrebných na ďalšiu analýzu.
Overte kvalitu údajov
Preskúmajte kvalitu údajov a riešte otázky, ako napríklad:
- Sú údaje úplné alebo pokrývajú všetky požadované prípady?
- Je správna alebo obsahuje chyby a ak sa vyskytnú chyby, aké sú časté?
- Chýbajú v údajoch hodnoty? Ak áno, ako sú zastúpené, kde sa vyskytujú a nakoľko sú bežné?
Správa o kvalite údajov
Uveďte výsledky overenia kvality údajov. Ak existujú problémy s kvalitou, navrhnite možné riešenia. Riešenia problémov s kvalitou údajov vo všeobecnosti veľmi závisia od údajov a obchodných znalostí.
Fáza 3: Príprava dát
V tejto fáze projektu rozhodujete o údajoch, ktoré použijete na analýzu. Kritériá, ktoré môžete použiť na toto rozhodnutie, zahŕňajú relevantnosť údajov pre vaše ciele dolovania údajov, kvalitu údajov a technické obmedzenia, ako sú limity objemu údajov alebo typy údajov.
čo je desktop.ini
Vyčistite si dáta
Táto úloha zahŕňa zvýšenie kvality údajov na úroveň, ktorú vyžadujú techniky analýzy, ktoré ste vybrali. Môže to zahŕňať výber čistých podmnožín údajov, vloženie vhodných predvolených hodnôt alebo ambicióznejšie techniky, ako je odhad chýbajúcich údajov pomocou modelovania.
Zostavte požadované údaje
Táto úloha zahŕňa konštruktívne operácie prípravy údajov, ako je vytváranie odvodených atribútov, celých nových záznamov alebo transformovaných hodnôt pre existujúce atribúty.
Integrujte údaje
Tieto metódy kombinujú informácie z viacerých databáz, tabuliek alebo záznamov a vytvárajú nové záznamy alebo hodnoty.
Fáza 4: Modelovanie
Výber techniky modelovania: Ako prvý krok si vyberiete základnú techniku modelovania, ktorú budete používať. Hoci ste si už možno vybrali nástroj vo fáze obchodného porozumenia, v tejto fáze budete vyberať špecifickú techniku modelovania, napr. budovanie rozhodovacieho stromu s C5.0 alebo generovaním neurónovej siete so spätným šírením. Ak sa použije viacero techník, vykonajte túto úlohu samostatne pre každú techniku.
Vytvorte návrh testu
Pred vytvorením modelu musíte vygenerovať postup alebo mechanizmus na testovanie kvality a platnosti modelu. Napríklad pri úlohách dolovania údajov pod dohľadom, ako je klasifikácia, je bežné používať chybovosť ako meradlo kvality pre modely dolovania údajov. Preto zvyčajne rozdeľujete množinu údajov na vlakové a testovacie súpravy, zostavujete model na vlakovej súprave a odhadujete jeho kvalitu na samostatnej testovacej súprave.
Zostavte model
Spustite modelovací nástroj na pripravenom súbore údajov a vytvorte jeden alebo viac modelov.
Posúdiť model
Interpretujte modely podľa svojich znalostí domény, kritérií úspešnosti dolovania údajov a požadovaného návrhu testu. Posúďte úspešnosť aplikácie techník modelovania a zisťovania a potom kontaktujte obchodných analytikov a expertov na domény, aby ste prediskutovali výsledky dolovania údajov v obchodnom kontexte. Táto úloha berie do úvahy iba modely, zatiaľ čo fáza hodnotenia zohľadňuje aj všetky ostatné výsledky vytvorené počas projektu.
V tejto fáze by ste mali zoradiť modely a posúdiť ich podľa hodnotiacich kritérií. Mali by ste zvážiť obchodné ciele a kritériá úspešnosti, pokiaľ môžete tu. Vo väčšine projektov dolovania údajov sa jedna technika používa viackrát a výsledky dolovania údajov sa generujú niekoľkými rôznymi technikami.
podreťazec java obsahuje
Fáza 5: Hodnotenie
Vyhodnoťte svoje výsledky: Predchádzajúce kroky hodnotenia sa zaoberali faktormi, ako je presnosť a všeobecnosť modelu. Počas tohto kroku posúdite mieru, do akej model spĺňa vaše obchodné ciele, a budete sa snažiť určiť, či existuje nejaký obchodný dôvod, prečo je tento model nedostatočný. Ďalšou možnosťou je otestovať model na testovacích aplikáciách v reálnej aplikácii, ak to dovoľujú časové a rozpočtové obmedzenia. Fáza hodnotenia zahŕňa aj posúdenie akýchkoľvek ďalších výsledkov dolovania údajov, ktoré ste vygenerovali. Výsledky dolovania údajov zahŕňajú modely, ktoré nevyhnutne súvisia s pôvodnými obchodnými cieľmi a všetkými ostatnými zisteniami, ktoré nemusia nevyhnutne súvisieť s pôvodnými obchodnými cieľmi, ale môžu tiež odhaliť ďalšie výzvy, informácie alebo rady pre budúce smerovanie.
Proces preskúmania
V tomto bode sa výsledné modely javia ako uspokojivé a uspokojujúce potreby podnikania. Teraz je vhodné, aby ste vykonali dôkladnejšiu kontrolu zapojenia dolovania údajov, aby ste zistili, či existuje dôležitý faktor alebo úloha, ktorá bola nejakým spôsobom prehliadnutá. Tento prehľad zahŕňa aj otázky zabezpečenia kvality. Napríklad: postavili sme model správne? Použili sme iba atribúty, ktoré môžeme používať a ktoré sú dostupné pre budúce analýzy?
Určite ďalšie kroky
Teraz sa rozhodnete, ako budete postupovať v závislosti od výsledkov hodnotenia a kontroly procesu. Dokončíte tento projekt a prejdete k nasadeniu, iniciujete ďalšie iterácie alebo nastavíte nové projekty dolovania údajov? Mali by ste tiež zhodnotiť svoje zostávajúce zdroje a rozpočet, ktoré môžu ovplyvniť vaše rozhodnutia.
Fáza 6: Nasadenie
Plán nasadenia: Vo fáze nasadenia zoberiete výsledky hodnotenia a určíte stratégiu ich nasadenia. Ak bol identifikovaný všeobecný postup na vytvorenie príslušného modelu (modelov), tento postup je tu zdokumentovaný pre neskoršie nasadenie. Má zmysel zvážiť spôsoby a prostriedky nasadenia vo fáze obchodného porozumenia, pretože nasadenie je rozhodujúce pre úspech projektu. Toto je miesto, kde prediktívna analytika pomáha zlepšiť prevádzkovú stránku vášho podnikania.
Plánujte monitorovanie a údržbu
Monitorovanie a údržba sú dôležité otázky, ak sa výsledok dolovania údajov stane súčasťou každodenného podnikania a jeho prostredia. Dôkladná príprava stratégie údržby pomáha vyhnúť sa zbytočne dlhým obdobiam nesprávneho používania výsledkov dolovania údajov. Projekt potrebuje podrobný plán monitorovacieho procesu na monitorovanie nasadenia výsledkov dolovania údajov. Tento plán zohľadňuje špecifický typ nasadenia.
Vypracujte záverečnú správu
Na konci projektu napíšete záverečnú správu. V závislosti od plánu nasadenia môže byť táto správa len zhrnutím projektu a jeho skúseností (ak ešte neboli zdokumentované ako prebiehajúca činnosť), alebo môže byť konečnou a komplexnou prezentáciou výsledku dolovania údajov.
Preskúmať projekt
analýza reťazca na int
Posúďte, čo bolo správne a čo nesprávne, čo bolo urobené dobre a čo je potrebné zlepšiť.