Treść książki
Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
2.zagadnieniametodyczneprzeprowadzaniaeksploracjidanych
składasięzczterechetapów:identyfikacjiproblemów,eksploracjida-
nych,podjęciadziałań,oceny(ewaluacji)wyników(rys.2.1).
EtapymetodykiVirtuousCycleofDataMiningrealizujesięwsposób
powtarzalny(iteracyjnie).Obejmująone:
(1)identyfikacjęproblemów:
–
analizędziałalnościpodmiotuiznalezienietychjejaspektów,
którepotencjalniemogązostaćzoptymalizowane,
–
identyfikacjędziałalności,któremogąwpłynąćnadostępność
danychimożliwośćpodejmowaniadziałań,
–
ocenęwiarygodnościstosowanychźródełdanychorazmożliwo-
ścipozyskiwaniadanych,
–
zebraniewiedzyoproblemiewynikającejzdoświadczeniaiin-
tuicjipraktyków;
(2)eksploracjędanych:
–
identyfikacjęipozyskaniedanych,
–
sprawdzenieiczyszczeniedanych,
–
przekształceniedanychorazuzyskaniewłaściwegoukładuda-
–
nych,
wybraniepróbyuczącej,
–
wybraniemetodymodelowania,
–
ocenęjakościmodelu;
(3)podjęciezamierzonychdziałańnapodstawiewynikówuzyskanych
wkrokueksploracjidanych;
(4)ewaluację(ocenę)wynikóworazdokonaniezmianiulepszeńwbu-
dowanymmodelu.
KolejnazwymienionychmetodykCRISP-DM(Cross-IndustryStan-
dardProcessforDataMining)zostałaopracowanaw1996r.przezana-
litykówzDaimlerChrysler,SPSS(StatisticalPackagefortheSocialScience)
iNCR.
CRISP-DM(rys.2.2)proponujezastosowaniestandardowegopro-
cesudopasowaniaeksploracjidanychdoogólnejstrategiirozwiązywa-
niaproblemówkomórkibiznesowejlubbadawczej.Składasięzsześciu
faz,któreobejmująrealizacjęwymienionychponiżejczynności:
(1)zrozumienieuwarunkowańbiznesowych:
–
sformułowaniecelówiwymagańprojektuzgodniezichrozu-
mieniemwkomórcebiznesowejlubbadawczej,którejdotyczą,
–
wykorzystaniesformułowanychcelówiwymagańdoopracowa-
niadefinicjiproblemueksploracjidanych,
–
stworzeniewstępnegoplanudziałańzmierzającychdoosiągnię-
ciasformułowanychcelów;
(2)zrozumieniedanych:
–
zebraniedanych,
25