Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
Wstęp
testanowiąwęzłydiagramówanalizydanych.Węzłynadiagramach
łączoneliniamizakończonymistrzałkamiwskazującymikolejność
krokówanalizydanych.Wtymrozdzialeomawiamytakżesposobybu-
dowaniadiagramuanalizydanychiwskazujemy
,jakichzasadbudowy
diagramównależyprzestrzegać,abyzapewnićpoprawnośćprzeprowa-
dzanychanaliz.
Całyrozdział3.poświęconyjestproblematyceprzygotowywania
danychnapotrzebyanalizyzwiązanejzeksploracjądanych.Obejmuje
ondostępnewEnterpriseMinermetodywstępnejstatystycznejanalizy
danychiopisnarzędziudostępnianychwceluprzeprowadzeniatakiej
analizy
.Przedstawiamytakżezagadnienialosowaniapróbydoprzepro-
wadzaniaanaliz,gdyuznamy
,żeniemapotrzebyposłużeniasięcałym
zbiorem.Omawiamyproblempodziałudanychnadanetreningowe,
walidacyjneitestowe(stosowanegonapotrzebybudowaniamodeli)
iprzedstawiamycelowośćjegowykonania.Wtymrozdzialeporu-
szamytakżezagadnieniafiltrowaniadanych,wyboruzmiennych,ze
względunaktórebędziemyanalizowaćdane,przeprowadzaniatrans-
formacjizmiennych,zastępowaniabrakującychwartościwartościami
wyliczanymiprzezprogramlubprzyjętymiprzezużytkownikawar-
tościami(tzw.imputacjadanych)orazwpływuwartościnietypowych
(outliers)nawynikianaliz.Problematycewyboruzmiennych,zuwagi
najejznaczeniewprzypadkachwykorzystywaniametodeksploracji
danych,poświęcamyszczególnąuwagę.Przedstawiamyspecjalnena-
rzędzieprogramu,któremożebyćwykorzystywane,abywłaściwie
dobraćzmiennedotworzonegomodelunarzędzieonazwieVariable
Selection,któreudostępniametodydoboruzmiennych.Ilustrujemytu
m.in.możliwośćposłużeniasiękryteriumwspółczynnikadeterminacji
R2orazkryteriumChi2dladoboruzmiennych.Wdalszejczęścipracy
przedstawimytakżeinnemetody
,któremogąbyćpomocnewdoborze
zmiennych,mianowiciemożliwościwykorzystywaniadrzewdecyzyj-
nychorazdokonywaniaselekcjizmiennychzapomocązbudowanego
przezużytkownikamodeluregresji(liniowejlublogistycznej).
Wrozdziale4.omawiamymożliwościwykorzystaniametodeksplo-
racjidanychnapotrzebyprognozowania.Przedstawiamyzastosowanie
wprognozowaniumetod:regresjiliniowejilogistycznej,siecineuro-
nowychorazdrzewdecyzyjnych.Podajemyprzykładyzastosowania
tychmetod,posługującsięprogramemEnterpriseMineriwykorzystu-
jącwmożliwieszerokimzakresiedomyślneustawieniaparametrów
budowanychmodeliregresji,siecineuronowychidrzewdecyzyjnych,
takabyumożliwićczytelnikowiopanowaniezasadbudowyiwyko-
rzystywaniatychmodeli.Wpraktycznychzastosowaniachpotrzebne
jestzwyklestopnioweudoskonalaniemodelimetodąpróbibłędów
dodobraniatakichparametrów,którepozwolązbudowaćjaknajlep-
13