Treść książki
Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
ROZDZIAŁ1.WPROWADZENIE
Najpopularniejsząklasyfikacjąmetodeksploracjidanychjestklasyfikacja
tychmetodzewzględunaceleksploracji.Ztegopunktuwidzeniametodyeks-
ploracjidanychmożnapodzielić,bardzoogólnie,nanastępująceklasy[HK98,
TSK06]:
•Odkrywanieasocjacji–najszerszaklasametodobejmująca,najogólniej,me-
todyodkrywaniainteresującychzależnościlubkorelacji,nazywanychogólnie
asocjacjami,pomiędzydanymiwdużychzbiorachdanych.Wynikiemdzia-
łaniametododkrywaniaasocjacjisązbioryregułasocjacyjnychopisujących
znalezionezależnościi/lubkorelacje.
•Klasyfikacjaipredykcja–metodyodkrywaniamodeli(takzwanychklasy-
fikatorów)lubfunkcjiopisującychzależnościpomiędzyzadanąklasyfikacją
obiektówaichcharakterystyką.Odkrytemodeleklasyfikacjisąnastępniewy-
korzystywanedoklasyfikacjinowychobiektów.
•Grupowanie(analizaskupień,klastrowanie)–metodyznajdowaniaskończo-
nychzbiorówklasobiektówmającychpodobnecechy.Wprzeciwieństwie
dometodklasyfikacjiipredykcjiklasyfikacjaobiektów(podziałnaklasy)
niejestznanaapriori,leczjestcelemmetodgrupowania.Metodytegrupu-
jąobiektywklasywtakisposób,abymaksymalizowaćpodobieństwowe-
wnątrzklasoweobiektówiminimalizowaćpodobieństwopomiędzyklasami
obiektów.
•Analizasekwencjiiprzebiegówczasowych–metodyanalizysekwencjida-
nychkategorycznych(np.sekwencjibiologicznych),sekwencjizbiorówda-
nychkategorycznychorazprzebiegówczasowych.Metodyanalizysekwencji
danychmająnaceluznajdowanieczęstychpodsekwencji(tzw.wzorcówse-
kwencji,częstychepizodów),klasyfikacjęigrupowaniesekwencji,ametody
analizyprzebiegówczasowychsłużągłówniedoznajdowaniatrendów,po-
dobieństw,anomaliiorazcykliwprzebiegachczasowych.
•Odkrywaniecharakterystyk–metodyznajdowaniazwięzłychopisówlub
podsumowańogólnychwłasnościklasobiektów.Znajdowaneopisymogą
miećpostaćregułcharakteryzującychlubregułdyskryminacyjnych.Wtym
drugimprzypadkuopisująróżnicemiędzyogólnymiwłasnościamitakzwa-
nejklasydocelowej(klasyanalizowanej)awłasnościamitakzwanejklasy
(zbioruklas)kontrastującej(klasyporównywanej).
•Eksploracjatekstuidanychsemistrukturalnych–metodyreprezentacjiiana-
lizydanychtekstowychorazdanychsemistrukturalnych(XML)wceluich
grupowania,klasyfikacjiorazwspieraniaprocesuwyszukiwania.
•Eksploracjawww–metodyanalizykorzystaniazsieciWebwceluznajdowa-
niatypowychwzorcówzachowańużytkownikówsieci,metodyanalizypo-
wiązaństronwsieciWebwceluokreśleniaważnościikoncentratywności
stron(atymsamym,poprawyefektywnościprocesuwyszukiwaniastron),
metodygrupowaniaiklasyfikacjistronwwwnapodstawieichzawartości
ischematuzewnętrznego,wreszcie,metodyanalizyukrytychsiecispołecz-
8