Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
ROZDZIAŁ1.WPROWADZENIE
przezużytkownika,oraztychproblemów,dlaktórychniedysponujemypełnąwie-
dząoprzedmiocieanalizy,couniemożliwiasterowanieprocesemanalizydanych.
Celemeksploracjidanychjest,przedewszystkim,poznanieizrozumienieanalizo-
wanychprocesówigenerowanychprzezniedanych.
Celemeksploracjidanych,jakpowiedzieliśmy,jestautomatyczneodkrywa-
nienieznanej,alepotencjalnieużytecznejwiedzy.Stwierdzenie,czyodkrytawie-
dzajestnieznana,interesującaipotencjalnieużyteczna,jestbardzosubiektywne.
Zależytooddziedzinyaplikacji,osobyeksplorującejdaneczywreszcieodce-
lueksploracji.Wprocesieeksploracjidanychodkrywanajestczęstobardzoduża
liczbawzorców.Częśćzodkrytychwzorcówjestmałointeresującatowzorce
dobrzeznaneużytkownikowilubwzorceoniewielkiejwartościpraktycznej.Część
wzorców,zkolei,jestinteresującaipotencjalnieużyteczna.Problememjestidenty-
fikacjawmasiewzorcówtychwzorców,któremającharakternieznanejiużytecz-
nejwiedzy.Należy,niestety,stwierdzić,żenieistniejążadneobiektywnekryteria
ocenynowościodkrytejwiedzyijejpotencjalnejużyteczności.Jedynieużytkow-
nikmożeokreślić,naileznalezionewzorcenowe,nietrywialneipotencjalnie
użyteczne.Zdrugiejstrony,zewzględunaliczbęodkrywanychwzorcówwproce-
sieeksploracjiczęstodefiniujesiędodatkoweograniczenialubwarunki,któremu-
sząbyćspełnioneprzezwzorce.Proceseksploracjidanych,zsamejswojejistoty,
jestzatemproceseminteraktywnymiiteracyjnym,wktórymistotnymelementem
procesujestużytkowniksystemueksploracjidanych.
Eksploracjadanychjestdziedzinąinformatyki,któraintegrujeszeregdyscy-
plinbadawczych,takichjak:systemybazihurtownidanych,statystyka,sztucz-
nainteligencja,uczeniemaszynoweiodkrywaniewiedzy,obliczeniarównoległe,
optymalizacjaiwizualizacjaobliczeń,teoriainformacji,systemyreputacyjne.Po-
wyższalistadyscyplinniejestpełna.Eksploracjadanychwykorzystujerównież
szerokotechnikiimetodyopracowanenagrunciesystemówwyszukiwaniainfor-
macji,analizydanychprzestrzennych,rozpoznawaniaobrazów,przetwarzaniasy-
gnałów,technologiiWeb,grafikikomputerowej,bioinformatyki.
Jakiedanepodlegająeksploracjidanych?Początkowoeksploracjipoddawa-
noprostetypydanych(liczby,łańcuchyznaków,daty),przechowywanewplikach
płaskichorazrelacyjnychbazachdanych.Wrazzrozwojemnarzędzidogenero-
waniaiprzechowywaniadanychoraztechnologiieksploracjidanycheksploracji
poddawanecorazbardziejzłożonetypydanych:multimedialne(zdjęcia,filmy,
muzyka),przestrzenne(mapy),tekstoweisemistrukturalne,przebiegiczasowe,se-
kwencjedanychkategorycznych,grafy,strukturychemiczne(sekwencjeDNA),
siecispołecznościowe.
Terminneksploracjadanych”jestczęstoużywanyjakosynonimterminunod-
krywaniewiedzy”wbazachimagazynachdanych.Wistocienależyrozróżnić
dwapojęcia:odkrywaniewiedzyieksploracjadanych.Zgodniezdefinicjąpodaną
w[PFS96]terminnodkrywaniewiedzy”macharakterogólniejszyiodnosisiędo
całegoprocesuodkrywaniawiedzy,którystanowizbiórkrokówtransformujących
4