Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
16
AgnieszkaDuraj
Weksploracjidanych,metodachuczeniamaszynowego,algorytmach
podejmowaniadecyzji,wszędzietam,gdziepracujemynadanychbądź
tedaneanalizujemybardzoistotnajestjakośćdanych.
DefinicjajakościdanychwedługRedmana[167]mówiotym,dane
wysokiejjakości,jeżelinadająsiędoużyciazgodniezprzeznaczeniem
wzakresiedziałania,podejmowaniadecyzjiiplanowania.Danenadają
siędoużyciazgodniezprzeznaczeniem,jeżeliniezawierajądefektów
iposiadająpożądanecechy.Określonerównieżcechyjakościdanych
takiejak:dostępność,zrozumiałość,spójność,poprawność,użyteczność,
kompletność.
2.1.1
Niepewnośćdanych
Oczywiściedążysiędozapewnieniajakościdanychzuwzględnieniem
wszystkichcech.Jednakpodczasgromadzeniaiprzetwarzaniadanych
częstoznieznanychźródełmamydoczynieniazniepewnościądanych,
zinformacjąnieprecyzyjną,niekompletną.Niepewnośćdanychwynika-
jącabezpośrednioznaturydanychmożemiećróżnycharakter.Naprzy-
kład,możebyćtoniepewność:
danychwynikającazniedokładnościpomiarowej,omówionapowy-
żej,
stochastycznazwiązanazmetodamirachunkuprawdopodobień-
stwa,np.ryzykoubezpieczeniowe,ryzykoinwestycyjne,
informacyjna,np.wiarygodnośćinformacjipodawanychprzezkre-
dytobiorcę,częstowystępującaweksploracjidanych,
lingwistyczna,opiswjęzykunaturalnymnp.wysoko,mało,zimno,
szybko.
Dlapowyżejwymienionychrodzajówniepewnościdanychstosowa-
neróżnegorodzajumetodyeksploracjidanychimodelowaniada-
nych.Wprzypadkuniepewnościstochastycznejnajczęściejstosowana
jestteoriasiecibayesowskich.Możliwejestwówczasopisaniezależności
przyczynowo-skutkowychpomiędzydowolnymiatrybutami,zjawiskami,
czyteżpomiędzyklasyfikowanymiobiektami.Uzasadnionejesttakżena
podstawiewybranychatrybutówwnioskowanieorozkładzieprawdopo-
dobieństwa,funkcjigęstościnieznanychwartościcech,czyliniepełnych
danych.
Drugąbardzoczęstoużywanąmetodąmodelowanianieprecyzyjnych
iniekompletnychdanychzbioryrozmyteróżnegotypu.Pozwalają