Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
2.1.Naturadanych
15
Powszechniejakodefinicjęwyjątku(danejodstającej)przyjmujesię,
żejesttowynikobserwacjiróżniącysięistotnieodinnychwyników
zgrupy,cosugeruje,żewyniktenjestskutkieminnegomechanizmu
jegogenerowania.
Weksploracjidanych,metodachuczeniamaszynowego,algorytmach
podejmowaniadecyzji,wszędzietam,gdziepracujemynadanychbądź
tedaneanalizujemybardzoistotnajestjakośćdanych.
DefinicjajakościdanychwedługRedmana[179]mówiotym,dane
wysokiejjakości,jeżelinadająsiędoużyciazgodniezprzeznaczeniem
wzakresiedziałania,podejmowaniadecyzjiiplanowania.Danenadają
siędoużyciazgodniezprzeznaczeniem,jeżeliniezawierajądefektów
iposiadająpożądanecechy.Określonerównieżcechyjakościdanych
takiejak:dostępność,zrozumiałość,spójność,poprawność,użyteczność,
kompletność.
2.1.1
Niepewnośćdanych
Oczywiściedążysiędozapewnieniajakościdanychzuwzględnieniem
wszystkichcech.Jednakpodczasgromadzeniaiprzetwarzaniadanych
częstoznieznanychźródełmamydoczynieniazniepewnościądanych,z
informacjąnieprecyzyjną,niekompletną.Niepewnośćdanychwynikająca
bezpośrednioznaturydanychmożemiećróżnycharakter.Naprzykład,
możebyćtoniepewność:
ůdanychwynikającazniedokładnościpomiarowej,omówiona
powyżej,
ůstochastyczna,
związana
z
metodami
rachunku
prawdopodobieństwa,
np.
ryzyko
ubezpieczeniowe,
ryzyko
inwestycyjne,
ůinformacyjna,np.wiarygodnośćinformacjipodawanychprzez
kredytobiorcę,częstowystępującaweksploracjidanych,
ůlingwistyczna,opiswjęzykunaturalnymnp.wysoko,mało,zimno,
szybko.
Wówczas,częstodoeksploracjidanychimodelowaniadanychtego
rodzajuniepewnościstosowanajestteoriasiecibayesowskich.Możliwe
jestwówczasopisaniezależnościprzyczynowo-skutkowychpomiędzy
dowolnymiatrybutami,zjawiskamiczyteżpomiędzyklasyfikowanymi
obiektami.Uzasadnionejesttakżenapodstawiewybranychatrybutów