Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
Ocenianiemodelu
21
dotegozbiorudanych.Ztegopowoduwiększośćbłędówwnaszymrozwiązaniubędzie
wynikałazwyborumodeluinaszzbiórdanychujawnidużybłądsystematyczny.
Środkowywykresnarysunku1.12ilustrujeproblemnadmiernegodopasowania
(ang.overfitting),którywystępuje,gdymamymodeloniskimbłędziesystematycznym,
alewysokimodchyleniu.Wtymprzypadkunaszmodelzbytdobrzepasujedozbioru
danychtreningowych.Jestodpowiednikiemprzygotowywaniasiędokonkretnegotestu
(zbiorudanychtreningowych),zamiastuczeniasięogólnejtechnikirozwiązaniaprob-
lemów.Istniejedużeryzyko,żegdytenmodelzostaniezastosowanynainnymzbiorze
danych,niebędziedziałałzbytdobrze.Zamiastzdobywaćogólnąwiedzę,nauczyliśmy
sięodpowiedzizpoprzednichtestów.Igdyzobaczymynowytest,niebędziemydys-
ponowaćwiedząpotrzebnądowywnioskowaniaodpowiedzi.
Pożądanąrównowagąjestmodel,któryoptymalizujezarównobłądsystematyczny,
jakiodchylenie,takijakwykrespoprawejstronienarysunku1.12.Tenmodelodzwier-
ciedlakrzywiznęrozmieszczeniadanych,aleniepodążazaposzczególnymipunktami
wzbiorzedanychtreningowych.Pasujedozbiorudanychdużobardziejniżmodelnie-
wystarczającodopasowany,alejednocześnienieśledzipojedynczychpunktówwzbio-
rzedanychtreningowychjakmodelnadmierniedopasowany.
Partycjonowaniezbiorówdanych
Oceniającmodeluczeniamaszynowego,możnaprzeciwdziałaćbłędomodchylenia,
używająctechnikiwalidacji,którazaznajamiamodelzdanymiinnyminiżte,którezo-
stałyużytedojegoutworzenia.Topodejściepomagaradzićsobiezproblememnad-
miernegodopasowania.Wróćmydonadmierniedopasowanegomodeluzrysunku1.12.
Gdybyśmyużylizbiorudanychtreningowychdoocenytegomodelu,odkrylibyśmy,
żeosiągałonrewelacyjnerezultaty,ponieważzostałzbudowanytak,bydobrzeradzić
sobieztymkonkretnymzbioremdanych.Jednakgdybyśmyużylinowegozbioruda-
nychdoocenytegomodelu,najprawdopodobniejosiągałbyonbardzosłaberezultaty.
Możnazbadaćtenproblem,używajączbiorudanychtestowychdoocenieniawydaj-
nościtegomodelu.Wpoczątkowejfazierozwijaniamodelurezerwowanyjestzbiór
danychtestowych,któryposłużydoocenianiamodelu.Niejestonwykorzystywany
wprocesietrenowania,dlategomodelniemożenadmierniesiędoniegodopasować.
Jeśliopracujemyogólnymodel,któryniejestnadmierniedopasowanydozbioruda-
nychtreningowych,będzieonosiągałdobrerezultatydlazbiorudanychtestowych.
Natomiastjeślimodeljestnadmierniedopasowanydozbiorudanychtreningowych,
niebędziedobrzeradziłsobiezezbioremdanychtestowych.
Czasamipotrzebujemyrównieżosobnegozbiorudanychstanowiącegododatkową
pomocwprocesiebudowaniamodelu.Tegotypuzbiorydanych,nazywanezbiorami
danychwalidacyjnych,pomagająwrozwijaniumodeluwsposóbiteracyjny,gdziewkaż-
dejkolejnejiteracjiparametrymodeludostrajanedoznalezieniarozwiązania,
któredobrzeradzisobiezezbioremdanychwalidacyjnych.Choćmożesiępojawić