Treść książki
Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
przypadkualgorytmnadmierniedopasowujedaneszkoleniowe–wyciągajączbytwiele
zszumuobecnegowdanych–codajebardzodużybłąduogólnienia.Innymisłowy,
algorytmzapamiętujedaneszkoleniowe,zamiastuczyćsię,jakuogólniaćzdobytąnaich
podstawiewiedzę2.
Abyrozwiązaćtenproblem,możemywprowadzićuczenienienadzorowanejakore-
gularyzator.Regularyzacjajestprocesemstosowanymwceluzmniejszeniazłożoności
algorytmuuczeniamaszynowego,pomagającmuprzechwytywaćprawdziweinformacje
wdanychbezdostosowywaniasięzbytniodoszumu.Wstępneszkolenienienadzorowa-
nejestjednąztakichformregularyzacji.Zamiastpodawaniapierwotnychdanychwej-
ściowychbezpośredniodoalgorytmuuczenianadzorowanego,możemypodawaćnowe
przedstawieniepierwotnychdanychwejściowych,którewygenerujemy.
Tonoweprzedstawienieoddajeistotęoryginalnychdanych–prawdziwąwewnętrzną
strukturę–tracącpodrodzeczęśćmniejreprezentatywnegoszumu.Gdypodamytonowe
przedstawieniealgorytmowiuczenianadzorowanego,otrzymaonmniejszumu,przez
którymusiałbyprzebrnąćiprzechwyciwięcejsygnału(istotnychdanych),poprawiając
swójbłąduogólnienia.Zajmiemysięwyodrębnianiemcechwrozdziale7.
Przekleństwowymiarowości
Nawetprzyobecnychpostępachwzakresiemocyobliczeniowej,algorytmomuczeniama-
szynowegotrudnojestobsługiwaćogromnezbiorydanych.Ogólnierzeczbiorąc,doda-
waniedalszychelementówniejestzbytproblematyczne,ponieważmożemyzrównoleglić
wykonywaneoperacje,wykorzystującnowoczesnerozwiązaniatypumap-reduce,takiejak
Spark.Imwięcejjednakmamycech,tymszkoleniestajesiętrudniejsze.
Wprzestrzeniobardzodużejliczbiewymiarówalgorytmynadzorowanemusząna-
uczyćsię,jakoddzielaćpunktyibudowaćaproksymacjęfunkcji,abypodejmowaćdobre
decyzje.Gdycechysąbardzoliczne,towyszukiwaniestajesiębardzokosztownezarówno
zpunktuwidzeniaczasu,jakiobliczeń.Wniektórychprzypadkachznalezieniedobrego
rozwiązaniawystarczającoszybkomożebyćniemożliwe.
Tenproblemjestznanyjakoprzekleństwowymiarowości,auczenienienadzorowane
jestdobrzeprzystosowanedoradzeniasobieznim.Dziękiredukcjiwymiarowościmo-
żemyznaleźćnajbardziejistotnecechyworyginalnymzestawiecech,zmniejszyćliczbę
wymiarówdołatwiejszejdoogarnięcia,tracącprzytymbardzomałoistotnychinfor-
macji,anastępniezastosowaćalgorytmynadzorowane,abyskuteczniejprzeprowadzać
wyszukiwaniedobrejaproksymacjifunkcji.Redukcjęwymiarowościbędziemyomawiać
wrozdziale3.
2
Zbytmałedopasowaniejestinnymproblemem,którymożewystąpićprzybudowaniuaplikacjiucze-
niamaszynowego,alejestłatwiejszedorozwiązania.Zbytmałedopasowaniewystępuje,ponieważ
modeljestzbytprosty–algorytmniemożezbudowaćwystarczającozłożonegoprzybliżeniafunkcji,
abypodejmowaćdobredecyzjezwiązanezdanymzadaniem.Abytorozwiązać,możemyzwiększyć
rozmiaryalgorytmu(dodaćwięcejparametrów,przeprowadzićwięcejiteracjiszkolenia,itd.)albo
zastosowaćbardziejskomplikowanyalgorytmuczeniamaszynowego.
Używanieuczenianienadzorowanegodopoprawyrozwiązańwykorzystującychuczeniemaszynowe|
9