Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
którypozwalaposzukaćminimumJprzezporuszaniesięwkierunkuprzeciw-
nymdogradientu.Rysunek2.1pokazuje,jakonoprzebiegadlaróżnychBt.Jak
widać,dlaBt0.68następujerozbieżność.Zbadajmywkontekściewarunku
A2zbieżnościmetodynajszybszegospadku.Mamy
2J(x,g)[21
1
2].
Największąwartościąwłasnątejmacierzyjest3(odpowiadającyjejwektor
własnyto[1,1]T/2).wobectegoparametrykrokuwiększeniż1/3powo-
dująoscylacjemetodynajszybszegospadku,zaświększeniż2/3powodująjej
rozbieżność.
2.2.Procedura
Stochastycznego
Spadku,SGD
Najszybszego
Niekiedyniejesteśmywstaniebezpośredniozastosowaćiteracji(2.1),ponie-
ważobliczaniegradientujestczasochłonnelubniemożliwe.Okazujesię,żemo-
żemyzastosowaćiteracjęanalogicznąposługującąsięjedynieoszacowaniami
gradientu.Rozważmyiteracjępodobnądo(2.1),któraużywawektoraloso-
wegogtbędącegonieobciążonymestymatorem∇J(Bt),czylispełniającegowa-
runek
1
Egt=∇J(Bt),
alboprzynajmniejasymptotycznienieobciążonymestymatorem∇J(Bt),czyli
spełniającegoogólniejszywarunek
t→∞
lim
"EgtJ(Bt)"=0.
Iteracjamapostać
Bt+1=BtBtgt,t=1,2,...
(2.3)
dlapewnegoB1Θ.NosionanazwęproceduryStochastycznegoNajszybszego
SpadkulubproceduryRobbinsa-Monro,odnazwiskjejtwórców[37].Będziemy
tutajokreślalijakoSGD(ang.StochasticGradientDescent).Modyfikujeona
wektoryBtprzeciwniedokierunku,którynależyrozumiećjakozaszumiony
gradient;kierunektenjestśredniorównygradientowi(albocorazmubliższy),
choćwkonkretnejchwilitrównośćgt=∇J(Bt)niemusizachodzić.
1WektorlosowyXsłużącydoszacowanianielosowejwielkościμjestjejnżeObCżążOngm
eStgm!tOrem,jeślijegowartośćoczekiwanajestrównaμ,czylizachodziEX=μ.Jeślipo-
wyższarównośćniezachodzi,wówczasXjestobciążonymestymatoremμijegoobciążenie
wynosiEXμ.
23