Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
5i3iRozszerzeniealgorytmówQ-LearningiSARSAdociągłych
przestrzenistanówiakcjiiiiiiiiiiiiiiiiiiiiii
68
60
Optymalizacjastochastycznegowyboru
75
6i1iParametryzowanerozkładyprawdopodobieństwaiiiiiii
76
6i2iAlgorytmREINFORCEpunktowyiiiiiiiiiiiiiii
83
6i3iStacjonarnastrategiadecyzyjnaiiiiiiiiiiiiiiiii
85
6i4iAlgorytmREINFORCEstatycznyiiiiiiiiiiiiiiii
87
6i5iAlgorytmREINFORCEepizodycznyiiiiiiiiiiiiii
89
70
AlgorytmAktor-Krytyk
95
7i1iIdeaalgorytmuAktor-Krytykiiiiiiiiiiiiiiiiii
95
7i2iKlasycznyAktor-Krytykiiiiiiiiiiiiiiiiiiiii
96
7i3iAktor-Krytyk(A)iiiiiiiiiiiiiiiiiiiiiiiii
99
80
Aktor-Krytykzkompatybilnąaproksymacją
105
8i1iOptymalizacjaśredniejnagrodyiiiiiiiiiiiiiiiii105
8i2iGradientstrategiiiiiiiiiiiiiiiiiiiiiiiiiii107
8i3iAktor-Krytykzkompatybilnąaproksymacjąiiiiiiiiii110
8i4iNaturalnyAktor-Krytykiiiiiiiiiiiiiiiiiiiii112
8i5iDyskontojograniczeniewariancjiestymatoragradientuiii115
90
Wielokrotneprzetwarzanieobserwacji
117
9i1iAlgorytmQ-Learningzpowtarzaniemdoświadczeniaiiiii119
9i2iPróbkowanieistotnościoweiiiiiiiiiiiiiiiiiiii120
9i3iAlgorytmAktor-Krytykzpowtarzaniemdoświadczeniaiiii122
9i4iOptymalizacjaestymatorawskaŹnikajakościiiiiiiiiii131
100Algorytmywzbogacone
133
10i1iAsynchronousAdvantageActor-oriticiiiiiiiiiiiiii133
10i2iProximalPolicyOptimizationiiiiiiiiiiiiiiiiii134
10i3iDeepDeterministicPolicyGradientiiiiiiiiiiiiiii137
10i4iSoftActor-oriticiiiiiiiiiiiiiiiiiiiiiiiii138
110Gęstadyskretyzacjaczasu
143
11i1iStrategiazautoskorelowanymiakcjamiiiiiiiiiiiiii144
11i2iActor-oriticwithExperienceReplayandAutocorrelatedaotions147
120Uczeniesięwwarunkachczęściowoobserwowalnegostanu
151
12i1iRekurencyjnesiecineuronoweiiiiiiiiiiiiiiiiii152
12i2iDeepRecurrentQ-Learningiiiiiiiiiiiiiiiiiii153
130Wieloagentoweuczeniesięzewzmocnieniem
155
13i1iModelsynchronicznyniekooperacyjnyzczęściowoobserwowa-
nymstanemiiiiiiiiiiiiiiiiiiiiiiiiiiii156
13i2iMulti-AgentDeepDeterministicPolicyGradientiiiiiiii157
6