Treść książki
Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
jakcegłyznikały,paletkazmniejszałasię,apiłeczkaprzyspieszała,
cosprawiało,żegrastawałasiętrudniejsza.
Byliśmyszczególniezadowoleni,gdypewnegopopołudnia
odkryliśmysprytnysposóbzłamaniagry.Jeśliprzebiłosiętunel
wścianienakrawędziekranu,topoprzedostaniusiępiłeczkinad
ścianęzaczynałaonaodbijaćsięwtęiwewtęmiędzygórną
krawędziąekranuanajwyższąwarstwącegiełdającychnajwięcej
punktów,czymrozbijałastopniowościanę.Możnabyłorozsiąśćsię
wfoteluiobserwować,ażpiłeczkawróciwkońcunadół.
Wystarczyłoczekaćzpaletkągotowądoodbiciapiłeczki.Była
tobardzoprzyjemnastrategia.
Hassabisikompletowanyprzezniegozespółrównieżspędzili
wdzieciństwiemnóstwoczasunagrzewgrykomputerowe.Ich
rodzicesązapewnezadowoleni,żeczasiwysiłekjednaknieposzły
namarne.Okazałosię,żeBreakoutświetnienadajesiędotestównad
tym,czyzespołowiDeepMindudasiętakzaprogramowaćkomputer,
abyuczyłsięgraćwgry.Względniełatwomożnabynapisaćprogram
dlakażdejposzczególnejgry.Hassabisijegozespółpostawilisobie
jednakowieleambitniejszezadanie.
Chcielinapisaćprogram,dlaktóregodanymiwejściowymibyłyby
układpikselinaekranieibieżącywynik,acelem–osiągnięciejak
najwyższegowyniku.Programnieznałzasadgry:wsposóblosowy
musiałeksperymentowaćzróżnymisposobamiporuszaniapaletki
wBreakoutlubstrzelaniazdziałalaserowegodozbliżającychsię
kosmitówwSpaceInvaders.Pokażdymruchuprogrammiałoceniać,
czyprzyczyniłsiędopodniesieniawyniku,czyteżniemiałnaniego
wpływu.
Programtenstosujeideępochodzącązlatdziewięćdziesiątych
–takzwanegouczeniazewzmocnieniem,któregocelemjest
aktualizacjaprawdopodobieństwadziałańnapodstawieichwpływu
nafunkcjęnagrody.NaprzykładwBreakoutjedynadecyzjagracza
poleganaprzesunięciupaletkiwprawolubwlewo.Napoczątku
prawdopodobieństwoobumożliwościjestjednakowe.Alejeśli
losoweprzesunięciepaletkiprowadzidotrafieniapiłeczki,