Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
jakcegłyznikały,paletkazmniejszałasię,apiłeczkaprzyspieszała,
cosprawiało,żegrastawałasiętrudniejsza.
Byliśmyszczególniezadowoleni,gdypewnegopopołudnia
odkryliśmysprytnysposóbzłamaniagry.Jeśliprzebiłosiętunel
wścianienakrawędziekranu,topoprzedostaniusiępiłeczkinad
ścianęzaczynałaonaodbijaćsięwiwewmiędzygórną
krawędziąekranuanajwyższąwarstwącegiełdającychnajwięcej
punktów,czymrozbijałastopniowościanę.Możnabyłorozsiąśćsię
wfoteluiobserwować,piłeczkawróciwkońcunadół.
Wystarczyłoczekaćzpaletkągotowądoodbiciapiłeczki.Była
tobardzoprzyjemnastrategia.
Hassabisikompletowanyprzezniegozespółrównieżspędzili
wdzieciństwiemnóstwoczasunagrzewgrykomputerowe.Ich
rodzicezapewnezadowoleni,żeczasiwysiłekjednaknieposzły
namarne.Okazałosię,żeBreakoutświetnienadajesiędotestównad
tym,czyzespołowiDeepMindudasiętakzaprogramowaćkomputer,
abyuczyłsięgraćwgry.Względniełatwomożnabynapisaćprogram
dlakażdejposzczególnejgry.Hassabisijegozespółpostawilisobie
jednakowieleambitniejszezadanie.
Chcielinapisaćprogram,dlaktóregodanymiwejściowymibyłyby
układpikselinaekranieibieżącywynik,acelemosiągnięciejak
najwyższegowyniku.Programnieznałzasadgry:wsposóblosowy
musieksperymentowzżnymisposobamiporuszaniapaletki
wBreakoutlubstrzelaniazdziałalaserowegodozbliżającychsię
kosmitówwSpaceInvaders.Pokażdymruchuprogrammiałoceniać,
czyprzyczyniłsiędopodniesieniawyniku,czyteżniemiałnaniego
wpływu.
Programtenstosujeideępochodzącązlatdziewięćdziesiątych
takzwanegouczeniazewzmocnieniem,któregocelemjest
aktualizacjaprawdopodobieństwadziałańnapodstawieichwpływu
nafunkcjęnagrody.NaprzykładwBreakoutjedynadecyzjagracza
poleganaprzesunięciupaletkiwprawolubwlewo.Napoczątku
prawdopodobieństwoobumożliwościjestjednakowe.Alejeśli
losoweprzesunięciepaletkiprowadzidotrafieniapiłeczki,