Treść książki
Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
pokrótkimczasiewyniksięzwiększa.Wtedynapodstawietejnowej
informacjiprogramdostosowujeprawdopodobieństwotego,czy
przesuwaćpaletkęwlewo,czywprawo.Zwiększa
toprawdopodobieństwokierowaniasięwstronę,wktórąpodąża
piłeczka.Nowościąbyłopołączenietegouczeniasięzsieciami
neuronowymi,któreoceniająukładpikseli,abyokreślić,jakiecechy
sąskorelowanezewzrostemwyniku.
Ponieważzpoczątkukomputerpoprostupróbował
przypadkowychruchów,radziłsobiesłaboiprawieniezdobywał
punktów.Zakażdymrazem,gdylosowyruchprowadził
dozwiększeniawyniku,komputerzapamiętywałtenruchiwzmacniał
jegoużyciewprzyszłości.Przypadkowośćruchówstopniowo
zanikałaistawałysięonebardziejdostosowanedotego,codziejesię
wgrze.Ruchy,którychprogramnauczyłsięprzez
eksperymentowanie,powiększaływynik.
Wartoobejrzećwideo,którezespółDeepMinddołączył
doopublikowanegoartykułunaukowego.Ukazujeono,jakprogram
uczysięgraćwBreakout.Napoczątkuwidzimy,jakprzesuwa
losowopaletkętamizpowrotem,abyzobaczyć,cosięstanie.Gdy
piłeczkawkońcutrafiawpaletkę,odbijasięodniejinastępnie
uderzawcegłę,zdobywająctympunkty–programzaczynasię
korygować.Jeżelipikselepiłeczkiipikselepaletkidotykająsię,
tojesttocośdobrego.Po400rozgrywkachprogramgrajużnaprawdę
sprawnieipaletkanieustannieodbijapiłeczkęwtęiwewtę.
Doznałemszoku,gdyzobaczyłem,coodkryłprogrampo600
rozgrywkach.Wpadłnanaszsposóbzłamaniagry!Niepamiętam,ile
rozgrywekpotrzebowaliśmyjakodzieci,byodkryćtęsztuczkę,ale
sądzącpoilościczasu,któryzprzyjacielemzmarnowałem,mogłoich
byćnawetwięcej.Awięcprogramteżtopotrafił!Manipulując
paletką,wybijałtunelepobokachściany,takżepiłeczkapozostawała
uwięzionawprzestrzenimiędzygórnąliniąścianyagórnymkrańcem
ekranu.Wtakiejsytuacjiwynikszybkosiępowiększał,akomputer
niemiałjużwieledozrobienia.Przypominamsobie,żemójprzyjaciel
ijaprzybyliśmysobiepiątkępoodkryciutejsztuczki.Maszynanie
czułaniczego.