Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
pokrótkimczasiewyniksięzwiększa.Wtedynapodstawietejnowej
informacjiprogramdostosowujeprawdopodobieństwotego,czy
przesuwaćpaletkęwlewo,czywprawo.Zwiększa
toprawdopodobieństwokierowaniasięwstronę,wktórąpodąża
piłeczka.Nowościąbyłopołączenietegouczeniasięzsieciami
neuronowymi,któreoceniająukładpikseli,abyokreślić,jakiecechy
skorelowanezewzrostemwyniku.
Ponieważzpoczątkukomputerpoprostupróbował
przypadkowychruchów,radzsobiesłaboiprawieniezdobywał
punktów.Zakażdymrazem,gdylosowyruchprowadził
dozwiększeniawyniku,komputerzapamiętywałtenruchiwzmacniał
jegoyciewprzyszłości.Przypadkowośćruchówstopniowo
zanikałaistawałysięonebardziejdostosowanedotego,codziejesię
wgrze.Ruchy,którychprogramnauczyłsięprzez
eksperymentowanie,powiększaływynik.
Wartoobejrzećwideo,którezespółDeepMinddołączył
doopublikowanegoartykułunaukowego.Ukazujeono,jakprogram
uczysięgraćwBreakout.Napoczątkuwidzimy,jakprzesuwa
losowopaletkętamizpowrotem,abyzobaczyć,cosięstanie.Gdy
piłeczkawkońcutrafiawpaletkę,odbijasięodniejinastępnie
uderzawcegłę,zdobywająctympunktyprogramzaczynasię
korygować.Jeżelipikselepiłeczkiipikselepaletkidotykająsię,
tojesttocośdobrego.Po400rozgrywkachprogramgrajużnaprawdę
sprawnieipaletkanieustannieodbijapiłeczkęwiwewtę.
Doznałemszoku,gdyzobaczyłem,coodkryłprogrampo600
rozgrywkach.Wpadłnanaszsposóbzłamaniagry!Niepamiętam,ile
rozgrywekpotrzebowaliśmyjakodzieci,byodkryćsztuczkę,ale
sądzącpoilościczasu,któryzprzyjacielemzmarnowałem,mogłoich
byćnawetwięcej.Awięcprogramteżtopotrafił!Manipulując
paletką,wybijałtunelepobokachściany,takżepiłeczkapozostawała
uwięzionawprzestrzenimiędzygórnąliniąścianyagórnymkrańcem
ekranu.Wtakiejsytuacjiwynikszybkosiępowiększał,akomputer
niemiałjużwieledozrobienia.Przypominamsobie,żemójprzyjaciel
ijaprzybyliśmysobiepiątkępoodkryciutejsztuczki.Maszynanie
czułaniczego.