Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
16
CzęśćI:Podstawyuczeniamaszynowego
Budowaniezachowania
Ludzieucząsięnapodstawiebodźcówzmysłowych,azmysłydająnaminstynktowne
poczucie,żecośjestdobrelubzłe.Bodźcezmysłowenastępnierejestrowanewmóz-
guiprzetwarzanenafragmentyinformacji(naprzykład,czycoślubimy
,czynie),które
pozapamiętaniułącznietworząwmózgubazędanychwspomnień.Zawartośćtejbazy
danychwspomnieńjestpóźniejwykorzystywanadoprzetwarzanianastępnychbodź-
cówzmysłowychwsposóbmniejinstynktownyibardziejmyślowy
.
Wyobraźmysobie,żeprocestenpowtarzasięwielokrotnie,synapsaposynapsie,
sekundaposekundzie,prowadzącdopowstaniaolbrzymiegoarchiwuminformacji.
Mózgwpewiensposóbindeksujebazędanych,dziękiczemumożeszybkoznaleźć
zbiórpoleceńnerwowych,któremożeprzekazaćdoneuronówimięśniwceluzapew-
nieniareakcjinabodźcie.Każdaoznakażyciapoleganapewnejreakcjinapewną
stymulację.
Zatem,imczęściejotrzymamypewienbodziec,tymwięcejwiemyozachowaniu,
jakiechcemyrozwinąćwreakcjinatenbodziec.Imczęściejodczuwamytensam
bodziec,tymczęściejreagujemywokreślonysposóbzatemtymbardziejinstynk-
townareakcjaprzekształcasięwbardziejświadomezachowanie.
Zmianainstynktownegozachowaniawbardziejinteligentnepodwzględemostatecz-
negoefektujestrzeczywistymcelemszkoleniauzwierząt,ludzi,atakżealgorytmów.
Nagrodaikara
Celemszkoleniajestzmianaczęstotliwościwystępowaniapewnychzachowań,aby
niepożądanezachowaniezachodziłorzadziej,apożądaneczęściej.Abyopracować
pewnąformęszkolenia,należyzachowaćkonsekwencjęidostosowaćswojedziałania,
abywyzwalaćtylkospodziewanereakcjetakczęsto,jaktomożliwe.
Jednązgłównychzasadszkoleniajestzapewnienieszkolonemupozytywnego
doświadczenianagrodywreakcjinapożądanezachowanie.Innagłównazasada
szkoleniajestspektakularnaipoleganazapewnieniunegatywnegodoświadczenia
karywprzypadkuniechcianegodziałania.Zatemwszyscyszkoleniowcystosują
konsekwencje,ponieważwszyscyszkoleniinstynktowniedziałajątak,abyotrzymać
nagrodę(marchewkę)iuniknąćkary(kija).
Podejściekijaimarchewkijestwzorcem,zgodniezktórymucząsięzwierzęta
iludzie.Aalgorytmy?Jeślimarchewkamasprawićprzyjemnośćszkolonemu,akij
magoukarać,jaksprawićprzyjemnośćalgorytmowi,ajakgoukarać?Oczywiściejest
toniemożliwe.Aprzynajmniejniewpowszechnymzrozumieniu.
Wprzypadkutrenowanegoalgorytmunagrodaikarawynikajązpozycjiobliczone-
gowyniku,którymożebyćwyższylubniższyodakceptowalnegoprogu.