Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
xx
wstęp
Zapewnewynikałotoztego,żelubięsłowaijestemzafascynowanyichroląwludzkiej
inteligencji.Potrafiłemspędzaćcałegodziny,debatujączJohnemKowalskim,moim
szefemodteoriiinformacjiwSharpLabs,nadtym,czysłowawogólemająjakieśzna-
czenie.Gdynabrałempewnościsiebieidowiadywałemsięcorazwięcejodmoichmen-
torówimentorek,wydałomisię,żepotrafięsamzbudowaćcośnowegoimagicznego.
Jednązesztuczek,którejsięnauczyłem,byłoiterowaniezbiorudokumentówizli-
czanie,jakczęstopojawiałysięsłowa„Wojna”i„Głód”,aponichsłowajak„Gry”lub
„III”.Jeślidokonamytegonadużymzestawietekstów,możemydośćdobrzeodgadnąć
poprawnesłowowciągusłów,frazielubwzdaniu.Klasycznepodejściedoprzetwarza-
niajęzykajestdlamniedośćintuicyjne.
ProfesorowieiszefowienazywajątołańcuchamiMarkowa,aledlamniejesttopo
prostutabelaprawdopodobieństw.Totylkolistawystąpieńkażdegozesłównapodsta-
wiesłowapoprzedniego.Profesorowienazywajątorozkłademwarunkowym,prawdopo
-
dobieństwemsłówuwarunkowanymsłowempoprzednim.Mechanizmkorektypisowni
zbudowanyprzezPeteraNorvigadlaGooglepokazał,jakdobrzeskalujesiętopodej-
ścieijakniewielekoduwPythoniewymaga2.Potrzebujemytylkodużotekstuwjęzyku
naturalnym.Byłembardzopodekscytowanymożliwościami,jakietodajenaogromnych
darmowychzbiorachtekstówjakWikipediaczyProjektGutenberga3.
Potemusłyszałemoanalizieutajonychwłasnościsemantycznych(LSA,latentseman-
ticanalysis).Wydałomisię,żejesttotylkoszczególnysposóbopisuniektórychdziałań
zzakresualgebryliniowej,czegouczyłemsięwszkole.Jeślibędziemyśledzićwszystkie
słowa,którewystępująrazem,możemywykorzystaćalgebręliniowądopogrupowania
tychsłóww„tematy”.LSAmożeskompresowaćznaczeniecałegozdanialubnawetdłu-
giegodokumentudopostacijednegowektora.Gdyużywałemwyszukiwarki,wydawało
misię,żeLSAmaniezwykłązdolnośćdozwracaniadokładnietychdokumentów,któ-
rychszukałem.Dobrewyszukiwarkirobiątaknawetwtedy,gdyniepotrafięokreślić
słów,któremogąbyćwtychdokumentach!
PotemgensimwypuściłimplementacjęwektoryzacjisłówWord2vecwPythonie,spra-
wiając,żesemantycznamatematykastałasięmożliwanapojedynczychsłowach.Okazało
się,żejeślipodzieliłosiędokumentnamniejszekawałki,towyszukanamatematykatej
siecineuronowejbyłaanalogicznadostarejtechnikiLSA.Tootworzyłomioczy.Dałomi
nadzieję,żejapotrafiędokonaćczegośnatympolu.Odlatmyślałemohierarchicznych
wektorachjakksiążkiskładającesięzrozdziałówpodzielonychnaakapityzłożone
zezdań,frazisłówzapisanychwznakach.TomasMikolov,twórcaWord2vec,uważał,
żedominującąsemantykętekstumożnaznaleźćwpowiązaniupomiędzydwiemawar-
stwamihierarchii,międzysłowamiafrazamizłożonymiz10słów.Przezdziesięciolecia
badaczeNLPuważali,żesłowamająkomponentytakiejakgrzecznośćizabarwienie
2PatrzstronainternetowaPeteraNorviga„Howtowriteaspellingcorrector”(http://www.norvig.
com/spellcorrect.html).
3Ktodoceniaznaczenieswobodnegodostępudoksiążekwjęzykunaturalnym,możebyćnabieżąco
zmiędzynarodowymistaraniamiorozszerzenieprawautorskichznaczniepozaokreślenie„wykorzy-
stajdo”,zaglądającnastrony:gutenberg.org(http://www.gutenberg.org)orazgutenbergnews.org
(http://www.gutenbergnews.org/20150208/copyrightterm-extensions-are-looming:)