Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
18
rozdział1Pakietymyśli(przeglądNLP)
szukająckrótkichsekwencjiwsłownikuwszystkichsłów,którewidzieliśmywcześniej,
wstawiającznaczekobokkażdejpojawiającejsiępozycji.Możemytakżezaznaczyćcoś
winnymrejestrze,abypokazać,wktórymkomunikaciesłowosiępojawiło,tworząc
encyklopedycznyindekswszystkichdokumentów,którewcześniejczytaliśmy.Tenzbiór
dokumentównazywanyjestkorpusem,azbiórwykazanychwnaszymindeksiesłówlub
zdańokreślamyjakoleksykon.
Jeślimamyszczęścieinieprowadzimywojny,anaszekomunikatyniesilniezaszy-
frowane,zobaczymywzorcewtychlicznikachniemieckichsłów,odzwierciedlające
liczbęsłówangielskichużytychdoprzekazaniapodobnegotypukomunikatów.Wprze-
ciwieństwiedokryptoanalitykapróbującegoodszyfrowaćprzekazyniemieckiealfabe-
temMorsawiemy,żesymbolemająstałeznaczenieiniezmienianeprzykażdym
kliknięciu,abywprowadzićnaswbłąd.Touciążliwezliczanieznakówisłówjesttym,
cokomputermożezrobićbezmyślenia.Icozaskakujące,toniemalwystarczadotego,
abywydawałosię,żemaszynyrozumiejąnaszjęzyk.Możeteżbyćdopasowanedlatych
statystycznychwektorów,którejestzbieżneznaszymludzkimzrozumieniemtychfraz
isłów.Gdywdalszychrozdziałachpokażemywam,jaknauczyćmaszynęnaszegojęzyka
zapomocąWord2Vec,możetowydaćsięmagią,aleniąniejest.Totylkomatematyka
iobliczenia.
Alepomyślmyprzezchwilęotym,jakieinformacjezostałyzgubioneprzynaszych
wysiłkachzliczaniawszystkichsłówwotrzymywanychkomunikatach.Przypisujemysłowa
dopojemnikówizapisujemyjewbitowychwektorachjaksortowanemonetylubżetony
(oryg.tokeny),kierującróżnerodzajeżetonównajednąstronęlubnadrugąwkaska-
dziekolejnychdecyzji,któreprzydzielająjedopojemnikównadole.Naszmechanizm
sortującymusibraćpoduwagęsetkitysięcy,jeśliniemilionymożliwych„wartości”żeto-
nów,pojednymdlakażdegomożliwegosłowa,któregomówcalubautormógłużyć.
Każdafrazalubzdanie,lubdokument,którewprowadzimydonaszegosortowania
żetonów,wyjdzienadole,gdziemamy„wektor”zliczbążetonówwkażdejprzegródce.
Większośćnaszychlicznikówmawartośćzero,nawetwprzypadkudużychdokumentów
zrozbudowanymsłownictwem.Alenieutraciliśmyjeszczeżadnychsłów.Coutraciliśmy?
Czyjakoludziemożeciezrozumiećdokument,któryzaprezentujemywamwtakispo-
sób,jakozliczeniekażdegosłowa,któremożewystąpićwjęzyku,bezżadnejkolejności
aniułożeniapowiązanegoztymisłowami?Wątpię.Alejeślibyłobytokrótkiezdanie
lubtweet,potrafilibyściezapewnewwiększościprzypadkówprzestawićsłowazgodnie
zzamierzonąkolejnościąiznaczeniem.
OtojaknaszsortownikżetonówpasujedopotokuNLPwmiejscu,gdziekończy
działanienarzędziesegmentacyjne(patrztokenizatorwrozdziale2).Włączyliśmydo
naszegoszkicumechanicznegosortownikafiltrstoplisty,jakifiltr„rzadkich”słów
*
.
Łańcuchyprzepływająodgóry,awektoryBoW(odang.bag-of-wordsdosł.woreksłów,
reprezentacjetekstuignorującekolejnośćsłów)tworzoneodgóryprofilu,tworząc
„stosy”żetonówudołu.
*WNLPczęstowtrakcieprzetwarzaniadokumentuodrzucasięsłowabardzorzadkieorazbardzo
częste(stopwords),któreitakpojawiąsięwkażdymdokumencie(teostatniezbierasięwwykazie
zwanymstoplistą(przyp.kons.meryt).