Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
Językwidziany„oczyma”komputera
17
ijestempewien,żeprzedkońcemksiążkiwszystkostaniesięjasne.Aokazujesię,że
wtakisamsposóbmogąsięuczyćmaszyny.
1.4.4.Innysposób
Czyjestpodejścieopartenastatystycelubmetodzieuczeniasięmaszyn,któremogłoby
działaćzamiastpodejściaopartegonawzorcach?Czygdybyśmymielidośćdanych,
moglibyśmyzrobićcośinnego?Cobybyło,gdybyśmymieliogromnąbazędanychzawie-
rającącałesesjedialogowemiędzyludźmi,stwierdzeniaiodpowiedzidlatysięcy,anawet
milionówkonwersacji?Jednymzesposobówzbudowaniachatbotabyłobywyszukanie
wtakiejbaziedanychidentycznegołańcuchaznaków,jakiegoużyłużytkownikchat-
bota,„mówiąc”doniego.Czyniemożnabyużyćjednejzodpowiedzinatostwierdzenie
spośródtych,którychwprzeszłościużyliludzie?
Alewyobraźmysobie,jakjednaliterówkalubodmianastwierdzeniamogłabywywró-
cićnaszegobota.Biticiągznakówdyskretne.Albopasujądowzorca,albonie.
Zamiasttegochcielibyśmy,abynaszbotpotrafiłocenićróżnicęwznaczeniumiędzy
ciągamiznaków.
Gdyużywamydopasowaniaznak-po-znakujakomiaryodległościmiędzyfrazami
wjęzykunaturalnym,częstowynikjestbłędny.Frazyopodobnymznaczeniu,jak„good”
i„okay”mogączęstoskładaćsięzróżnychciągówznaków.Iciągiocałkiemróżnym
znaczeniu,jak„bad”i„bar”,mogąbyćzbytdosiebiezbliżone,jeślimiaryopraco-
wanetak,abymierzyćodległościciągówliczbowych.Miary,takiejakodległościwekto-
roweJaccarda,LevensteinaiEuklidesa,mogączasamidodawaćdość„rozmycia”,aby
zapobiecpotykaniusięchatbotananiewielkichbłędachpisownilubliterówkach.Ale
miarytezawodzą,gdychcemyuchwycićzwiązekmiędzydwomaróżniącymisięciągami
znaków.Iczasemzbliżajądosiebieniewielkieróżnicewpisowni,któreniemusząbyć
literówkami,jakwprzypadku„bad”i„bar”.
Miaryodległościopracowanedlaciągówliczbowychiwektorówużytecznewnie-
wieluaplikacjachNLP,takichjakkorektorypisowniirozpoznawanienazwwłasnych.
Dlategoużywamyich,gdymatosens.AlewaplikacjachNLP,gdziejesteśmybardziej
zainteresowaniznaczeniemjęzykównaturalnych,aniepisownią,istniejąlepszemetody.
Korzystamyzwektorowychreprezentacjisłówitekstówjęzykanaturalnegoorazpew-
nychmiarodległościdlawektorówwtychaplikacjachNLP.Pokazujemykażdepodej-
ściepokolei,wmiaręomawianiatychróżnychreprezentacjiwektorowychirodzajów
aplikacji,doktórychonestosowane.
Niezostaniemydługowtymmylącymbinarnymświecielogiki,alewyobraźmysobie,
żejesteśmysłynnymkryptoanalitykiemzczasówIIwojnyświatowej,MavisemBateyem,
pracującymwBletchleyPark,iwłaśnieotrzymaliśmybinarnykomunikatwalfabecie
Morsa,przechwyconyzłącznościmiędzydwomaniemieckimioficerami.Możeonzawie-
raćkluczdowygraniawojny.Odczegozaczniemy?Pierwszymkrokiemnaszejanalizy
będziejakieśopracowaniestatystyczneciągubitów,abyzobaczyć,czymożemyznaleźć
wzorce.MożemyużyćnajpierwtabelialfabetuMorsa(lubwnaszymprzypadkutabeli
ASCII),abyprzypisaćliterydokażdejgrupybitów.Potem,jeśliznakidająnambełkot,
jaktomamiejscewkryptografiizczasówIIwojnyświatowej,możemyzacząćzliczaćje,