Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
Krótkiespojrzenienahiperprzestrzeń
21
Moglibyśmyocenićkomunikatyisłowapodkątemcechtakichjaktematiwydźwięk.
Moglibyśmyzadaćpytania:
¾Czyjestmożliwe,żekomunikatjestpytaniem?
¾Nailedotyczyonosoby?
¾Wjakimstopniudotyczyonmnie?
¾Wjakimstopniumaonwydźwiękzłościlubradości?
¾Czyjesttocoś,cowymagaodpowiedzi?
Pomyślcieowszystkichocenach,któremożemyprzyznaćzdaniom.Moglibyśmyupo-
rządkowaćteocenyi„wyliczyć”jedlakażdegozdania,abyskompilować„wektor”dla
każdegoznich.Listaocenlubwymiarów,któremożecienadaćzbiorowizdań,powinna
byćznaczniemniejszaniżliczbamożliwychzdań.Azdania,któreznaczątosamo,
powinnymiećpodobnewartościdlawszystkichnaszychpytań.
Tewektoryocenstająsięczymś,nacomożemyzaprogramowaćreakcjęmaszyny.
Możemyjeszczebardziejuprościćiuogólnićwektory,zbijajączesobązdania(tworząc
klastry).Sprawiając,żebędąbliższejednymwymiarom,adalszeinnym.
Alejakkomputermożeprzypisaćwartościdlakażdegozwymiarówtychwektorów?
Cóż,upraszczamypytaniaowymiarnaszegowektoradotakichrzeczyjak:„Czyzawiera
onsłowo(good’?”,„Czyzawieraonsłowo(morning’?”itakdalej.Możeciezobaczyć,że
możemybyćwstaniedojśćdookołomilionapytań,którychwynikiemwartościlicz-
bowe,którekomputermożeprzypisaćdofrazy.Jesttopierwszypraktycznymodelprze-
strzeniwektorowej,któryjestnazywanybitowymwektorowymmodelemjęzykalubsumą
wektorówzakodowanychjako1zn(one-hot).Widać,dlaczegokomputerydopieroteraz
stająsiędośćsilne,abyanalizowaćjęzyknaturalny.Milionówwektorówomilionach
wymiarów,któreludziemogąwygenerować,poprostu„niedasiępoliczyć”nasuper-
komputerachzlat80.,aleniemaztymproblemunazwykłymlaptopiewXXIwieku.
NLPstałosiępraktykąnietylkozpowoduczystejmocyipojemnościsprzętu.Przyro-
stowealgorytmyalgebryliniowejostałejzłożonościpamięciowejtoostatnielement
układanki,którypozwoliłmaszynomnazłamaniekodujęzykanaturalnego.
Istniejejeszczeprostsza,aleznaczniewiększareprezentacja,którejmożnaużyć
wchatbocie.Cobędzie,jeślinaszewymiarywektorabędąwpełniopisywałydokładną
kolejnośćznaków.Obejmowałobytoodpowiedźnatakiepytania,jak„Czypierwsząliterą
jestA?CzyjesttoB?CzydrugąliterąjestA?”itakdalej.Tenwektormazaletę,że
gromadzionwszystkieinformacjezawarteworyginalnymtekście,wtymkolejnośćzna-
kówisłów.Wyobraźmysobiepianistę,którymógłbygraćtylkopojednejnucieimiał
dozagrania52lubwięcejmożliwychnut.Dlategomechanicznegopianinajęzykanatu
-
ralnego„nuty”to26małychi26wielkichliterplusznakiprzestankowe,którepianola
musiumieć„zagrać”.Rolkapapieruniemusiałabybyćszerszaniżwprawdziwejpianoli,
aliczbanutwniektórychdługichpiosenkachnieprzekraczaliczbyznakówwniewielkim
dokumencie.Aletareprezentacjawpostaciciąguznaków1znjestużytecznaprzede
wszystkimdorejestrowaniaiponownegoodtwarzaniadokładnegofragmentu,zamiast
skomponowaniaczegośnowegolubwydobyciasensufragmentu.Niemożemyłatwo
porównaćpapierowejrolkiwpianolidlajednejpiosenkizdlainnej.Areprezentacja