Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
20
rozdział1Pakietymyśli(przeglądNLP)
Możemysobiewyobrazićpodanietejmaszyniepojednymwszystkichdokumentów,
wyrażeń,zdań,anawetpojedynczychsłów,naktóremożemytrafić.Zliczylibyśmyte
żetonywkażdejprzegródceudołupoprzetworzeniukażdegoztychelementówinazwa-
libyśmyichreprezentacjęwektorową.Wszystkiemożliwewektory,którewtensposób
możeutworzyćmaszyna,nazywasięprzestrzeniąwektorową.Atenmodeldokumentów
istwierdzeńorazsłównazywanyjestmodelemprzestrzeniwektorowej.Pozwalaonnam
naużywaniealgebryliniowejdowykonywaniaoperacjinatychwektorachioblicza-
niatakichrzeczy,jakodległościistatystykidotyczącestwierdzeńwjęzykunaturalnym,
copomaganamwrozwiązaniuowieleszerszegozakresuproblemówprzymniejszym
zakresieprogramowaniaprzezludziimniejsząpowierzchownościąpotokuNLP.
StatystycznepytaniezadawanenatematciągówwektorówBoWbrzmi„Jakiciągsłów
najbardziejodpowiadawskazanemuwektorowisłów?”.Lubnawetlepiej,jeśliużytkow-
nikwprowadzaciągsłów:„KtórywektorBoWwnaszejbaziedanychjestnajbliższywek-
torowiBoWdostarczonemuprzezużytkownika?”.Jesttozapytaniewyszukiwania.Słowa
nawejściusłowami,któremoglibyśmywpisaćwpoluwyszukiwania,anajbliższywektor
BoWodpowiadadokumentowilubstronieinternetowej,którychszukacie.Zdolnośćdo
skutecznejodpowiedzinatedwapytaniawystarczy,abyzbudowaćuczącegosięchatbota,
którybędziesięstawałcorazlepszy,gdybędziemymupodawaćcorazwięcejdanych.
Zaczekajciejednakchwilę,bobyćmożetewektoryniepodobnedoczegokol-
wiek,nadczympracowaliściedotejpory.Mająwyjątkowowielewymiarów.Możliwe,że
mająmilionywymiarówdlatrigramowegomodelusłownictwawyznaczonegozdużego
korpusu.Wrozdziale3omawiamyprzekleństwowymiarowościikilkainnychcech,
któresprawiają,żetrudnopracujesięzwektoramiobardzowieluwymiarach.
1.5.Krótkiespojrzenienahiperprzestrzeń
Wrozdziale3pokażemy,jakskonsolidowaćsłowawmniejszejliczbiewymiarówwektora,
abypomócwograniczeniuprzekleństwawymiarowościibyćmożezmienićjewzaletę.
Gdyrzutujemytewektorynasiebie,abyokreślićodległośćmiędzyparamiwektorów,
uzyskamyrozsądneoszacowaniepodobieństwaichznaczenia,zamiastprostegostaty-
stycznegoużyciasłów.Tamiaraodległościjestnazywanacosinusowąmetrykąodległości.
Omówimywrozdziale3,apotempokażemyjejprawdziwąmocnawektorachtema-
tówozredukowanejwymiarowościwrozdziale4.Możemynawetrzutować(bardziej
precyzyjnymterminemjest„zanurzyć”)tewektorynapłaszczyznę2D,aby„spojrzeć”
nanienawykresachidiagramachorazustalić,czyludzkiumysłmożeznaleźćwzorce.
Możemypotemnauczyćkomputerrozpoznawaniatychwzorcówidziałaniananichna
sposobyodzwierciedlająceukryteznaczeniesłówtworzącychtewektory.
Wyobraźciesobiewszystkiemożliwetweetylubkomunikaty,lubzdaniapisaneprzez
ludzi.Chociażwielerazysiępowtarzamyitakistniejewielemożliwości.Agdytetokeny
traktowanejakooddzielne,różnewymiary,niemażadnegosensumówić,że„Good
morningHobbs”majakieśwspólneznaczeniez„GutenMorgen,Hannes”.Musimy
utworzyćjakiśmodelprzestrzeniwektorowejkomunikatówozmniejszonychwymiarach,
abyśmymoglijeoznaczyćzapomocązbioruciągłych(zmiennoprzecinkowych)wartości.