Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
30
1.Analizaskupień
kwadratdługościwektoraX,todφ(X,y)jestrównekwadratowiodległo-
ścieuklidesowejmiędzypunktamireprezentowanymiprzezwektoryXiy.
JeżeliodwzorowanieφzdefiniujemyjakoXTWX,gdzieWjestdodatnio
określonąmacierzą,tootrzymujemykwadratodległości(1.2),wszczegól-
nościzdefiniowanejwp.1.2.1.2odległościMahalanobisa.Wreszcie,jeże-
liXjestwektoremstochastycznym1o,aφjestujemnąwartościąentropii,
φ(X)=Σn
jl1xjlog2xj,tootrzymujemydywergencjęKullbacka–Leiblera
określanączęstoterminemKL-dywergencji.Odgrywaonaważnąrolęwteo-
riiinformacji,uczeniumaszynowymczywyszukiwaniuinformacji.
1.2.1.4.Odległośćkosinusowa
Innepokonanie„przekleństwawymiarowości”sugerujenp.Hamerly[164],
wprowadzającodległośćdcos(Xi,Xj)zdefiniowanąjako1minuskosinuskąta
międzywektoramiXi,Xj
n
dcos(Xi,Xj)=1cos(Xi,Xj)=1
"Xi"|Xj"
XT
iXj
=1
"Xi""Xj"
Σ
ll1
xilxjl
.
(1.12)
Występującywpowyższymwzorzekosinuskątatoprzykładmiarypo-
dobieństwa,którajestpodstawowąmiarąstosowanąwsystemachwyszu-
kiwaniainformacjidomierzeniapodobieństwamiędzydokumentami[29].
WtymprzypadkuskładoweXilreprezentujączęstośćwystępowaniasłowa
onumerzelwź-tymdokumencie.Skoroczęstościnieujemne,oznaczato,
żedladowolnychdwóchwektorówreprezentującychdokumentyzachodzi
0<cos(Xi,Xj)<1oraz0<dcos(Xi,Xj)<1.Innemiarykwantyfikujące
podobieństwodokumentówomawianew[186].
1.2.1.5.Odległośćpotęgowa
Jeżelichcemyzwiększyćlubzmniejszyćwzrastającąwagę,którajestprzy-
pisanadowymiarów,wprzypadkuktórychodpowiednieobiektybardzosię
różnią,możnazastosowaćtzw.odległośćpotęgową11
dp,r(Xi,Xj)=(
Σ
n
|xilxjl|
p)
1/r
,
(1.13)
ll1
gdziepirparametrami.Parametrpsterujewzrastającąwagą,która
jestprzypisanaróżnicomwposzczególnychwymiarach,aparametrrste-
rujewzrastającąwagą,którajestprzypisanawiększymróżnicommiędzy
10Tzn.wszystkiejegoskładoweliczbaminieujemnymiorazΣ
n
j=1xj=1.
11Por.np.Internetowypodręcznikstatystyki.Analizaskupień:Aglomeracja.http:
//www.statsoft.pl/textbook/stathome.html.