Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
Przedmowa
Potrzebabezpośredniegodostępudoinformacji,przetwarzaniaiarchiwizacjitreścisłow-
nychsystematyczniewzrastawrazzrozwojemnowychtechnologiibazującychnadużych,
żnorodnychzbiorachdanychtekstowych,dźwiękowych,wizualnych,multimedialnych.
Wostatnichdziesięcioleciachnieprawdopodobnieszybkorozwinęłysięzastosowaniaprze-
twarzaniajęzykawionegowwieludziedzinachnaukiitechniki.Aplikacjomtymstawia
sięcorazwięcejwymagań,którymniemogąjednakjużdłużejsprostaćzpowoduteoretycz-
nychoraztechnicznychograniczeń,aichużytkownicycorazczęściejwyrażająopinię,iż
technologiamowyosiągnęłagraniceswoichmożliwości.Należystwierdzić,iżtemporoz-
wojugłównychkoncepcjiuważanychzaistotnewtejdziedzinie,zwłaszczawiedzylingwi-
stycznejstanowiącejpodstawęprzetwarzaniamowy,jestnieproporcjonalnedowzrostuwy-
mogówstawianychwspółczesnejtechnologiimowy.Wostatnichlatachdajesięzauważyć
pozytywnetrendyzwiązanezrozwojemmetodologiijęzykoznawstwawykorzystującegoba-
daniastatystyczne,zwłaszczalingwistykikorpusowejposługującejsięzasobamipisanymi
isłownymijakoźdłamipozyskiwaniaiformalizowaniawiedzyojęzyku.
WedługogólnejdefinicjisłownikaPWNkorpustworzą„teksty,daneitp.zgromadzo-
nezewzględunaswąreprezentatywność,stanowiącepodstawędoanalizynaukowej”(Do-
roszewski,2011).Termin„zasoby/korpusyjęzykowe”odpowiadawięcdużymzbioromda-
nychzbudowanychwedługokreślonychkryteriówmetodologicznychoraztechnicznych.
Korpusyjęzykoweodkilkunastulatsąnaświecieprzedmiotemzainteresowańnietylko
językoznawstwa,alerównieżinnychdziedzinnauki(informatyki,akustyki,psychologii,
socjologii,neurologii,audiologiiifoniatrii),techniki(technologiimowy,robotyki)oraznie-
którychgałęziprzemysłuteleinformatycznego.Dlajęzykapolskiegowtymzakresiezro-
bionodotychczasstosunkowoniewiele,jednakżepostęppracnadkorpusamiioprogramo-
waniemumożliwiającymautomatyzacjębadańpozwalamiećnadziejęnazmniejszenie
dystansu,jakiwtymzakresiedzielipolskieosiągnięciaodświatowych.
Wprezentowanejmonografiiprzedstawionoprzykładowykorpusdlajęzykapolskie-
goopracowanynapodstawiewłasnychkoncepcji,odpowiedniozweryfikowanywmo-
delowaniujęzykowymiakustycznymwsystemierozpoznawaniamowypolskiejobar-
dzodużymsłownikuLVCSR(LargeVocabularyContinuousSpeechRecognition).
StanowionnajwiększyobecniewEuropiezasóbsłownyimożeposłużyćzarównolin-
gwistycznymbadaniomporównawczymdlażnychjęzyków,jakiżnorodnymaplika-
cjomtechnologiimowy.
Celemksiążkijestsyntetyczneprzedstawienieniektórychnajważniejszychproblemów
korpusowegoprzetwarzaniajęzykaimowywsposóbpraktycznieniezależnyodtechnicz-
nychzałożeńiformalizmów.Monografiastanowipróbęobiektywnegospojrzenianaak-
tualnystanbadań,sygnalizujetrudności,jakiemawspółczesnatechnologiajęzykaimo-
wy,orazwskazujenaewentualnemożliwościichrozwiązywania,które:a)zpunktu
widzeniateoriiorazaplikacjiujmująproblematykękorpusowegoprzetwarzaniajęzyka
imowybazującegowwiększymniżdotychczasstopniunawiedzyfonologicznejifone-