Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
28
Rozdział2.Narzędziaizasobydlajęzykapolskiego
Ostatnietrzykolumnytabelipokazująliczbęspecjalnychsegmentów,tzn.
aglutynantówiznakówinterpunkcyjnych,orazichprocentowyudziałwutworach
danegostylu.Jakwidać,tesegmentyniebędącesamodzielnymiwyrazami
stanowiąokoło1/5wszystkichsegmentów.
Choćrozmiarkorpusuwydajesięwielki,tobrakzrównoważeniazmniejsza
wagętegofaktu.KorpusIPIPANniejestteżkorpusemsynchronicznym,choć
trudnobyłobyuznaćgozakorpusdiachroniczny,gdyżżadenporządekutworów
względemczasuniezostałwnimuwzględniony.Wszystkietekstyprasoweoraz
urzędowo-kancelaryjnepochodzązokresu1990–2006.Utworynapisaneprzed
1939rokiemtoklasykaliteraturypięknej.Takdużyjejudziałwkorpusie
spowodowanyjestm.in.wygaśnięciemprawautorskichdlatychdzieł.
WKIPIzostaływydzielonetakżedwamniejszepodkorpusy:
Podkorpuszrównoważonyzawierającyok.30mln.segmentów,stanowiący
podzbiórtekstówzrównoważonypodwzględemstylu;jegostruktura
widniejewTabeli2.2;
podkorpusoznakowanyręcznie,zawierającyok.1mlnsegmentów.
ZTabeli2.2wynika,żeutworyzestylunaukowo-dydaktycznegoniezostały
wpodkorpusiezrównoważonymuwzględnione.
20103
NarodowyKorpusJęzykaPolskiego
Wchwilizakończeniapracnadniniejsząksiążką,KIPIniejestjużnajwięk-
szymkorpusemjęzykapolskiego.JegomiejscezająłNarodowyKorpusJęzyka
Polskiego(NKJP,http://nkjp.pl)stworzonywramachgranturozwojowego
MNiSWR1700303jakopołączenieprackorpusowychprowadzonychwIPIPAN,
IJPPAN,ZJKiKUniwersytetuŁódzkiegoiWydawnictwieNaukowymPWN
(Przepiórkowskiiin.,2008,2009,2010).Przewyższaonpodkażdymwzględem
(rozmiaru,poziomówznakowania,metodznakowaniaistandardówprzyjętych
podczasichrealizacji)swojegopoprzednika.Doświadczeniazdobytepodczas
tworzeniaKIPIorazprackorpusowychpozostałychuczestnikówkonsorcjumzo-
staływykorzystanepodczasjegobudowy,comakorzystnywpływnajegojakość.
KorpusIPIPANniejestjużdalejwspierany,iwszelkieprzyszłepracestanowiące
kontynuacjęeksperymentówzczęściIIIbędąjużprowadzonewoparciuoNKJP.
NKJPwcałościzawiera1,8mld.segmentów,zczego300mln.segmentów
stanowikorpuszrównoważony,costanowiznaczącywzrostwstosunkudoKIPI.
Szczególnąwartośćmapodkorpusswobodnegojęzykamówionegowielkościok.
3mln.segmentów,powstałynagrunciepodkorpusujęzykamówionegokorpusu
PELCRAstworzonegowZJKiKUŁ.
Tagsetzastosowanydoznakowaniamorfosyntaktycznegoniewieleróżnisię
odwykorzystanegowKIPI(por.Przepiórkowski,2009).Pozostałepoziomy
znakowaniazupełnąnowościąnagrunciepolskiejlingwistykikorpusowej.
Ręczneznakowaniepodkorpusuok.1mlnsegmentów,złożonegozloso-
wodobranychpróbekzpodkorpusuzrównoważonego,zrealizowanezostałoza