Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
PiotrCeliński
wskazanymijakodanewejściowebadanialubdostatystycznegobadaniazastrzeżeńpatentowych
przywykorzystaniuuczeniamaszynowego.Nietowięccele,którepostawionosobieprowadząc
procesykwerendyiakwizycji.Otrzymanewwynikuw/wdziałańzbiorydanychbędąjużprzefl-
trowaneprzezalgorytmbadającykorelacjęzdanymiwejściowymi.Dlategoteżdanepozyskane
wtakisposóbniebyłybydobrymźródłemdoanalizBigDatazewzględunaichkorelacjęzdanymi
wejściowymi.Stądteżniekontynuowanotejścieżkiprac.
Wzwiązkuzbardzoniewielkąreprezentacjązagadnieniawźródłachnależydomniemywać,
żeprowadzonepracebadawczemającharakternowatorskiinienależyspodziewaćsięwielu
materiałówźródłowych,naktórychmożnabazowaćprzyichprowadzeniu.
Źródładanych
JakoźródłatekstówwysokiejjakościwykorzystywanyjestkatalogDOAJ(DirectoryofOpen
AccessJournals)wprzypadkurecenzowanychartykułównaukowychowolnymdostępieoraz
GooglePatentswprzypadkupatentów.GooglePatentsprzechowujepatentyzwieluróżnych
światowychurzędówpatentowychzarównoworyginalnejwersjijęzykowejjakiwtłumaczeniuna
językangielski.Dajetomożliwośćłatwegodostępudopatentówzgłaszanychnp.wChinach,które
obecniewczołówce,jeżelichodzioliczbęzgłaszanychpatentów.
OdstronytechnicznejanalizaBigDatabazujenadanychwpostaciczystegotekstukodowa-
negowstandardzieUTF-8.wtakiejpostacioneskładowanewrepozytorium.Danemusząbyć
przekonwertowanedotejpostaci,jeżeliwystępująwinnymformacie.Opracowanomechanizmy
konwersjizformatuPDF(większośćpublikacjinaukowychpobieranychjestwtymformacie),DOC,
DOCXiODT(niewielkaczęśćpublikacjinaukowych),HTML(m.in.patentynaplatformieGoogle
Patents).wprzypadkuformatuPDFniewielkipromildanychwymagadodatkowejoperacjiekstrakcji
tekstuzobrazuprzywykorzystaniutechnologiiOCR.wdalszejczęściwspomnianewyżejformaty
plikówokreślanejakoplikinietekstowe.
DanedostarczaneprzedewszystkimwpostacilinkówURLkierującychdostroninternetowych
zawierającychdane(np.wynikikwerendyzGooglePatents),stroninternetowychzawierającychlinki
doplikównietekstowychzdanymi(np.czasopismanaukowe,wynikikwerendyrepozytoriumDOAJ).
Automatyzacjakwerend
WprzypadkukataloguDOAJ,któryudostępniainterfejsAPI(ApplicationProgramInterface)
możliwajestczęściowaautomatyzacjakwerend.DOAJAPIumożliwiatworzeniepodstawowych
zapytań,którychwarunkimogąbyćokreślonetylkoprzezkoniunkcjęlubalternatywęposzukiwa-
nychsłówkluczowychbezmożliwościstosowaniasymboliwieloznacznych,wyrażeńregularnych,
operatorasąsiedztwaiwyszukiwaniarozmytego.wceluusprawnieniapracystworzonoprogram,
któryumożliwiasekwencyjnewykonaniewielukwerend.nadalszymetapiepracstworzonezostanie
narzędzieumożliwiającefltrowaniewynikówkwerendywtakisposób,abyefektytegofltrowania
odpowiadałyefektowizłożonejkwerendy.
Uwarunkowaniaakwizycjiplikównietekstowych
Adresywskazującenazasobywpostaciplikównietekstowychniezawszeumożliwiająbez-
pośredniepobraniepliku.Dziejesiętakjedyniewczęściprzypadków.Abypobraćdocelowyplik
12