Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
AutomatyzacjaprocesówkwerendyiakwizycjidanychdoanalizBigData
Narzędzietworząceplikiquasi-RSS
Procesyopisanepowyżejwykonujewłasnenarzędzienapisanewjęzykuperlonazwie
make_quasi_rss.Danewejściowetodrzewiastastrukturakatalogówzawierającychplikinietekstowe
utworzonaprzeznarzędziedoaj_fetchlubdoaj_fetch_batchlubdowolnykatalogzawierającyna
dowolnympoziomiezagnieżdżeniaplikinietekstowe.Programwykonujeekstrakcjędaty,konwersję
plikunietekstowegonatekst,zapisanieotrzymanegotekstuwplikutekstowymkodowanymwstan-
dardzieUTF-8podunikalnąnazwąotrzymanązwyliczeniasumykontrolnejsha256wejściowego
plikunietekstowegoorazutworzenieplikuXMLzgodnegozespecyfkacjąRSSzawierającego
odsyłaczedoutworzonychplikówtekstowych.Programzapisujewbaziedanychtakieinformacje
jakoryginalnanazwapliku,sumakontrolnasha256,datazmetadanych,informacjeotym,czyplik
wymagaprocesuOCRorazczykonwersjaprzebiegłabezbłędu.
Tworzenieplikówquasi-RSSzlistyadresówURL
ProcestenpoleganautworzeniuplikuXMLzgodnegozastandardemRSSnapodstawielisty
zawierającejadresyURL.Niemaprzytymznaczeniajakiestronywskazywaneprzezadresy
URL.Jesttojedynyproces,któryniedokonujeekstrakcjiczystegotekstu(stronyinternetoweopi-
sanewjęzykuHTML).wtakichprzypadkachkonwersjadotekstunastępujejużpododaniudo
bazydanych.Procesjestobsługiwanyjestwłasnenarzędziepages_to_rssnapisanewjęzykuPerl.
Tworzenieplikówquasi-RSSzpatentówpobranychzGooglePatents
GooglePatentsjakoźródłodanychdoanalizBigDatawymagaszczególnegopotraktowania.
Przemawiajązatymwzględymerytoryczne-jesttonajprawdopodobniejnajbogatszenaświecie
źródłoudostepniającepatentyzwielukrajówświata.Cowięcej,tekstytychpatentówdostępne
wjęzykuangielskim,copozwalanawykorzystanieichwanalizachBigData.Biorącpoduwagęfakt,
żeznacznyodsetekwspółcześniezgłaszanychpatentówpowstajewChinachdajetomożliwość
wgląduwtennajszybciejrozwijającysięobszarświata.Matoszczególneznaczenieprzyanalizach
BigDataukierunkowanychnaposzukiwanienowychtrendówtechnologicznych.
Zewzględunato,żewitrynaGooglePatentswczęściprzeznaczonejdozadawaniakwe-
rendynapisanajestwjęzykujavascript,niejestmożliwałatwaautomatyzacjaprocesutworzenia
kwerendy.Tworzeniekwerendyiobsługajejwynikównarazieniejestzautomatyzowanaiwymaga
obsługiprzezczłowieka.Efektemkwerendyplikizawierającelinkidostronopisującychpatenty.
Plikówtychjestzreguływiele,ponieważGoogleograniczamaksymalnąwielkośćodpowiedzina
kwerendędoniewięcejniż500rekordów(nadzień19marca2019-wartośćtamożesięzmie-
nić,uprzedniowynosiłaona1000).Stądteżnależyprzeprowadzićwielekwerendzmieniającich
parametry-najczęściejzakresdat.
DoobsługiwynikówkwerendstworzonowjęzykuPerlwłasnenarzędzieonazwiegoogle_pa-
tents_fetch.Danewejściowenarzędziatoplikizwynikamikwerend.Danewyjściowetoplikquasi-RSS
orazplikitekstowezawierającetekstypatentów.Narzędziedokonujeekstrakcjiidentyfkatorapatentu,
jegotytułu,datyzgłoszeniaitreściwjęzykuangielskimposługującsięwyrażeniamiregularnymi.
15