Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
AutomatyzacjaprocesówkwerendyiakwizycjidanychdoanalizBigData
nietekstowywpierwszejkolejnościanalizowanyjestnagłówekodpowiedzihttpserwera.Jeżeli
zawieraoninformacjeniezbędnedopobraniaplikunietekstowego,pliktakijestpobierany.
Jeżelinagłówekhttpniezawieratakiejinformacjilubjestonabłędna,analizowanajestzawartość
strony.wprzypadkuwieluźródełniezbędnebyłozbadaniejaknależyzmienićadreswejściowy,aby
uzyskaćbezpośredniURLplikunietekstowego.wtychprzypadkachnastępujekonwersjaadresu
zgodniezwykrytymsposobemorazpobranieplikunietekstowego.
Jeżelisposóbkonwersjiadresuniejestznany,podejmowanajestpróbaznalezieniaadresu
plikunietekstowegobezpośredniowtreści.Próbataniezawszekończysiępowodzeniem,zaślink
otrzymanywprzypadkupowodzenianiezawszeokazujesiębyćwłaściwy.
Powyższeuwarunkowaniapowodują,żeakwizycjaplikównietekstowychniezawszekończy
sięsukcesem.Jejskuteczność,liczonajakostosunekliczbypobranychplikówdoliczbyadresów
wachasięwgranicach60-95procent.Wartośćtanieuwzględnianiezależnychzdarzeńtypu
odpowiedziserwerahttpwskazującenabłędy.Przeważnietobłędy404(nieznaleziono)lub
błędyokodachpowyżej500wskazującenaawarięlubprzeciążenieserwera.
Narzędziaakwizycjiplikównietekstowychiuwarunkowaniaichużycia
Jednymzważniejszychuwarunkowańwystępującychpodczasużywanianarzędziautomaty-
zującychprocespobieraniadanychzInternetujestzdefniowanieodpowiedniejwartościparametru
BUserAgent”.ParametrtentoniejakoBwizytówka”przeglądarkiinternetowej.Dziękitejwartości
serwerdowiadujesięzjakiejprzeglądarkiprzychodzizapytanie.
NiektóreserweryniedopuszczająpustejwartościBUserAgent”lubróżnicujązawartość
odpowiedziwzależnościodwartościtegoparametru.Dlategoteżnależyzadbaćoto,abykażde
znarzędziużywanychdoakwizycjidanychumożliwiłojegozdefniowanie.Podczaspobierania
danychdoanalizyBigDataparametrBUserAgent”ustawianyjesttak,abyidentyfkowaktualną
wersjęprzeglądarkiChrome(np.BMozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/60.0.3112.113Safari/537.36”).
Poniżejprzedstawiononarzędziawykorzystywanewprocesieakwizycjidanych.
wget-standardowenarzędziedostępnewsystemieLinuxobardzorozbudowanych
możliwościach.Umożliwiam.in.pobieraniedanychnapodstawielistyadresów.Opcjataczęsto
wykorzystywanajestdopobieraniaplikównietekstowychzuprzednioprzygotowanejlisty.Oprócz
pobieraniaplikównietekstowychużywanejestczasamidopobieraniazawartościwitryninterneto-
wychdookreślonegopoziomuzagnieżdżenia.NajczęstszeceletakiegodziałaniatoBwyłowienie”
plikównietekstowychwystępującychnarożnychpoziomachzagnieżdżeniawitrynylubpobranie
treściwitrynywceluprzeanalizowaniajejpodkątemwystępującychwniejpojęć(np.trendówtech-
nologicznych).Plikizawierająceposzukiwanepojęciamogąbyćpotempoddawanedalszejanalizie.
doaj_fetch-własnenarzędzienapisanewjęzykuPerl.Jegogłównezastosowanietopo-
branieartykułównaukowychnapodstawiepojedynczejkwerendydokataloguDOAJ.Efektemjego
działaniajestkatalogonazwieutworzonejnapodstawiekwerendy.Katalogtenzawierapodkatalogi
onazwachutworzonychnapodstawieadresówinternetowychźródeł,zktórychpobieranedane.
Podkatalogizawierająplikinietekstowe,któreodpowiedziąnazadanąkwerendę.Wartośćpa-
rametruBUserAgent”jestzapisanajakojednazezmiennychprogramu.Programgenerujekrótkie
podsumowanieliczbyznalezionychrekordówipobranychplików.
13