Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
WSTĘP
Datascience
CzterystalattemusirFrancisBaconstwierdził,żescientiapotentiaest(wiedzajest
potęgą).Filozoftenbyłprekursoremitwórcąnowoczesnej,empirycznejmetodynauko-
wej.Metody,któradziękizbieraniuszczegółowychdanychnainteresującynastemat
iuogólnianiuichwcelusformułowaniaogólnychtwierdzeńdoprowadziładorewolucji
technicznejiwkonsekwencjizmieniławsposóbradykalnyżycieludziztamtejepoki.
Dziśobserwujemyprzełomnapodobnąskalę.Dziękirozwojowitechnologiiinforma-
tycznych,wszczególnościtechnologiigenerowania,przechowywaniaiprzetwarza-
niadanych,liczbacyfrowychdanychrośniedook.30%rocznie2.Cociekawe,w2015r.
ilośćdanychwygenerowanychprzezurządzenianapotrzebyinnychurządzeńprzekro-
czyłailośćdanychgenerowanychnanaszepotrzeby.Oznaczato,żechoćgłównym
źródłemdanychjestbieżącadziałalnośćfirmiinstytucji,corazwięcejztychdanychjest
generowanychianalizowanychautomatycznie,przezsystemykomputerowe.Danete
zawierająnietylkoszczegółowyopisdziałalnościfirmczyinstytucji,lecztakżewdużej
częściotaczającegonasświata.Ukrytawnichinformacjamaogromnąwartość,potrzebne
sątylkometodyjejwydobycia.
Sukcesyodnoszoneprzezmodeleeksploracjidanychuczonenaogromnychzbiorach
danychtreningowych,naprzykładprzezsiećneuronowąGoogle,któranauczonana
10milionachpobranychzInternetuobrazównauczyłasięrozpoznawaćznajdującesię
nanichobiekty,sąargumentemnarzecztezy,wedługktórejwięcejdanychmawiększy
wpływnajakośćmodeliniżużytewnichalgorytmyuczeniamaszynowego[21].Jednak
wrazzdodatkowymidanymirośnie,itowykładniczo,ilośćzawartegownichszumu,czyli
przypadkowych,bezwartościowychkombinacjiatrybutów.Dlategobardziejwiarygodne
wytłumaczeniewyjątkowychsukcesówuczeniamaszynowegomówiotym,żerządzące
światemprawamogąbyćuogólnioneiuproszczonedopostaciłatwejdowykryciaprzez
takiealgorytmyuczeniamaszynowegojaksiecineuronowe[51].
Datasciencezakładawykorzystaniekomputerówdoautomatycznegoprzetwarzaniaiana-
lizowaniadużychzbiorówdanych.Podejścietostosująnietylkoośrodkinaukowe,lecz
takżefirmydziałającewnajróżniejszychsektorach,odfinansówprzezsektorpubliczny
iprodukcyjnypohandel.Cowięcej,firmyiorganizacjepublicznestosująwtymcelutę
samąmetodykęcoośrodkinaukowe:
zbierająwszystkiemożliwedaneiprzechowująjeprzezdługi,potencjalnienieskoń-
czonyczas;
2Kosztprzechowywaniaprzezmiesiącwchmurze1TBdanychwlipcu2016rokuwynosiłokoło
100złotych.CenyzaprzetworzenieiprzeanalizowaniesetekTBkształtowałysię,wzależnościod
czasuizasobówpotrzebnychdotakiejanalizy,wgranicachtysiącazłotych.
XVIII