Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
WSTĘP
zatrudniająspecjalistów(datascientists),którychzadaniemjestformułowanieiwery-
fikowaniehipoteznapodstawiezebranychdanych;
podejmująpraktyczne(empiryczne)decyzjenapodstawietaksformułowanych
hipotez.
TermindatasciencezostałporazpierwszyużytyprzezPeteraNauraw1960r.naokreś-
leniemetodautomatycznegoprzetwarzaniadanychprzyużyciukomputerów.Odtego
czasujestonużywanywśrodowiskunaukowym,początkowogłówniewśródstatystyków.
PosługiwalisięnimmiędzyinnymitakznanistatystycyjakC.F
.JeffWuiWilliamS.Cleve-
landnaokreśleniewspomaganychkomputerowoanalizstatystycznych.
Podstawowymzałożeniemdatasciencejestuczeniesię,zarównoludzi,jakimaszyn,na
podstawiedanych.Tymcoodróżniadatascienceodmetodyempirycznejjestużywanie
weksperymentachwszelkichdanychcyfrowych.Ponieważjestichdużoisągromadzone
szybko,doichanalizywykorzystujesiękomputery.Wynikiemtakichanalizsąmodele
eksploracjidanych,którepoprzezzastosowanietakichalgorytmówjaksiecineuronowe,
lasydrzewdecyzyjnychczymaszynywektorównośnychanalizująukrytewdanych
wzorceinatejpodstawietworząogólnereguły.
Jeżelitylkodysponujemyodpowiednimidanymi,ichprawidłowoprzeprowadzonaeksplo-
racjapozwalazdobyćwiedzę,którawinnymprzypadkubyłabydostępnadopieropofakcie
lubwwynikuszczęśliwegozbieguokoliczności.Ponadto,dokładnośćiwiarygodnośćuzy-
skanychzapomocąeksploracjidanychregułmożebyćzmierzonaiobiektywnieoceniona
przedichzastosowaniemwpraktyce.
Typowyprocesautomatycznejanalizydanych(wterminologiidatasciencenazywany
eksperymentem)składasięznastępujących,opisanychwkolejnychrozdziałachksiążki,
etapów:
zdefiniowaniarozwiązywanegoproblemuwkontekścieposiadanychdanych;
zgromadzeniapotrzebnychdanychźródłowychopróczsystemówoperacyjnych
(takichjakbazaERP)orazhurtownidanychcorazczęściejźródłamidanychsąsystemy
BigData,stronyWWWczyusługionline(takiejakTwitterczySalesforce);
ocenyzgromadzonychdanychpodkątemprzydatnościdorozwiązaniapostawionego
problemu;
przygotowania(usunięcianadmiarowychorazzbędnychinformacji)iwzbogacenia
danychźródłowychnapotrzebykonkretnychmodelieksploracjidanych;
utworzeniamodelieksploracjidanych,czylimodelisposobówużyciawybranychalgo-
rytmówdowydobyciainformacjiukrytychwprzygotowanychdanychźródłowych;
ocenyutworzonychmodeliiwyborunajlepszegoznichwzględemustalonychkry-
teriów;
wdrożeniewybranegomodeluwcelurozwiązaniapostawionegoproblemuiprzed-
stawienie(częstowizualne)wynikówużytkownikom.
XIX