Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
1.2.JĘZYKR
adzisiajjestnajczęściejużywanymnarzędziemdostatystycznejanalizydanychidrugim
podwzględempopularnościnarzędziemużywanymprzezinżynierówdanychróżnych
specjalności(rys.1.1).
0%
Python
R
SQL
Jupyternotebooks
TensorFlow
AmazonWebServices
Unixshell/awk
Tableau
C/C++
NoSQL
MATLAB/Octave
Java
Hadoop/Hive/Pig
Spark/Mllib
MicrosoftExcelDataMining
20%
40%
60%
0%
76,3%
Python
59,2%
R
53,6%
SQL
40,8%
SASBase
28,4%
IBMSPSSStatistics
23,5%
Jupyternotebooks
23,3%
Tableau
20,4%
MicrosoftExcelDataMining
19,2%
C/C++
19,2%
MATLAB/Octave
18,4%
Unixshell/awk
18,3%
SASEnterpriseMiner
17,3%
Minitab
17,1%
AmazonWebservices
13,7%
Inne
20%
40%
60%
80%
90,8%
51,6%
43,3%
35,0%
26,7%
20,7%
18,0%
17,1%
16,6%
15,2%
13,8%
13,8%
11,1%
10,1%
10,1%
Rysunek1.1.ChociażnajpopularniejszymnarzędzieminżynierówdanychjestPython,toponad90%
statystykówużywajęzykaR.Trzyjęzykiopisanewksiążce,R,PythoniSQL,dominująwśródnarzędzi
zawansowanejanalizydanych.Polewejstroniewykrespokazującypopularnośćnarzędziużywanych
przezwszystkichspecjalistówoddanych,poprawejprzezstatystyków[10]
PodstawowąsiłąjęzykaRjestponad5-milionowarzeszajegoużytkowników.Wielu
znichudostępniawynikiswoichpracwpostacipakietówpublikowanychnastronieprojek-
tówTheComprehensiveRArchiveNetwork(
https://cran.r-project.org/
),Bioconductor
(https://bioconductor.org/)orazGitHub(https://github.com/).Efektemjestzbiórponad
15000ogólnodostępnychbibliotekzawierającychrozwiązaniawszystkichtypowychproble-
mów,najakiemożnatrafić,pracujączdanymi.BarryRowlingsonopublikowałpodadresem
https://www.maths.lancs.ac.uk/~rowlings/R/TaskViews/tematyczlispopularnych
pakietówprojektuCRAN.
JęzykRmateżswojesłabestrony:niskąwydajność,brakskalowalnościibrakzinte
-
growanychnarzędzidoudostępnianiawynikówużytkownikom.Niskawydajnośćwynika
ztego,żewiększośćfunkcjijestnapisanychwjęzykuR,aniewjęzykuniższegopoziomu,
ijestwykonywanychjednowątkowo.Brakskalowalnościjestefektemtego,żeprzetwarzane
daneoraztymczasowewynikimusząznajdowaćsięwpamięcioperacyjnej,czyliilośćpamięci
RAMkomputeraograniczawielkośćanalizowanychzbiorówdanych.Natomiastbrakintegracji
językaRzpopularnymiprogramamidoanalizydanychpowodujeproblemyzudostępnieniem
wynikówanalizużytkownikom.
ProblemytezostałyrozwiązaneprzezfirmyinteresującesięzastosowaniemjęzykaRdoanalizy
dużychzbiorówdanych,wtymfirmęMicrosoft.Microsoftpotraktowałintegracjęswoichpro-
duktówzjęzykiemRbardzopoważnie.Nieograniczyłsiędomożliwościuruchamianiainstruk-
cjijęzykaRpostronieserweraSQLServeriwprogramiePowerBIDesktop,alew2015r.
13