Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
sprawdzisięono,jeślicelembędziezrozumieniezwiązkówprzyczynowych.Wtakim
przypadkudodaniedomodelujaknajwiększejliczbyzmiennychbędzienietylkonie-
efektywne,alemożespowodowaćuzyskaniewnioskówprzeciwnychdozamierzonych
ibyćbardzomylące.
Zademonstrujmytonaprzykładziepoprzezdodaniezmiennej,którąmożnabyłoby
uwzględnić.Wpłynieonanaregresję.ZostaławięcutworzonazmiennaIcedColeeSales,
którajestskorelowanazwartościąTemperature,anieSummerMonth.Przyjrzyjmysię,
cosięstaniezregresją,jeśliweźmiemypoduwagęzmiennąrazemzpozostałymi,czyli
TemperatureiSummerMonth.SummerMonthtozmiennabinarnarówna1lub0,która
wskazuje,czymiesiącembyłlipiecalbosierpień(1),czyteżjakikolwiekinny(0)):
##
R(danewyjścioweniezostałyzaprezentowane)
>summary(lm(icecream_sales~iced_coffee_sales+temps+summer_months))
##
Python
print(ols("icecream_sales~temps+summer_months+iced_coffee_sales",
data:stand_data_df).fit().summary())
...
coef
stderr
t
P>|t|
[0.025
0.975]
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
---
-
Intercept
summer_months
-1651.37281994.826-0.828
1.976e+04
24.5560
308.872
0.080
0.937
0.408-5563.136
0.000
0.184
-581.127
1.91e+04
-1.262
2260.391
2.04e+04
630.239
6.562
temps
351.71756.179
1.995
1.328
iced_coffee_sales2.6500
...
Widać,żewartośćwspółczynnikadlazmiennejTemperaturezmieniłasiędramatycznie
wporównaniuzpoprzednimprzykłademiterazjestujemna.Wysokiewartościpdla
zmiennychTemperatureiIcedColeeSalesbyłybyzwykletraktowanejakooznakaproble-
mu,aleponieważwartośćpdlazmiennejTemperaturejestngorsza”
,analitykmożewy-
wnioskować,żepowinienusunąćzregresji.Jaktojestmożliwe?
Prawdakryjącasięzadanymi(którajestznana,ponieważdlategoprzykładuspecjalnie
utworzonoodpowiednierelacjeiwygenerowanolosowedane)jesttaka,żegdyrobisię
gorąco,ludziechętniejkupująmrożonąkawę.Wupalnednichętniejkupujesięteżwięcej
lodów.Jednaksamzakupkawymrożonejniesprawia,żekliencimniejlubbardziej
skłonnidozakupulodów.Miesiąceletnierównieżnieskorelowanezzakupamikawy
mrożonej,ponieważdzieciwwiekuszkolnymnieistotnymczynnikiempopytunanią
(matematycznewyjaśnieniejestdostępnewramcenastroniesąsiedniej).
Narysunku1.4przedstawionopozytywnąkorelacjęmiędzysprzedażąkawymrożonej
asprzedażąlodów,ponieważobiewartościrosną,gdyjestcieplej.Jednakkażdywzrost
sprzedażykawymrożonejwmiesiącachletnichmożnawyjaśnićwspólnąkorelacjąze
zmiennąodpowiadającątemperaturze.Gdyalgorytmregresjipróbujewyjaśnićsprzedaż
lodówzapomocątrzechdostępnychzmiennych,mocwyjaśniającateoriiwykorzystującej
temperaturę,opisującejsprzedażkawymrożonej,zostajeuwzględnionawzmiennejtem-
peraturowej.Zdrugiejstronysprzedażkawymrożonejmusizostaćskompensowanaze
12
|
Rozdział1:Koncepcjaprzyczynowo-behawioralnastosowanawanaliziedanych