Treść książki

Przejdź do opcji czytnikaPrzejdź do nawigacjiPrzejdź do informacjiPrzejdź do stopki
18
Rozdział1Czymjestuczeniemaszynowe?
Zdrugiejstronyrozważmyużyciemodeluuczeniamaszynowegodoprowadzenia
badańprzesiewowychpodkątemnowotworuikierowaniapacjentówzwynikiem
dodatnimnadalszebardziejinwazyjnetesty.Wprzypadkuwynikufałszywieujemne-
gopacjent,którybyćmożemaraka,niezostajeskierowanynadodatkowebadania,
comożeprowadzićdonieleczeniaaktywnejchoroby.Cojestoczywiściesytuacjąwy-
soceniepożądaną.
Jednakwynikifałszywiedodatnierównieżniepozbawionenegatywnychkonse-
kwencji.Pacjent,uktóregofałszywiezidentyfikowanopodejrzenienowotworu,jest
niepotrzebniepoddawanypotencjalniebolesnymikosztownymbadaniom,cozuży-
wazasoby,któremożnabyłobypoświęcićnainnegopacjenta.Ponadtojestnarażony
naszkodyemocjonalne,gdyczekanawyniknowychtestów.
Ocenaproblemówuczeniamaszynowegotoskomplikowanakwestiaimusibyćprze-
prowadzanazuwzględnieniemdomenyproblemu.Analitycydanychiekspercidome-
nowi,awniektórychprzypadkachtakżeetycy,musząwspólnieocenićmodelepod
kątemkorzyściikosztukażdegoztypówbłędów.
Błędyregresji
Błędy,zktórymimamydoczynieniawprzypadkuproblemówregresji,niecoinne,
ponieważpredykcjemająodmiennycharakter.Gdyprzypisujemyobserwacjometykie-
ty,naszepredykcjemogąbyćalboprawidłowe,albonieprawidłowe.Gdyoznaczymy
łagodnynowotwórjakozłośliwy,jesttooczywistybłąd.Jednakwprzypadkuproble-
mówregresjiprzewidujemywartośćliczbową.
Powróćmydoproblemuprzewidywaniadochodówomawianegowewcześniejszej
częścirozdziału.Jeślipewnaosobazarabia45.000$rocznieinaszalgorytmtrafnieprze-
widujedokładnie45.000$,jesttowyraźnieprawidłowapredykcja.Gdybyalgorytm
przewidziałdochód0$lub10.000.000$,prawiewszyscyzgodzilibysię,żetepredyk-
cjeobiektywnienieprawidłowe.Alecozpredykcjami45.001$,45.500$,46.000$czy
50.000$?Czywszystkienieprawidłowe?Amożeniektóreznichlubnawetwszystkie
wystarczającymprzybliżeniem?
Bardziejsensownejestocenianiealgorytmówregresjiwoparciuowielkośćbłędu
predykcji.Określamygo,mierzącodległośćmiędzywartościąprzewidywanąafaktycz-
ną.Weźmypoduwagęprzykładowyzbiórdanychprzedstawionynarysunku1.10.
Wtymzbiorzedanychpróbujemyprzewidziećliczbęrowerów,jakiezostanąwy-
najętedanegodniawoparciuośredniątemperaturęwtymdniu.Liczbawynajętych
rowerówznajdujesięnaosiy,natomiasttemperaturanaosix.Czarnaliniatolinia
regresji,którawskazuje,żespodziewamysięwzrostuliczbywynajmowanychrowerów
wrazzewzrostemtemperatury.Taczarnaliniatonaszmodel,natomiastczarnekropki
toprzewidywaniadlakonkretnychtemperaturwzdłużtejlinii.
Pomarańczowekropkireprezentująrzeczywistedanezebraneprzezfirmęwynaj-
mującąrowery.to„prawidłowe”dane.Czerwoneliniemiędzyprzewidywanymi