Koeficijent utvrđivanja (R na kvadrat)

Sadržaj:

Koeficijent utvrđivanja (R na kvadrat)
Koeficijent utvrđivanja (R na kvadrat)
Anonim

Koeficijent utvrđenosti udio je ukupne varijance varijable objašnjene regresijom. Koeficijent determinacije, koji se naziva i R na kvadrat, odražava dobro prilagođavanje modela varijabli koju namjerava objasniti.

Važno je znati da rezultat koeficijenta determinacije oscilira između 0 i 1. Što je njegova vrijednost bliža 1, to je model veći u skladu s varijablom koju pokušavamo objasniti. Suprotno tome, što je bliže nuli, to će model biti manje čvrst i, prema tome, manje pouzdan.

U prethodnom izrazu imamo razlomak. Pa, krenimo po dijelovima. Prvo ćemo analizirati brojnik, odnosno gornji dio.

Za one koji ne znaju izraz varijance, preporučujem da pročitate članak o tome. Oni koji to znaju mogu shvatiti da je to izraz varijance, ali s dvije temeljne razlike.

Prva je razlika u tome što Y ima cirkumfleks ili ono što učitelji didaktički zovu "šešir". Ono što detaljno opisuje je da je Y procjena modela onoga što prema objašnjenim varijablama vrijedi Y, ali to nije stvarna vrijednost Y, već procjena Y.

Drugo, bilo bi potrebno podijeliti sa T. Što se, u ostalim slučajevima, bilježi kao N ili broj opažanja. Međutim, budući da bi ga nosila i formula nazivnika, uklanjamo nazivnike (dno) iz obje formule kako bismo pojednostavili izraz. Na ovaj način je lakše raditi s njim.

Dalje, izvest ćemo istu analizu s dijelom nazivnika (donji dio).

U ovom je slučaju jedina razlika od izvorne formule varijance odsutnost njezinog nazivnika. Odnosno, ne dijelimo s T ili N. Na ovaj način, nakon što se objasne dva dijela generičkog izraza R kvadrata ili koeficijenta determinacije, vidjet ćemo primjer.

Koeficijent varijacijeKoeficijent linearne korelacijeRegresijska analiza

Tumačenje koeficijenta determinacije

Pretpostavimo da želimo objasniti broj golova koje Cristiano Ronaldo postiže na temelju broja odigranih utakmica. Pretpostavljamo da će što više odigranih utakmica postići više golova. Podaci se odnose na posljednjih 8 sezona. Dakle, nakon izdvajanja podataka, model daje sljedeću procjenu:

Kao što vidimo iz grafikona, odnos je pozitivan. Što više odigranih utakmica, naravno, više golova postigne u sezoni. Prilagodba, na temelju izračuna R-kvadrata, iznosi 0,835. To znači da je riječ o modelu čije procjene prilično dobro odgovaraju stvarnoj varijabli. Iako tehnički to ne bi bilo točno, mogli bismo reći nešto poput toga da model objašnjava 83,5% stvarne varijable.

Koeficijent problema utvrđivanja

Problem koeficijenta determinacije i razlog zašto nastaje prilagođeni koeficijent determinacije jest taj što ne kažnjava uključivanje neznačajnih varijabli objašnjenja. Odnosno, ako se modelu doda pet varijabli s objašnjenjima koje imaju malo veze s ciljevima koje Cristiano Ronaldo postigne u sezoni, R kvadrat će se povećati. Zbog toga se mnogi ekonometrijski, statistički i matematički stručnjaci protive upotrebi kvadrata R kao reprezentativne mjere dobrote stvarne sposobnosti.

Prilagođeni koeficijent determinacije

Prilagođeni koeficijent determinacije (prilagođeni R na kvadrat) mjera je koja definira postotak objašnjen varijansom regresije u odnosu na varijansu objašnjene varijable. Odnosno, isto kao i R na kvadrat, ali s razlikom: Prilagođeni koeficijent determinacije kažnjava uključivanje varijabli.

Kao što smo već rekli, koeficijent utvrđenosti modela povećava se čak i ako varijable koje smo uključili nisu relevantne. Budući da je to problem, da bismo ga pokušali riješiti, prilagođeni R na kvadrat je takav da:

U formuli je N veličina uzorka, a k broj objašnjavajućih varijabli. Matematičkim odbitkom, što su veće vrijednosti k, to će dalje prilagođeni R-kvadrat biti od normalnog R-kvadrata. Suprotno tome, pri nižim vrijednostima k, što će središnji udio biti bliži 1 i, prema tome, prilagođeni R na kvadrat i normalni R na kvadrat bit će sličniji.

Sjećajući se da je k broj objašnjavajućih varijabli, zaključujemo da to ne može biti nula. Da je nula, ne bi bilo modela. U najmanju ruku, morat ćemo objasniti jednu varijablu u smislu druge varijable. Budući da k mora biti najmanje 1, prilagođeni R-kvadrat i normalni R-kvadrat ne mogu imati istu vrijednost. Nadalje, prilagođeni R-kvadrat uvijek će biti manji od normalnog R-kvadrata.