Outlier - što je to, definicija i koncept

Izuzetak je abnormalno i ekstremno opažanje u statističkom uzorku ili vremenskoj seriji podataka koje potencijalno mogu utjecati na procjenu njegovih parametara.

Jednostavnijim riječima, odstupanje bi bilo promatranje unutar uzorka ili vremenska serija podataka koja nije u skladu s ostalim. Zamislite, na primjer, da mjerimo visinu učenika u razredu.

Zamislimo uzorak od 10 učenika. Visina svakog je sljedeća:

Uzorak 1
StudentVisina u metrima
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Prosječna visina razreda bila bi 1,73. Uzmemo li u obzir maksimalnu visinu (1,85) i minimalnu visinu (1,62) te udaljenost između njih i srednje vrijednosti, vidimo da je 0,113, odnosno 0,117. Kao što vidimo, srednja vrijednost je približno u sredini intervala i mogla bi se smatrati prilično dobrom procjenom.

Izuzetan efekt

Sada razmislimo o još jednom uzorku od 10 učenika, čija je visina sljedeća:

Uzorak 1
StudentVisina u metrima
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

U ovom bi slučaju prosječna visina razreda bila 1,81. Ako sada pogledamo maksimalnu visinu (2,20) i minimalnu visinu (1,62) te udaljenost između njih i srednje vrijednosti, vidimo da je 0,39, odnosno 0,18. U ovom slučaju srednja vrijednost više nije približno u sredini raspona.

Učinak dva najekstremnija opažanja (2.18 i 2.20) uzrokovao je pomicanje aritmetičke sredine prema maksimalnoj vrijednosti raspodjele.

Ovim primjerom vidimo učinak koji imaju izvanredni rezultati i kako mogu narušiti izračun prosjeka.

Kako otkriti iznimke?

Kako ispraviti učinak odstupanja

U situacijama poput ove u kojima postoje abnormalne vrijednosti koje se bitno razlikuju od ostalih, medijan je bolja procjena da se zna u kojem se trenutku koncentrira veći broj opažanja.

U slučaju obje distribucije i budući da imamo paran broj vrijednosti, ne možemo uzeti točno vrijednost koja prepolovljava distribuciju za izračunavanje medijana. Uz koji bismo nakon redoslijeda vrijednosti od najniže do najviše uzeli peto i šesto opažanje (oboje ostavljaju po 4 promatranja sa svake strane), a medijan bismo izračunali na sljedeći način:

Uzorak 1:

1,75+1,72/2 = 1,73

Uzorak 2:

1,79+1,71/2 = 1,75

Kao što vidimo, u uzorku broj 1, s obzirom na to da nema odstupanja ili abnormalnih opažanja, medijan je 1,73 i podudara se sa srednjom vrijednosti. Suprotno tome, za uzorak 2, srednja vrijednost je 1,75. Kao što vidimo, ova vrijednost je dalje od srednje visine, koja je iznosila 1,81, i daje nam veću ocjenu točke kvalitete kako bismo približno znali u kojoj je točki koncentriran veći broj opažanja.

Procjena bodova

Popularni Postovi

Svjetla i sjene kubanske ekonomije

Kako funkcionira marksistička ekonomija u 21. stoljeću? Možete li planirati ekonomiju bez izoliranja države? To su pitanja koja si možemo postaviti gledajući Kubu, najpoznatiji socijalistički eksperiment na Karibima, sa svojim svjetlima i sjenama. Kuba je tijekom 20. stoljeća bila najbolji primjerPročitajte više…

Kuba još uvijek ne uvjerava investitore

Unatoč vladinim naporima da potakne strana ulaganja, ona rastu, ali ostaju na niskoj razini. Zašto međunarodni ulagači i dalje imaju nepovjerenja? Kuba je uvijek bila zemlja ovisna o stranim ulaganjima. Bilo je to kada je industrijska revolucija na otok došla španjolskim glavnim gradomPročitajte više…