Outlier - što je to, definicija i koncept

Sadržaj:

Outlier - što je to, definicija i koncept
Outlier - što je to, definicija i koncept
Anonim

Izuzetak je abnormalno i ekstremno opažanje u statističkom uzorku ili vremenskoj seriji podataka koje potencijalno mogu utjecati na procjenu njegovih parametara.

Jednostavnijim riječima, odstupanje bi bilo promatranje unutar uzorka ili vremenska serija podataka koja nije u skladu s ostalim. Zamislite, na primjer, da mjerimo visinu učenika u razredu.

Zamislimo uzorak od 10 učenika. Visina svakog je sljedeća:

Uzorak 1
StudentVisina u metrima
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Prosječna visina razreda bila bi 1,73. Uzmemo li u obzir maksimalnu visinu (1,85) i minimalnu visinu (1,62) te udaljenost između njih i srednje vrijednosti, vidimo da je 0,113, odnosno 0,117. Kao što vidimo, srednja vrijednost je približno u sredini intervala i mogla bi se smatrati prilično dobrom procjenom.

Izuzetan efekt

Sada razmislimo o još jednom uzorku od 10 učenika, čija je visina sljedeća:

Uzorak 1
StudentVisina u metrima
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

U ovom bi slučaju prosječna visina razreda bila 1,81. Ako sada pogledamo maksimalnu visinu (2,20) i minimalnu visinu (1,62) te udaljenost između njih i srednje vrijednosti, vidimo da je 0,39, odnosno 0,18. U ovom slučaju srednja vrijednost više nije približno u sredini raspona.

Učinak dva najekstremnija opažanja (2.18 i 2.20) uzrokovao je pomicanje aritmetičke sredine prema maksimalnoj vrijednosti raspodjele.

Ovim primjerom vidimo učinak koji imaju izvanredni rezultati i kako mogu narušiti izračun prosjeka.

Kako otkriti iznimke?

Kako ispraviti učinak odstupanja

U situacijama poput ove u kojima postoje abnormalne vrijednosti koje se bitno razlikuju od ostalih, medijan je bolja procjena da se zna u kojem se trenutku koncentrira veći broj opažanja.

U slučaju obje distribucije i budući da imamo paran broj vrijednosti, ne možemo uzeti točno vrijednost koja prepolovljava distribuciju za izračunavanje medijana. Uz koji bismo nakon redoslijeda vrijednosti od najniže do najviše uzeli peto i šesto opažanje (oboje ostavljaju po 4 promatranja sa svake strane), a medijan bismo izračunali na sljedeći način:

Uzorak 1:

1,75+1,72/2 = 1,73

Uzorak 2:

1,79+1,71/2 = 1,75

Kao što vidimo, u uzorku broj 1, s obzirom na to da nema odstupanja ili abnormalnih opažanja, medijan je 1,73 i podudara se sa srednjom vrijednosti. Suprotno tome, za uzorak 2, srednja vrijednost je 1,75. Kao što vidimo, ova vrijednost je dalje od srednje visine, koja je iznosila 1,81, i daje nam veću ocjenu točke kvalitete kako bismo približno znali u kojoj je točki koncentriran veći broj opažanja.

Procjena bodova