Otkrivanje izvanrednih vrijednosti pomoću normalne raspodjele

Sadržaj:

Otkrivanje izvanrednih vrijednosti pomoću normalne raspodjele
Otkrivanje izvanrednih vrijednosti pomoću normalne raspodjele
Anonim

Otkrivanje izvanrednih vrijednosti normalnom raspodjelom postupak je koji uključuje definiranje praga standardnog odstupanja i kojim se namjerava pronaći ekstremne vrijednosti uzorka.

Drugim riječima, otkrivanje izvanrednih vrijednosti normalnom distribucijom znači pronalaženje ekstremnih vrijednosti skupa podataka kroz standardiziranu normalnu formulu.

  • Vrijednosti krajnosti se zovu odstupanja na engleskom.
  • Vrijednosti unutarnja se zovu upućeni na engleskom.

Vizualno otkrivanje odstupanja može biti opcija kada imate vrlo malo podataka. Kada radite s bazama podataka, vrlo je nepraktično ručno tražiti odstupanja. Da bismo riješili taj problem, možemo izračunati koje su vrijednosti koje se smatraju ekstremnima uspoređujući s pragom odstupanja.

U slučaju normalne raspodjele, vrijednost se smatra ekstremnom kada je od srednje vrijednosti udaljena 3 standardna odstupanja. Budući da normalna raspodjela ima 2 repa, moramo uzeti u obzir da se ona može smanjiti i na negativnoj i na pozitivnoj strani.

Formula za otkrivanje odstupanja pomoću normalne raspodjele

Skup opažanja može se izraziti na prethodni način, gdje je x srednja vrijednost preko koje vrijednosti osciliraju, a sigma disperzija oscilacije spomenutih vrijednosti. Drugim riječima, sigma je udaljenost opažanja od srednje vrijednosti.

Multiplikativni faktor određuje je li riječ o strancu ili insajderu. Ako z zauzme vrijednosti 3 ili -3, tada će, prema normalnoj raspodjeli, promatranje y biti neobično.

Da biste znali vrijednost z koristimo prethodnu jednadžbu:

  • Ako je z> = 3 ili z = <-3, to prema normalnoj raspodjeli možemo reći Y to je ekstremna vrijednost ili odstupanje.
  • Ako je z <3 ili z <-3, tada to, prema normalnoj raspodjeli, možemo reći Y je interna vrijednost ili insajder.

Normalan standard

Je li gornja jednadžba poznata?

Točno, to je izraz opažanja koje slijedi normalnu raspodjelu jednom standardiziranom ili tipiziranom. Naziva se tako jer se pri dijeljenju sa standardnim ili standardnim odstupanjem razlika brojnika izražava u odstupanjima.

Iz tog razloga vrijednosti odstupanja možemo pridružiti z i tako ga moći kupiti s pragom od 3 odstupanja.

Primjer

Pronađite ekstremne vrijednosti sljedećih opažanja prema normalnoj raspodjeli:

Zapažanja predstavljamo na grafikonu:

Već od početka možemo vidjeti da je vrijednost koja je najudaljenija od ostatka najvjerojatnije odstupanje.

Prvo izračunavamo srednju vrijednost i standardno odstupanje:

x = srednja vrijednost = 5,8

sigma = standardna devijacija = 10,51

Tada vrijednosti zamjenjujemo u formuli i izračunavamo vrijednost z za svako promatranje:

Gornje vrijednosti su multiplikativni čimbenici sigme, tj. z. Sve što je veće od 3 ili manje od -3 bit će ekstremna vrijednost.

Vidimo da je vrijednost z koja prelazi 3 standardne devijacije je ona koja odgovara promatranju 49.

Stoga bi krajnja ili izvanredna vrijednost skupa podataka bila 49.