Kolmogorov test - Smirnoff (K-S)

Sadržaj:

Kolmogorov test - Smirnoff (K-S)
Kolmogorov test - Smirnoff (K-S)
Anonim

Test Kolmogorov-Smirnoff (K-S) neparametarski je test čiji je cilj utvrditi slijede li učestalost dva različita skupa podataka istu raspodjelu oko njihove srednje vrijednosti.

Drugim riječima, test Kolmogorov-Smirnoff (K-S) test je koji se prilagođava obliku podataka i koristi se za provjeru slijede li dva različita uzorka istu raspodjelu.

Zašto je to neparametarski test?

Ljepota "neparametarske" karakteristike je u tome što odgovara podacima i, shodno tome, distribucijama koje mogu pratiti učestalost podataka. Uz to, ova značajka štedi nas od potrebe za pretpostavkom apriorno kakvu raspodjelu slijedi uzorak.

Važnost K-S testa

Koliko puta smo dobili dva uzorka i izračunali Pearsonov koeficijent korelacije bez dvostrukog razmišljanja? Drugim riječima, ako želimo vidjeti linearni odnos između dva skupa podataka, bilo bi pošteno izračunati korelaciju, zar ne?

Ovaj bi odbitak bio istinit ako raspodjele dva uzorka slijede normalnu raspodjelu. Koeficijent korelacije pretpostavlja da su raspodjele normalne, ako preskočimo ovu pretpostavku, rezultat koeficijenta korelacije je pogrešan. Za testove hipoteza i intervale pouzdanosti također pretpostavljamo da se populacija distribuira normalnom raspodjelom.

Kao i svi testovi hipoteza koji uključuju statistiku, važno je imati veliku količinu podataka kako bi se postigli statistički značajni rezultati. Možda pogrešno odbacimo ništetnu hipotezu jer je uzorak mali. Nadalje, također je važno da ovaj uzorak ima neke ekstremne slučajeve (odstupanja, na engleskom jeziku) radi dosljednosti rezultata ispitivanja.

Postupak ispitivanja

Postupak sljedećih koraka.

Hipoteza

Prvi korak bit će provjeriti imaju li oba uzorka jednaku raspodjelu. Da bismo to učinili, provodimo test hipoteze pretpostavljajući da oba uzorka imaju jednaku raspodjelu u odnosu na alternativnu hipotezu da su različiti.

Statistički

Radimo s kumulativnim funkcijama raspodjele dva uzorka, F1(x) i F2(x):

Nemojte paničariti! Gornju formulu analiziramo mirno:

  • Važan dio formule je znak razlike (-). Tražimo vertikalne razlike u raspodjelama. Dakle, oduzet ćemo obje kumulativne funkcije raspodjele.
  • The operator "max". Zanima nas pronalaženje najveće ili maksimalne razlike kako bismo vidjeli koliko dvije distribucije mogu biti različite.
  • The apsolutna vrijednost. Koristimo apsolutnu vrijednost tako da redoslijed operatora ne mijenja rezultat. Drugim riječima, nije važno koji F (x) ima negativni predznak:

Kritična vrijednost

Za velike uzorke postoji aproksimacija kritične vrijednosti za K-S koja ovisi o razini značajnosti (%):

Gdje1 i n2 su veličina uzorka za F uzorak1(x) i F2(x).

Neke izračunate kritične vrijednosti:

Pravilo odbijanja

App

Vrlo često želimo testirati razlikuju li se dvije distribucije međusobno dovoljno kada želimo izgraditi scenarije predviđanja (radimo s dva uzorka) ili kada želimo procijeniti koja distribucija najbolje odgovara podacima (radimo samo s jednim uzorkom).