Klaster analiza - što je to, definicija i pojam

Klaster analiza skup je multivarijantnih statističkih tehnika kojima je cilj grupirati skup slučajeva ili pojedinaca u klastere ili klastere.

Stoga je klaster analiza vrsta statističkog grupiranja. Cilj je učiniti podatke u svakom klasteru međusobno što sličnijima i što različitijima u odnosu na ostale skupine. To se može učiniti i s varijablama.

Transformacija podataka u klaster analizi

Jedan od problema s kojim se susrećemo kada grupiramo podatke jest taj što se podaci ponekad nalaze u različitim mjernim jedinicama. Iz tog razloga mora se izvršiti korak analize klastera koji omogućuje grupiranje.

Najčešća metoda je standardizacija. To se koristi za transformiranje podataka tako da imaju slične mjerne jedinice. Moraju se uzeti u obzir dva pravila, binarne varijable nisu standardizirane i, ako su kategorične, postaju binarne (prisutnost / odsutnost).

Metode u klaster analizi

Postoji mnogo metoda za izvođenje klasterske analize, ali na Economy-Wiki.com, slijedeći princip jednostavnosti koji nas karakterizira, vidjet ćemo najrelevantnije na shematski način.

Hijerarhijske metode

Prva klasifikacija bile bi hijerarhijske ili nehijerarhijske metode. Bivši grupiraju pojedince u hijerarhijske faze (otuda i njihovo ime). Na taj način samo jedan objekt istodobno mijenja grupu, a ostatak ostaje na istom mjestu.

Oni se pak klasificiraju na:

Aglomerativne metode

Sastoji se od grupiranja pojedinaca u manje nakupine svaki put. Polazi od broja skupina jednakih broju slučajeva i smanjuje se.

Najpoznatija su:

  • Metoda najbližeg susjeda: U ovom slučaju koristite algoritam za grupiranje podataka. Ono što tražite je minimalna udaljenost između najbližih pojedinaca. Vrlo je osjetljiv na podatke koji mogu uzrokovati takozvani "šum". Slična je metoda i najudaljenijeg susjeda.
  • Prosječna metoda između skupina: Izračunava srednju udaljenost između pojedinaca u skupini i jedne od njih posebno. Vrlo je korisno smanjiti takozvanu "buku".
  • Wardova metoda: Ono što čini je dodavanje kvadrata odstupanja između svakog pojedinca i srednje vrijednosti njegove skupine kako bi se izbjegao gubitak podataka. Jedna je od najpoznatijih i ima prednosti metode koja se temelji na srednjoj, ali većoj moći diskriminacije.

Disocijativne metode

U ovom slučaju, ono što radite je podijeliti. Počinje s jednim klasterom, a podjele se predlažu na temelju niza zahtjeva.

Najčešći su:

  • Prosječna metoda među grupama, najbliži susjed i najudaljeniji susjed: Ove tri metode slične su prethodnom slučaju, ali pomoću disocijativne metode. Odnosno, ovaj put ono što radimo je odvojeno, a ne grupno.
  • Centroid metoda: Široko se koristi u problemima optimizacije lokacije. Koristite ovu vrstu analize za pronalaženje najprikladnijih.

Nehijerarhijske metode

U ovom slučaju započinju s unaprijed postavljenim rješenjem. Ovo je početna točka za klaster analizu. Na taj se način skupine uspostavljaju unaprijed i svaki će slučaj biti smješten u jednu od njih, ovisno o njezinim karakteristikama. Zauzvrat ih možemo podijeliti u druge podskupine.

  • Metode preraspodjele: Najvažnije su centroid metode, kao što su k-značenja. Oni medioidi, poput PAM-a. Ili onaj dinamičnih oblaka.
  • Izravne metode: Najvažnije je klasteriranje blokova, široko korišteno u rudarstvu podataka.
  • Reduktivne metode: Oni se temelje na faktorskoj analizi.
  • Metode pretraživanja gustoće: S jedne strane postojali bi tipološki pristupi, poput modalne analize. S druge strane imamo vjerojatnosne, poput Vukove.

Primjeri analize klastera

Pogledajmo, konačno, neke primjere aplikacija za klastersku analizu.

  • Zamislimo da imamo skupinu zemalja koju želimo grupirati na temelju određenih makroekonomskih varijabli, poput inflacije ili nezaposlenosti. Ovu vrstu analize možemo koristiti za stvaranje homogenih skupina, na primjer, više ili manje razvijenih zemalja.
  • Drugi primjer mogao bi biti niz potrošača s određenim sociodemografskim karakteristikama. Ideja je stvoriti grupe sa sličnim pojedincima, a one se, pak, međusobno jako razlikuju.
  • No uz ekonomiju, klaster analiza korisna je i u drugim znanostima. Na primjer u biologiji, za razvrstavanje vrsta ili u geologiji, da se isto učini s mineralima.

Vi ćete pomoći u razvoju web stranice, dijeljenje stranicu sa svojim prijateljima

wave wave wave wave wave