Data Mining - što je to, definicija i koncept

Sadržaj:

Data Mining - što je to, definicija i koncept
Data Mining - što je to, definicija i koncept
Anonim

Iskopavanje podataka postupak je pretraživanja velikih baza podataka radi pronalaženja korisnih informacija koje se mogu koristiti za donošenje odluka. Također se koristi engleski izraz "data mining".

Može se shvatiti kao tehnologija i softver koji se koriste za pronalaženje obrazaca ponašanja unutar baze podataka. Temeljna osnova za to je da ti obrasci pomažu u donošenju odluka. Na primjer, to bi moglo pomoći tvrtkama da razumiju obrasce ponašanja svojih kupaca. Na takav način da bi olakšao uspostavljanje strategija za povećanje prodaje ili smanjenje troškova.

Prednosti pretraživanja podataka

Temeljna prednost ovog postupka analize podataka je velik broj poslovnih scenarija na koje se može primijeniti, kao primjer imamo:

  • Predviđanje: Prognoza prodaje tvrtke.
  • Vjerojatnost: Izbor najboljih klijenata za izravan kontakt telefonom ili e-poštom.
  • Analiza slijeda: Analiza proizvoda koje su kupci kupili i provjera međusobne povezanosti među njima.

Faze pretraživanja podataka

Unutar postupka rudarenja podataka možemo pronaći pet faza:

  • Cilj i prikupljanje podataka: Prvo je usredotočiti se na to kakvu vrstu informacija želimo dobiti. Zamislimo primjer da supermarket želi znati koje je doba dana tamo gdje je najviše posjetitelja. To bi bio cilj i informacije koje trgovina želi dobiti u ovom slučaju.
  • Obrada podataka i upravljanje njima: Jednom kad znamo podatke koje želimo prikupiti, stavljamo ih na posao. Ovo je možda najteža faza procesa. Pa, potreban je odabir reprezentativnog uzorka na kojem će se provesti analiza. Nakon odabira uzorka, mora se analizirati koja će se varijabla ili regresijski model provesti na uzorku.
  • Odabir modela: Usko je povezan s prethodnom fazom. Riječ je o stvaranju modela ili algoritma koji nam daje najbolji mogući rezultat. Da bi se to učinilo, mora se provesti iscrpna analiza varijabli koje će biti uključene u model. To postaje složen zadatak, jer će ovisiti o vrsti podataka koji se analiziraju. Stoga rudari podataka provode različita ispitivanja algoritma kao što su: linearna regresija, stablo odlučivanja, vremenske serije, neuronska mreža itd.
  • Analiza i pregled rezultata: U osnovi je analiza rezultata kako bi se vidjelo daju li logično objašnjenje. Objašnjenje koje olakšava donošenje odluka na temelju podataka danih u rezultatima.
  • Ažuriranje modela: Posljednji korak postupka bilo bi ažuriranje modela. Vrlo je važno da se to s vremenom učini kako ne bi zastarjelo. Varijable modela mogu postati beznačajne i stoga je potrebna periodična kontrola modela.