You are on page 1of 68

ICT

UPRAVLJANJE PODACIMA
Poslovna Inteligencija

2015
Sadraj
1 Uvod ................................................................................................................................................ 2
2 Osnovni pojmovi baza podataka ..................................................................................................... 4
2.1 Poznavanje podataka .............................................................................................................. 7
2.2 Objekti i tipovi atributa ........................................................................................................... 8
2.3 Osnovni statistiki pokazatelji podataka................................................................................. 9
3 Definicija, uloga i funkcija skladitenja podataka ......................................................................... 15
3.1 Uloga skladita podataka ...................................................................................................... 16
3.2 Funkcije skladita podataka .................................................................................................. 17
3.3 Osnovni modeli skladita podataka ...................................................................................... 21
3.4 Osnovni pojmovi i skraenice skladitenja podataka............................................................ 23
4 Sistemi za podrku odluivanju ..................................................................................................... 24
4.1 Savremeni sistemi za podrku menadmentu ...................................................................... 25
4.2 Ekspertni sistemi ................................................................................................................... 27
4.3 Integracija SPO i ES ............................................................................................................... 30
5 Otkrivanje zakonitosti u podacima (OZP) ..................................................................................... 31
5.1 CRISP DM metodologija ..................................................................................................... 31
5.1.1 Razumevanje poslovnog problema ............................................................................... 32
5.1.2 Razumevanje podataka ................................................................................................. 33
5.1.3 Priprema podataka........................................................................................................ 35
5.1.4 Modelovanje reenja .................................................................................................... 35
5.1.5 Ocena OZP reenja ........................................................................................................ 38
5.1.6 Primena OZP reenja ..................................................................................................... 39
5.2 Zablude u OZP ....................................................................................................................... 39
6 KLASIFIKACIJA................................................................................................................................ 40
6.1 Osnove Klasifikacije............................................................................................................... 40
6.2 Generalni pristup klasifikaciji ................................................................................................ 41
6.3 Stablo odluke ........................................................................................................................ 42
6.4 Mere za izbor atributa .......................................................................................................... 46
6.5 Potkresivanje stabla .............................................................................................................. 54
6.6 Skalabilnost i stabla odluke ................................................................................................... 57
6.7 Vizuelno rudarenje i stablo odluke ....................................................................................... 59
7 Evaluacija modela i selekcija ........................................................................................................ 62

1
1 Uvod

Poslovna inteligencija (Business Intelligence BI) predstavlja moda i najznaajniji


faktor u okviru sticanja poslovne kompetitivne prednosti. BI omoguava optimalno
iskorienje implementirane IT infrastrukture uz agresivnu upotrebu ve postojeih podataka
u okvirima nasleenih i/ili transakcionih sistema. Postojei podaci i njihova optimalna
iskorienost vie ne ishoduju jednostavnom razlikom izmeu ostvarivanja dobiti i gubitaka,
ve mogu znaiti biti ili ne biti u okvirima savremenog poslovanja.
Razvojem informaciono komunikacione tehnologije (IKT) i industrije koja je
pokrenuta tim razvojem, hardware-a i software-a podjednako, primena i korienje
savremene tehnologije postali su sastavni deo ivota. Razvoj baza podataka u smislu
skladitenja i trajnog uvanja dragocenih informacija proao je veoma interesantan put.
Danas je baza podataka kao proizvod dostupna gotovo svakom korisniku raunara.Baze
podataka treba da sauvaju prikupljene podatke. Pravilno uskladiteni podaci, osigurani
primenom tehnologije, tehnikim reenjima i procedurama zasnovanim na IKT, predstavljaju
trajno dobro u okviru namene za koji su prikupljeni. Spektar namena za koje mozemo
iskoristiti tehnologiju koja nam je ponuena, ogranien je jedino naim idejama i tehnikim
kapacitetima tehnolokih reenja.
Principi prikupljanja podataka i njihovo skladitenje tokom vremena su bili primarne
teme kojima se posveivala panja. Ogromni skupovi podataka nosili su u sebi skrivene
mogunosti ije osobine su kad-tad morale da postanu predmet istraivanja.Otvoreno je
pitanje upotrebe sistemskog korienja podataka i njegove transformacije u
informaciji.Raspolaganje pouzdanom i kvalitetnom informacijom u odreenom trenutku
moe da znai pobedu u nekom takmienju, a ako ne pobedu, ono barem poetnu
prednost.Informacija predstavlja jedan od najznaajnih resursa kojima kompanija raspolae.
Obraivanjem podataka, pronalaenjem znaajnih veza izmeu njih, prepoznavanjem
pojava koje prikazuju podaci, menaderi u kompanijama mogu da pokrenu aktivnosti koje e
proizvesti nove, pozitivne, kvalitetnije sveukupne poslovne rezultate.Budui da je
pravovremeno dobijanje kvalitetnih informacija bitno za ostvarenje prednosti pred
konkurencijom, menader ih mora dobiti to pre i u obliku prilagoenom njegovim
potrebama. Iz toga proizlazi da se od dananjih informacionih sistema preduzea oekuje da
osiguraju informacije iji sadraj, brzina pristupa i nain prikaza odgovaraju trenutnim
potrebama menadera u procesu odluivanja. Dok se za potrebe operativnog voenja
poslovanja koriste klasine baze podataka, zasnovane na relacionom modelu, koje odraavaju
aurno, stvarno stanje poslovnog sistema, a odreenim se podacima nakon auriranja gubi
trag, za donoenje pravilnih poslovnih odluka potrebno je imati uvid i u vremenski tok
deavanja poslovnih dogaaja, pa takve baze podataka ne predstavljaju
zadovoljavajue rjeenje.

2
Poslovna inteligencija predstavlja skup tehnologija i zasniva se na brojnim metodama
obrade podataka sa ciljem podrke odluivanju u poslovnim procesima.Interaktivni analitiki
procesi u interpretiranju podataka ine informacionu osnovu za primenu koncepta poslovne
inteligencije i predstavljaju osnov podrci za donoenje poslovnih odluka.

Tokom 60-ih, 70-ih i 80-ih godina prolog veka znaajan deo velikih kompanija
uspeno je prebacio kljune aspekte poslovanja na velike raunarske sisteme. 80-ih godina do
te mere sazreva primena relacionih baza podataka, da su neretko preuzele vodeu ulogu u
okvirima implementiranih raunarskih sistema. Zahtevi operacionih sistema takvih reenja
postaju sve znaajniji, tako da se dobavljai softvera za baze podataka iskljuivo usmeravaju
ka poboljanju brzine transakcija, integriteta i pouzdanosti. Primenjene metode na alost
usmeravane su suprotno zahtevima koje je trebalo da zadovolje izvetaji, kao i slobodnim
formama koje su nametali upiti. Tehnike indeksiranja, provere integriteta, modeli podataka i
logovanje pojedinih transakcija znatno su oteale sposobnost pristupa podacima iz
operacionih skladita. Na odgovore na postavljena pitanja se ponekad moralo ekati i po
nekoliko nedelja. Pri tom se deavalo da korisnici budu suoeni sa kontradiktornim
informacijama razliitih primenjenih sistema.

Iako se koreni BI mogu nai jo u okvirima prvih aplikacija za obradu podataka, ove,
u poetku relativno jednostavne aplikacije pokrivale su najee pojedinane aktivnosti meu
kojima su bila plaanja i potraivanja. Geneza reenja pomenutih problema iziskivala je
razvoj neophodnog hardvera koji je, pored estih promena tehnologije nuno evoluirao kako
bi se vreme obrade minimalizovalo. Struktura podataka u vidu tzv. master datoteka smetenih
na diskovima je brzo prerasla u baze podataka - centralizovane, zbirne podatke koji u
okvirima mainframe i kasnije client/server sistema postaju dostupni aplikacijama. Vreme
izvrenja transakcija postajalo je sve krae (2-3 sekunde) to je ubrzano uvoenjem online
aplikacija koje su predstavljale evolutivni nastavak online obrade transakcija. Online
aplikacije su meusobno povezane centralizovanim online bazama podataka koje
predstavljaju osnovu za njihovo nesmetano odvijanje. Online aplikacije donose drastino
smanjenje vremena pristupa i dostupnosti samih informacija, tako da zajedno sa online
transakcijama zauzimaju centralno mesto u okviru direktne interakcije sa korisnicima, to de
facto postaje standard kojeg najbre prepoznaju upravo finansijske institucije.

Donoenje kvalitetnih poslovnih odluka predstavlja kljuan preduslov za uspenost i


siguran napredak savremenog poslovanja. Egzistiranje takvih odluka u znatnoj je meri
uslovljeno postojanjem pravovremenih i kvalitetnih informacija, za koje, sa druge strane,
moraju postojati kvalitetni i lako dostupni podaci, odnosno njihova kvalitetna analiza (slika
1). Ovakav sistem koji se iskljuivo zasniva na podacima, u prvoj fazi mora obezbediti
njihovo adekvatno prikupljanje i skladitenje, to podrazumeva projektovanje takvog
skladita podataka (Data Warehouse, DW) koje bi omoguilo brzu dostupnost. Prve DW
primene poele su ve poetkom 90-tih, dok su se prva sloena praktina reenja zasnovana
na takvoj primeni pojavila u drugoj polovini 90-tih godina prolog veka, pruajui brz i irok
pristup informacijama koje mogu doprineti stvaranju boljih poslovnih odluka. BI ukljuuje
tehnologije koje korisnicima u poslovanju omoguavaju pristupanje, analizu i korienje
podataka radi sticanja informacija neophodnih za valjano odluivanje i upravljanje, kao i
aplikacione programe kojima se podrava

3
Slika 1. Aktivnosti sistema poslovne inteligencije

odluivanje (EIS, DSS), kreiraju upiti i proizvode izvetaji, obavlja online analitika obrada
podataka

2 Osnovni pojmovi baza podataka

Baza podataka: dobro struktuirana kolekcija podataka koju koristi i odrava vie korisnika
odnosno programa (aplikacija).

Sistemi za upravljanje bazom podataka (DatabaseManagement Systems DBMS):


Softverski sistem koji obezbeuje osnovne funkcije obrade velike koliine podataka.

Ulazi u DBMS :
1.Upiti, specifikovani zahtevi za podacima iz baze, preko kojih moe i da se menja sadraj
baze podataka
2.Aplikacijeu nekom programskom jeziku preko kojih se pretrauje i menja sadraj baze
podataka
3.eme, koje opisuju strukturu baze podataka, pravila integriteta i pravila korienja.

Integritetbaze podataka podrazumeva dozvoljene vrednosti podataka, odnosno


konzistentnost, tj. dozvoljene odnose podataka.

Jezik za opis podataka (Data Definition Language DDL) koristi se za odravanje eme
baze podataka

Jezik za manipulaciju podataka (Data Manipulation Language DML) preko koga se


realizuju upiti i modifikacija baze podataka

SQL (Structured Query Language) je standardni relacioni jezik baza podataka. Preko njega
se definiu:
Struktura relacionog modela (skup tabela, atributa, kljueva i dr.)

4
Skup ogranienja na vrednosti atributa
Dinamika pravila integriteta

Transakcija je niz operacija nad bazom podataka koja odgovara jednoj logikoj jedinici
posla u realnom sistemu. Mora da zadovoljava 4 ACID osobine :

Atomnost (Atomicity) COMMIT ili ROLLBACK


Konzistentnost (Consistency)
Izolacija (Isolation) za vie istovremenih transakcija
Trajnost (Durability) prilikom otkaza sistema po zavretku transakcija

Modeli podataka: teorije pomou kojih se specifikuje i projektuje konkretna baza podataka
ili informacioni sistem uopte. Najee su zastupljeni:

Model objekti-veze
Relacioni Model
Objektni Model

Slika 2. Model Objekti-veze

5
Slika 3. Relacioni model

6
Slika 4. Objektni model

Slika 3. ilustruje concept relacionog modela. Model je opisan entitetima, tj. relacionim
tabelama Student, Predmet, Radnik, Nastavnik i AdminOsoblje. Relacija Student se sastoji od
skupa atributa koji opisuju tu relaciju (Broj indeksa: BrojInd, Ime i Smer). Broj indeksa je
jedinstveni identifikacioni atribut, koji je u oznaavanju relacije podvuen. Tabele mogu da
se koriste i da predstave relacije izmeu razliitih entiteta. Na primer, tabela Slua sadri
relacije izmeu Studenata i Predmeta koji Studenti sluaju.

2.1 Poznavanje podataka

Podaci iz realnog okruenja su po pravilu nekozistentni, ogromni po obimu i najee


potiu iz razliitih tipova izvora podataka. U takvim uslovima je poznavanje podataka koje
obraujemo neophodno da bi se ispravno primenile tehnike preprocesuiranja podataka za
korienje u poslovnoj inteligenciji. Poeljno je da imamo odgovore na pitanja kao to su:

Koji su tipovi atributa koji sainjavaju nae podatke;


Koji tip vrednosti ima svaki od atributa;
Koji atributi su diskretni, a koji sadre kontinualne vrednosti;
Kako su vrednosti atributa distribuirane;
Da li podaci mogu da se vizuelizuju;
7
Da li moemo da merimo meusobnu slinost vie atributa.

U cilju dobijanja odgovora na ova pitanja, u ovom Poglavlju su prvo proueni tipovi
atributa, kao to su nominalni atributi, binarni atributi, redni atributi i numeriki atributi.
Osnovni statistiki pokazatelji se koriste za dobijanje predstave o vrednostima svakog od
atributa. Na primer, za dati atribut temperatura, moemo da odredimo njegovu prosenu
vrednost (mean), medijanu (median) koja predstavlja srednju vrednost atributa ili mod
(mode), koji predstavlja najeu vrednost atributa. Ovo su mere centralne tendencije, koje
nam daju predstavu o centru distribucije vrednosti posmatranog atributa.

Poznavanje ovih osnovnih statistikih podataka o svakom atributu olakava


popunjavanje nedostajajuih vrednosti, uklanjanje umova iz podataka i ekstrakciju
ekstremnih vrednosti atributa. Poznavanje atributa i njihovih vrednosti takoe pomae u
ispravljanju nekonzistentnosti koje nastaju u procesu integracije podataka. Crtanje mera
centralne tendencije nam pokazuje da li su podaci simetrini ili iskrivljeni. Kvantilni
dijagrami, histogrami i dijagrami rasejanja su najznaajniji grafiki pokazatelji osnovnih
statistikih veliina.

Oblast vizuelizacije podataka omoguuje primenu raznih dodatnih tehnika


upoznavanja podataka. Ona pomae da se uoe trendovi, relacije i informacije koje su
skrivene u nestruktuiranim skupovima podataka. Tehnike variraju od jednostavnih, kao to su
grafici matrica rasejanja u kojima su dva atributa mapirana na 2-D koordinatni sistem, do
sofisticiranih, npr. klasifikacionih stabala.

Najzad, elimo da ispitamo koliko su slini (ili razliiti) odreeni objekti podataka.
Na primer, pretpostavimo da imamo bazu podataka u kojoj su objekti pacijenti, opisani
odreenim simptomima. elimo da utvrdimo slinosti ili razliitosti izmeu individualnih
pacijenata na osnovu primenjenih tretmana za odreene vrste bolesti. Informacije ovog tipa
nam omoguuju da uoimo klastere, tj. grupe objekata koji su slini na osnovu odreenih
vrednosti atributa, kao i ablone koji se ponavljaju za odreene grupe vrednosti atributa.

2.2 Objekti i tipovi atributa

Podaci se sastoje od objekata. Objekt podatka predstavlja entitet - u bazi podataka


prodavnice, objekti mogu da budu kupci, artikli i prodaje; u bazi bolnice objekti su pacijenti;
u univerzitetskoj bazi podataka objekti su studenti, profesori i predmeti. Objekti podataka su
po pravilu opisani svojim atributima. Redovi u tabelama baza podataka odgovaraju
objektima podataka, dok kolone predstavljaju atribute. U ovom poglavlju emo dwefinisati
atribute i razmotriti razliite tipove atributa.

Atribut je polje podataka i predstavlja odreenu karakteristiku objekta podataka. U


literaturi se oznaava kao atribut, dimenzija, svojstvo ili promenljiva. Termin atribut se
koristi u Data mining-u i relacionim bazama podataka, dimenzija se koristi u skladitima

8
podataka, u objektnom programiranju i mainskom uenju se koristi termin svojstvo, dok se
promenljiva koristi u statistici. Atributi koji opisuju objekt Kupac mogu biti IdKupca, Ime i
Adresa. Posmatrane vrednosti odreenog atributa se nazivaju Opaanja. Skup atributa koji se
koristi da opie dati objekat se naziva vektor atributa ili vektor svojstava. Tip atributa je
odreen skupom njegovih moguih vrednosti - nominalni, binarni, redni ili numeriki.
Prva tri atributa su kvalitativni atributi, dok je numeriki atribut kvantitativni. Za razliku od
kvantitativnih atributa, kvalitativni ne daju aktuelnu veliinu odnosno kvantitet atributa.

Re Nominalni oznaava da se atribut odnosi na imena. Vrednosti nominalnog


atributa su simboli ili imena entiteta. Svaka vrednost predstavlja odreenu vrstu, kategoriju ili
stanje, pa se ovi atributi esto nazivaju i Kategoriki Atributi. Vrednosti ovih atributa ne
mogu da se meusobno uporeuju. U programiranju se ove vrednosti esto nazivaju
Enumeracije. Primeri nominalnih atributa su boja kose, brano stanje, zanimanje. Binarni
atributi su nominalni atributi sa samo dve vrednosti: 0 ili 1, pri emu 0 najee znai
odsustvo, a 1 prisustvo atributa. Primeri binarnog atributa su atributi pua ili atribut pol.
Binarni atribut je simetrian ukoliko obe vrednosti imaju istu teinu, a asimetrian u
suprotnom. Redni atribut je atrubut ije mogue vrednosti mogu meusobno da se urede. Na
primer stepen obrazovanja moe da se numerie brojevima u rastuem nizu gde vei broj
oznaava vie obrazovanje. Razlika vrednosti rednih atributa daje smislenu informaciju, dok
kolinik ovih vrednosti to oigledno ne daje.

Numeriki atribut daje mernu koliinu, predstavljenu celim ili realnim brojevima. Ovi
atributi mogu da budu intervalni ili relativni. Intervalni atributi se mere na skali koja moe
da ima negativne vrednosti, nulu i pozitivne vrednosti. Pored mogunosti da se vrednosti ovih
atributa mogu da ureuju, ovi atributi omoguuju da se uporede i kvantifikuju razlike izmeu
njihovih vrednosti.Temperatura u stepenima Celzijusa je primer intervalnog atributa.
Moemo da kaemo da je temperatura od 40 stepeni za 20 vea od temperature od 20 stepeni.
Meutim, ne moemo da kaemo da je 40 stepeni dve puta toplije od temperature 20 stepeni.
Ovu osobinu, meutim, imaju relativni atributi, jer imaju definisanu vrednost 0, tj vrednost
kada nema atributa. Primer relativnog atributa je temperatura u Kelvinovim stepenima.

Najzad, atributi se dele prema tome da li su njihove vrednosti diskretne ili


kontinualne. Diskretni atributi imaju konaan ili prebrojivo beskonaan skup vrednosti svojih
atributa.

2.3 Osnovni statistiki pokazatelji podataka

Ovo Poglavlje razmatra tri oblasti osnovnih statistikih opisa. Poinje sa merom
centralne tendencije, koja meri poziciju centra distribucije podataka. Pored procene centralnih
tendencija podataka, vano jeda razumemo disperziju podataka, odnosno kako se podaci ire
u odnosu na srednju vrednost. Najeemere disperzije podataka su opseg, kvartal,

9
meukvartalni raspon; pregled pet brojeva,boxplot,varijansa i standardna devijacija
podataka. Te mere su posebno korisne za identifikovanje ekstremnih vrednosti (outliers).

Konano, mogu se koristiti raznovrsni grafikiopisiradi vizuelneanalize podataka.


Veina softvera statistike i grafike podatake prikazuje u vidu tabela, histograma i linijskih
grafova. Drugi popularni prikaz podataka ukljuuju kvartale podataka, histograme, i grafike
rasejanja podataka.

Merenje Centralnih tendencija

U ovom poglavlju razmatramo razliite metode za merenje centralne tendencije


podataka. Pretpostavimo da imamo neki atribut X, npr. platu koja je zapisana u bazu za neki
odreeni skup objekata, npr. radnika. Neka x1,x2....xN bude skup od Nposmatranih vrednosti
za X. Mera centralne tendencije podataka nam daje informaciju o prosenoj vrednosti
posmatranih plata. Mere centralne tendencije ukljuuju Srednju vrednist, Medijanu i Mod.
Najea i najefektivnija numerika mera "centra" skupa podataka je (aritmetika)
srednja vrednost (mean). Neka je x1,x2....xNniz od N vrednosti ili zapaanja. Tada je za ovaj
skup vrednosti srednja vrednost:

Ovo odgovara ugraenoj funkciji prosek (avg() u SQL-u), kojaje ugraena u


relacionim sistemima baza podataka.

Primer: Srednja vrednost

Pretpostavimo da imamo sledee vrednosti za plate (u hiljadama dinara), prikazanu u


rastuem redosledu: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110. Koristei prethodnu
jednainu dobijamo::

Znai,srednja vrednostplate je 58.000 dinara. U nekim sluajevima, svaka vrednost xi


u skupu podataka moe biti povezan sa teinom wiza i = 1,....,N. Teine odraavaju znaaj,
bitnost, ili pojave frekvencija odgovarajuih vrednosti. U ovom sluaju, moemo izraunati:

10
Ova vrednost se oznaava kaoteinska aritmetikasrednja vrednost ili
teinskasrednja vrednost.

Iako je srednja vrednost najkorisnija mera za opisivanje centralne tendencije, ona nije
uvek najbolji nain za odreivanjesredine podataka. Veliki problem sa srednjom vrednosti je
osetljivost na ekstremne (outlier) vrednosti. ak i mali broj ekstremnih vrednosti moe
znaajno da pomerisrednju vrednost. Na primer, srednja vrednost plata u kompaniji moe da
bude znaajno uveana zbog malog broja izuzetno visokih plata menadera. Slino, srednja
ocena nekog ispita moe znaajno da se smanji zbog nekolicine veoma loih studenata. Da bi
se ovo izbeglo, koristi se redukovana srednja vrednost, koja se dobija kada se izbace
ekstremne vrednosti iz formule. Trebalo bi izbegavati odsecanje suvie velikih delova
(recimo 20%) na oba kraja, jer to moe da rezultira gubitkom vredne informacije.

Za asimetrine podatke, bolja mera za centar podataka je medijana(median), koja


predstavlja srednju vrednost u ureenom nizu podataka. To je vrednost koja razdvaja vii
deo skupa podataka od nie polovine.

U metodama verovatnoe i statistike, medijana se uglavnom odnosi na numerike


podatke. Ovaj concept moe lako da se proiri i na redni tip podataka. Pretpostavimo da je
skup od N vrednosti atributaX sortiran u rastuem redosledu. Ako je N neparan, onda je
medijana vrednost koja se nalazi na sredini ovog niza. Ako je N paran, onda medijana nije
jedinstvena. To su dve vrednosti na srednjim pozicijama u nizu. Ako je X numeriki atribut,
medijana se rauna kao prosena vrednost tih dveju srednjih vrednosti.

Primer Medijana

Odreujemo medijanu podataka iz prethodnog primera. Podaci su ve sortirani


urastuem redosledu. Postoji paran broj opaanja (tj. 12); prema tome, medijana nije
jedinstvena. To mogu biti bilo koje vrednosti unutar dve srednje vrednosti od 52 i 56 (koji
su, u okviru este i sedme vrednosti u listi). kako se radi o numerikim vrednostima, medijana
je prosek dve vrednosti na srednjim pozicijama. To je (52+56)/2 = 108/2 = 54. Znai,
medijana je 54.000 dinara. Pretpostavimo da smo imali samo prvih 11 vrednosti u listu. S
obzirom na neparan broj vrednosti, medijana je srednja vrednost. To je esta vrednost u listi,
sa vrednou 54.000 dinara.

Medijana je nepodesna za raunanje kada imamo veliki broj opaanja. Za numerike


atribute, meutim, moemo lako odrediti pribline vrednosti. Pretpostavimo da su podaci

11
grupisani u intervalima prema vrednosti xipodataka i da je frekvencija (tj. broj podataka koji
imaju odreenu vrednost) za svaki interval poznat. Na primer, slubenici mogu biti grupisani
prema platama u intervalima 10-20.000, 20-30.000, i tako dalje. Neka interval koji sadri
medijan frekvenciju bude interval medijana. Moemo aproksimirati medijanu celog skupa
podataka (tj. medijanu plata) koristei interpolaciju po formuli:

gde je L1donja granica intervala, N broj vrednosti u celom skupu podataka, freqfrekvencija
intervala, freqmedian frekvencija medijan intervala, i width irina intervala.

Mod(Mode) je jo jedna mera centralne tendencije. Mod za skup podataka je vrednost


koja se javlja najee u nizu. Dakle, moe se odrediti za kvalitativne i kvantitativne atribute.
Ukolikonajvea frekvencija odgovara veem broju razliitih vrednosti tada postoji i vie mod
vrenosti. Skupovi podataka sa jednim, dva ili tri moda, nazivaju se unimodalni, bimodalni i
trimodalni. U optem sluaju, skupovi podataka sa dva ili vie moda su multimodalni. S
druge strane, ako se svaka vrednost javlja samo jednom, onda mod ne postoji.

Primer - Mod

Podaci iz prethodnog primera su bimodalni. Dva moda su 52.000 i 70.000.

Za unimodalne numerike podatke koji su asimetrini imamo sledei empirijski


odnos:
mean - mode 3 x (mean - median)
Ovo znai da je za unimodalnu frekvenciju lako nai pribline vrednosti ako su poznate
vrednosti mean i median.

Srednji opseg (Midrange) se takoe moe koristiti za procenu centralne tendencije


numerikih skupova podataka. To je prosek najvee i najmanje vrijednosti u skupu podataka.
Ovu vrednost je lako izraunati korienjem SQL funkcija max() i min( ).

Primer Srednji opseg

Srednji opseg podataka iz prethodnog primera je (30,000 + 110,000)/2 = 70,000.

U unimodalnoj frekvenciji sa savreno simetrinom distribucijom podataka, srednja


vrednost, medijana i modimaju istuvrednost, kao to je prikazano na slici 2.1 (a). Podaci u
veini realnih situacija nisu simetrini. Umesto toga oni mogu biti ili pozitivno nakoeni, gde
se modnalazi na vrednosti koja je manja od medijane (2.1b), ili negativno nakoeni, gde se
modnalazi na vrednosti koja je vea od medijane (2.1c).

12
(a) Simetrini podaci (b) Pozitivno nakoeni (c) Negativno nakoeni

Slika 2.1Srednja vrednost, medijana i mod

Merenje disperzije podataka

U ovom poglavlju definisaemo mere za procenu disperzijeodnosno irine numerikih


podataka. Te mere ukljuuju opseg, kvartale, varijacije, standardnu devijaciju, i
medjuetvrtinski opseg.Pregled pet brojeva,koji moe grafiki da se predstavi kao box-
plot,koristan je u identifikaciji ekstremnih vrednosti. Varijansa i standardna devijacija
takoe pokazuju irenje podataka u odnosu na srednje vrednosti.

Opseg, Kvartali i Interkvartalni opseg

Neka je x1,x2,....,xN niz opaanja za neki numeriki atribut, X. Opsegskupa podataka


je razlika izmeu najveih max() i najmanjih min() vrednosti. Pretpostavimo da su podaci za
atribut X sortirani u rastuem numerikom redosledu. Ukoliko podatke grupiemo u
podskupove, tako da u svakom podskupu bude jednak broj sukcesivnih elemenata, ovako
grupisane podatke nazivamo kvantilima. 4-kvantil dele podatke u etiri jednaka dela, kao to
je prikazano na Slici 2.2. Svaki deo predstavlja jednu etvrtinu distribucije podataka. Ovi
kvantili se nazivajukvartalima. 100-kvantil se nazivajupercentili; Oni dele podatke na 100
jednakih veliina. Medijane, kvartali i percentili su najee korieni oblici kvantila.

Slika 2.2 Distribucija podataka na podskupove jednakih kardinalnosti.

13
Rastojanje izmeu prvog i treeg kvartala je se naziva meuetvrtinski raspon (IQR) i
definisan je kao:

IQR = Q3 - Q1

Primer - Meuetvrtinski raspon

Podaci iz prethodnog primera sadre 12 opaanja, ve sortiranih u rastuem


redosledu. Prema tome, kvartali za ove podatke su trea, esta i deveta vrednost, u sortiranom
nizu. Stoga, Q1 = 47.000 i Q3 = 63.000. Prema tome, meuetvrtinski raspon je IQR = 63 -
47 = 16.000 . (Uzimajui u obzir da je esta vrednost medijana, 52.000, iako ovaj niz
podataka ima dve medijane jer je broj vrednosti podataka paran.)

Pregled pet brojeva, 'Boxplot'

Na slici 2.3. je prikazan Box-plotza podatke o proizvodima prodatim u etiri ogranka


odreene firme u toku nekog odreenog vremenskog perioda.Box-plotima oznaena dva
kvartala, Q1 i Q3, zajedno sa medijanom. Pravilo za identifikovanje ekstremnih vrednosti je
da se posebno iscrtaju vrednosti koje su 1.5 x IQR iznad treeg kvartala ili ispod prvog
kvartala.

Pregled pet brojeva se sastoji od pet vrednosti: medijane (Q2), kvartala Q1 i Q3,
najmanjeg i najveeg pojedinanog zapaanja( Minimum, Q1, medijan, Q3, Maksimum).

Slika 2.3 Box-plot za podatke o proizvodima prodatih u etiri ogranka odreene


firme u toku nekog odreenog vremenskog perioda

14
3 Definicija, uloga i funkcija skladitenja podataka

Sam pojam "skladite podataka"(engl. Data Warehouse) podrazumeva zbirku podataka


izolovanih iz operativnih baza i spremljenih u posebne baze odnosno skladita podataka. Ralph
Kimball u svojoj knjizi "The Data Warehouse Toolkit: Practical Techniques forBuilding
Dimensional Data Warehouses" definie skladite podataka kao kopiju transakcionih podataka
specifino strukturiranih za upite i analize.Skladite podataka takoe moemo definisati kao
domenski orijentisan, integrisan, vremenski promjenljiv i neunitivskup podataka namenjen
podrci odluivanju kod upravljanja nekim sistemom.

Glavna karakteristika koja odreuje skladite podataka odnosi se na njegovu svrhu. U


skladitu podataka podaci se skupljaju i organizuju na nain da budu lako dostupni da bi ih
menadment mogao na brz i jednostavan nain koristiti za potrebe analize svog poslovanja.
Prema definiciji koju je postavio William H. Inmon, skladite podataka predstavlja subjektno
usmeren (subject-oriented), integrisani (integrated), vezan na vreme (time-variant) i sadrajno
nepromjenjiv (non-volatile) skup podataka, a krajnji cilj mu je pomo menadmentu pri
donoenju odluka.

Subjektna usmerenost podataka znai da se oni organizuju oko predmeta, na nain da daju
informacije o tano odreenim predmetima u okviru funkcionalnih podruja (npr. u okviru
prodaje, nabavke.) umesto o tekuim operacijama preduzea. Suprotno tome, operativne
baze podataka organizovane su oko poslovnih aplikacija, dakle usmerene su na tekue
operacije (npr.obrade narudbenica, isporuka i sl.).
Integrisanost - podaci se skupljaju u bazu podataka iz razliitih izvora i sakupljaju uvek
uistom formatu, te su konzistentni i prikazuju se na dosledan nain.
Vezanost uz vreme - svi podaci u skladitu podataka vezani su i identifikuju se uz odreeni
vremenski period, to znai da imaju istorijski karakter. Za razliku od njih, u operativnim
bazama podataka sauvani su samo aktuelni, najsveiji podaci. Meutim, s gledita koncepta
poslovne inteligencije, sveobuhvatno predvianje buduih dogaaja nije mogue provesti bez
poznavanja istorije istih, ili nekih drugih dogaaja.
Sadrajna nepromenjivost - podaci u skladitu su stabilni i kad se jednom sauvaju u
skladite,po pravilu se ne menjaju. Time se omoguuje da menadement ili svako ko koristi
skladite podataka moe biti siguran da e dobiti jednak odgovor nezavisno od vremena ili
uestalosti postavljanja upita.

Postupak skladitenja podataka predstavlja kontinualan proces planiranja, graenja, i


prikupljanja podataka iz razliitih izvora te njegovog koritenja, odravanja upravljanja i stalnog
unapreenja. Meu mnogim koracima u tom kompleksnom kontinualnom procesu bitno je
naglasiti vanost posedovanja vizije o tome to se eli postii kreiranjem skladita podataka.
Jedna od uloga skladita je razvijanje i koritenje znanja zasnovanog na podacima (engl. data-
based knowledge).

Aktivnost skladitenja podataka predstavlja kontinualan proces, a sama investicija uvoenja


skladita podataka je skupa i dugotrajna. Prilikom procesa donoenja odluke o kreiranju i

15
implementaciji skladita podataka potrebno je usaglasiti i niz pitanja bitnih za uspostavljanje
projekta skladita. Npr. pre implementacije projekta potrebno je identifikovati poslovni interes za
izgradnjom i upotrebom skladita podataka za potrebe svog poslovanja, dogovoriti izvore
finansiranja, razviti kriterijume za odreivanje poslovne upotrebljivosti skladita podataka,
provesti intervju korisnika o traenim informacijama, identifikovati izvore podataka za
popunjavanja skladita podataka, odluiti se za veliinu skladita podataka, utvrditi vrstu sa
aspekta sadraja, odrediti fiziku lokaciju, doneti odluku o izgradnji ili kupovini skladita
podataka, napraviti odabir najpovoljnijih alata i sistema za upravljanje bazama, reiti pitanje
zapoljavanja itd. Na kraju implementacije sledi putanje sistema u rad, trening korisnika u cilju
potpunog iskoritenja instaliranih alata, upravljanje sistemom skladitenja,
dodavanjem, modifikovanjem i razvijanjem istog itd.

Prednosti skladita podataka su:

Poveanje konkurentnosti
Poveanje produktivnosti odluivanja
Poveanje kvaliteta odluivanja

Problemi koji se javljaju u vezi skladita podataka su:

Podcenjivanje resursa potrebnih za punjenje podacima


Skriveni problemi unutar izvornih IS
Neobuhvatanje neophodnih podataka unutar izvornih IS
Semantika i homogenizacija podataka
Visoki zahtevi za resursima
Vlasnitvo/pristup podacima
Obimno naknadno odravanje
Dugoronost projekta (>= 3 godine)
Kompleksnost integracije sistema

3.1 Uloga skladita podataka

Iz prethodno navedenih definicija, obinim jezikom reeno, glavni cilj skladita podataka
jeosloboditi informacije koje su "zakljuane" u bazama podataka i "pomeati" ih s
informacijama iz ostalih, u pravilu spoljanjih izvora podataka. Velike organizacije danas sve
vie trae dodatne podatke iz spoljanjih izvora, kao to su npr. podaci o konkurenciji,
demografski trendovi, prodajni trendovi i sl.

Da bi skladite podataka moglo ispuniti cilj i svrhu svog postojanja, mora pre svega
ispuniti sledee preduslove:
Mora osigurati pristup svim zaposlenim u preduzeu, a ne samo menaderima, znaimoe
sluiti velikom broju ljudi. Taj pristup mora biti pouzdan, brz i jednostavan.
Skladite treba sadrati veliku koliinu detaljnih podataka. To znai da sve
poslovnetransakcije relevantne za donoenje poslovnih odluka koje su nastale u

16
procesima preduzea moraju biti evidentirane u skladitu podataka. Uneseni podaci
trebaju biti konzistentni, npr. ako je sa dva razliita mesta u razliito vreme postavljen
jednak upit i rezultat tih upita mora biti isti.
Osveavanje, odnosno auriranje novim podacima treba biti kontinualan proces,
pomogunosti treba se odvijati u stvarnom vremenu praktino odmah nakon to se
nekiposlovni dogaaj odigrao ili odmah po zavretku nekog procesa.
Mora biti uvek raspoloivo i oblikovano na nain da moe posluiti svakoj svrsi kojunije
uvijek mogue unapred predvideti.
Treba predvideti mogunost izdvajanja i meusobnog povezivanja podataka u smislu
dobijanja svih mera i pokazatelja poslovanja u preduzeu (engl. slice and dice).
Podaci u skladitu koji se skupljaju iz razliitih izvora, iste se uz osiguranje kvalitetai
samo takvi su dostupni korisnicima. Loi ulazni podaci ne mogu davati dobre
izlaznepodatke.
Mora biti proirivo da bi moglo pratiti strategiju proirenja poslovanja preduzea.
I na kraju, mora zadovoljiti odgovarajue mere zatite tajnosti osetljivih podataka tose
postie sprovoenjem rigoroznih mera uvanja tajnosti.

3.2 Funkcije skladita podataka

Uspostavljanjem skladita podataka operativne baze podataka rastereuju se sloenih


upita pa dolazi do unapreenja njihovih operativnih funkcija. Iz operativnih baza time je
uklonjena ogromna masa najee istorijskih podataka i preseljena je u skladite podataka.
Informacioni sistem sastoji se sada od dva dela, operativnog dela i skladita podataka. Budui da
se tako lake kontrolie i restrukturira on postaje veoma produktivniji.

Pomou tehnika otkrivanja znanja, skladite podataka osigurava stalno pronalaenje novih
informacija zavisno od novonastalih uslova i zahteva. Procesi za generisanje informacija
(ekstrakcije, agregacije, analize, izvetaji itd.) izdvojeni su iz operativnih procesa, to znai da
operativni nivo sistema vie nije njima optereen. Sada skladite podataka postaje mesto
skupljanja i uvanja poslovnih podataka i izvor informacija korienih pri poslovnom
odluivanju.

Strukturu skladita podataka ine dva osnovna dela, a to su podaci i mehanizmi manipulacije
tim podacima. Deo skladita gde se nalaze podaci sastoji se od osnovnih podataka i agregiranih
viedimenzionalnih podataka, a mehanizme manipulacije predstavljaju procesi ekstrakcije,
transformacije i punjenja podataka (ETL), sistem upravljanja podacima, postupci analitike
obrade podataka i sama prezentacija podataka.Na Slici 3.1. prikazana je struktura skladita
podataka predstavljena u dva dela.

17
Slika 3.1. Struktura skladita podataka predstavljena u dva dela

Osnovna funkcija skladita podataka je skupljanje podataka i stvaranje logiki integrisanih i


predmetno usmerenih informacija. Treba ga oblikovati na nain da se moe na jednostavan nain
i brzo prilagoditi svim promenama i zahtevima poslovnog okruenja. S obzirom na predmetnu
usmerenost podataka, pri modelovanju skladita primenjuju se tehnike koje podravaju
predmetnu orijentaciju te osiguravaju dovoljnu prilagodljivost da bi se tokom vremena mogli
integrisati i podaci iz mogunih dodatnih izvora. Skladite podataka treba biti izvor stabilnih
podataka, nezavisnih od eventualnih promena u poslovnim procesima. Iz tog razloga potrebno je
koristiti model koji nije osetljiv na uticaje operativnih procesa koji kreiraju veinu podataka.
Osloboeno operativnih obrada, skladite podataka osigurava unapreenje procesa generisanja
informacija, a kroz tehnike otkrivanja znanja osigurava stalno pronalaenje novih informacija.

ETL procesi

Kao to je ve reeno, podaci ulaze u skladite podataka iz razliitih izvora, najee iz


transakcionih sistema preduzea. Najopseniji posao u aktivnostima skladitenja podataka
predstavljaju procesi integrisanja podataka i organizovanje njihovog sadraja. Pri tom glavnu
ulogu predstavlja skup procesa kojima je zadatak obuhvatanje, preoblikovanje i punjenje ili
unoenje podatakaiz jednog ili vie transakcionih sistema u skladite podataka. Zajedniki naziv
je ETLprocesi, nastao od prvih slova engleskih rei
E - extraction,
T - transformation
L - loading.

Pre samog poetka ETL procesa potrebno je izvriti pripremne aktivnosti vezane uz
reformu, usklaivanje i ienje podataka. Izvorne podatke,uvezene iz razliitih datoteka i baza
podataka, potrebno je prikazati u jedinstvenom formatu. U tom formatu podaci e se koristiti u
svim daljim fazama obrade. Usklaivanje podataka se sprovodi da bi se izbegla redundancija

18
podataka. Osim to se u informacionom sistemu isti podaci mogu pojaviti na vie mesta, oni
mogu biti i nedosledni, odnosno njihove vrednosti nisu iste na svim mestima na kojima se ti
podaci javljaju. Radi toga potrebno ih je otkriti i uskladiti. ienje, kao pripremna aktivnost
ETL procesa ima zadatak da ukloni one podatke koji se pojavljuju kao posledica ranijih greaka
u radu informacionih sistema (greke podrazumevaju podatke koji nisu kompletni, tani,
konzistentni i sl.) ili zbog namernih ubacivanja netanih i lanih podataka u sistem
(raunarski virusi i sl.).
Uopteno, karakteristika standardnih ETL alata je da,ako imaju bolje performanse vezane uz
procese ienja, tada im je slabiji kapacitet vezan uz procese transformacije ili obrnuto. Pa je
pre izbora potrebno znati karakteristike podataka koji e se nai u skladitu podataka. Na primer,
ako se unaprijed zna da e biti puno podataka koji zahtevaju postupak transformacije tada treba
odabrati ETL alate koji su "jai" u procesima transformacije, ili obrnuto.

Ekstrakcija podataka

Proces ekstrakcije podataka potrebno je sprovoditi na nain da pri tom redovni operativni
poslovi to manje trpe. Programi i alati za ekstrakciju oblikovani su tako da ETL procese mogu
obavljati to produktivnije, uz nastojanje da potrebne podatke iz operativnih procesa uvoze to je
mogue bre. Pri tom se kao problem moe pojaviti potencijalno visok stepen redundancije
podataka u transakcionim sistemima, pa treba odabrati takav pristup ekstrakciji kojim se vri
zahvatanje samo onih podataka koji e se koristiti u aplikacijama poslovne inteligencije.

Proces transformacije podataka

U okviru ETL procesa najvie vremena troi se na postupak transformacije podataka,


prema strunim procenama i preko 80 posto od ukupnog ETL procesa. U postupku
transformacije mogu se pojaviti razliiti problemi koji usporavaju proces, a kao najei javljaju
se:
Nekonzistentne vrednosti podataka - pojavljuju se prilikom kopiranja podataka, a
kopijapri tom nije potpuno verna orginalu.
Nepodudarnost primarnih kljueva korienih u izvornim datotekama i bazama podataka
sa primarnim kljuevima koje pretpostavljaju aplikacije poslovne inteligencije.
Netane vrednosti podataka - potrebno je definisati logiku ienja za ispravljanje
netanih vrednosti podataka. ienje je potrebno sprovoditi stalno, odnosno svakim
novimciklusom punjenja podataka.
Razliiti formati podataka - format podataka, na primer broj iro-rauna kupca
nijeevidentiran u operativnoj bazi u istom formatu kako ga oekuje alat poslovne
inteligencije tega treba prilagoavati.
Problem sinonima i homonima - ponekad se isti podaci pojavljuju pod razliitim
nazivima.Isto tako dogaa se da razliiti podaci nose isti naziv tj. govori se o
homonimima. Obasluaja su nepoeljna i treba ih uklanjati premda pretpostavljaju velik
dodatni posao.

19
Skrivenaprocesna logika - moe predstavljati problem koji usporava
processtransformacije kad se za zahvatanje podataka koriste softverski sistemi stari
nekoliko decenija i danas vie niko ne zna kako oni rade. U njima se moe naii na
arhaine odnose meu podacima koje nije lako protumaiti, ukoliko ih je potrebno
transformisati u neki drugi poznati tip odnosa. Takva procesna logika moe biti velik
problem kao izvor greaka koje treba ispravljati.

Iako proces transformacije podataka podrazumeva paljiv, dugotrajan i savestan


posao,potrebno ga je savesno i do kraja u celini izvriti.

Procesi punjenja skladita podataka

Podaci u transakcionim sistemima nalaze se u bazama podataka koje obuhvataju


krai vremenski period, pa nisu dovoljni kao podloga za kvalitetne analize i pomo odluivanju.
Pored njih, deo izvornih podataka koji se obrauju ETL procesima ine i istorijski podaci. Za
procese punjenja skladita podataka koristi se vie vrsta ETL programa, kao to su programi za
inicijalno punjenje, dopunjavanje istorijskih podataka i programi za inkrementalno punjenje.

Programi za inicijalno punjenje skladita podataka sadre rutine za ienje i


usklaivanje podataka, da bi se iz podataka uklonile greke. Kod istorijskih podataka ponekad
nije mogue primeniti postupke ienja koji se primenjuju za "ive" podatke, jer je od vremena
nastanka tih podataka do danas moda dolo do razliitih promena u slogovima i formatima
podataka. U toj kategoriji podataka primenjuju se programi za punjenje istoriskih podataka koji
ine nastavak inicijalnog punjenja. Za razliku od ivih, istoriski podaci su statinog karaktera i
ine samo sadraj arhivskih datoteka. Treu vrstu predstavljaju programi za inkrementalno
punjenje podataka, a aktiviraju se nakon to su prethodna dva programa obavili postupak
ienja i usklaivanja podataka. Njihova karakteristika je da se pokreu po periodama i oni
predstavljaju stalno aktivan mehanizam punjenja skladita podataka odgovarajuim sadrajima.

U principu postoje tri naina punjenja podacima iz operacionih informacionih sistema


(IS):
Totalno punjenje: U odreenim vremenskim trenucima, skladite se isprazni a zatim
ponovo napuni podacima iz operacionih IS.
Dopunjavanje istoriskih podataka
Inkrementalno punjenje: Prilikom punjenja, u skladite se prenose samo izmene nastale u
operacionim IS nakon prethodnog punjenja.

Postoje dve varijante inkrementalnog punjenja:


Paketno inkrementalno punjenje: Vri se u odreenim vremenskim trenucima. Zahteva
izmene u operacionom IS koje e implementirati mehanizam prepoznavanja nastalih
izmena.

20
Neprekidno inkrementalno punjenje: Vri se neprekidno. Nakon svake promene u
operacionim IS mehanizmom okidaa vri se prenos podataka ka skladitu podataka.

Konkretne tehnike inkrementalnog punjenja skladita podataka su:


Eksport promena u log-fajlu baze podataka (paketno).
Eksport efekata transakcija (paketno).
Eksport promena u bazi podataka preko medijatora (meusloj, paketno).
Eksport promena u bazi podataka preko servisa replikacije (direktno).

Mogui problemi kod punjenja skladita podataka operacionih IS su:


Netanost podataka iz operacionih IS: Pri punjenju je neophodno filtriranje podataka,
odnosno odbacivanje netanih podataka.
Neusaglaenost podataka po tipu/preciznosti: Pri punjenju je neophodno usaglaavanje
po oba osnova.

Na Slici 3.2. prikazan je tok ETL procesa vanih u kreiranju skladita podataka i jednim
od preduslova za razvijanje i primenu koncepta poslovne inteligencije.

Slika 3.2. Mesto i tok ETL procesa u kreiranju koncepta poslovne inteligencije

3.3 Osnovni modeli skladita podataka


Prilikom kreiranja skladita podataka u praksi susreemo tri osnovna modela ili osnovne
arhitekture skladita podataka: dvoslojna arhitekturasa jednim zajednikim skladitem podataka,
dvoslojna arhitektura s vie nezavisnih lokalnih skladita podataka (engl. Data Marts) i troslojna
arhitektura sa zajednikim skladitem podataka i vie povezanih lokalnih skladita podataka.

Dvoslojna arhitektura s jednim zajednikim skladitem podataka

Ovaj model karakterie jedinstveno, zajedniko centralizovano skladite podataka.


Podaci se uvoze iz razliitih izvora unutar organizacije (npr. podaci iz online sistema za
obradutransakcija, podaci iz ranije razvijenih sistema, koji odravaju baze podataka itd.) i
spoljnjih izvora podataka dostupnih putem Interneta ili nekim drugim nainima. Karakteristika

21
dvoslojne arhitekture skladita je da ono slui veem broju organizacionih jedinica preduzea
kao i pojedinanim korisnicima. Takva skladita su velikog obima i vrlo sloena, a u njima se po
pravilu skladiti ogromna koliina podataka. eme podataka prema kojima se vri uvanje
podataka treba da podravaju iroku lepezu aplikacijskih zahteva. Iz navedenog je vidljivo da su
trokovi odravanja takve arhitekture visoki i potreban je znaajan angaman i vreme odreenog
broja i profila strunjaka.

Dvoslojna arhitektura s vie nezavisnih lokalnih skladita podataka

Karakteristika ove arhitekture skladita podataka je postojanje veeg broja nezavisnih


lokalnih skladita podataka namenjenih za podravanje pojedinanih aplikacija po
organizacionim jedinicama preduzea. Rezultat takve arhitekture je veliki broj sistema koji svaki
posebno uvoze "svoje" podatke iz razliitih transakcionih baza podataka. Prednost navedenog
modela skladita podataka je jednostavnija izgradnja i lake koritenje. Meutim, takav model
ima i nedostatke kao to su:
oteana komunikacija meu organizacionim jedinicama preduzea. Ovaj model
nijepogodan za preduzea ije poslovanje zahteva podrku aplikacija i projekata koji
pretpostavljaju meusobnu komunikaciju i saradnju veeg broja organizacionih jedinica
preduzea,
poveanjem broja meusobno nezavisnih skladita podataka, usporedno raste i
optereenostsamih transakcionih sistema,
Data Mart-ovi su oblikovani tako da podravaju samo jednu aplikaciju, pa
naknadnododavanje novih aplikacija u odreeno skladite predstavlja potekoe,
ograniena proirivost platforme i
otean je uvid u stvarno stanje informacija na nivou preduzea.

Troslojna arhitektura skladita podataka

Ovaj model sastoji se od veeg broja lokalnih skladita podataka i jednog zajednikog
skladita podataka koje je smeteno izmeu skladita podataka i razliitih izvora podataka unutar
i izvan preduzea. Skladita podataka oslanjaju se na centralno skladite podataka koje im
isporuuje podatke u obliku koji daje ujednaen uvid u sve segmente poslovanja preduzea. U
odnosu na prethodna dva modela prednosti troslojne arhitekture su vea tanost informacija,
nevezano s kojeg izvora su zahvaene, olakana je komunikacija meu organizacionim
jedinicama, smanjena je optereenost informatiara, poveana je skalabilnost i proirivost
platforme za skladitenje podataka i na kraju ova arhitektura prua mogunost koritenja
spoljanjih aplikacija ime se omoguava povezivanje svih subjekata u lancu vrednosti.Na Slici
4.1. prikazan je primer troslojnog modela sistema skladitenja podataka.

22
Slika 4.1.Troslojni model sistema skladitenja podataka

3.4 Osnovni pojmovi i skraenice skladitenja podataka

Skladite podataka(DATAWAREHOUSE) je sistem koji iz raznovrsnih izvora periodino


prikuplja i konsoliduje podatke i smeta ih u viedimenzionu bazu podataka koja
predstavlja osnovni gradivni materijal za sve vrste analitikih aktivnosti, prvenstveno za
poslovnu inteligenciju. U optem sluaju auriranja se vre periodino, a ne svaki put
kada se u izvornom sistemu obavi neka transakcija.
OLTP (Online Transaction Processing) sistem koji prikuplja i belei poslovne
transakcije
Data Profiler ispituje podatke iz izvornog sistema da bi razumeo karakteristike tih
podataka. (npr. koliko redova ili kolona ima u tabeli, koliko redova imaju NULL
vrednosti, itd.)
ETL(extract, transform, load) - sistem koji je sposoban da se povee na izvorne sisteme,
uita podatke, transformie podatke i unese ih u ciljni sistem.
DDS(dimensional data store) baza podataka u kojoj su podaci smeteni u drugaijem
obliku nego to su bili u OLTP. Ovo zato to su podaci u DDS u dimenzionom formatu
mnogo pogodnijem za analize i to je taj format jedinstven, za razliku od izvornog u
kome postoje raznovrsni formati.
DQ (data quality)
Metadata je baza koja sadri podatke o strukturi podataka, o korienju podataka, o
pravilima kvaliteta podataka, o znaenju podataka itd.
Audit sistem zapisuje (monitorie) sve operacije koje su vrene nad podacima u metadata
bazu.
MDB multidimensional database (cube) vrsta baze podataka u kojoj su podaci
smeteni u elije i pri emu je pozicija svake elije definisana brojem promenljivih koje
se nazivaju dimenzije. Svaka elija predstavlja poslovni dogaaj a vrednosti dimenzija
pokazuju kada i gde se taj dogaaj odigrao (Slika 3.1.).

23
Sl. 4.1. Trodimenzionalna kocka

4 Sistemi za podrku odluivanju


SPO je sistem baziran na raunaru koji daje podrku reavanju klase polustrukturiranih ili
nestrukturiranih problema u procesu donoenja odluka.Sistemi za podrku odluivanju su
informacioni sistemi, koji su slini i komplementarni standardnim informacionim sistemima i
imaju za cilj da podravaju, uglavnom, poslovne procese donoenja odluke. Predstavljaju
simbiozu informacionih sistema, primene niza funkcionalnih znanja i tekueg procesa donoenja
odluka.Svaki sistem za podrku odluivanju se sastoji iz tri podsistema:

Podsistem baze podataka predstavlja deo SPO u kome se uvaju ulazni i izlazni podaci
organizacije, ova baza se razlikuje od klasinih relacionih baza podataka
Podsistem baze modela komponenta SPO koja se sastoji od poslovnih modela
odluivanja, svaki model reava odreeni problem kod odreenog poslovnog procesa.
Njihov zadatak je da na osnovu ulaznih podataka i modela odluivanja generiu izlazne
podatke na osnovu kojih DO donosi odluku. Kljune osobine SPO u podsistemu modela
ukljuuju sledee sposobnosti:
1. Ukljuivanje novih modela u sistem
2. Pristupanja i integraciji blokova modela radi dobijanja novog modela
3. Katalogiziranja i odravanja irokog opsega modela za razliite korisnike
4. Povezivanje ovih modela sa odgovarajuim vezama u bazi podataka
5. Upravljanje bazom modela

24
Podsistem korisnikog interfejsa treba da omogui komunikaciju izmeu SPO i
korisnika, i razloga to DO nisu specijalisti za odreeni model, te je s toga ovaj podsistem
i najvaniji. U veini sluajeva podsistem korisnikog interfejsa se sastoji iz tri dela:
1. Jezik akcije: ta korisnik moe da uini u komunikaciji sa sistemom
2. Jezik prikazivanja ili prezentacije: ta korisnik vidi
3. Baza znanja: ta korisnik mora znati

Osnovne predsnosti SPO:


1. Poveavanje broja razmatranih alternativa u procesu donoenja odluka
2. Bolje razumevanje problema koji treba da se rei
3. Bri odgovor na nepredviene situacije
4. Sposobnost sprovoenja ad-hoc analiza
5. Bolje sagledavanje problema i uenje
6. Poboljana komunikacija meu lanovima tima koji uestvuju u donoenju odluke
7. Poboljana kontrola odluivanja
8. Uteda u trokovima
9. Bolje odluke
10. Efikasniji timski rad
11. Uteda u vremenu
12. Bolje iskorienje raspoloivih podataka

Osnovni nedostatak SPO se ogleda u problemu izbora i korienju modela iz baze modela. DO se
esto susree sa sledeim problemima: koji model izabrati, kako koristiti izabrani model, kako
kombinovati vie modela? Dodatan problem se javlja kod baze modela kada se pojavi novi
problem za ije reavanje ne postoji model u bazi modela.

4.1 Savremeni sistemi za podrku menadmentu

Danas dve vrlo popularne tehnologije su se izdvojile sa ciljem da pruaju podrku odluivanju na
razliitim nivoima upravljanja:
Poslovna inteligencija slui za podrku odluivanju za polustrukturirane i
nestrukturirane situacije odluivanja, tj kao podrka odluivanju na stratekom i
taktikom nivou.
Upravljanje resursima preduzea (ERP) slui za podrku odluivanju na operativnom i
taktikom nivou, kao i za strukturirane i polustrukturirane situacije odluivanja.

Da bi se predvidelo kako e izgledati budunost poslovne inteligencije treba se osvrnuti na


generiki okvir za razvoj SPO. Generiki okvir za razvoj SPO treba da omogui efikasnu
komunikaciju izmeu DO i podataka organizacije. Da bi DO iz podataka dobio odgovarajuu
podrku najpre treba da ima mogunost da preko odgovarajueg interfejsa prenese svoj zahtev

25
sistemu. Nakon primljenog zahteva sistem treba da problem analizira tako da sistem na osnovu
znanja u sistemu i zahteva korisnika moe da generie odgovarajui odgovor, odgovor korisniku
na postavljeni zahtev sistem treba da omogui preko prezentacionog sistema.

Zahtev
Jeziki sistem
Korisnik
Sistem
Sistem za
procesirane znanja
Odgovor Prezentacioni sistem problema

Reenje objedinjenih IS i SPO sa ciljem da podre taktiko i strateko odluivanje se danas


naziva poslovna inteligencija. Proces integracije IS i SPO nije u potpunosti zavren.
Sistem PI,u budunosti, bi trebalo da zadovolji sledee:

Punjenje podataka u bazu podataka u realnom vremenu


Punjenje modela iz baze modela u realnom vremenu
Analiza rezultata modela u realnom vremenu
Donoenje odluke u realnom vremenu

Slojevi koji ine strukturu jednog sistema poslovne inteligencije su sledei:

Analitiki sloj odgovoran je za pravljenje izvetaja za DO, u njega su ukljueni alati za


izvetavanje kao i razliiti modeli iz baze modela, iji je zadatak da na osnovu zahteva
korisnika i podataka iz baze ree zahtev DO. Ovaj sloj u dobroj meri zavisi od
sposobnosti analitiara, a potrebna je i odreena koliina vremena za sastavljanje
izvetaja. Da bi sistem PI mogao da funkcionie u realnom vremenu neophodno je znanja
analitiara automatizovati i formalizovati.
Integrativni sloj predstavlja sponu izmeu modela i podataka poslovanja. On treba da
obezbedi kvalitetne podatke za analitiki sloj. Da bi ovaj sloj funkcionisao u realnom
vremenu treba da se omogui:
1. Jednostavan pristup podacima poslovanja kroz definisano skladite podataka
2. Definisan tok uitavanja podataka iz poslovanja u skladite podataka
3. Sistem za upravljanje kvalitetom podataka i reavanje problema nekvalitetnih
podataka kod procesa uitavanja podataka u skladite
Transakcioni ili operativni sloj generie podatke poslovanja. Sistem PI treba da bude
vezan za ovaj sloj i to dvostruko. Sve to se deava u tekuem poslovanju organizacije
treba da se oitava u skladitu podataka, i sa druge strane odluke donete na osnovu
izvetaja iz analitikog sloja treba da se odraze u operativnom sloju i povratno kroz sam
sistem PI. Da bi ovo bilo mogue, potrebno je ukljuiti sledee funkcionalnosti u sistem
PI:
1. Organizacioni procesi treba da budu snimani konstantno i podaci iz tog procesa
uitavani u skladite podataka
2. Odluke koje donosi DO treba da utiu na sam poslovni proces

26
ANALITIKI SLOJ

Izvetavanje, OZP INFORMACIJA I AKCIJA

SISTEM PI
INTEGRATIVNI SLOJ

Skladita, metapodaci
ETL SKLADITE MODELI ODL.

OPERATIVNI SLOJ POSLOVNI PROCESI

CRM, ERP, Baze, IS

Tri sloja poslovne Sistem poslovne inteligencije


inteligencije u realnom vremenu

Da bi modeli za odluivanje postali efikasni neophodno je:


Efikasno korienje postojeih algoritama i njihovih delova
Jednostavno korienje novih modela odluivanja objavljenih u naunim
asopisima u organizacijama
Mogunost kombinovanja prednosti razliitih algoritama
Bre prihvatanje algoritama u privredi i razliitim disciplinama
Razvoj standarda u oblasti otkrivanja zakonitosti u podacima

4.2 Ekspertni sistemi


Ekspertni sistemi mogu da se definiu kao programi koji koriste ljudsko znanje radi reavanja
problema koji zahtevaju ljudsku inteligenciju.

Ekspertni sistemi su inteligentni raunarski programi koji upotrebljavaju znanje i procedure


zakljuivanja da bi reili probleme koji su dovoljno teki te zahtevaju znaajnu ljudsku strunost
i vetinu. Znanje sa dodatkom mehanizama zakljuivanja za reavanje tog problema mogu se
smatrati modelom koji simulira najboljeg strunjaka u toj oblasti.

Ekspertni sistemi pored osnovne namene, uvanje ekspertskog znanja, imaju jo nekoliko vanih
osobina kada se posmatraju u odnosu na SPO:
Integracijom ES i SPO znaajno se poboljava problem upravljanja bazom modela
specifinih SPO-a.
Uspeno realizovana integracija ES i SPO, predstavlja prvi korak u kreiranju novih vrsta
informacionih sistema kao to su EIS, ESS, MSS.

Svaki ES se sastoji iz tri osnovna dela:

1. Baza znanja sadri znanje eksperta u strukturiranom formatu. Predstavlja najbitniji deo
ekspertnog sistema. Ukoliko nije predstavljena na adekvatan nain, ceo postupak

27
implementacije ekspertnog sistema moe biti uzaludan. Zbog toga je postupak
prikupljanja znanja od eksperta, transformacija ekspertskog znanja u formalni oblik i
organizacija baze znanja najbitniji proces razvoja eksperskog sistema. Uobiajeni nain
predstavljanja znanja vri se preko formalizama za predstavljanje znanja. Postoji veliki
broj metoda predstavljanja znanja u bazi znanja, a najpoznatije su sledee:
Produkciona pravila najee korieni metod predstavljanja znanja. To su pravila
oblika AKO uslov TADA posledica. Produkciona pravila predstavljaju logike
relacije meu podacima. Ovakav nain predstavljanja znanja je dosta prirodan, a to
je vrlo vano poseduje osobinu modularnosti (element predstavlja samostalnu celinu i
moe da se kombinuje sa drugim elementima sa ciljem da se stvori novo znanje).
Takoe zadovoljavaju zahtev za lakom modifikacijom baze znanja. Svako pravilo se
dodatno opisuju merama kvaliteta (support, accuracy, lift ratio). Kvalitet pravila moe
da se izrazi i preko sigurnosti pravila, a definie se na osnovu dobro odabrane skale
koja je najee u intervalu od 0 100 (faktor izvesnosti = 0 oznaava pravilo koje je
nemogue da se realizuje, vrednost faktora = 100 oznaava stanje potpune, tj
apsolutne izvesnosti posmatranog pravila).
Semantike mree znanje predstavljaju u obliku mree. Svaka mrea se sastoji od
vorova i veza meu vorovima. Veze iskazuju odnose izmeu vorova. Veze mogu
da prikazuju i nasleivanje meu vorovima.
Okviri znanja predstavljaju skupove objekata, koji se sastoje od atributa, gde svaki
atribut ima odreenu vrednost. Okviri znanja predstavljaju specijalan sluaj
semantikih mrea, gde su veze objekata i atributa ima, a atributa i vrednosti jeste.
Svaki okvir znanja ima dva dela u kome se uvaju podaci:
o Statiki deo u kome se nalaze podaci koji su isti za odreenu klasu objekata
o Dinamiki deo u kome se uvaju podaci koji su karakteristini za odreeni
objekat.
Matematika (formalna) logika kod predstavljanja znanja matematikom logikom,
koriste se najee dve vrste logika:
o Propoziciona logika sistem zakljuivanja u kome se ispituje da li je
odreena premisa tana ili ne. Veze izmeu premisa mogu biti I ili ILI, a
koristi se i veznik NE, koji se koristi za negaciju premisa. Kada se baza znanja
sastoji od premisa, tada se njihovim povezivanjem sa logikim veznicima, a
na osnovu korisnikog zahteva, generie odreeno znanje, tj daje odgovor na
odreeno pitanje.
o Predikatski raun predstavlja proirenje propozicione logike. Osnovni
element u predikatskom raunu je predikat koji predstavlja atomsku premisu
koja rastavlja premisu kod propozicione logike na objekte i veze meu njima.
Predikatski raun ukljuuje u sebi jo dva logika veznika za svaki i postoji.
Predikatska logika je mnogo povoljnija za modelovanje ljudskog jezika.
Tabela odluivanja indukciona tabela odluivanja predstavlja jo jedan vid uvanja
znanja. Tabela se sastoji od atributa i redova, a neki od atributa mogu biti izlaznog
karaktera, tj kada se se desilo stanje opisano neizlaznim atributima tada se donela
odluka koja je opisana u izlaznom atributu. Ova tabela se naziva indukciona jer se na
osnovu sluajeva datih u tabeli predvia kako e biti ponaanje u celoj populaciji, tj
induktivno.

28
Stablo odluivanja jedan od esto korienih naina za uvanje znanja, znanje se
uva u formi stabla. Stablo odluivanja uva znanje u hijerarhijskom obliku koji je
jednostavno itljiv.

Bez obzira na izabrani nain predstavljanja znanja, prikupljanje istog je vana


komponenta prilikom razvijanja ekspertskog sistema. Ovaj posao je poveren inenjeru
znanja, a sam proces prikupljanja znanja od eksperta naziva se akvizicija znanja.

2. Mehanizam zakljuivanja predstavlja deo ES koji ima zadatak da pronae


odgovarajue znanje u bazi znanja i da ga primeni za reavanje problema. Mehanizmi
zakljuivanja su locirani izmeu baze znanja i korisnikog interfejsa. Pri tome izvrava
dva osnovna zadatka:
Ispituju se postojee injenice i pravila u bazi znanja i dodaju nove kada je to
mogue
U saradnji sa korisnikom ES odreuje redosled zakljuivanja nad bazom znanja

Mehanizam zakljuivanja direktno komunicira sa bazom znanja, to je razlog da se


obezbedi brzo i efikasno pretraivanje podataka. Za pretraivanje baze podataka koriste
se dva algoritma koji se koriste u realizaciji mehanizama zakljuivanja ES zasnovanih na
produkcionim pravilima, to su:

Ulanavanje unapred polazi od premisa, IF delova pravila, u bazi znanja i


uporeuje ih sa injenicama u memoriji koje je korisnik izneo. Time se utvruje
koja su pravila zadovoljena; to su ona ija je premisa naena meu injenicama u
memoriji. Pravila koja su zadovoljena, mogu se realizovati tako da se njihovi
THEN delovi izvre (ako su akcije), ili, ukoliko su iskazi, mogu se smatrati
istinitim. Izvravanje neke akcije menja stanje injenica u memoriji, iskaz koji je
istinit dodaje se ve postojeim injenicama u memoriji. Tako se dobija novo
stanje injenica u memoriji. Sada se proverava da li je problem reen, a ukoliko
jeste korisnik se obavetava o tome i zavrava sa radom. Ukoliko reenje nije
naeno postupak se iterativno ponavlja. Ako se prilikom pretraivanja pravila u
bazi znanja pokae da ni jedno nije zadovoljeno ES zakljuuje da nema dovoljno
podataka da bi problem mogao da se rei. Tada ES moe ili da prekine sa radom,
ili da od korisnika zahteva dodatne podatke. Ako doe do konfliktne situacije,
kada je zadovoljeno vie pravila istovremeno, potrebno je odluiti se za jedno
koje e biti izvreno.
Ulanavanje unazad postupak je obrnut od prethodnog postupka. Kod njega se
polazi od zakljuka, od THEN dela pravila. Prvo se predpostavi da neko od
moguih reenja problema vai i ono se oznai kao tekua hipoteza. Zatim se
pronalazi ono pravilo iji THEN deo predstavlja to reenje. Zatim se proverava
da li pronaeno pravilo vai. To se radi na taj nain to se proverava da li vae
sve premise, IF delovi, tog pravila. Premisa za koju se proverava vanost, oznai
se kao nova hipoteza. Ovaj postupak se rekurzivno ponavlja za svaku od premisa.
Ako se tekua hipoteza ne potvrdi, ona se odbacuje, vraa se nazad i postavlja
nova tekua hipoteza. Ovako se proveravaju sve premise svih tekuih hipoteza.

29
Ukoliko se ne potvrdi nijedno od reenja ES moe da trai dodatne informacije
od korisnika.

3. Korisniki interfejs osnovna uloga ovoga elemnta je da omogui to prijatniji rad


korisnika sa ES tokom procedure konsultovanja. Pored dizajna, koji je znaajan za
korienje ove komponente, bitno je da korisnik moe da:
Jasno da iznese svoj korisniki zahtev
Jasno da razume rezultate koje mu sistem vraa

4.3 Integracija SPO i ES


Integraciju ES i SPO je teorijski, a u nekim sluajevima i praktino, mogue izvesti na pet
razliitih naina. Po Turban & Carlson mogue kombinacije prikljuenja ES na SPO sledee:
1. ES#1 i ES#2 unose elemente inteligencije u sisteme za upravljanje bazama podataka i
modela, to je posebno znaajno u ovom drugom sluaju. Naime problem upravljanja
bazama modela jo uvek nije na zadovoljavajui nain reen i svakako predstavlja
najslabiju taku svakog SPO sa pregrt modela.
2. ES#3 ima za cilj pomo pri korienju korisnikog interfejsa. Veruje se ipak, da za ovaj
deo nee biti potrebno koristiti ES u budunosti jer se ovaj problem reava i nekim
drugim pristupima.
3. ES#4 i ES#5 su zamiljeni kao konsultantska pomo kako graditeljima SPO tako i
njihovim korisnicima. U prvom sluaju ta se pomo ogleda u moguim savetima pri
projektovanju SPO, odgovaranju na pitanja koji generatori, tj alati su najprimerniji za
razvoj SPO specifine namene, u sprovoenju studije izvodljivosti. U drugom sluaju se
korisnik moe obratiti ES za pomo u boljem shvatanju prirode problema, uslova
okruenja, problema primene.

Po Turban & Carlson ES je mogue pridodati i kao posebnu komponentu SPO. Do sada je
razvijeno nekoliko mogunosti ove vrste integracije:
1. Izlaz ES kao ulaz u SPO ovaj pristup je naroito interesantan za poetne faze svakog
procesa odluivanja, kada se DO upoznaje sa prirodom problema koji reava. ES koristi
SPO da bi se upoznao sa problematikom koju reava.
2. Izlaz SPO kao ulaz u ES ovaj pristup je posebno popularan i korien, jer ES
omoguuje korienje rezultata razliitih kvantitativnih analiza, obavljenih od strane
SPO, koji su u tom domenu, jo uvek znaajno bolji od ES. Ovde ES slui da pomogne
korisniku da protumai rezultate koje je dobio iz odreenog SPO.
3. Povratna sprega predstavlja kombinaciju prva dva pristupa, s tim to ne mora da se
koristi samo jedan ES, ve je mogue da ih bude vie.

30
5 Otkrivanje zakonitosti u podacima (OZP)
OZP (data mining) je nauna disciplina koja ima za cilj da u podacima otkrije odreena
pravila, modele i zakonitosti na osnovu kojih mogu da se donose odluke. OZP je namenjen za
analizu vee koliine podataka (u BP ili OLAP kockama) te uvodi niz novih algoritama koji
mogu da rade sa velikim obimom podataka, ali koji u odreenij meri automatizuju proces
dolaska do znanja.OZP predstavlja odlinu podrku procesu otkrivanja znanja i ne predstavlja
zamenu za klasinu statistiku analizu, ve njenu dopunu.

5.1 CRISP DM metodologija


Najpoznatija metodologija za efikasno voenje OZP je CRISP-DM. Metodologija
CRISP-DM je iterativnog karaktera, tj. cirkularan proces dolaska do najprihvatljivijeg
reenja/znanja.

CRISP-DM metodologija se sastoji iz sledeih faza:


Razumevanje poslovnog problema
Razumevanje podataka
Priprema podataka
Modelovanje reenja
Evaluacija reenja
Primena reenja

Razumevanje poslovnog problema je faza u kojoj se analitiar upoznaje sa problemom koji treba
da rei. U ovoj fazi se definiu ciljevi i hipoteze istraivanja, a takoe se opisuju poslovni
pojmovi iz oblasti u kojoj se radi analiza.

Razumevanje podataka je faza koja treba da pomogne analitiaru da upozna podatke sa kojima
treba da radi da bi odredio koje algoritme i metode za rad ima na raspolaganju. Takoe se
dobijaju znanja o kvalitetu, formatu i upotrebljivosti podataka za analizu.

Priprema podataka slui da bi podatke stavila u oblik nad kojim mogu da se sprovode OZP
analize. Podrazumeva ienje podataka od nepravilnosti i umova, transformaciju podataka,
formatiranje podataka, kao i eliminisanje nekih neeljenih osobina poput korelacije atributa.

Modelovanje reenja je aktivnost u kojoj DO gradi razliite OZP modele.

Evaluacija reenja je aktivnost koja treba da ispita validnost (upotrebljivost i ispravnost, tj.
tanost i primenljivost) dobijenog OZP reenja. Ova faza se sastoji iz validacije (da li je
otkriveno znanje korisno za DO) i verifikacije (u kojoj meri je otkriveno znanje znaajno)
otkrivene zakonitosti.

Primena reenja je proces iz koga se saznaje koliko je otkrivena zakonitost zaista upotrebljiva i
ispravna jer se reenje primenjuje nad realnim okruenjem.

31
5.1.1 Razumevanje poslovnog problema

Ovo je prva faza u okiru CRISP-DM metodologije i ima za cilj da analitiar dobro razume
poslovni problem, da shvati koji je cilj koji treba da ostvari analizom, te da tokom celog procesa
OZP nikad ne izgubi iz vida ta je zapravo potrebno uraditi.
Da bi se bolje razumeo poslovni problem, bitno je znati da svaki OZP projekat moe da ima za
cilj ispunjavanje jednog ili vie OZP zadataka. Postoji nekoliko zadataka koje tehnike, metode i
algoritmi OZP-a treba da ostvare.

Poslovni zadaci koje reava OZP su:


Redukcija
Procena (Estimacija)
Klasifikacija
Klasterovanje
Otkrivanje asocijativnih pravila
Predvianje

Redukcija je zadatak koji se izvodi sa ciljem da podaci svedu na dimenzije koje mogu da se
analiziraju na efikasan nain. Reducija se sprovodi jer su problemi koji se analiziraju
najee prevelikim brojem atributa i redova, a algoritmi i tehnike za OZP rade bolje sa
manjom koliinom podataka. Redukcija je znaajna zbog toga to moe da otkrije manji
obim podataka sa kojima algoritmi bolje rade, a da ne izgubi mnogo od tanosti dobijenih
rezultata.Modeli redukcije imaju ulogu da pripreme tj.struktuiraju podatke za analizu.
Redukcija moe biti redukcija atributa i redukcija sluajeva.Pri redukciji atributa mogue je
napraviti dve greke:
- Uzeti atribute koji ne utiu na reenje
- Ne uzeti atribute koji utiu na reenje
Da bi se izvrila redukcija sluajeva koriste se metode uzorkovanja podataka. Potrebno je
nai uzorak koji na verodostojan nain reprezentuje pretpostavljenu populaciju.

Procena (regresija) ima za cilj da otkrije zakonitost koja postoji izmeu ulaznih atributa (koji
mogu biti numerikog i kategorikog tipa) i izlaznog atributa (koji je po pravilu numerikog
tipa).
Algoritmi OZP koji se koriste za reavanje zadatka procene:
Linearna regresija
Stablo odluivanja CART
Vetake neuronske mree
Procene su zadaci koji se reavaju korienjem linearnih modela (linearna regresija), ali i
sloenijih modela (vetake neuronske mree). Linearni modeli su aproksimacija nekog
realnog, nelinearnog modela.

Klasifikacija ima za cilj da otkrije zakonitost koja postoji izmeu ulaznih atributa (koji
mogu biti numerikog i kategorikog tipa) i izlaznog atributa (koji je po pravilu kategorikog
tipa).
Najpopularniji algoritmi klasifikacije su:
Stabla odluivanja (ID3, C4.5, CHAID, CART, QUEST)

32
Logaritamska regresija
Diskriminaciona analiza
Asocijativna pravila

Klasterovanje ima za cilj da otkrije zakonitost po kojoj se podaci grupiu prema odreenoj
slinosti u klase koje nisu unapred poznate, tj. klastere. Ne postoji izlazni atribut. Zadatak
klasterovanja je da pronae pravilo po kome se objekti grupiu.Klasterovanje je proces
otkrivanja klastera takvih da su ojekti unutar klastera meusobno slini, a da su, pritom,
prilino razliiti od objekata drugih klastera.
Algoritmi klasterovanja su:
K-means
X-means
MPC K-means
Hijerarhijski klaster algoritmi
DB Scan
Kohonen SOM
Postoje razne mere slinosti koje mogu da se koriste za raunanje slinosti, a najpopularnija
je Euklidsko rasrojanje.
Klasterovanje se sprovodi iz sledeih razloga:
Klasterovanje se sprovodi kada nisu unapred poznate klase za razvrstavanje objekata
Klasterovanje prua vie informacija o prirodi grupisanja objekata
Klasterovanje omoguuje da se redukuje broj skuajeva koji se analiziraju dovoljno je
analizirati predstavnika klastera

Otkrivanje asocijativnih pravila ima za cilj da otkrije zakonitost u formi ako-tada pravila
koje postoje u podacima. Asocijativna pravila su oblika IF uzrok THEN posledica.
Algoritmi su osposobljeni da sami trae pravila koja zadovoljavaju odreene kriterijume.
OZP analitiar ili DO zadaju samo parametre pretrage za odreenim pravilima.
Najpoznatiji algoritam za otkrivanje asocijativnih pravila je A priori.

Predvianje ima za cilj da otkrije zakonitosti u podacima koji sadre vremensku dimenziju i
na osnovu podataka iz prolosti izvri ekstrapolaciju odreenih zakonitosti. Predvianje
ukljuuje sve ostale zadatke OZP.

5.1.2 Razumevanje podataka

Osobine koje su bitne za analizu podataka:


Tip podataka (kategoriki, ordinalni, intervalni, numeriki)
Smer podataka (ulazni i izlazni)
Korelacija meu podacima (meri se stepenom korekacije Pirsonov r2 koji moe biti u
rasponu [-1, 1], korelacija se ispituje izmeu parova ulaznih, izlaznih, ulaznih i izlaznih
atributa)
Distribucija podataka (pokazuje kako su podaci rasporeeni, veina algoritama podlee
normalnoj raspodeli)

33
Nedostajue vrednosti podataka (treba odluiti da li redove sa nedostajuim podacima
izbaciti iz analize ili koju tehniku za imputaciju koristiti)
Ekstremne vrednosti podataka (treba odluiti da li ih uzeti u obzir ili proglasiti
izuzecima)
Broj atributa (to je vie atributa, vie je redova i tee je doi do zakonitosti, treba
odluiti koje podatke zadrati u analizi a koje izbaciti)
Broj redova (veina algoritama bolje radi sa manjim dimenzijama)

Najvanije veliine koje definiu homogenost atributa ili tabele kao celine su: entropija,
gini indeks i greka klasifikacije:
entropija atributa, odnosno tabele kao celine, je Entropy = gde
predstavlja verovatnou pojavljivanja klase j pri emu se sumiranje vri po svim
kategorijama posmatranog atributa, odnosno tabele kao celine. U informacionoj teoriji,
entropija predstavla meru za kvalitet informacije. Entropija je jednaka nuli ako atribut
odnosno atributi imaju samo jednu kategoriju, a dostie maksimalnu vrednost ako sve
kategorije imaju jednaku verovatnou pojavljivanja
gini indeksse definie kao, Gini Index = . Kao i za entropiju, gini indeks je nula
kada postoji samo jedna kategorija i postie maksimalnu vrednost kada su sve kategorije
jednakih verovatnoa pojavljivanja. Ovaj parameter predstavlja meru neistoe atributa,
odnosno nemogunost predvianja izlaznog atributa na osnovu ulaznog,
greka klasifikacijeje obrunuto proporcionalna maksimalnoj verovatnoi kategorija i
uzima vrednosti izmeu nula i jedan, Classification Error = 1 max{pj}. U sluaju samo
jedne kategorije, pj je jednako jedinici, tako da je tada greka klasifikacije nula.

Postupak klasifikacije uvek obuhvata biranje najpodesnijeg atributa na osnovu veliine


nekog parametra. Najee korieni parametri su: dobitak (gain), informacija podele (split
information) i racio dobitka (gain ratio).
dobitak predstavlja relativni informacioni dobitak odreenog atributa A u odnosu na skup
svih sluajeva S:
| Sv |
Gain( S , A) Entropy ( S ) Entropy ( Sv ) ,
vVrednost( A) | S |

pri emu Vrednost(A) predstavlja skup svih moguih razliitih vrednosti atributa A, dok
|Sv| predstavlja broj atributa A ija je vrednost v.Prvi sabirak u izrazu je entropija
originalne kolekcije sluajeva S, dok drugi sabirak predstavlja oekivanu vrednost
entropije kada se S klasifikuje na osnovu atributa A;
informacija podele se definie kao:
| Sv | |S |
Split Information( S , A) log 2 ( v )
vVrednost( A) | S | |S|
racio dobitka predstavlja kolinik dobitka i informacije podele.

Proces selekcije atributa i klasifikovanje, odnosno razdvajanje, predstavljaju postupke


kojima se generie stablo u kome vorovi predstavljaju atribute i njihove kategorije. Generisano
stablo predstavlja osnovni element tzv. metoda mainskog uenja i naziva se stablo odluivanja.
U osnovi postoje tri grupe algoritama kojima se konstruiu stabla odluivanja i koje se

34
meusobno razlikuju po primenjenim kriterijumima selekcije. Najpoznatiji algoritam prve grupe
je ID3 (Interactive Dichotomizer 3), dok je u drugoj grupi CART (Classification and Regression
Trees) algoritam najznaajniji. Trea grupa vri selekciju na osnovu statistikih parametara.

Algoritam uenja obrauje skup sluajeva, znaajnih za proces klasifikacije. Cilj metoda
uenja je formiranje stabla koji korektno klasifikuje sve primere odreenog podskupa obuke. Svi
ostali sluajevi skupa obuke tada mogu da se klasifikuju na osnovu tog stabla. Ako stablo daje
ispravne odgovore za sve te sluajeve tada je ono korektno za celokupan skup obuke. Ukoliko
ovo nije ispunjeno, podskup nekorektno klasifikovanih sluajeva se dodaje poetnom podskupu,
a proces startuje iznova. Za konstrukciju ovakvog stabla se koristi strategija zavadi pa vladaj.
Zadatak je da se odabere atribut za koren stabla kao i ostali atributi za vorove tog stabla.
Algoritam C4.5 primenjuje metod koji je zasnovan na dvema pretpostavkama. Ukoliko S
predstavlja skup sluajeva, a x, y i z broj pojavljvanja kategorija X, Y i Z, tada su pretpostavke:
(1) svako korektno stablo odluke za S e sluajeve razvrstati u proporciji koja je jednaka
zastupljenosti odgovarajuih kategorija u S. Prema tome, proizvoljan sluaj pripada
x y z
kategorijama X, Y i Z sa verovatnoama, redom: , i
x yz x yz x yz
(2) atribut A e biti selektovan kao vor ukoliko je njegov informacioni dobitak najvei od
trenutno raspoloivih atributa.
Na osnovu dobijenog stabla odluke mogue je sastaviti skup klasifikacionih pravila. Svaka
putanja od korena do lista stabla definie jedno ovakvo pravilo.

5.1.3 Priprema podataka

Osnovni zadatak priprema podataka je da se podaci za analizu smeste u tabelarni oblik


(kolone predstavljaju atribute, a redovi sluajeve) nad kojim je mogue sprovesti algoritme OZP
i otkriti zakonitosti. Moe se rei da je aktivnost pripreme funkcija koja podatke iz
nestrukturiranog oblika pretvara u strukturiran oblik za algoritme.

Svaki algoritam zahteva podatke u odreenom formatu a takoe poseduje i pretpostavke


sa kakvim osobinama podataka treba da radi. Da radila analiza potrebno je prilagoditi podatke
konkretnom algoritmu pri emu moe da doe do gubljenja kvaliteta informacija.Svaki algoritam
otkriva samo jedan deo zakonitosti koje se nalaze u podacima, i daje samo jedan mogui pogled
na iste.

5.1.4 Modelovanje reenja

OZP koji mogu da ree OZP zadatke su podeljeni na sledee tipove:


Redukcioni algoritmi: imaju zadatak da pomognu DO da uspostavi pravu meru izmeu
dimenzije tabela podataka i kvaliteta podataka;
Stabla odluivanja: reavaju zadatak klasifikacije i procene, a struktuiraju znanje
dobijeno iz podataka u obliku drveta;
Algoritmi za otkrivanje asocijativnih pravila: shodno postavljenim pragovima podrke i
validnosti pravila otkrivaji ako-tada pravila odluivanja;
Algoritmi za klasterovanje: imaju zadatak da u podacima otkriju klastere;

35
Regresioni algoritmi: otkrivaju zakonitosti izmeu ulaznih i izlaznih podataka koristei
regresione modele;
Vetake neuronske mree: otkrivaju zakonitosti izmeu ulaznih i izlaznih podataka
koristei model neuronskih mrea.

Redukcioni algoritmi
To su analiza glavnih komponenti (Principal Component Analysis PCA) i faktorska analiza
(Factor Analysus FA).
Oba algoritma rade sa numerikim podacima i imaju cilj da se u podacima kovarijansa
(zavisnost) meu atributima ukloni, a da se povea varijansa otkrivenih komponenti i faktora tj.
da se varijabilitet koji postoji u podacima prebaci u same komponente i faktore, a ne izmeu njih.
Kada se misli na redukcione algoritme, uglavnom se misli na algoritme za redukciju atributa, dok
se problem redukcije redova najee reava metodama uzorkovanja, koje mogu isto da se shvate
kao jedan vid redukcionih algoritama.

Stabla odluivanja
Znanje koje se predstavlja u formi stabla odluivanja ima svojstva hijerarhijske ureenosti,
preglednosti i jednostavnosti u tumaenju. Svako stablo predstavlja hijerarhijski ureen skup
asocijativnih pravila. Stabla odluivanja koja se koriste u OZP su induktivna stabla. Sva
induktivna stabla se sastoje iz korena, vorova i listova. Koren je poetni vor po kome se skup
podataka iz koga ui stablo prvo grana. Listovi predstavljaju vorove odluke, tj. oni predstavljaju
krajnje vorove u stablu odluivanja.

Najkorienija stabla odluivanja su: ID3, C4.5, CHAID, CART, i QUEST.C4.5 i ID3
reavaju zadatak klasifikacije.ID3 koristi kriterijum informacione dobiti da bi granao stablo, tj.
da odlui koji atribut treba da se koristi kao vor pri grananju stabla. Ovaj proces se radi
iterativno dok se ne ispuni neki kriterijum zaustavljanja rasta stabla. ID3 moe da radi samo sa
kategorikim atributima.

Algoritam C4.5 predstavlja unapreenje ID3 jer moe da radi i sa ulaznim numerikim
podacima, dok izlazni atribut i dalje moe da bude samo kategoriki.C4.5 koristi kriterijum racia
informacione dobiti za grananje vora.Koristi kriterijum racia informacione dobiti (gain ratio)
koji uzima u obzir i broj katrgorija koji poseduje odreeni atribut za raunanje mere za izbor
atributa vorova. Time se omoguava da se nepristrasnije izabere vor za stablo.C4.5 grana
numerike atribute koji su izabrani kao vorovi binarno, na dva jednaka dela, dok se kategoriki
atributi granaju i kod ID3 i kod C4.5 na onoliko delova koliko postoji kategorija u atributu
voru.

Sva stabla odluivanja za klasifikaciju imaju jednostavnu meru kvaliteta stabla, a to je


stepen tanosti klasifikacije koji se meri kao osnos tano klasifikovanih sluajeva u odnosu na
ukupan broj sluajeva iz tabele odluivanja koje je klasifikovalo stablo.

Stabla odluivanja su pogodna za reavanje klasifikacionih problema, otkrivanje


asocijativnih pravila, kao i redukciju jer poredak vorova u stablima govori i o odreenom
znaaju atributa za klasifikaciju ili regresiju.

36
Asocijativna pravila
Sva pravila imaju odreene mere kvaliteta, pravila na osnovu kojih analitiar, u saradnji
sa DO, odluuje da li su pravila prihvatljiva ili ne. Osnovni pokazatelji kvaliteta pravila su
podrka i poverenje.
Podrka govori koliko su procentualno odreena kategorija, klasa ili pravilo zastupljeni u
skupu podataka.
Poverenje predstavlja meru kvaliteta pravila koja predstavlja odnos izmeu zastupljenosti
celog pravila i zastupljenosti uzroka, ili izmeu podrke celog pravila i podrke uzroka
pravila. Poverenje predstavlja uslovnu verovatnou P(TADA deo pravila|AKO deo
pravila).

Klaster algoritmi

K-means je algoritam koji u podacima trai K, korisniki definisanih klastera. Poto je


teko odrediti kkoji je pravi broj klastera u podacima, najee se sprovodi vie puta, pa se na
osnovu mere kvaliteta klastera ili na osnovu potvrde kvaliteta klasterovanja DO odluuje da li je
dolo do zadovoljavajueg rezultata.K-means na poetku procesa klasterovanja iz skupa
podataka iz kojih ui bira K centroida (sredina) i to najee sluajnim putem. Svi sluajevi iz
tabela odluivanja se zatim dodeljuju najbliim centroidima, pri emu se nakon dodeljivanja
sluajeva centroidima raunaju nove vrednosti centroida. Proces dodeljivanja sluajeva najbliim
centroidima i raunanja novih vrednosti centoida se ponavlja dok sa ne dostigne stabilno reenje,
tj. reenje u kome ne dolazi do pomeranja sluajeva iz jednog klastera u drugi klaster, u dve
uzastopne iteracije.K-means radi samo sa numerikim podacima.

Centroidi su sumarni pokazatelji (statistike) koji opisuju karakteristike odreenog


klastera.

Da bi se algoritam opisao pomou algoritama OZP, mogue je nakon sprovedenog


klasterovanja svakom sluaju dodeliti izlazni atribut tako da u tumaenju otkrivenih zakonitosti
mogu da se koriste razni algoritmi za klasifikaciju.Klasterovanje omoguava bolje razumevanje i
ralanjivanje podataka. Klasterovanje omoguava deljenje velikog skupa podataka na manje
celine ime se jedostavnije moe upravljati velikim koliinama podataka. Moe da se koristi i
kao predproces za druge algoritme OZP.

Regresioni modeli

Koriste se za reavanje zadataka procene.Model linearne regresije radi samo sa


numerikim podacima.

Vetake neuronske mree

Vetake neuronske mree mogu da rade i sa numerikim i sa kategorikim podacima,


mogu da rade sa podacima koji imaju razliite osobime podataka, mogu da imaju vie izlaznih
podataka itd.Odline su za modeliranje nelinearnih zavisnosti koje postoje u podacima. Otpornije
su od veine metoda za rad sa nedostajuim vrednostima, na korelaciju meu atributima
itd.Imaju odline karakteristike kada je u pitanju OZP, mogu da se koriste i za reavanje

37
zadataka redukcije, procene, klasifikacije, klasterovanja i predvianja.One predstavljaju za DO
crnu kutiju jer DO zadaje samo odreeni ulaz, a VNM mu vraa eljene rezultate.

U Tabeli 2.1 je prikazan odnos OZP zadataka i OZP algoritama

Tabela 2.1. Odnos OZP zadataka i OZP algoritama

Vetake
Redukcioni Regresioni Stablo Klaster Asocijativna
neuronske
algoritmi algoritmi odluivanja algoritmi pravila
mree
Redukcija X X X X X X
Procena X X X
Klasifikacija X X X X
Klasterovanje X
Asocijacija X
Predvianje X X X X X

5.1.5 Ocena OZP reenja

Proces OZP nije zavren dok se ne izvri analiza dobijenog znanja, tj dok se ne vidi
koliko su otkrivene zakonitosti validne.Faza ocene i modelovanje zakonitosti se prepliu i
zapravo se i rade paralelno u procesu OZP. Faza ocene treba da pokae koliko je otkrivena
zakonitost znaajna. Na osnovu rezultata o znaajnosti otkrivene zakonitosti DO odluuje da li je
otkrivena zakonitost zanimljiva i da li moe da se koristi u unapreenju poslovnog procesa.

Kod MS OZP dodatka rezultati analize mogu da se dobiju na tri naina:


Grafik pouzdanosti prikazuje odnos izmeu idealnog modela klasifikacije i grafika
stvarnog predvianja izabrane klase.
Matrica klasifikacije predstavlja u tabelarnoj formi rezultat klasifikacije celog modela
sa informacijom o broju tano i netano klasifikovanih sluajeva.
Grafik profita prikazuje predpostavljeni profit koji organizacija moe da ostvari
uzimajui u obzir cenu jednog uzorka koji treba da plati da bi dola do tabele sluajeva
nad kojom radi OZP analizu.

Proces ocene reenja je kljuan proces u OZP. Ocena reenja omoguava DO da sazna da
li je otkriveno znanje verodostojno, da li moe da se upotrebljava u poslovnom procesu i da li od
otkrivenog znanja moe da se oekuje korist. Za sprovoenje analize podataka potrebno je
raspolagati podacima za testiranje. Poeljno je da se analiza kvalitteta modela ne radi nad
sluajevima koji su korieni za generisanje modela. Kada se radi analiza uvek se odreeni broj
sluajeva obelei kao sluajevi za testiranje i njihova uloga je da se nad njima proveri ispravnost
modela. Ipak, tek kada se otkriveno znanje ukljui u poslovni proces, videe se koliko je znanje
zaista validno. DO meutim nee dozvoliti upotrebu znanja u poslovnom procesu dok mu proces
analize ne da valjane rezultate.

38
5.1.6 Primena OZP reenja

Pored kvaliteta koji otkrivena zakonitost treba da poseduje, potrebno je ispuniti dodatne
predpostavke. To su:
1. Podrka top menadmenta ukoliko ona ne postoji nemogue je primeniti OZP reenja u
organizaciji.
2. Razuman obim projekata OZP ukoliko je projekat suvie ambiciozan, teko e biti
prihvaen
3. Sklad izmeu kadrova iz menademnta i informacionih sistema ukoliko meu njima
vladaju razmirice novo reenje ne moe da zaivi
4. Detaljno razraen plan uvoenja reenja u organizaciju koji treba da vodi rauna o tome
da novo reenje donosi:
Nov nain rada
Potrebu za obukom zaposlenih
Potrebu za novim izvetajima
Podrka cele organizacije

5.2 Zablude u OZP

OZP daje odgovore na naa pitanja. Algoritmi automatski pronalaze reenja za probleme.
OZP je nezavisan od DO, automan je i ne zahteva uee ljudi.
Poslovanje se brzo unapreuje uz pomo OZP alata, i brzo se isplati.
OZP alati, tehnike i algoritmi su intuitivni i jednostavni za korienje.
OZP otkriva poslovne probleme.
OZP moe da radi sa nesreenim podacima i da ih ispravi, dovede u red.

39
6 KLASIFIKACIJA
Klasifikacija je oblik analize podataka koja izdvaja modele koji opisuju vane klase podataka.
Takvi modeli, zvani klasifikatori, predviaju kategorike nazive klasa. Mogue je, na primer,
napraviti klasifikacioni model da kategorie zahteve za kredite u bankama na bezbedne i rizine.
Ovakve analize nam omoguavaju da mnogo bolje shvatimo velike koliine podataka. Mnoge
metode klasifikacije su predloene od strane istraivaa za machine learning, prepoznavanje
obrazaca (eng. pattern recognition) i statistiku. Veina algoritama je smetena u memoriji i
obino su male veliine. Dananja Data Mining istraivanja su razvijena tako da pruaju
skalabilne klasifikacijske i predicijske tehnike sposobne da obrauju velike koliine podataka
smetenih na disku. Klasifikacija ima raznovrsne primene, ukljuujui detekciju prevara, ciljani
marketing, predikcije performansi, primenu u proizvodnji, pri donoenju medicinskih dijagnoza.

Koncept klasifikacije se uvodi u poglavlju 6.1. Poglavlje 6.2 opisuje generalni pristup
klasifikaciji kao proces u dva koraka. U prvom koraku, pravi se klasifikacioni model zasnovan
na prethodnim podacima. U drugom koraku, utvruje se da li je tanost modela prihvatljiva, i
ako jeste, koristimo model za klasifikaciju novih podataka.

6.1 Osnove Klasifikacije


inovniku u banci treba analiza podataka da bi se utvrdilo koji kandidati su bezbedni a koji su
rizini za banku. Menaderu u marketingu je potrebna analiza podataka da bi mogao da
predvidi da li e kupac sa odreenim profilom da kupi raunar u radnji. Istraivai u medicini
ele da analiziraju podatke vezane za rak dojki da bi odluili koji od tri specifina tretmana
pacijent treba da primi. U svakom od ovih primera, koristi se klasifikacija za analizu podataka,
gde je model ili klasifikator konstruisan da predvidi kategorike nazive klasa, kao to su
bezbedni ili rizini za kandidate kredita; da ili ne za marketing podatke; ili tretman A,
tretman B ili tretman C za medicinsko istraivanje. Ove kategorije mogu biti predstavljene
diskretnim brojanim vrednostima. Na primer, vrednosti 1, 2 i 3 mogu biti koriene da bi se
predstavile vrednosti A, B i C.

Pretpostavimo da marketing menader eli da predvidi koliko e kupac da potroi para tokom
rasprodaje u radnji. Ova analiza podataka je primer numerike predikcije, gde konstruisani
model predvia funkciju sa kontinualnom vrednou, ili sortiranom vrednou, nasuprot
kategorikim nazivima klasa. Regresiona analiza je statistika metedologija koja se najee
koristi pri numerikoj predikciji pa ta dva termina imaju tendenciju da se koriste kao sinonimi,
iako postoje drugi metodi za numeriku predikciju. Klasifikacija i numerika predikcija
predstavljaju dva glavna problema predikcije.

40
6.2 Generalni pristup klasifikaciji
Kako klasifikacija radi? Klasifikacija podataka je proces u dva koraka. Prvi korak je korak
uenja (gde se konstruie klasifikacioni model), drugi korak je korak klasifikacije (gde se model
koristi da bi se predvideli nazivi klasa za date podatke).

U prvom koraku, formiran je klasifikator koji opisuje unapred odreen skup klasa podataka ili
koncepata. Ovo je korak uenja (ili trening faza), gde algoritam klasifikacije formira klasifikator
analizirajui ili uei od skupa podataka koji se sastoji iz redova iz baze i njihovih
odgovarajuih klasnih naziva. Jedan red iz baze, X, je predstavljen n-dimenzionalnim vektorom,
X=(X1,X2,...,Xn), opisujui n merenja vrednosti atributa A1, A2, ...,An. Svakom redu iz baze, X, je
dodeljena vrednost unapred definisanog klasnog atributa baze podataka (eng. class label
attribute). Ovaj atribut poseduje diskretne, neureene, vrednosti. Svaka vrednost slui kao klasa
ili kategorija. Pojedinani redovi iz baze koji ine trening set se nazivaju trening redovima i
nasumino se obrauju iz baze podataka tokom analize. U kontekstu klasifikacije, redovi iz baze
mogu biti nazivani uzorcima, primerima, instancama, takama podataka ili objektima.

Slika 6.1. Proces klasifikacije

41
Proces klasifikacije je predstavljen na slici 6.1. Pod (a) je prikazana faza uenja: Trening podaci
su analizirani od strane klasifikacijskog algoritma. Klasni atribut jeloan decision, tj. odluka da li
e se dodeliti kredit dok je klasifikator predstavljen u formi klasifikacijskih pravila (eng.
Classification rules). Pod (b) je prikazanaklasifikacija novih podataka.Test podaci se koriste da
bi se utvrdila tanost klasifikacijskih pravila. Ako se tanost smatra prihvatljivom, pravila se
mogu primeniti za klasifikaciju novih podataka.

Sa obzirom da je u fazi uenja klasni atribut unapred poznat, ovafaza je takoe poznata i kao
nadgledano uenje (eng. supervised learning). Uenje klasifikatora je nadgledano u smislu da
je poznato kojoj klasnoj vrednosti svaki red pripada. To je u suprotnosti sa uenjem bez nadzora
(grupisanje, eng. clustering), gde klasni atribut nije unapred poznat.

Prvi korak klasifikacije takoe se moe posmatrati kao funkcija, Y = f(X), koja moe da predvidi
klasni naziv Y datog reda X iz baze. U ovom sluaju, namera je da se naui mapiranje ili
funkcija koja e da razdvaja klase podataka. Tipino, ovo mapiranje je predstavljeno u formi
klasifikacijskih pravila, stabala odluke (eng. decision trees), ili matematikih formula. Na
prethodnom primeru, mapiranje je predstavljeno kao klasifikacijska pravila koja identifikuju
kreditne zahteve kao bezbedne (eng. safe) ili rizine (eng. risky). Pravila mogu biti koriena da
se kategorisu budui podaci, kao i da se prui dublji uvid u sadraj samih podataka.

ta je sa tanou klasifikacije? Na drugom delu slike model se koristi za klasifikaciju novih


podataka. Prvose procenjuje tanost predikcije klasifikatora. Ako bi koristili trening podatke za
merenje tanosti klasifikatora, procena bi verovatno bila optimistina, zato to klasifikator ima
tendenciju da overfit-uje podatke, tj. tokom faze uenja moe da ugradi neke posebne
anomalije trening podataka koje nisu prisutne kod uoptenih skupova podataka. Zbog toga je
korientest set, sastavljen od test redova i njihovih povezanih klasnih naziva koji su nezavisni
od trening redova, to znai da nisu korieni za pravljenje klasifikatora.

Tanost klasifikatora na zadatom test skupu je procenat test redova koji su pravilno klasifikovani
od strane klasifikatora. Povezani klasni naziv svakog reda se uporeuje sa nauenom klasnom
predikcijom klasifikatora za taj red. Ako se tanost klasifikatora smatra prihvatljivom,
klasifikator se moe koristiti za klasifikaciju nekih buduih redova za koje se ne zna klasni naziv
(takvi podaci se esto nazivaju i nepoznati ili jos nevieni podaci). Na primer, pravila sa
prethodne slike, koja su dobijena analizirajui podatke prethodnih kreditnih zahteva, mogu biti
koriena da se odobre ili odbiju novi ili budui kreditni zahtevi.

6.3 Stablo odluke


Stablo odluke(decision tree) predstavlja dijagram toka koji ima strukturu stabla, gde svaki
unutranji vor predstavlja test jednog atributa, svaka grana predstavlja rezultat testa, i svaki
terminalni vor odnosno list (leaf node)sadri vrednost klasnog atributa. vor na vrhu se naziva

42
koren i od njega poinje grananje. Uobiajeno stablo odluke je prikazano na slici 6.2. Ovo stablo
predstavlja koncept kupovine raunara, tj. predvia da li e kupac da kupi raunar ili ne.
Unutranji vorovi su predstavljeni pravougaonicima, dok su terminalni vorovi predstavljeni
krugovima. Neki algoritmi proizvode samo binarna stabla (gde se svaki unutranji vor rava na
dva podvora), dok ostali mogu da proizvedu i drugaija stabla.

Slika 6.2. Stablo odluke

Na slici je prikazano stablo odluke za koncept kupovine raunara (buys_computer), koji ukazuje
na to da li je verovatnije da e kupac da kupi raunar ili ne. Svaki unutranji vor predstavlja test
jednog atributa. Svaki terminalni vor predstavlja klasu (ili buys_computer = yes ili
buys_computer = no).

Kako se stabla odluke koriste za klasifikaciju? Sa obzirom na dati red iz baze, za koji je povezani
klasni naziv nepoznat, vrednosti atributa toga reda su testirana stablom odluke. Putanja se prati
od korena pa sve do terminalnog vora, koji sadri klasnu predikciju za taj red. Stabla odluke
lako mogu da se konvertuju u klasifikaciona pravila.

Zato su decision tree klasifikatori tako popularni? Pravljenje decision tree klasifikatora ne
zahteva nikakvo poznavanje domena ili podeavanje parametara, i time je pogodan za
istraivako otkrivanje znanja. Decision trees, tj. stabla odluke, mogu da obrauju
multidimenzionalne podatke. Njihov prikaz steenog znanja u formi stabla je intuitivan i
generalno lako prihvaen od strane ljudi. Koraci uenja i klasifikacije su jednostavni i brzi. U
principu, decision tree klasifikatori imaju dobru tanost. Meutim, uspena upotreba moe
zavisiti od podataka koji su nam dostupni. Decision tree algoritmi su korieni za klasifikaciju u
mnogim oblastima kao to su medicina, proizvodnja, finansijske analize, astronomija i
molekularna biologija.

Tokom izgradnje stabla, koriste se odreene mere za izbor atributa koji e najbolje da razdele
redove u odgovarajue klase. Pri formiranju stabala odluke, mnoge grane, iz podataka koji slue

43
za testiranje, mogu da imaju um ili da odudaraju od ostatka. Potkresivanje stabala (Tree
pruning) pokusava da identifikuje i ukloni takve grane, sa ciljem da se pobolja tanost
klasifikacije.

Tokom kasnih 1970-ih i ranih 1980-ih godina, J. Ross Quinlan, machine learning istraiva,
razvio je decision tree algoritam poznat kao ID3 (Iterative Dichotomiser). Ovaj rad je nastavak
prethodnog rada na concept learning sistemima, opisanih od strane E. B. Hunt, J. Marin, i P. T.
Stone. Quinlan je kasnije predstavio C4.5 (naslednik ID3 algoritma), koji je postao benchmark sa
kojim se esto porede noviji nadgledani algoritmi uenja. 1984. godine, grupa statistiara (L.
Breiman, J. Friedman, R. Olshen, i C. Stone) objavila je knjigu Classification and Regression
Trees (CART), koja opisuje generaciju binarnih stabala odluke. ID3 i CART su razvijeni
odvojeno, otprilike u isto vreme, ali poseduju slian pristup za formiranje stabala odluke iz datih
podataka.

ID3, C4.5, i CART usvajaju prodrljivi (greedy) pristup za konstruisanje stabala odluke gde se
konstrukcija vri rekurzivnim podeli-i-osvoji nainom sa vrha prema dole. Veina algoritama
koji se koriste za stabla odluke takoe koriste pristup sa vrha prema dole, koji poinje sa setom
redova iz baze i njihovim odgovarajuim klasnim nazivima. Set je rekurzivno podeljen na manje
podskupove kako se formira stablo odluke. Koraci algoritma su sledei:

Algoritam se poziva sa tri parametra: D, attribute_list, i Attribute_selection_method. D


predstavlja particiju sa podacima. U poetku, to je kompletan set redova iz baze i
njihovih odgovarajuih klasnih naziva. Parametar attribute_list predstavlja listu atributa
koji opisuju redove iz baze. Attribute_selection_method definie heuristiku proceduru
koja bira atribut koji najbolje razdvaja redove po klasama. Ova procedura koristi mere
biranja atributa kao to su information gain ili Gini index. Da li je stablo strogo binarno
najee odluuje izbor mere biranja atributa. Neke mere biranja atributa, kao to je Gini
index, primorava stablo da bude binarno. Druge mere, kao to je information gain, ne
primoravaju stabla da budu binarna, tj. dozvoljavaju da se iz jednog vora granaju dve ili
vie grana.
Stablo zapoinje sa samo jednim vorom, N, koji predstavlja redove iz baze D.
Ako su redovi u D svi iste klase, onda vor N postaje list i naziv se menja u ime te klase.
U suprotnom, algoritam poziva Attribute_selection_method da izabere kriterijum
deljenja.A predstavlja atribut deljenja. Razlikujemo tri sluaja podele vrednosti atributa,
prikazanih na Slici 6.3.

1. Diskretno A (Discrete-valued A): U ovom sluaju, rezultati testa na voru N


odgovaraju direktno poznatim vrednostima od A. Grana se pravi za svaku poznatu
vrednost A, aj, i dobija naziv te vrednosti (slika a). Particija Dj je podskup redova sa
klasnim nazivima iz D sa vrednou aj od A. Zato to svi redovi u odreenoj particiji

44
imaju istu vrednost za A, A ne mora biti u razmatranju u bilo kom buduem deljenju
redova. Zbog toga se uklanja sa liste atributa.
2. Kontinualno A (Continuous-valuedA): U ovom sluaju, test na voru N ima dva
mogua ishoda, u skladu sa uslovima A split_point i A > split_point, gde
split_point predstavlja taku podele, dobijenu od strane Attribute_selection_method
kao deo kriterijuma deljenja. (U praksi, split-point, a, se esto uzima kao sredinja
vrednost dve poznate pribline vrednosti od A i zbog toga zapravo i ne mora da bude
ve postojea vrednost od A) Dve grane se granaju iz N i oznaene su u skladu sa
rezultatima testa (slika b). Redovi su podeljeni tako da je D1 podskup redova sa
klasnim nazivima iz D za koje je A split_point, dok D2 sadri preostale redove.
3. Discrete-valuedA sa binarnim stablom(to je diktirano od strane atributa za izbor
mera ili algoritma koji se koristi ): Test na voru N je u formi A SA? gde je SA
deljeni podskup A, vraen od strane Attribute_selection_method kao deo kriterijuma
deljenja. To je podskup poznatih vrednosti A. Ako dati red ima vrednost aj od A i ako
aj SA, onda je uslov na voru N zadovoljen. Dve grane se ravaju iz vora N (slika
c). Leva grana je oznaena sa yes tako da D1 odgovara podskupu redova u D koji
ispunjavaju uslov testa. Desna grana je oznaena sa no tako da D2 odgovara podskupu
redova u D koji ne ispunjavaju uslov testa.

Slika 6.3. Tri scenarija podele

45
Algoritam koristi isti proces rekurzivno da formira stablo odluke za redove iz svake
rezultujue particije, Dj, od .
Rekurzivna podela prestaje samo ako se neki od sledeih uslova prekida ispuni:

1. Svi redovi u particiji D (u voru N) pripadaju istoj klasi


2.Nepostoje atributi uz pomo kojih se redovi mogu podeliti. U ovom sluaju, primenjuje
se veinsko glasanje (eng. Majority voting). To podrazumeva konverziju vora N u list i
preimenovanje u naziv najprisutnije klase u D.

3.Ne postoje redovi za datu granu, tj. particija Dj je prazna. U ovom sluaju, list je kreiran
sa veinskom klasom u D.

Raunarska kompleksnost algoritma za D set podataka je O(n x |D| x log(|D|)), gde je n broj
atributa koji opisuju redove iz D. Ovo znai da raunarski zahtevi rasta stabla rastu maksimum
za n x |D| x log(|D|) sa |D| redova.

Razlike u algoritmima stabala odluke ukljuuju izbor atributa pri konstrukciji stabla i mehanizme
za potkresivanje stabala (eng. pruning). Prethodno objanjeni algoritam zahteva jedan prolaz
kroz redove iz D za svaki nivo stabla. To moe dovesti do dugog vremena za procesuiranje
podataka kao i nedostatak dostupne memorije kada se radi sa velikim bazama podataka.

6.4 Mere za izbor atributa

Mera za izbor atributa je heuristika metoda za izbor kriterijuma za podelu koji najbolje deli
datu particiju podataka, D. Ako bismo podelili particiju D na manje particije u skladu sa
kriterijumom deljenja, u idealnom sluaju svaka particija bi bila ista (tj. svi redovi koji bi bili
u navedenoj particiji bi pripadali istoj klasi). Konceptualno, najbolji kriterijum deljenja je onaj
koji najpriblinije rezultira takvom scenariju. Mere za izbor atributa su takoe poznate kao
kriterijumi deljenja zato to odreuju kako se redovi na datom voru dele.

Mera za izbor atributa prua rangiranje za svaki atribut koji opisuje date redove. Atribut koji ima
najbolji rezultat za meru je izabran kao kriterijum deljenja za dati red. U sluaju continuous-
valued atributa ili ako smo ogranieni na binarna stabla, onda ili taka deljenja (eng. split point)
ili podskup deljenja (eng. splitting subset) takoe moraju da se odrede kad deo kriterijuma
deljenja. vor na stablu kreiran za particiju D je imenovan u naziv kriterijuma deljenja, za svaki
rezultat kriterijuma dobija se nova grana stabla, i redovi se dele shodno tome. Neke od
popularnih mera za izbor atributa su: information gain, gain ratio, i Gini index.

Notacija koja e biti koriena je sledea. D i dalje predstavlja particiju podataka, koju ine
redovi sa klasnim nazivima. Ako pretpostavimo da klasni atribut ima m razliitih vrednosti koje

46
definiu m razliitih klasa, Ci (for i = 1,, m). Ci,d predstavlja set redova klase Ciu particiji D.
|D| i |Ci,d| predstavljaju broj redova u D i Ci,d.

Information gain
ID3 koristi information gain kao meru za izbor atributa. Ova mera je bazirana na pionirskom
radu Claude Shannon-a o informacionoj teoriji, koji je izuavao vrednost ili sadraj
informacija poruka. Neka vor N predstavlja ili sadri redove particije D. Atribut sa najveim
information gain-om je izabran kao kriterijum deljenja za vor N. Ovaj atribut minimizira
informacije potrebne za klasifikaciju redova u rezultujuoj particiji i odraava najmanji broj
sluajnosti ili neistoa u ovim particijama. Takav pristup smanjuje na minimum oekivani
broj testiranja potrebnih za klasifikaciju datog reda i garantuje formiranje jednostavnog (to ne
mora da znai i najednostavnijeg) stabla.

Oekivana informacija potrebna za klasifikaciju redova iz particije D se dobija uz pomo sledee


formule:

( ) ( )

U ovoj formuli pipredstavlja verovatnou, koja je razliita od nule, da proizvoljan red iz particije
D pripada klasi Cii procenjuje se sa |Ci,d |/|D|. Logaritamska funkcija sa osnovom 2 se koristi,
zato to je informacija enkodovana u bitima. Info(D) predstavlja prosenu vrednost potrebnih
informacija da bih se identifikovala klasa datog reda iz particije D.

Pretpostavimo da postupak sprovodi deljenje redova iz particije D sa atributom A koji ima v


razliitih vrednosti, {a1, a2, , av}. Ako je A diskretna vrednost, ove vrednosti odgovaraju
direktno v ishodu testa sa A. Atribut A moe biti korien da se podeli particija D u v particija ili
podskupova, {D1, D2, , Dv}, gde Dj sadri one redove iz particije D koji imaju rezultat aj od A.
Ove particije bi odgovarale granama iz vora N. U idealnom sluaju, eleli bismo da ova podela
proizvede tanu klasifikaciju redova, tj. svaka particija bi trebala da bude ista (eng. pure).
Meutim, postoji velika verovatnoa da particije nee biti iste, tj. postoji mogunost da particija
sadri kolekciju redova koji pripadaju razliitim klasama a ne samo jednoj klasi.

Koliko jo informacija bi bilo potrebno (posle deljenja) da bi se dolo do tane klasifikacije se


moe izraunati uz pomo sledee formule:

47
( ) ( )

Termin |Dj|/|D| je teina j-te particije. InfoA(D) je oekivana informacija potrebna za klasifikaciju
reda iz particije D na osnovu deljenja sa A. to je manja, jo uvek, potrebna informacija, vea je
istoa particija. Information gain se definie kao razlika izmeu originalnog zahteva (baziranog
samo na opsegu klasa) i novog zahteva (dobijenog posle deljenja sa A). Formula je:
( ) ( ) ( )

Drugim reima, Gain(A) nam govori koliko bi se dobilo grananjem uA. Rezultat poznavanja
vrednosti A je oekivano smanjenje u zahtevanim, potrebnim, informacijama. Atribut A sa
najveim information gain-om, Gain(A), se bira kao atribut deljenja na voru N. Ovo je
ekvivalentno iskazu da elimo podelu po atributu A koja bi odradila najbolju klasifikaciju, tako
da koliina potrebnih informacija koja je jo uvek potrebna za zavretak klasifikacije redova
bude minimalna (tj. minimalna InfoA(D)).

Tabela 6.1. Trening redovi

Tabela T.1. predstavlja skup podataka, D, koji se sastoji iz redova nasumino izabranih iz baze
podataka vezanih za jednu prodavnicu raunara. U ovom primeru, svaki atribut ima diskretnu

48
vrednost. Continuous-valued atributi su generalizovani. Atribut koji predstavlja klasni naziv, u
ovom sluaju buys_computer, ima dve razliite vrednosti (yes i no), stoga, postoje dve razliite
klase (tj. m = 2). Neka klasa C1 odgovara klasi yes i klasa C2 odgovara klasi no. Postoji 9 redova
koji pripadaju klasi yes i 5 redova koji pripadaju klasi no. Koren, tj. poetni vor N se formira za
redove iz particije D. Da bi se naao kriterijum deljenja za ove redove, mora se izraunati
information gain za svaki atribut. Prvo se koristi formula za izraunavanje oekivanih
informacija potrebnih za klasifikaciju reda iz D particije:

( ) ( ) ( )

Sledee, treba da se izrauna oekivani informacioni dobitak za svaki atribut. Za poetak tu je


atribut age. Treba imati uvid u distribuciju yes i no redova za svaku kategoriju age atributa. Za
age kategoriju youth, postoje 2 yes reda i 3 no reda. Za kategoriju middle_aged, postoje 4
yes reda i 0 no redova. Za kategoriju senior, postoje 3 yes reda i 2 no reda. Koristei formulu 2,
oekivane informacije potrebne za klassifikaciju reda iz D particije, ako su redovi podeljeni na
osnovu age atributa, dobijaju se sledeom formulom:

( ) ( )

( ) ( )

Dakle, dobitak u informacijama od takve podele bi bio:


( ) ( ) ( )

Slino ovome, moemo izraunati Gain(income) = 0.029 bits, Gain(student) = 0.151 bits i
Gain(credit_rating) = 0.048 bits. Zato to age atribut poseduje najveu vrednost information
gain-a od svih atributa, izabran je kao atribut deljenja. vor N nosi naziv age, i grane se granaju
za svaku vrednost atributa age. Redovi se zatim dele u shodno tome, kao to je i prikazano na
slici 6.5. Kao to moe da se vidi, redovi koji spadaju u grupu gde je age = middle_age svi
spadaju u istu klasu. Zato to svi pripadaju klasi yes, list treba biti kreiran na kraju ove grane sa
nazivom yes. Finalno stablo se vidi na prethodno pokazanoj slici 6.2.

49
Slika 6.5. Atribut age kao atribut deljenja
Sada se dolazi do pitanja kako se moe izraunati information gain atributa koji je continuous-
valued, za razliku od prethodnog primera. U tom sluaju, umesto okvirnih vrednosti age atributa
imali bih sirove vrednosti, tj. konkretne brojeve godina. Za takav scenario, mora se odrediti
najbolja taka deljenja (eng. split-point) za A, gde ta taka predstavlja prag.

Prvo se sortiraju vrednosti A po rastuem redosledu. Uglavnom, sredinja vrednost susednih


vrednosti se smatra kao mogua taka deljenja. Stoga, za date v vrednosti od A, izraunava se v -
1 moguih taaka podele. Na primer, sredinja vrednost izmeu vrednosti aj i aj+1 od A je:

Ako su vrednosti A sortirane unapred, onda odreivanje najboljeg deljenja za A zahteva samo
jedan prolaz kroz sve vrednosti. Za svaku moguu taku deljenja za A, procenjuje se InfoA(D),
gde je broj particija 2, tj. v = 2 (ili j = 1,2) u formuli 2. Taka sa minimalnim oekivanim
zahtevima za informacijama za A je izabrana kao taka deljenja (eng. split-point) za A. D1
pripada skupu redova iz D koji zadovoljavaju uslov A split_point, I D2 je skup redova iz D koji
zadovoljavaju uslov A > split_point.
Gain Ratio

50
Mera za prikupljanje informacija (eng. information gain) je naklonjena testovima sa vie
ishoda,tj. preferira da izabrani atributi poseduju veliki broj vrednosti. Na primer, ako se posmatra
atribut koji slui kao jedinstveni identifikator kao to je product_ID, podela preko product_ID bi
rezultovala velikim brojem particija (koliko vrednosti toliko i particija), dok bi svaka particija
sadrala samo jedan red. Sa obzirom da je svaka particija ista, potrebne informacije za
klasifikaciju podataka D baziranih na ovom deljenju bi bile Infoproduct_ID(D)=0. Dakle, koliina
prikupljenih informacija dobijenih deljenjem sa ovim atributom je maksimalna. Oigledno, takvo
deljenje je beskorisno za klasifikaciju.

C4.5, naslednik ID3, koristi ekstenziju za prikupljanje podataka poznatu kao gain ratio, koja
pokuava da prevazie ovu pristrasnost. Gain ratio primenjuje jednu vrstu normalizacije na
information gain koristei split information vrednost odreenu analogno sa Info(D):

| | | |
( ) ( )

Ova vrednost predstavlja potencijalnu informaciju generisanu deljenjem podataka, D, na v


particija, koji odgovaraju v ishodima testa sa A atributom. Treba imati na umu da se za svaki
ishod razmatra broj redova sa tim ishodom u odnosu na ukupan broj redova u particiji D.
Razlikuje se od information gain-a koji meri informaciju u skladu sa klasifikacijom koja je
odraena na osnovu iste particije. Gain ratio se izraunava uz pomo sledee formule:
( )
( )
( )
Atribut koji ima najvii gain ratio je izabran kao atribut deljenja. Meutim, to se vie split
information pribliava nuli, gain ratio postaje nestabilniji. Dodaje se ogranienje da bi se
izbegao ovaj sluaj, gde information gain izabranog testa mora biti veliki kao minimum mora
biti veliki kao prosean information gain svih ispitanih testova.

Prikazaemo primer izraunavanja gain ratio-a za atribut income. Test deli Tabelu 1. na tri
particije, odnosno na low, medium i high, koje u skladu sadre etri, est i tri reda. Da bi se
izraunao gain ratio, prvo se koristi sledeca formula:

( ) ( ) ( ) ( )

Iz prethodnog primera dobili smo da je Gain(income) = 0.029. Shodno tome, GainRatio(income)


= 0.029/1.557 = 0.019.

51
Gini Index
Gini index se koristi u CART algoritmu. Korienjem prethodno opisane notacije, gini indeks
meri nivo neistoe u particiji D, nekoj drugoj particiji ili skupu redova. Forumla je sledea:

( )

U prethodnoj formuli pi predstavlja verovatnou da red iz D pripada klasi Ci i procenjuje se sa


|Ci,D|/|D|. Suma se rauna za m broj klasa.

Gini indeks razmatra binarnu podelu za svaki atribut. Na primer, postoje sluajevi gde je A
discrete-valued atribut koji sadri v raliitih vrednosti, {a1, a2, , av}, u D particiji. Da bi se
utvrdila najbolja binarna podela sa A, ispituju se svi mogui podskupovi koji mogu biti formirani
sa poznatim vrednostima A. Svaki podskup, SA, moe se smatrati kao binarni test za atribut A u
formi A SA?. Ovaj test e biti zadovoljen ako se vrednost A za dati red nalazi meu
vrednostima iz podskupa SA. Ako A ima v razliitih vrednosti, onda postoji 2v moguih
podskupova. Na primer, ako income ima tri mogue vrednosti, tj. low, medium i high, onda su
mogui podskupovi sledei: {low, medium, high}, {low, medium}, {low, high}, { medium,
high}, {low}, {medium}, {high}, { }. Ne uzimamo u razmatranje {low, medium, high} i prazan
skup zato to oni i generalno i ne predstavljaju deljenje. Stoga, postoji 2v-2 potencijalnih naina
da se formiraju dve particije podataka iz D, baziranih na binarnoj podeli.

Prilikom razmatranja binarne podele, izraunavamo zbir neistoa svake rezultujue particije. Na
primer, ako binarna podela sa A podeli D na D1 i D2, Gini indeks D sa obzirom na to deljenje je:

( ) ( ) ( )

Za svaki atribut, svaka od moguih binarnih podela se uzima u razmatranje. Za discrete-valued


atribute, podskup koji daje najmanji Gini indeks za taj atribut je izabran kao njegov podskup za
deljenje.

Za continuous-valued atribute, svaki mogui split-point mora ui u razmatranje. Strategija je


slina kao opisana strategija za information gain, gde se sredinja vrednost dve susedne
(sortirane) vrednosti uzima kao mogua taka podele (eng. split-point). Taka koja daje najmanji
Gini indeks za dati (continuous-valued) atribut je uzet kao taka deljenja toga atributa. Kao to je
napomenuto, D1 pripada skupu redova iz D koji zadovoljavaju uslov A split_point, I D2 je skup
redova iz D koji zadovoljavaju uslov A > split_point.

52
Smanjenje neistoa koje bi bilo uzrokovano binarnom podelom na discrete-valued ili
continuous-value atributa A se predstavlja sledeom formulom:
( ) ( ) ( )
Atribut koji najvie utie na smanjenje neistoa (tj. koji ima najmanji Gini indeks) je izabran
kao atribut deljenja. Ovaj atribut i njegov ili splitting subset (za discrete-valued atribute deljenja)
ili split-point (za continuous-valued atribute deljenja) zajedno formiraju kriterijum deljenja.

Formiranje stabla odluke korienjem Gini indeksa:D predstavlja trening podatke prikazane
prethodno u Tabeli 1, gde devet redova pripada klasi buys_computer = yes i preostalih pet
redova pripada klasi buys_computer = no. Poetni vor N je kreiran za redove iz particije D.
Prvo se koristi sledea formula gde Gini indeks izraunava neistou particije D:

( ) ( ) ( )

Da bi se pronaao kriterijum deljenja za redove u particiji D potrebno je izraunati Gini indeks za


svaki atribut. Na poetku tu je atribut income gde se uzimaju u obzir svi njegovi potencijalni
podskupovi deljenja (eng. splitting subsets). Na primer, na razmatranje je uzet podskup {low,
medium}. Ovo bi rezultovalo brojem od 10 redova u particiji D1 koji ispunjavju uslov
income{low, medium}. Preostala etri reda bi bila dodeljena particiji D2. Izraunavanje Gini
indeksa na osnovu ovoga deljenja:

{ }( ) ( ) ( )

( ( ) ( ) ) ( ( ) ( ) )

{ }( )

Slino tome, vrednosti Gini indeksa za podele na preostalim podskupovima su 0.458 (za
podskupove {low, high} i {medium} ), 0.450 (za podskupove {medium, high} i {low} ). Dakle,
najbolja binarna podela za atribut income je sa {low, medium} (ili {high}) zato to ima najnii
Gini indeks. Analizirajui atribut age, dolazimo do zakljuka da {youth, senior} (ili
{middle_aged}) su najbolji kandidati za podelu sa Gini indeksom 0.375; atributi student i
credit_rating su binarni, sa Gini indeks vrednostima 0.367 i 0.429.
Atribut age i njegov splitting subset {youth, senior} daju najmanji Gini indeks od svih
kombinacija, sa smanjenjem neistoa od 0.459 0.357 = 0.102. Binarna podela age{youth,
senior} rezultira sa najveim smanjenjem neistoa meu redovima iz particije D i bira se kao

53
kriterijum deljenja. vor N dobija naziv kriterijuma deljenja, dve grane se granaju iz vora N, i
redovi se dele u skladu sa kriterijumom.

Ostale mere odabira atributa


Do sada su prikazane tri mere koje se najee koriste za izradu stabala odluke. Information gain
kao mera, je naklonjena atributima sa veim brojem vrednosti. Iako je gain ratio prilagoen zbog
ovog sluaja, on ima tendenciju da preferira neizbalansirane podele gde je jedna particija mnogo
manja od drugih particija. Gini indeks je naklonjen atributima sa vie vrednosti i ima problema
kada je broj klasa veliki. Takoe, ima tendenciju da preferira testove koji rezultiraju particijama
koje su podjednake veliine i istoom u obe particije. Iako naklonjene odreenim kriterijumima,
ove mere daju poprilino dobre rezultate u praksi.
Predloene su mnoge druge mere za odabir atributa. CHAID, algoritam za stabla odluke koji je
popularan u marketingu, koristi meru za odabir atributa koja se bazira na statistikom X2 testu
nezavisnosti. Druge mere ukljuuju C-SEP (koji je radi bolje od information gain-a i gini index-a
u pojedinim sluajevima) i G-statistic.

Mera za odabir atributa bazirana na principu minimalne duine opisa (eng. Minimal Description
Length - MDL) ima najmanju naklonost prema atributima sa vie vrednosti. MDL bazirana mera
koristi tehnike kodiranja da definie najbolje stablo odluke koje zahteva najmanji broj bita da
bi se enkodiralo stablo i da bi se enkodirali izuzeci za stablo (tj. sluajevi koji nisu dobro
klasifikovani od strane stabla). Njegova glavna poenta je odabir najjednostavnijih reenja.

Druge mere za odabir atributa uzimaju u obzir multivariate splits (tj. podele gde se podela redova
bazira na kombinaciji atributa umesto samo na jednom atributu). CART sistem, na primer, moe
nai multivariate podele bazirane na linearnoj kombinaciji atributa. Multivariate podele su oblik
graenja atributa (ili funkcija), gde su novi atributi kreirani na osnovu postojeih.

Koja mera za selekciju atributa je najbolja? Sve mere imaju neke svoje naklonosti. Pokazalo se
da se, u veini sluajeva, kompleksnost stabla odluke eksponencijalno poveava sa visinom
stabla. Stoga, mere koje daju plia, tj. nia, stabla (stabla sa vie grana umesto binarnih, i stabla
koja preferiraju balansirane podele) mogu biti poeljnija. Meutim, neke studije su otkrile da
plia stabla imaju tendenciju da imaju veliki broj listova i visok nivo greki. Uprkos nekoliko
uporednih studija, ne moe se rei ni za jednu meru za odabir atributa da je uveliko superiornija
od neke druge mere. Veina mera daje poprilino dobre rezultate.

6.5 Potkresivanje stabla

54
Kada se formira stablo odluke, mnoge grane e sadrati anomalije zbog uma (eng. noise) ili
vrednosti koje znaajno odudaraju od ostalih podataka (outliers). Tree pruning, ili potkresivanje,
reava ovaj problem sa podacima. Ove metode obino koriste statistike mere da bi se otklonile
najnepouzdanije grane. Nepotkresano stablo i potkresano stablo su prikazani na slici 6.6.
Potkresana stabla imaju tendenciju da budu manja i manje su kompleksna i, prema tome, laka su
za razumevanje. Obino su bra i bolja to se tie klasifikacije nezavisnih test podataka (tj.
podataka sa kojim se prvi put susreu) od nepotkresanih stabala.

Postoje dva osnovna pristupa potkresivanja stabla: prepruning i postpruning.

U prepruning pristupu, stablo se potkresuje tako to se zaustavlja konstrukcija stabla u ranoj fazi,
tj. odlukom da se dalje ne deli podskup testnih redova na datom voru. Nakon prestanka deljenja,
vor postaje list.

Pri izgradnji stabla, mere kao to su statistiki znaaj, information gain, Gini index i druge, mogu
biti koriene da bi se procenio kvalitet podele. Ako bi podela redova na odreenom voru
rezultovala podelom koja se nalazi ispod predefinisanog praga, onda se dalja podela datog
podskupa zaustavlja. Meutim, postoje potekoe u biranju odgovarajueg praga. Visok prag
moe rezultovati u prejednostavnim stablima, dok premali prag moze dovesti do veoma malog
pojednostavljanja stabla.

Slika 6.6. Nepotkresano stablo i potkresano stablo


Drugi i ei pristup je postpruning, koji uklanja podstabla iz potpuno naraslog stabla.
Podstablo na datom voru je potkresano tako to se uklanjaju njegove grane i zamenjuju

55
listovima. List se imenuje nazivom najee klase iz podstabla koje se menja. Na primer na slici
6.6 vidi se podstablo na voru A3? na nepotkresanom stablu. Pretpostavlja se da je najea
klasa unutar ovog podstabla class B. Na potkresanoj verziji stabla, pomenuto podstablo je
potkresano tako to je zamenjeno listom class B.

Cost complexity algoritam potkresivanja koji se koristi u CART-u je primer postpruning


pristupa. Ovaj pristup tretira cenu kompleksnosti (eng. cost complexity) stabla kao funkciju broja
listova u stablu i uestalosti greaka stabla, gde uestalost greaka predstavlja procenat redova
koji su pogreno klasifikovani od strane stabla. Poinje od dna stabla. Za svaki unutranji vor,
N, izraunava se cost complexity podstabla na voru N, i cost complexity podstabla na voru N u
sluaju da se potkresuje (tj. da se zameni listom). Ove dve vrednosti se uporeuju. Ako bi
potkresivanje podstabla na voru N dovelo do manjeg cost complexity indeksa, onda se podstablo
potkresuje.

Potkresivanje skupa klasnih redova se koristi za procenu cost complexity. Ovaj skup je nezavisan
od trening skupa koji se koristi za izradu neobrezanog stabla i bilo kog test skupa koji se koristi
za procenu tanosti. Algoritam generie skup progresivno orezanih stabala. Generalno, najmanje
stablo odluke koje ima najmanji cost complexity se preferira.

C4.5 koristi metod koji se naziva pesimistino potkresivanje (eng. pessimistic pruning), koji je
slian cost complexity metodi u smislu da takoe koristi procenu uestalosti greaka da bi se
odluilo o potkresivanju stabla. Meutim, pesimistino potkresivanje, ne zahteva upotrebu skupa
za potkresivanje. Umesto toga se koristi trening skup za procenu uestalosti greaka. Procena
tanosti ili greaka baziranih na trening skupu je previe optimistina, i zbog toga veoma
pristrasna. Metod pesimistinog potkresivanja zbog toga prilagoava uestalost greaka,
dobijenih uz pomo trening skupa, dodavanjem kaznenih poena, kako bi se povratila
ravnotea.

Umesto potkresivanja stabala na konto procene uestalosti greaka, mozemo vriti potkresivanje
stabala na osnovu broja bita potrebnih za enkodiranje stabla. Najboljepotkresano stablo je
stablo sa najmanjim brojem bita potrebnih za enkodiranje. Ovaj metod usvaja MDL princip.
Osnovna ideja je da je najjednostavnije reenje i najbolje. Za razliku od cost
complexitypotkresivanja, ne zahteva se nezavisan skup redova.

Alternativno, prepurning i postpurning mogu se koristiti zajedno za kombinovan pristup.


Postpruning zahteva vie raunanja nego prepruning, ali generalno vodi do pouzdanijeg stabla.
Ni za jedan metod potkresivanja nije utvreno da je superioran u odnosu na druge. Iako neki
metodi potkresivanja zavise od dostupnosti dodatnih podataka, ovo obino nije problem kada se
radi sa velikim bazama podataka.

56
Iako potkresana stabla imaju tendenciju da budu kompaktnija od svojih potkresanih parnjaka,
ona ipak mogu biti prilino velika i kompleksna. Stabla odluke mogu imati problem ponavljanja
i replikacija, kao to se vidi na Slici 6.7, to ih ini veoma tekim za tumaenje. Ponavljanje se
javlja kada se atribut vie puta testira uz datu granu na stablu (npr. age < 60?, praeno sa age
< 45?, itd.). Pri replikaciji, javljaju se dupla podstabla u sklopu stabla. Ove pojave mogu
negativno uticati na tanost i razumljivost stabla odluke. Korienje multivariate podela (tj.
podela baziranih na kombinaciji vie atributa) moe spreiti ove probleme. Drugi pristup je da se
koristi drugaija forma predstavljanja znanja, kao to su pravila, umesto stabala odluke.

Slika 6.7. (a) Ponavljanje stabla, (b) Replikacija stabla

6.6 Skalabilnost i stabla odluke

57
ta se deava ako D, trening set klasnih redova koji se nalaze na disku, ne moe da stane u
memoriju? Drugim reima, koliko je skalabilno stablo odluke? Efikasnost postojeih algoritama,
kao to su ID3, C4.5 i CART, je dobra u radu sa relativno malim skupovima podataka.
Efikasnost moe postati problem kada se ovi algoritmi primene na rudarenju (eng. mining)
velikih baza podataka. Pionirska stabla odluke, koja su bila tema do sada, imaju ogranienje da
redovi moraju da budu u memoriji.

U data mining aplikacijama, veliki skupovi koji broje milione redova su uobiajeni. Najee,
trening podaci, tj. redovi, ne mogu da stanu u memoriju. Zbog konstantnog prebacivanja redova
u i iz glavne i keirane memorije, generisanje stabla odluke postaje neefikasno Potrebni su
skalabilniji pristupi, sposobni da obrauju podatke koji su preveliki da bi stali u memoriju.
Ranije strategije da se utedi prostor ukljuuju diskretizaciju continuous-valued atributa i
podataka koji se testiraju na svakom voru. Meutim, ove tehnike jo uvek pretpostavljaju da
skupovi podataka mogu da stanu u memoriju.

Nekoliko skalabilnih metoda indukcije stabla odluke su uvedena u nedavnim studijama. Na


primer, RainForest algoritam se adaptira koliini dostupne glavne memorije i primenjuje to u
bilo kom algoritmu za indukciju stabla.

Method odrava AVC skup (gde AVC predstavlja Attribute-Value, Classlabel) za svaki
atribut, na svakom voru stabla, opisujui redove koji se nalaze na voru. AVC skup atributa A
na voru N daje broj klasa za svaku vrednost A za redove na voru N. Slika 6.8. prikazuje AVC
skupove za podatke iz Tabele 6.1. Skup svih AVC skupova na voru N predstavljaju AVC grupu
N vora. Veliina AVC skupa za atribut A na voru N zavisi samo od broja razliitih vrednosti A
i broja klasa u skupu redova na voru N. Obino, ova veliina bi trebalo da se uklopi u memoriju,
ak i za velike baze podataka. RainForest takoe poseduje tehnike za obradu sluajeva gde AVC
grupa ne moe da stane u memoriju. Stoga, metod poseduje veliku skalabilnost za indukciju
stabla odluke pri velikim koliinama podataka.

BOAT (Bootstrapped Optimistic Algorithm for Tree construction) je algoritam stabla odluke koji
zauzima potpuno drugaiji pristup prema skalabilnosti nije baziran na korienju bilo kakvih
specijalnih struktura podataka. Umesto toga, koristi statistiku tehniku poznatu kao
bootstrapping da stvori nekoliko manjih uzoraka (ili podskupova) od datih trening podataka,
od kojih svaki uzorak moe da stane u memoriju. Svaki uzorak (ili podskup) se koristi za izradu
stabla, rezultujui tako u veem broju stabala. Stabla se ispituju i koriste se za izradu novog
stabla, T, za koje se ispostavi da je veoma blizu stablu koje bi bilo generisano da su svi
originalni podaci stali u memoriju u prvom sluaju.

58
Slika 6.8. AVC skupovi

BOAT moe da koristi bilo koju meru za izbor atributa koja bira binarne podele i koja je
bazirana na stanovitu istoe particija kao to je Gini indeks. BOAT koristi donju granicu mere
za biranje atributa da bi detektovao da li se veoma dobro stablo, T, razlikuje od pravog
stabla, T, koje bi bilo generisano korienjem svih podataka. T se prerauje u T.

BOAT obino zahteva samo dva skeniranja D particije. Ovo je prilino poboljanje, ak i u
poreenju sa tradicionalnim algoritmima stabla odluke, koji zahtevaju jedno skeniranje za svaki
nivo stabla. Za BOAT je utvreno da je dva do tri puta bri od RainForest-a a generie potpuno
isto stablo. Jo jedna prednost BOAT-a je da moe biti korien za inkrementalna auriranja, tj.
BOAT moe da primi nova umetanja i brisanja trening podataka i izvri auriranje stabla sa ovim
promenama, bez potrebe da rekonstruie stablo od nule.

6.7 Vizuelno rudarenje i stablo odluke

Klasifikacija zasnovana na percepciji (Perception Based Classification - PBC) predstavlja


interaktivni pristup baziran na multidimenzionalnim tehnikama vizualizacije i dozvoljava
korisniku da inkorporira osnovno znanje o podacima pri izradi stabla. Uz pomo vizuelne
interakcije sa podacima, korisnik e verovatno da stekne bolje razumevanje podataka.
Rezultujua stabla obino su manja od stabala koja su izraena standardnim metodama i time ih
je lake tumaiti, dok se u isto vreme postie priblino ista tanost.

PBC koristi piksel orijentisani pristup da bi se videli multidimenzionalni podaci sa


informacijama o klasama. Usvaja se pristup segmentiranih krugova, koji mapiraju d-

59
dimenzionalne objekte podataka u krug koji je podeljen na d segmente, od kojih svaki
predstavlja jedan atribut. Ovde je jedna vrednost atributa objekta mapirana kao jedan obojeni
piksel, koji odraava klasu objekta. Ovo mapiranje se radi za svaki par atributa i njegove
vrednosti od svakog objekta. Sortiranje se vri za svaki atribut da bi se odredio redosled unutar
segmenta. Na primer, vrednosti atributa unutar datog segmenta mogu biti organizovane tako da
se prikau homogene oblasti unutar same vrednosti atributa. Koliina trening podataka koja
moe biti vizuelizovana u isto vreme je priblino odreena proizvodom broja atributa i broja
objekata.

PBC sistem prikazuje podeljeni ekran, koji se sastoji od prozora za interakciju sa podacima i
prozora za interakciju sa stablom (Slika 6.9). Prozor za interakciju sa podacima prikazuje
okrugle segmente podataka nad kojima se vri pregled, dok prozor za interakciju sa stablom
prikazuje stablo odluke izgraeno do tada. U poetku, kompletan trening set se vizualizuje u
prozoru za interakciju sa podacima, dok prozor za interakciju sa stablom prikazuje prazno stablo.

Slika 6.9. PBC interfejs

Tradicionalni algoritmi stabla odluke dozvoljavaju samo binarne podele za numerike atribute.
Meutim, PBC dozvoljava korisnicima da navedu nekoliko taki podela, to rezultuje
viestrukim granama koje rastu iz jednog vora na stablu.

60
Stablo se interaktivno konstruie na sledei nain. Korisnik vizualizuje multidimenzionalne
podatke u prozoru za interakciju sa podacima i bira atribut deljenja i jednu ili vie taaka
deljenja. Stablo koje se trenutno nalazi u prozoru za interakciju sa stablom se iri. Korisnik bira
vor stabla. Korisnik moe da dodeli klasni naziv voru (koji e vor da pretvori u list) ili da
zahteva vizualizaciju trening podataka koja odgovara izabranom voru. Ovo vodi ka novoj
vizualizaciji svakog atributa osim onih koji su korieni kao kriterijum podele na istoj putanji od
poetka stabla. Interaktivni proces se nastavlja dok se klasa ne dodeli svakom listu na stablu.

Stabla konstruisana sa PBC-om su bila uporeena sa stablima konstruisanim od strane CART,


C4.5 i SPRINT algoritama iz razliitih setova podataka. Stabla konstruisana PBC-om su imala
priblinu tanost sa stablima konstruisanih sa algoritamskim pristupom, ali su bila znatno manja,
i samim tim, mnogo laka za razumevanje.

61
7 Evaluacija modela i selekcija

Predpostavimo da su korieni podaci iz prethodnih prodaja da se napravi klasifikator za


predvianje ponaanja kupca pri kupovini. Poeljna je procena koliko precizno klasifikator moe
da predvidi ponaanje pri kupovini buduih kupaca, tj. budui podaci o kupcima za koje
klasifikator jo nije podeen. Moe se probati i pravljenjem vie klasifikatora razliitim
metodama radi poreenja njihovih tanosti. Ali dolazi se do pitanja ta je tanost? Kako se moe
proceniti? Da li su neke mere tanosti klasifikatora prikladnije od drugih? Kako se moe dobiti
pouzdana procena tanosti?

Ovde se predstavljaju mere za procenu koliko dobro ili koliko precizno dati klasifikator vri
predikciju naziva klase datih redova. Razmatra se sluaj gde su klasni redovi manje vie
ravnomerno rasporeeni, kao i sluaj gde klase nisu balansirane. Klasifikatorske mere evaluacije
koje su pomenute u ovom delu su prikazane na slici 7.1. One ukljuuju tanost (eng. accuracy)
takoe poznatu kao stopa priznavanja, osetljivost (eng. sensitivity), specifinost (eng.
specificity), preciznost (eng. precision), F1 i F.

Slika 7.1. Klasifikatorske mere evaluacije

Koristei trening podatke da se izvede klasifikator i onda proceni tanost rezultujueg modela,
moe dovesti do pogrenih preoptimistinih procena zbog prekomerne specijalizacije algoritma
uenja na podacima. Umesto toga, bolje je meriti tanost klasifikatora na testnom skupu koji se
sastoji od redova koji nisu korieni za kreiranje (trening) modela.

62
to se tie redova, kao to je ve pominjano, pozitivni redovi predstavljaju redove glavne klase
koja nas zanima dok negativni redovi predstavljaju sve ostale redove. Na primer, pozitivni redovi
mogu da budu buys_computer = yes dok su negativni redovi buys_computer = no.
Pretpostavimo da koristimo na klasifikator na test skupu redova sa klasnim nazivima. P je broj
pozitivnih redova i N je broj negativnih redova. Za svaki red poredimo predikciju koju je obavio
klasifikator sa poznatim klasnim nazivom tog reda.

U raunanju mnogih mera za procenu se koriste etiri veliine na osnovu kojih se formira
matrica konfuzije (confusion matrix), prikazanoj na Slici 7.2.:
True positives (TP): Oni se odnose na pozitivne redove koji su pravilno oznaeni od
strane klasifikatora.
True negatives (TN): Ovo su negativni redovi koji su pravilno oznaeni od strane
klasifikatora.
False positives (FP): Ovo su negativni redovi koji su pogreno oznaeni kao pozitivni
(npr. redovi klase buys_computer = no za koje je klasifikator odredio buys_computer =
yes ).
False negatives (FN): Ovo su pozitivni redovi koji su pogreno oznaeni kao negativni
(npr. redovi klase buys_computer = yes za koje je klasifikator odredio buys_computer =
no ).

Slika 7.2. Confusion matrix

Confusion matrix je korisna alatka za analizu koliko dobro klasifikator moe da prepozna redove
razliitih klasa. Veliine TP i TN definiu sluajeve kada je klasifikator u pravu, dok FP i FN
sluajeve kada klasifikator grei, tj. odreuje pogrenu klasu. Za dati klasni atribut sa m klasa
(gde je m 2), confusion matrix je veliine najmanje m x m. Kod matrice za idealni klasifikator,
sve vrednosti se nalaze u dijagonali od elementa 1,1 ka elementu m,m a ostale vrednosti u matrici
bi bile nule.

Slika 7.3. Matrica konfuzije za klase buys_computer = yes i buys_computer = no

63
Tabela koja prikazuje matricu konfuzije moe da poseduje dodatne redove ili kolone da bi se
prikazali totali. Na primer, u tabeli na slici 7.3, pored P i N su prikazani i P, broj redova koji su
obeleeni kao pozitivni (TP + FP) i N, broj redova koji su oznaeni kao negativni (TN + FN) .
Ukupan broj redova je TP + TN + FP + TN, ili P + N , ili P + N. Ova tabela prikazuje matricu
sa dve klase: buys_computer = yes (pozitivna) i buys_computer = no (negativna). Brzim
pogledom na matricu, lako je videti koliko odgovarajui klasifikator grei u odreivanju klasa.
Na primer, moe se videti da je pogreno oznaio 412 no redova kao yes.

Tanost klasifikatora (eng. accuracy) na datom test setu je procenat test redova koji su ispravno
klasifikovani od strane klasifikatora.

U literaturi prepoznavanja oblika, to se takoe naziva celokupna stopa prepoznavanja


klasifikatora, tj. odraava koliko dobro klasifikator prepoznaje redove iz razliitih klasa.

Takoe se moe govoriti o stopi greaka (eng. error rate) ili stopi pogrenih klasifikacija (eng.
misclassification rate) klasifikatora, M, koja je 1 - accuracy(M), gde accuracy(M) predstavlja
tanost od M. Ovo se takoe moe izraunati na sledei nain:

Sada se dolazi do problema disbalansa klasa u sluajevima kada je glavna klasa retka, tj.
distribucija podataka odraava znaajnu veinu negativne klase i manjinu pozitivne klase. Na
primer, meu aplikacijama koje su pokuaj prevare, interesna klasa (ili pozitivna klasa) je
fraud, koja se javlja mnogo ree nego negativna nonfraudulant klasa. U medicinskim
podacima, moe postojati retka klasa, kao na primer cancer. Pretpostavimo da je klasifikator
istreniran da klasifikuje medicinske redove sa podacima, gde je klasni naziv atributa cancer i
mogue vrednosti atributa su yes i no. Stopa tanosti od, recimo, 97% se moe initi kao da
je klasifikator izuzetno taan, ali ta ako su samo, recimo, 3% procenta trening redova zapravo
rak (eng. cancer)? Oigledno, stopa tanosti od 97% ne moe biti prihvatljiva mogue je da
klasifikator pravilno obeleava samo redove koji nemaju vrednost cancer na primer, i da
pogreno klasifikuju sve cancer redove. Umesto toga, potrebne su druge mere koje imaju uvid
u to koliko dobro klasifikator moe da prepozna pozitivne redove (cancer = yes) i koliko dobro
moe da prepozna negativne redove (cancer = no).

Mere osetljivost (eng. sensitivity) i specifinost (eng. specificity) mogu biti koriene u tu svrhu.
Osetljivost se takoe naziva i pravom pozitivnom stopom (prepoznavanja), tj. razmera pozitivnih
redova koji su ispravno identifikovani, dok je specifinost prava negativna stopa, tj. razmera
negativnih redova koji su ispravno identifikovani. Ove mere se definiu kao:

64
Kao to moe da se vidi, tanost je funkcija osetljivosti i specifinosti:

( ) ( )

Slika 7.4. prikazuje matricu za medicinske podatke gde su vrednosti klase yes i no za klasni
atribut cancer.

Slika 7.4. Matrica za klase cancer = yes i cancer = no

Osetljivost klasifikatora je 90/300 = 30.00%. Specifinost je 9560/9700 = 98.56%. Sveukupna


tanost klasifikatora je 9650/10000 = 96.50%. Iako klasifikator poseduje visoku tanost, njegova
sposobnost da pravilno oznai pozitivnu (retku) klasu je slaba sa obzirom na njegovu nisku
osetljivost (eng. sensitivity). Poseduje visoku specifinost, to znai da moe precizno da
prepozna negativne redove.

Mere preciznost (eng. precision) i recall su takoe u irokoj upotrebi u klasifikaciji. Preciznost se
moe posmatrati kao mera tanosti, odnosno koliki procenat redova koji su obeleeni kao
pozitivni su zapravo pozitivni, dok je recall mera potpunosti, odnosno koliki procenat pozitivnih
redova je obeleen tako (pozitivno). Ove mere se definiu kao

65
Preciznost klasifikatora na Slici 7.4 za yes klasu je 90/230 = 39.13%. Recall je 90/300 = 30.00%,
to je isti broj kao i osetljivost iz prethodnog primera.

Savren rezultat preciznosti od 1.0 za klasu C znai da svaki red koji je klasifikator oznaio da
pripada klasi C zaista i pripada klasi C. Meutim, to ne govori nita o broju redova iz klase C
koje je klasifikator pogreno oznaio. Savreni recall rezultat od 1.0 za C znai da svaki predmet
iz klase C je i oznaen tako, ali ne govori nita o tome koliko drugih redova je pogreno
oznaeno da pripada klasi C. Postoji tendencija za inverznom vezom izmeu preciznosti i recall-
a, gde je mogue poveati jedno ali se za uzvrat smanjuje drugo. Na primer, medicinski
klasifikator moe da postigne visoku preciznost tako to e da oznai sve cancer redove koje
predstavljaju na jedan nain cancer, ali moe da ima mali recall u sluaju da pogreno oznai
mnoge druge instance cancer redova. Rezultati preciznosti i recall-a se esto koriste zajedno, gde
vrednosti preciznosti porede za fiksnu vrednost recall-a, ili obrnuto. Na primer, moemo porediti
vrednosti preciznosti za recall vrednost od, recimo, 0.75.

Alternativan nain korienja preciznosti i recall-a je da se kombinuju u jednu meru. Ovo je


pristup F mere i F mere gde predstavlja pozitivan realan broj. F mera predstavlja sredinu
preciznosti i recall-a. Daje podjednaku vanost i preciznosti i recall-u. F mera dodeljuje puta
vie teine recall-u nego preciznosti. esto koriene F mere su F2 (koje daju na teini dva puta
vie recall-u nego preciznosti) i F0.5 (koje daju na teini dva puta vie preciznosti nego recall-u).

( )

Postavlja se pitanje da li postoje drugi sluajevi gde tanost nije dobro utvrena? Kod problema
sa klasifikacijom, obino se pretpostavlja da se svi redovi mogu jedinstveno klasifikovati, tj. da
svaki trening red moe da pripada samo jednoj klasi. Ipak, zahvaljujui velikoj raznolikosti
podataka u velikim bazama, nije uvek razumno pretpostaviti da se svi redovi mogu jedinstveno
klasifikovati. Umesto toga, verovatnija je pretpostavka da svaki red moe da pripada vie nego
jednoj klasi. Kako se onda moe izmeriti tanost klasifikatora na velikim bazama podataka?
Mera tanosti nije pogodna, zato to ne uzima u obzir mogunost da redovi mogu pripadati ne
samo jednoj klasi ve veem broju klasa.

Umesto vraanja klasnog naziva, korisno je vratiti verovatnou klasne raspodele. Mere tanosti
bi mogle tada koristiti heuristiku drugog pokuaja, po kojoj se predikcija klase ocenjuje kao
ispravna ako se sloi sa prvom ili drugom najverovatnijom klasom. Iako ovo uzima u obzir,
donekle, nejedinstvenu klasifikaciju redova, to nije potpuno reenje.

Pored mera baziranih na tanosti, klasifikatori se mogu uporediti u skladu sa sledeim dodatnim
aspektima:

66
Brzina (eng. speed): Ovo se odnosi na raunarsku cenu ukljuenu u generisanje i
korienje klasifikatora.
Robusnost (eng. robustness): Ovo je sposobnost klasifikatora da napravi tane predikcije
sa datim podacima koji imaju um ili podacima kojima nedostaju vrednosti. Robusnost se
obino procenjuje nizom sintetikih skupova podataka koji predstavljaju razliite stepene
podataka sa umom i nedostajuim vrednostima.
Skalabilnost (eng. scalability): Ovo se odnosi na sposobnost da se efikasno konstruie
klasifikator sa datim velikim koliinama podataka. Skalabilnost se obino procenjuje
nizom skupova podataka koji se poveavaju u veliini.
Interpretacija (eng. interpretability): Ovo se odnosi na nivo razumevanja i uvida koji je
dobijen od strane klasifikatora. Interpretacija je subjektivna i stoga se tee procenjuje.

67

You might also like