Professional Documents
Culture Documents
UPRAVLJANJE PODACIMA
Poslovna Inteligencija
2015
Sadraj
1 Uvod ................................................................................................................................................ 2
2 Osnovni pojmovi baza podataka ..................................................................................................... 4
2.1 Poznavanje podataka .............................................................................................................. 7
2.2 Objekti i tipovi atributa ........................................................................................................... 8
2.3 Osnovni statistiki pokazatelji podataka................................................................................. 9
3 Definicija, uloga i funkcija skladitenja podataka ......................................................................... 15
3.1 Uloga skladita podataka ...................................................................................................... 16
3.2 Funkcije skladita podataka .................................................................................................. 17
3.3 Osnovni modeli skladita podataka ...................................................................................... 21
3.4 Osnovni pojmovi i skraenice skladitenja podataka............................................................ 23
4 Sistemi za podrku odluivanju ..................................................................................................... 24
4.1 Savremeni sistemi za podrku menadmentu ...................................................................... 25
4.2 Ekspertni sistemi ................................................................................................................... 27
4.3 Integracija SPO i ES ............................................................................................................... 30
5 Otkrivanje zakonitosti u podacima (OZP) ..................................................................................... 31
5.1 CRISP DM metodologija ..................................................................................................... 31
5.1.1 Razumevanje poslovnog problema ............................................................................... 32
5.1.2 Razumevanje podataka ................................................................................................. 33
5.1.3 Priprema podataka........................................................................................................ 35
5.1.4 Modelovanje reenja .................................................................................................... 35
5.1.5 Ocena OZP reenja ........................................................................................................ 38
5.1.6 Primena OZP reenja ..................................................................................................... 39
5.2 Zablude u OZP ....................................................................................................................... 39
6 KLASIFIKACIJA................................................................................................................................ 40
6.1 Osnove Klasifikacije............................................................................................................... 40
6.2 Generalni pristup klasifikaciji ................................................................................................ 41
6.3 Stablo odluke ........................................................................................................................ 42
6.4 Mere za izbor atributa .......................................................................................................... 46
6.5 Potkresivanje stabla .............................................................................................................. 54
6.6 Skalabilnost i stabla odluke ................................................................................................... 57
6.7 Vizuelno rudarenje i stablo odluke ....................................................................................... 59
7 Evaluacija modela i selekcija ........................................................................................................ 62
1
1 Uvod
2
Poslovna inteligencija predstavlja skup tehnologija i zasniva se na brojnim metodama
obrade podataka sa ciljem podrke odluivanju u poslovnim procesima.Interaktivni analitiki
procesi u interpretiranju podataka ine informacionu osnovu za primenu koncepta poslovne
inteligencije i predstavljaju osnov podrci za donoenje poslovnih odluka.
Tokom 60-ih, 70-ih i 80-ih godina prolog veka znaajan deo velikih kompanija
uspeno je prebacio kljune aspekte poslovanja na velike raunarske sisteme. 80-ih godina do
te mere sazreva primena relacionih baza podataka, da su neretko preuzele vodeu ulogu u
okvirima implementiranih raunarskih sistema. Zahtevi operacionih sistema takvih reenja
postaju sve znaajniji, tako da se dobavljai softvera za baze podataka iskljuivo usmeravaju
ka poboljanju brzine transakcija, integriteta i pouzdanosti. Primenjene metode na alost
usmeravane su suprotno zahtevima koje je trebalo da zadovolje izvetaji, kao i slobodnim
formama koje su nametali upiti. Tehnike indeksiranja, provere integriteta, modeli podataka i
logovanje pojedinih transakcija znatno su oteale sposobnost pristupa podacima iz
operacionih skladita. Na odgovore na postavljena pitanja se ponekad moralo ekati i po
nekoliko nedelja. Pri tom se deavalo da korisnici budu suoeni sa kontradiktornim
informacijama razliitih primenjenih sistema.
Iako se koreni BI mogu nai jo u okvirima prvih aplikacija za obradu podataka, ove,
u poetku relativno jednostavne aplikacije pokrivale su najee pojedinane aktivnosti meu
kojima su bila plaanja i potraivanja. Geneza reenja pomenutih problema iziskivala je
razvoj neophodnog hardvera koji je, pored estih promena tehnologije nuno evoluirao kako
bi se vreme obrade minimalizovalo. Struktura podataka u vidu tzv. master datoteka smetenih
na diskovima je brzo prerasla u baze podataka - centralizovane, zbirne podatke koji u
okvirima mainframe i kasnije client/server sistema postaju dostupni aplikacijama. Vreme
izvrenja transakcija postajalo je sve krae (2-3 sekunde) to je ubrzano uvoenjem online
aplikacija koje su predstavljale evolutivni nastavak online obrade transakcija. Online
aplikacije su meusobno povezane centralizovanim online bazama podataka koje
predstavljaju osnovu za njihovo nesmetano odvijanje. Online aplikacije donose drastino
smanjenje vremena pristupa i dostupnosti samih informacija, tako da zajedno sa online
transakcijama zauzimaju centralno mesto u okviru direktne interakcije sa korisnicima, to de
facto postaje standard kojeg najbre prepoznaju upravo finansijske institucije.
3
Slika 1. Aktivnosti sistema poslovne inteligencije
odluivanje (EIS, DSS), kreiraju upiti i proizvode izvetaji, obavlja online analitika obrada
podataka
Baza podataka: dobro struktuirana kolekcija podataka koju koristi i odrava vie korisnika
odnosno programa (aplikacija).
Ulazi u DBMS :
1.Upiti, specifikovani zahtevi za podacima iz baze, preko kojih moe i da se menja sadraj
baze podataka
2.Aplikacijeu nekom programskom jeziku preko kojih se pretrauje i menja sadraj baze
podataka
3.eme, koje opisuju strukturu baze podataka, pravila integriteta i pravila korienja.
Jezik za opis podataka (Data Definition Language DDL) koristi se za odravanje eme
baze podataka
SQL (Structured Query Language) je standardni relacioni jezik baza podataka. Preko njega
se definiu:
Struktura relacionog modela (skup tabela, atributa, kljueva i dr.)
4
Skup ogranienja na vrednosti atributa
Dinamika pravila integriteta
Transakcija je niz operacija nad bazom podataka koja odgovara jednoj logikoj jedinici
posla u realnom sistemu. Mora da zadovoljava 4 ACID osobine :
Modeli podataka: teorije pomou kojih se specifikuje i projektuje konkretna baza podataka
ili informacioni sistem uopte. Najee su zastupljeni:
Model objekti-veze
Relacioni Model
Objektni Model
5
Slika 3. Relacioni model
6
Slika 4. Objektni model
Slika 3. ilustruje concept relacionog modela. Model je opisan entitetima, tj. relacionim
tabelama Student, Predmet, Radnik, Nastavnik i AdminOsoblje. Relacija Student se sastoji od
skupa atributa koji opisuju tu relaciju (Broj indeksa: BrojInd, Ime i Smer). Broj indeksa je
jedinstveni identifikacioni atribut, koji je u oznaavanju relacije podvuen. Tabele mogu da
se koriste i da predstave relacije izmeu razliitih entiteta. Na primer, tabela Slua sadri
relacije izmeu Studenata i Predmeta koji Studenti sluaju.
U cilju dobijanja odgovora na ova pitanja, u ovom Poglavlju su prvo proueni tipovi
atributa, kao to su nominalni atributi, binarni atributi, redni atributi i numeriki atributi.
Osnovni statistiki pokazatelji se koriste za dobijanje predstave o vrednostima svakog od
atributa. Na primer, za dati atribut temperatura, moemo da odredimo njegovu prosenu
vrednost (mean), medijanu (median) koja predstavlja srednju vrednost atributa ili mod
(mode), koji predstavlja najeu vrednost atributa. Ovo su mere centralne tendencije, koje
nam daju predstavu o centru distribucije vrednosti posmatranog atributa.
Najzad, elimo da ispitamo koliko su slini (ili razliiti) odreeni objekti podataka.
Na primer, pretpostavimo da imamo bazu podataka u kojoj su objekti pacijenti, opisani
odreenim simptomima. elimo da utvrdimo slinosti ili razliitosti izmeu individualnih
pacijenata na osnovu primenjenih tretmana za odreene vrste bolesti. Informacije ovog tipa
nam omoguuju da uoimo klastere, tj. grupe objekata koji su slini na osnovu odreenih
vrednosti atributa, kao i ablone koji se ponavljaju za odreene grupe vrednosti atributa.
8
podataka, u objektnom programiranju i mainskom uenju se koristi termin svojstvo, dok se
promenljiva koristi u statistici. Atributi koji opisuju objekt Kupac mogu biti IdKupca, Ime i
Adresa. Posmatrane vrednosti odreenog atributa se nazivaju Opaanja. Skup atributa koji se
koristi da opie dati objekat se naziva vektor atributa ili vektor svojstava. Tip atributa je
odreen skupom njegovih moguih vrednosti - nominalni, binarni, redni ili numeriki.
Prva tri atributa su kvalitativni atributi, dok je numeriki atribut kvantitativni. Za razliku od
kvantitativnih atributa, kvalitativni ne daju aktuelnu veliinu odnosno kvantitet atributa.
Numeriki atribut daje mernu koliinu, predstavljenu celim ili realnim brojevima. Ovi
atributi mogu da budu intervalni ili relativni. Intervalni atributi se mere na skali koja moe
da ima negativne vrednosti, nulu i pozitivne vrednosti. Pored mogunosti da se vrednosti ovih
atributa mogu da ureuju, ovi atributi omoguuju da se uporede i kvantifikuju razlike izmeu
njihovih vrednosti.Temperatura u stepenima Celzijusa je primer intervalnog atributa.
Moemo da kaemo da je temperatura od 40 stepeni za 20 vea od temperature od 20 stepeni.
Meutim, ne moemo da kaemo da je 40 stepeni dve puta toplije od temperature 20 stepeni.
Ovu osobinu, meutim, imaju relativni atributi, jer imaju definisanu vrednost 0, tj vrednost
kada nema atributa. Primer relativnog atributa je temperatura u Kelvinovim stepenima.
Ovo Poglavlje razmatra tri oblasti osnovnih statistikih opisa. Poinje sa merom
centralne tendencije, koja meri poziciju centra distribucije podataka. Pored procene centralnih
tendencija podataka, vano jeda razumemo disperziju podataka, odnosno kako se podaci ire
u odnosu na srednju vrednost. Najeemere disperzije podataka su opseg, kvartal,
9
meukvartalni raspon; pregled pet brojeva,boxplot,varijansa i standardna devijacija
podataka. Te mere su posebno korisne za identifikovanje ekstremnih vrednosti (outliers).
10
Ova vrednost se oznaava kaoteinska aritmetikasrednja vrednost ili
teinskasrednja vrednost.
Iako je srednja vrednost najkorisnija mera za opisivanje centralne tendencije, ona nije
uvek najbolji nain za odreivanjesredine podataka. Veliki problem sa srednjom vrednosti je
osetljivost na ekstremne (outlier) vrednosti. ak i mali broj ekstremnih vrednosti moe
znaajno da pomerisrednju vrednost. Na primer, srednja vrednost plata u kompaniji moe da
bude znaajno uveana zbog malog broja izuzetno visokih plata menadera. Slino, srednja
ocena nekog ispita moe znaajno da se smanji zbog nekolicine veoma loih studenata. Da bi
se ovo izbeglo, koristi se redukovana srednja vrednost, koja se dobija kada se izbace
ekstremne vrednosti iz formule. Trebalo bi izbegavati odsecanje suvie velikih delova
(recimo 20%) na oba kraja, jer to moe da rezultira gubitkom vredne informacije.
Primer Medijana
11
grupisani u intervalima prema vrednosti xipodataka i da je frekvencija (tj. broj podataka koji
imaju odreenu vrednost) za svaki interval poznat. Na primer, slubenici mogu biti grupisani
prema platama u intervalima 10-20.000, 20-30.000, i tako dalje. Neka interval koji sadri
medijan frekvenciju bude interval medijana. Moemo aproksimirati medijanu celog skupa
podataka (tj. medijanu plata) koristei interpolaciju po formuli:
gde je L1donja granica intervala, N broj vrednosti u celom skupu podataka, freqfrekvencija
intervala, freqmedian frekvencija medijan intervala, i width irina intervala.
Primer - Mod
12
(a) Simetrini podaci (b) Pozitivno nakoeni (c) Negativno nakoeni
13
Rastojanje izmeu prvog i treeg kvartala je se naziva meuetvrtinski raspon (IQR) i
definisan je kao:
IQR = Q3 - Q1
Pregled pet brojeva se sastoji od pet vrednosti: medijane (Q2), kvartala Q1 i Q3,
najmanjeg i najveeg pojedinanog zapaanja( Minimum, Q1, medijan, Q3, Maksimum).
14
3 Definicija, uloga i funkcija skladitenja podataka
Subjektna usmerenost podataka znai da se oni organizuju oko predmeta, na nain da daju
informacije o tano odreenim predmetima u okviru funkcionalnih podruja (npr. u okviru
prodaje, nabavke.) umesto o tekuim operacijama preduzea. Suprotno tome, operativne
baze podataka organizovane su oko poslovnih aplikacija, dakle usmerene su na tekue
operacije (npr.obrade narudbenica, isporuka i sl.).
Integrisanost - podaci se skupljaju u bazu podataka iz razliitih izvora i sakupljaju uvek
uistom formatu, te su konzistentni i prikazuju se na dosledan nain.
Vezanost uz vreme - svi podaci u skladitu podataka vezani su i identifikuju se uz odreeni
vremenski period, to znai da imaju istorijski karakter. Za razliku od njih, u operativnim
bazama podataka sauvani su samo aktuelni, najsveiji podaci. Meutim, s gledita koncepta
poslovne inteligencije, sveobuhvatno predvianje buduih dogaaja nije mogue provesti bez
poznavanja istorije istih, ili nekih drugih dogaaja.
Sadrajna nepromenjivost - podaci u skladitu su stabilni i kad se jednom sauvaju u
skladite,po pravilu se ne menjaju. Time se omoguuje da menadement ili svako ko koristi
skladite podataka moe biti siguran da e dobiti jednak odgovor nezavisno od vremena ili
uestalosti postavljanja upita.
15
implementaciji skladita podataka potrebno je usaglasiti i niz pitanja bitnih za uspostavljanje
projekta skladita. Npr. pre implementacije projekta potrebno je identifikovati poslovni interes za
izgradnjom i upotrebom skladita podataka za potrebe svog poslovanja, dogovoriti izvore
finansiranja, razviti kriterijume za odreivanje poslovne upotrebljivosti skladita podataka,
provesti intervju korisnika o traenim informacijama, identifikovati izvore podataka za
popunjavanja skladita podataka, odluiti se za veliinu skladita podataka, utvrditi vrstu sa
aspekta sadraja, odrediti fiziku lokaciju, doneti odluku o izgradnji ili kupovini skladita
podataka, napraviti odabir najpovoljnijih alata i sistema za upravljanje bazama, reiti pitanje
zapoljavanja itd. Na kraju implementacije sledi putanje sistema u rad, trening korisnika u cilju
potpunog iskoritenja instaliranih alata, upravljanje sistemom skladitenja,
dodavanjem, modifikovanjem i razvijanjem istog itd.
Poveanje konkurentnosti
Poveanje produktivnosti odluivanja
Poveanje kvaliteta odluivanja
Iz prethodno navedenih definicija, obinim jezikom reeno, glavni cilj skladita podataka
jeosloboditi informacije koje su "zakljuane" u bazama podataka i "pomeati" ih s
informacijama iz ostalih, u pravilu spoljanjih izvora podataka. Velike organizacije danas sve
vie trae dodatne podatke iz spoljanjih izvora, kao to su npr. podaci o konkurenciji,
demografski trendovi, prodajni trendovi i sl.
Da bi skladite podataka moglo ispuniti cilj i svrhu svog postojanja, mora pre svega
ispuniti sledee preduslove:
Mora osigurati pristup svim zaposlenim u preduzeu, a ne samo menaderima, znaimoe
sluiti velikom broju ljudi. Taj pristup mora biti pouzdan, brz i jednostavan.
Skladite treba sadrati veliku koliinu detaljnih podataka. To znai da sve
poslovnetransakcije relevantne za donoenje poslovnih odluka koje su nastale u
16
procesima preduzea moraju biti evidentirane u skladitu podataka. Uneseni podaci
trebaju biti konzistentni, npr. ako je sa dva razliita mesta u razliito vreme postavljen
jednak upit i rezultat tih upita mora biti isti.
Osveavanje, odnosno auriranje novim podacima treba biti kontinualan proces,
pomogunosti treba se odvijati u stvarnom vremenu praktino odmah nakon to se
nekiposlovni dogaaj odigrao ili odmah po zavretku nekog procesa.
Mora biti uvek raspoloivo i oblikovano na nain da moe posluiti svakoj svrsi kojunije
uvijek mogue unapred predvideti.
Treba predvideti mogunost izdvajanja i meusobnog povezivanja podataka u smislu
dobijanja svih mera i pokazatelja poslovanja u preduzeu (engl. slice and dice).
Podaci u skladitu koji se skupljaju iz razliitih izvora, iste se uz osiguranje kvalitetai
samo takvi su dostupni korisnicima. Loi ulazni podaci ne mogu davati dobre
izlaznepodatke.
Mora biti proirivo da bi moglo pratiti strategiju proirenja poslovanja preduzea.
I na kraju, mora zadovoljiti odgovarajue mere zatite tajnosti osetljivih podataka tose
postie sprovoenjem rigoroznih mera uvanja tajnosti.
Pomou tehnika otkrivanja znanja, skladite podataka osigurava stalno pronalaenje novih
informacija zavisno od novonastalih uslova i zahteva. Procesi za generisanje informacija
(ekstrakcije, agregacije, analize, izvetaji itd.) izdvojeni su iz operativnih procesa, to znai da
operativni nivo sistema vie nije njima optereen. Sada skladite podataka postaje mesto
skupljanja i uvanja poslovnih podataka i izvor informacija korienih pri poslovnom
odluivanju.
Strukturu skladita podataka ine dva osnovna dela, a to su podaci i mehanizmi manipulacije
tim podacima. Deo skladita gde se nalaze podaci sastoji se od osnovnih podataka i agregiranih
viedimenzionalnih podataka, a mehanizme manipulacije predstavljaju procesi ekstrakcije,
transformacije i punjenja podataka (ETL), sistem upravljanja podacima, postupci analitike
obrade podataka i sama prezentacija podataka.Na Slici 3.1. prikazana je struktura skladita
podataka predstavljena u dva dela.
17
Slika 3.1. Struktura skladita podataka predstavljena u dva dela
ETL procesi
Pre samog poetka ETL procesa potrebno je izvriti pripremne aktivnosti vezane uz
reformu, usklaivanje i ienje podataka. Izvorne podatke,uvezene iz razliitih datoteka i baza
podataka, potrebno je prikazati u jedinstvenom formatu. U tom formatu podaci e se koristiti u
svim daljim fazama obrade. Usklaivanje podataka se sprovodi da bi se izbegla redundancija
18
podataka. Osim to se u informacionom sistemu isti podaci mogu pojaviti na vie mesta, oni
mogu biti i nedosledni, odnosno njihove vrednosti nisu iste na svim mestima na kojima se ti
podaci javljaju. Radi toga potrebno ih je otkriti i uskladiti. ienje, kao pripremna aktivnost
ETL procesa ima zadatak da ukloni one podatke koji se pojavljuju kao posledica ranijih greaka
u radu informacionih sistema (greke podrazumevaju podatke koji nisu kompletni, tani,
konzistentni i sl.) ili zbog namernih ubacivanja netanih i lanih podataka u sistem
(raunarski virusi i sl.).
Uopteno, karakteristika standardnih ETL alata je da,ako imaju bolje performanse vezane uz
procese ienja, tada im je slabiji kapacitet vezan uz procese transformacije ili obrnuto. Pa je
pre izbora potrebno znati karakteristike podataka koji e se nai u skladitu podataka. Na primer,
ako se unaprijed zna da e biti puno podataka koji zahtevaju postupak transformacije tada treba
odabrati ETL alate koji su "jai" u procesima transformacije, ili obrnuto.
Ekstrakcija podataka
Proces ekstrakcije podataka potrebno je sprovoditi na nain da pri tom redovni operativni
poslovi to manje trpe. Programi i alati za ekstrakciju oblikovani su tako da ETL procese mogu
obavljati to produktivnije, uz nastojanje da potrebne podatke iz operativnih procesa uvoze to je
mogue bre. Pri tom se kao problem moe pojaviti potencijalno visok stepen redundancije
podataka u transakcionim sistemima, pa treba odabrati takav pristup ekstrakciji kojim se vri
zahvatanje samo onih podataka koji e se koristiti u aplikacijama poslovne inteligencije.
19
Skrivenaprocesna logika - moe predstavljati problem koji usporava
processtransformacije kad se za zahvatanje podataka koriste softverski sistemi stari
nekoliko decenija i danas vie niko ne zna kako oni rade. U njima se moe naii na
arhaine odnose meu podacima koje nije lako protumaiti, ukoliko ih je potrebno
transformisati u neki drugi poznati tip odnosa. Takva procesna logika moe biti velik
problem kao izvor greaka koje treba ispravljati.
20
Neprekidno inkrementalno punjenje: Vri se neprekidno. Nakon svake promene u
operacionim IS mehanizmom okidaa vri se prenos podataka ka skladitu podataka.
Na Slici 3.2. prikazan je tok ETL procesa vanih u kreiranju skladita podataka i jednim
od preduslova za razvijanje i primenu koncepta poslovne inteligencije.
Slika 3.2. Mesto i tok ETL procesa u kreiranju koncepta poslovne inteligencije
21
dvoslojne arhitekture skladita je da ono slui veem broju organizacionih jedinica preduzea
kao i pojedinanim korisnicima. Takva skladita su velikog obima i vrlo sloena, a u njima se po
pravilu skladiti ogromna koliina podataka. eme podataka prema kojima se vri uvanje
podataka treba da podravaju iroku lepezu aplikacijskih zahteva. Iz navedenog je vidljivo da su
trokovi odravanja takve arhitekture visoki i potreban je znaajan angaman i vreme odreenog
broja i profila strunjaka.
Ovaj model sastoji se od veeg broja lokalnih skladita podataka i jednog zajednikog
skladita podataka koje je smeteno izmeu skladita podataka i razliitih izvora podataka unutar
i izvan preduzea. Skladita podataka oslanjaju se na centralno skladite podataka koje im
isporuuje podatke u obliku koji daje ujednaen uvid u sve segmente poslovanja preduzea. U
odnosu na prethodna dva modela prednosti troslojne arhitekture su vea tanost informacija,
nevezano s kojeg izvora su zahvaene, olakana je komunikacija meu organizacionim
jedinicama, smanjena je optereenost informatiara, poveana je skalabilnost i proirivost
platforme za skladitenje podataka i na kraju ova arhitektura prua mogunost koritenja
spoljanjih aplikacija ime se omoguava povezivanje svih subjekata u lancu vrednosti.Na Slici
4.1. prikazan je primer troslojnog modela sistema skladitenja podataka.
22
Slika 4.1.Troslojni model sistema skladitenja podataka
23
Sl. 4.1. Trodimenzionalna kocka
Podsistem baze podataka predstavlja deo SPO u kome se uvaju ulazni i izlazni podaci
organizacije, ova baza se razlikuje od klasinih relacionih baza podataka
Podsistem baze modela komponenta SPO koja se sastoji od poslovnih modela
odluivanja, svaki model reava odreeni problem kod odreenog poslovnog procesa.
Njihov zadatak je da na osnovu ulaznih podataka i modela odluivanja generiu izlazne
podatke na osnovu kojih DO donosi odluku. Kljune osobine SPO u podsistemu modela
ukljuuju sledee sposobnosti:
1. Ukljuivanje novih modela u sistem
2. Pristupanja i integraciji blokova modela radi dobijanja novog modela
3. Katalogiziranja i odravanja irokog opsega modela za razliite korisnike
4. Povezivanje ovih modela sa odgovarajuim vezama u bazi podataka
5. Upravljanje bazom modela
24
Podsistem korisnikog interfejsa treba da omogui komunikaciju izmeu SPO i
korisnika, i razloga to DO nisu specijalisti za odreeni model, te je s toga ovaj podsistem
i najvaniji. U veini sluajeva podsistem korisnikog interfejsa se sastoji iz tri dela:
1. Jezik akcije: ta korisnik moe da uini u komunikaciji sa sistemom
2. Jezik prikazivanja ili prezentacije: ta korisnik vidi
3. Baza znanja: ta korisnik mora znati
Osnovni nedostatak SPO se ogleda u problemu izbora i korienju modela iz baze modela. DO se
esto susree sa sledeim problemima: koji model izabrati, kako koristiti izabrani model, kako
kombinovati vie modela? Dodatan problem se javlja kod baze modela kada se pojavi novi
problem za ije reavanje ne postoji model u bazi modela.
Danas dve vrlo popularne tehnologije su se izdvojile sa ciljem da pruaju podrku odluivanju na
razliitim nivoima upravljanja:
Poslovna inteligencija slui za podrku odluivanju za polustrukturirane i
nestrukturirane situacije odluivanja, tj kao podrka odluivanju na stratekom i
taktikom nivou.
Upravljanje resursima preduzea (ERP) slui za podrku odluivanju na operativnom i
taktikom nivou, kao i za strukturirane i polustrukturirane situacije odluivanja.
25
sistemu. Nakon primljenog zahteva sistem treba da problem analizira tako da sistem na osnovu
znanja u sistemu i zahteva korisnika moe da generie odgovarajui odgovor, odgovor korisniku
na postavljeni zahtev sistem treba da omogui preko prezentacionog sistema.
Zahtev
Jeziki sistem
Korisnik
Sistem
Sistem za
procesirane znanja
Odgovor Prezentacioni sistem problema
26
ANALITIKI SLOJ
SISTEM PI
INTEGRATIVNI SLOJ
Skladita, metapodaci
ETL SKLADITE MODELI ODL.
Ekspertni sistemi pored osnovne namene, uvanje ekspertskog znanja, imaju jo nekoliko vanih
osobina kada se posmatraju u odnosu na SPO:
Integracijom ES i SPO znaajno se poboljava problem upravljanja bazom modela
specifinih SPO-a.
Uspeno realizovana integracija ES i SPO, predstavlja prvi korak u kreiranju novih vrsta
informacionih sistema kao to su EIS, ESS, MSS.
1. Baza znanja sadri znanje eksperta u strukturiranom formatu. Predstavlja najbitniji deo
ekspertnog sistema. Ukoliko nije predstavljena na adekvatan nain, ceo postupak
27
implementacije ekspertnog sistema moe biti uzaludan. Zbog toga je postupak
prikupljanja znanja od eksperta, transformacija ekspertskog znanja u formalni oblik i
organizacija baze znanja najbitniji proces razvoja eksperskog sistema. Uobiajeni nain
predstavljanja znanja vri se preko formalizama za predstavljanje znanja. Postoji veliki
broj metoda predstavljanja znanja u bazi znanja, a najpoznatije su sledee:
Produkciona pravila najee korieni metod predstavljanja znanja. To su pravila
oblika AKO uslov TADA posledica. Produkciona pravila predstavljaju logike
relacije meu podacima. Ovakav nain predstavljanja znanja je dosta prirodan, a to
je vrlo vano poseduje osobinu modularnosti (element predstavlja samostalnu celinu i
moe da se kombinuje sa drugim elementima sa ciljem da se stvori novo znanje).
Takoe zadovoljavaju zahtev za lakom modifikacijom baze znanja. Svako pravilo se
dodatno opisuju merama kvaliteta (support, accuracy, lift ratio). Kvalitet pravila moe
da se izrazi i preko sigurnosti pravila, a definie se na osnovu dobro odabrane skale
koja je najee u intervalu od 0 100 (faktor izvesnosti = 0 oznaava pravilo koje je
nemogue da se realizuje, vrednost faktora = 100 oznaava stanje potpune, tj
apsolutne izvesnosti posmatranog pravila).
Semantike mree znanje predstavljaju u obliku mree. Svaka mrea se sastoji od
vorova i veza meu vorovima. Veze iskazuju odnose izmeu vorova. Veze mogu
da prikazuju i nasleivanje meu vorovima.
Okviri znanja predstavljaju skupove objekata, koji se sastoje od atributa, gde svaki
atribut ima odreenu vrednost. Okviri znanja predstavljaju specijalan sluaj
semantikih mrea, gde su veze objekata i atributa ima, a atributa i vrednosti jeste.
Svaki okvir znanja ima dva dela u kome se uvaju podaci:
o Statiki deo u kome se nalaze podaci koji su isti za odreenu klasu objekata
o Dinamiki deo u kome se uvaju podaci koji su karakteristini za odreeni
objekat.
Matematika (formalna) logika kod predstavljanja znanja matematikom logikom,
koriste se najee dve vrste logika:
o Propoziciona logika sistem zakljuivanja u kome se ispituje da li je
odreena premisa tana ili ne. Veze izmeu premisa mogu biti I ili ILI, a
koristi se i veznik NE, koji se koristi za negaciju premisa. Kada se baza znanja
sastoji od premisa, tada se njihovim povezivanjem sa logikim veznicima, a
na osnovu korisnikog zahteva, generie odreeno znanje, tj daje odgovor na
odreeno pitanje.
o Predikatski raun predstavlja proirenje propozicione logike. Osnovni
element u predikatskom raunu je predikat koji predstavlja atomsku premisu
koja rastavlja premisu kod propozicione logike na objekte i veze meu njima.
Predikatski raun ukljuuje u sebi jo dva logika veznika za svaki i postoji.
Predikatska logika je mnogo povoljnija za modelovanje ljudskog jezika.
Tabela odluivanja indukciona tabela odluivanja predstavlja jo jedan vid uvanja
znanja. Tabela se sastoji od atributa i redova, a neki od atributa mogu biti izlaznog
karaktera, tj kada se se desilo stanje opisano neizlaznim atributima tada se donela
odluka koja je opisana u izlaznom atributu. Ova tabela se naziva indukciona jer se na
osnovu sluajeva datih u tabeli predvia kako e biti ponaanje u celoj populaciji, tj
induktivno.
28
Stablo odluivanja jedan od esto korienih naina za uvanje znanja, znanje se
uva u formi stabla. Stablo odluivanja uva znanje u hijerarhijskom obliku koji je
jednostavno itljiv.
29
Ukoliko se ne potvrdi nijedno od reenja ES moe da trai dodatne informacije
od korisnika.
Po Turban & Carlson ES je mogue pridodati i kao posebnu komponentu SPO. Do sada je
razvijeno nekoliko mogunosti ove vrste integracije:
1. Izlaz ES kao ulaz u SPO ovaj pristup je naroito interesantan za poetne faze svakog
procesa odluivanja, kada se DO upoznaje sa prirodom problema koji reava. ES koristi
SPO da bi se upoznao sa problematikom koju reava.
2. Izlaz SPO kao ulaz u ES ovaj pristup je posebno popularan i korien, jer ES
omoguuje korienje rezultata razliitih kvantitativnih analiza, obavljenih od strane
SPO, koji su u tom domenu, jo uvek znaajno bolji od ES. Ovde ES slui da pomogne
korisniku da protumai rezultate koje je dobio iz odreenog SPO.
3. Povratna sprega predstavlja kombinaciju prva dva pristupa, s tim to ne mora da se
koristi samo jedan ES, ve je mogue da ih bude vie.
30
5 Otkrivanje zakonitosti u podacima (OZP)
OZP (data mining) je nauna disciplina koja ima za cilj da u podacima otkrije odreena
pravila, modele i zakonitosti na osnovu kojih mogu da se donose odluke. OZP je namenjen za
analizu vee koliine podataka (u BP ili OLAP kockama) te uvodi niz novih algoritama koji
mogu da rade sa velikim obimom podataka, ali koji u odreenij meri automatizuju proces
dolaska do znanja.OZP predstavlja odlinu podrku procesu otkrivanja znanja i ne predstavlja
zamenu za klasinu statistiku analizu, ve njenu dopunu.
Razumevanje poslovnog problema je faza u kojoj se analitiar upoznaje sa problemom koji treba
da rei. U ovoj fazi se definiu ciljevi i hipoteze istraivanja, a takoe se opisuju poslovni
pojmovi iz oblasti u kojoj se radi analiza.
Razumevanje podataka je faza koja treba da pomogne analitiaru da upozna podatke sa kojima
treba da radi da bi odredio koje algoritme i metode za rad ima na raspolaganju. Takoe se
dobijaju znanja o kvalitetu, formatu i upotrebljivosti podataka za analizu.
Priprema podataka slui da bi podatke stavila u oblik nad kojim mogu da se sprovode OZP
analize. Podrazumeva ienje podataka od nepravilnosti i umova, transformaciju podataka,
formatiranje podataka, kao i eliminisanje nekih neeljenih osobina poput korelacije atributa.
Evaluacija reenja je aktivnost koja treba da ispita validnost (upotrebljivost i ispravnost, tj.
tanost i primenljivost) dobijenog OZP reenja. Ova faza se sastoji iz validacije (da li je
otkriveno znanje korisno za DO) i verifikacije (u kojoj meri je otkriveno znanje znaajno)
otkrivene zakonitosti.
Primena reenja je proces iz koga se saznaje koliko je otkrivena zakonitost zaista upotrebljiva i
ispravna jer se reenje primenjuje nad realnim okruenjem.
31
5.1.1 Razumevanje poslovnog problema
Ovo je prva faza u okiru CRISP-DM metodologije i ima za cilj da analitiar dobro razume
poslovni problem, da shvati koji je cilj koji treba da ostvari analizom, te da tokom celog procesa
OZP nikad ne izgubi iz vida ta je zapravo potrebno uraditi.
Da bi se bolje razumeo poslovni problem, bitno je znati da svaki OZP projekat moe da ima za
cilj ispunjavanje jednog ili vie OZP zadataka. Postoji nekoliko zadataka koje tehnike, metode i
algoritmi OZP-a treba da ostvare.
Redukcija je zadatak koji se izvodi sa ciljem da podaci svedu na dimenzije koje mogu da se
analiziraju na efikasan nain. Reducija se sprovodi jer su problemi koji se analiziraju
najee prevelikim brojem atributa i redova, a algoritmi i tehnike za OZP rade bolje sa
manjom koliinom podataka. Redukcija je znaajna zbog toga to moe da otkrije manji
obim podataka sa kojima algoritmi bolje rade, a da ne izgubi mnogo od tanosti dobijenih
rezultata.Modeli redukcije imaju ulogu da pripreme tj.struktuiraju podatke za analizu.
Redukcija moe biti redukcija atributa i redukcija sluajeva.Pri redukciji atributa mogue je
napraviti dve greke:
- Uzeti atribute koji ne utiu na reenje
- Ne uzeti atribute koji utiu na reenje
Da bi se izvrila redukcija sluajeva koriste se metode uzorkovanja podataka. Potrebno je
nai uzorak koji na verodostojan nain reprezentuje pretpostavljenu populaciju.
Procena (regresija) ima za cilj da otkrije zakonitost koja postoji izmeu ulaznih atributa (koji
mogu biti numerikog i kategorikog tipa) i izlaznog atributa (koji je po pravilu numerikog
tipa).
Algoritmi OZP koji se koriste za reavanje zadatka procene:
Linearna regresija
Stablo odluivanja CART
Vetake neuronske mree
Procene su zadaci koji se reavaju korienjem linearnih modela (linearna regresija), ali i
sloenijih modela (vetake neuronske mree). Linearni modeli su aproksimacija nekog
realnog, nelinearnog modela.
Klasifikacija ima za cilj da otkrije zakonitost koja postoji izmeu ulaznih atributa (koji
mogu biti numerikog i kategorikog tipa) i izlaznog atributa (koji je po pravilu kategorikog
tipa).
Najpopularniji algoritmi klasifikacije su:
Stabla odluivanja (ID3, C4.5, CHAID, CART, QUEST)
32
Logaritamska regresija
Diskriminaciona analiza
Asocijativna pravila
Klasterovanje ima za cilj da otkrije zakonitost po kojoj se podaci grupiu prema odreenoj
slinosti u klase koje nisu unapred poznate, tj. klastere. Ne postoji izlazni atribut. Zadatak
klasterovanja je da pronae pravilo po kome se objekti grupiu.Klasterovanje je proces
otkrivanja klastera takvih da su ojekti unutar klastera meusobno slini, a da su, pritom,
prilino razliiti od objekata drugih klastera.
Algoritmi klasterovanja su:
K-means
X-means
MPC K-means
Hijerarhijski klaster algoritmi
DB Scan
Kohonen SOM
Postoje razne mere slinosti koje mogu da se koriste za raunanje slinosti, a najpopularnija
je Euklidsko rasrojanje.
Klasterovanje se sprovodi iz sledeih razloga:
Klasterovanje se sprovodi kada nisu unapred poznate klase za razvrstavanje objekata
Klasterovanje prua vie informacija o prirodi grupisanja objekata
Klasterovanje omoguuje da se redukuje broj skuajeva koji se analiziraju dovoljno je
analizirati predstavnika klastera
Otkrivanje asocijativnih pravila ima za cilj da otkrije zakonitost u formi ako-tada pravila
koje postoje u podacima. Asocijativna pravila su oblika IF uzrok THEN posledica.
Algoritmi su osposobljeni da sami trae pravila koja zadovoljavaju odreene kriterijume.
OZP analitiar ili DO zadaju samo parametre pretrage za odreenim pravilima.
Najpoznatiji algoritam za otkrivanje asocijativnih pravila je A priori.
Predvianje ima za cilj da otkrije zakonitosti u podacima koji sadre vremensku dimenziju i
na osnovu podataka iz prolosti izvri ekstrapolaciju odreenih zakonitosti. Predvianje
ukljuuje sve ostale zadatke OZP.
33
Nedostajue vrednosti podataka (treba odluiti da li redove sa nedostajuim podacima
izbaciti iz analize ili koju tehniku za imputaciju koristiti)
Ekstremne vrednosti podataka (treba odluiti da li ih uzeti u obzir ili proglasiti
izuzecima)
Broj atributa (to je vie atributa, vie je redova i tee je doi do zakonitosti, treba
odluiti koje podatke zadrati u analizi a koje izbaciti)
Broj redova (veina algoritama bolje radi sa manjim dimenzijama)
Najvanije veliine koje definiu homogenost atributa ili tabele kao celine su: entropija,
gini indeks i greka klasifikacije:
entropija atributa, odnosno tabele kao celine, je Entropy = gde
predstavlja verovatnou pojavljivanja klase j pri emu se sumiranje vri po svim
kategorijama posmatranog atributa, odnosno tabele kao celine. U informacionoj teoriji,
entropija predstavla meru za kvalitet informacije. Entropija je jednaka nuli ako atribut
odnosno atributi imaju samo jednu kategoriju, a dostie maksimalnu vrednost ako sve
kategorije imaju jednaku verovatnou pojavljivanja
gini indeksse definie kao, Gini Index = . Kao i za entropiju, gini indeks je nula
kada postoji samo jedna kategorija i postie maksimalnu vrednost kada su sve kategorije
jednakih verovatnoa pojavljivanja. Ovaj parameter predstavlja meru neistoe atributa,
odnosno nemogunost predvianja izlaznog atributa na osnovu ulaznog,
greka klasifikacijeje obrunuto proporcionalna maksimalnoj verovatnoi kategorija i
uzima vrednosti izmeu nula i jedan, Classification Error = 1 max{pj}. U sluaju samo
jedne kategorije, pj je jednako jedinici, tako da je tada greka klasifikacije nula.
pri emu Vrednost(A) predstavlja skup svih moguih razliitih vrednosti atributa A, dok
|Sv| predstavlja broj atributa A ija je vrednost v.Prvi sabirak u izrazu je entropija
originalne kolekcije sluajeva S, dok drugi sabirak predstavlja oekivanu vrednost
entropije kada se S klasifikuje na osnovu atributa A;
informacija podele se definie kao:
| Sv | |S |
Split Information( S , A) log 2 ( v )
vVrednost( A) | S | |S|
racio dobitka predstavlja kolinik dobitka i informacije podele.
34
meusobno razlikuju po primenjenim kriterijumima selekcije. Najpoznatiji algoritam prve grupe
je ID3 (Interactive Dichotomizer 3), dok je u drugoj grupi CART (Classification and Regression
Trees) algoritam najznaajniji. Trea grupa vri selekciju na osnovu statistikih parametara.
Algoritam uenja obrauje skup sluajeva, znaajnih za proces klasifikacije. Cilj metoda
uenja je formiranje stabla koji korektno klasifikuje sve primere odreenog podskupa obuke. Svi
ostali sluajevi skupa obuke tada mogu da se klasifikuju na osnovu tog stabla. Ako stablo daje
ispravne odgovore za sve te sluajeve tada je ono korektno za celokupan skup obuke. Ukoliko
ovo nije ispunjeno, podskup nekorektno klasifikovanih sluajeva se dodaje poetnom podskupu,
a proces startuje iznova. Za konstrukciju ovakvog stabla se koristi strategija zavadi pa vladaj.
Zadatak je da se odabere atribut za koren stabla kao i ostali atributi za vorove tog stabla.
Algoritam C4.5 primenjuje metod koji je zasnovan na dvema pretpostavkama. Ukoliko S
predstavlja skup sluajeva, a x, y i z broj pojavljvanja kategorija X, Y i Z, tada su pretpostavke:
(1) svako korektno stablo odluke za S e sluajeve razvrstati u proporciji koja je jednaka
zastupljenosti odgovarajuih kategorija u S. Prema tome, proizvoljan sluaj pripada
x y z
kategorijama X, Y i Z sa verovatnoama, redom: , i
x yz x yz x yz
(2) atribut A e biti selektovan kao vor ukoliko je njegov informacioni dobitak najvei od
trenutno raspoloivih atributa.
Na osnovu dobijenog stabla odluke mogue je sastaviti skup klasifikacionih pravila. Svaka
putanja od korena do lista stabla definie jedno ovakvo pravilo.
35
Regresioni algoritmi: otkrivaju zakonitosti izmeu ulaznih i izlaznih podataka koristei
regresione modele;
Vetake neuronske mree: otkrivaju zakonitosti izmeu ulaznih i izlaznih podataka
koristei model neuronskih mrea.
Redukcioni algoritmi
To su analiza glavnih komponenti (Principal Component Analysis PCA) i faktorska analiza
(Factor Analysus FA).
Oba algoritma rade sa numerikim podacima i imaju cilj da se u podacima kovarijansa
(zavisnost) meu atributima ukloni, a da se povea varijansa otkrivenih komponenti i faktora tj.
da se varijabilitet koji postoji u podacima prebaci u same komponente i faktore, a ne izmeu njih.
Kada se misli na redukcione algoritme, uglavnom se misli na algoritme za redukciju atributa, dok
se problem redukcije redova najee reava metodama uzorkovanja, koje mogu isto da se shvate
kao jedan vid redukcionih algoritama.
Stabla odluivanja
Znanje koje se predstavlja u formi stabla odluivanja ima svojstva hijerarhijske ureenosti,
preglednosti i jednostavnosti u tumaenju. Svako stablo predstavlja hijerarhijski ureen skup
asocijativnih pravila. Stabla odluivanja koja se koriste u OZP su induktivna stabla. Sva
induktivna stabla se sastoje iz korena, vorova i listova. Koren je poetni vor po kome se skup
podataka iz koga ui stablo prvo grana. Listovi predstavljaju vorove odluke, tj. oni predstavljaju
krajnje vorove u stablu odluivanja.
Najkorienija stabla odluivanja su: ID3, C4.5, CHAID, CART, i QUEST.C4.5 i ID3
reavaju zadatak klasifikacije.ID3 koristi kriterijum informacione dobiti da bi granao stablo, tj.
da odlui koji atribut treba da se koristi kao vor pri grananju stabla. Ovaj proces se radi
iterativno dok se ne ispuni neki kriterijum zaustavljanja rasta stabla. ID3 moe da radi samo sa
kategorikim atributima.
Algoritam C4.5 predstavlja unapreenje ID3 jer moe da radi i sa ulaznim numerikim
podacima, dok izlazni atribut i dalje moe da bude samo kategoriki.C4.5 koristi kriterijum racia
informacione dobiti za grananje vora.Koristi kriterijum racia informacione dobiti (gain ratio)
koji uzima u obzir i broj katrgorija koji poseduje odreeni atribut za raunanje mere za izbor
atributa vorova. Time se omoguava da se nepristrasnije izabere vor za stablo.C4.5 grana
numerike atribute koji su izabrani kao vorovi binarno, na dva jednaka dela, dok se kategoriki
atributi granaju i kod ID3 i kod C4.5 na onoliko delova koliko postoji kategorija u atributu
voru.
36
Asocijativna pravila
Sva pravila imaju odreene mere kvaliteta, pravila na osnovu kojih analitiar, u saradnji
sa DO, odluuje da li su pravila prihvatljiva ili ne. Osnovni pokazatelji kvaliteta pravila su
podrka i poverenje.
Podrka govori koliko su procentualno odreena kategorija, klasa ili pravilo zastupljeni u
skupu podataka.
Poverenje predstavlja meru kvaliteta pravila koja predstavlja odnos izmeu zastupljenosti
celog pravila i zastupljenosti uzroka, ili izmeu podrke celog pravila i podrke uzroka
pravila. Poverenje predstavlja uslovnu verovatnou P(TADA deo pravila|AKO deo
pravila).
Klaster algoritmi
Regresioni modeli
37
zadataka redukcije, procene, klasifikacije, klasterovanja i predvianja.One predstavljaju za DO
crnu kutiju jer DO zadaje samo odreeni ulaz, a VNM mu vraa eljene rezultate.
Vetake
Redukcioni Regresioni Stablo Klaster Asocijativna
neuronske
algoritmi algoritmi odluivanja algoritmi pravila
mree
Redukcija X X X X X X
Procena X X X
Klasifikacija X X X X
Klasterovanje X
Asocijacija X
Predvianje X X X X X
Proces OZP nije zavren dok se ne izvri analiza dobijenog znanja, tj dok se ne vidi
koliko su otkrivene zakonitosti validne.Faza ocene i modelovanje zakonitosti se prepliu i
zapravo se i rade paralelno u procesu OZP. Faza ocene treba da pokae koliko je otkrivena
zakonitost znaajna. Na osnovu rezultata o znaajnosti otkrivene zakonitosti DO odluuje da li je
otkrivena zakonitost zanimljiva i da li moe da se koristi u unapreenju poslovnog procesa.
Proces ocene reenja je kljuan proces u OZP. Ocena reenja omoguava DO da sazna da
li je otkriveno znanje verodostojno, da li moe da se upotrebljava u poslovnom procesu i da li od
otkrivenog znanja moe da se oekuje korist. Za sprovoenje analize podataka potrebno je
raspolagati podacima za testiranje. Poeljno je da se analiza kvalitteta modela ne radi nad
sluajevima koji su korieni za generisanje modela. Kada se radi analiza uvek se odreeni broj
sluajeva obelei kao sluajevi za testiranje i njihova uloga je da se nad njima proveri ispravnost
modela. Ipak, tek kada se otkriveno znanje ukljui u poslovni proces, videe se koliko je znanje
zaista validno. DO meutim nee dozvoliti upotrebu znanja u poslovnom procesu dok mu proces
analize ne da valjane rezultate.
38
5.1.6 Primena OZP reenja
Pored kvaliteta koji otkrivena zakonitost treba da poseduje, potrebno je ispuniti dodatne
predpostavke. To su:
1. Podrka top menadmenta ukoliko ona ne postoji nemogue je primeniti OZP reenja u
organizaciji.
2. Razuman obim projekata OZP ukoliko je projekat suvie ambiciozan, teko e biti
prihvaen
3. Sklad izmeu kadrova iz menademnta i informacionih sistema ukoliko meu njima
vladaju razmirice novo reenje ne moe da zaivi
4. Detaljno razraen plan uvoenja reenja u organizaciju koji treba da vodi rauna o tome
da novo reenje donosi:
Nov nain rada
Potrebu za obukom zaposlenih
Potrebu za novim izvetajima
Podrka cele organizacije
OZP daje odgovore na naa pitanja. Algoritmi automatski pronalaze reenja za probleme.
OZP je nezavisan od DO, automan je i ne zahteva uee ljudi.
Poslovanje se brzo unapreuje uz pomo OZP alata, i brzo se isplati.
OZP alati, tehnike i algoritmi su intuitivni i jednostavni za korienje.
OZP otkriva poslovne probleme.
OZP moe da radi sa nesreenim podacima i da ih ispravi, dovede u red.
39
6 KLASIFIKACIJA
Klasifikacija je oblik analize podataka koja izdvaja modele koji opisuju vane klase podataka.
Takvi modeli, zvani klasifikatori, predviaju kategorike nazive klasa. Mogue je, na primer,
napraviti klasifikacioni model da kategorie zahteve za kredite u bankama na bezbedne i rizine.
Ovakve analize nam omoguavaju da mnogo bolje shvatimo velike koliine podataka. Mnoge
metode klasifikacije su predloene od strane istraivaa za machine learning, prepoznavanje
obrazaca (eng. pattern recognition) i statistiku. Veina algoritama je smetena u memoriji i
obino su male veliine. Dananja Data Mining istraivanja su razvijena tako da pruaju
skalabilne klasifikacijske i predicijske tehnike sposobne da obrauju velike koliine podataka
smetenih na disku. Klasifikacija ima raznovrsne primene, ukljuujui detekciju prevara, ciljani
marketing, predikcije performansi, primenu u proizvodnji, pri donoenju medicinskih dijagnoza.
Koncept klasifikacije se uvodi u poglavlju 6.1. Poglavlje 6.2 opisuje generalni pristup
klasifikaciji kao proces u dva koraka. U prvom koraku, pravi se klasifikacioni model zasnovan
na prethodnim podacima. U drugom koraku, utvruje se da li je tanost modela prihvatljiva, i
ako jeste, koristimo model za klasifikaciju novih podataka.
Pretpostavimo da marketing menader eli da predvidi koliko e kupac da potroi para tokom
rasprodaje u radnji. Ova analiza podataka je primer numerike predikcije, gde konstruisani
model predvia funkciju sa kontinualnom vrednou, ili sortiranom vrednou, nasuprot
kategorikim nazivima klasa. Regresiona analiza je statistika metedologija koja se najee
koristi pri numerikoj predikciji pa ta dva termina imaju tendenciju da se koriste kao sinonimi,
iako postoje drugi metodi za numeriku predikciju. Klasifikacija i numerika predikcija
predstavljaju dva glavna problema predikcije.
40
6.2 Generalni pristup klasifikaciji
Kako klasifikacija radi? Klasifikacija podataka je proces u dva koraka. Prvi korak je korak
uenja (gde se konstruie klasifikacioni model), drugi korak je korak klasifikacije (gde se model
koristi da bi se predvideli nazivi klasa za date podatke).
U prvom koraku, formiran je klasifikator koji opisuje unapred odreen skup klasa podataka ili
koncepata. Ovo je korak uenja (ili trening faza), gde algoritam klasifikacije formira klasifikator
analizirajui ili uei od skupa podataka koji se sastoji iz redova iz baze i njihovih
odgovarajuih klasnih naziva. Jedan red iz baze, X, je predstavljen n-dimenzionalnim vektorom,
X=(X1,X2,...,Xn), opisujui n merenja vrednosti atributa A1, A2, ...,An. Svakom redu iz baze, X, je
dodeljena vrednost unapred definisanog klasnog atributa baze podataka (eng. class label
attribute). Ovaj atribut poseduje diskretne, neureene, vrednosti. Svaka vrednost slui kao klasa
ili kategorija. Pojedinani redovi iz baze koji ine trening set se nazivaju trening redovima i
nasumino se obrauju iz baze podataka tokom analize. U kontekstu klasifikacije, redovi iz baze
mogu biti nazivani uzorcima, primerima, instancama, takama podataka ili objektima.
41
Proces klasifikacije je predstavljen na slici 6.1. Pod (a) je prikazana faza uenja: Trening podaci
su analizirani od strane klasifikacijskog algoritma. Klasni atribut jeloan decision, tj. odluka da li
e se dodeliti kredit dok je klasifikator predstavljen u formi klasifikacijskih pravila (eng.
Classification rules). Pod (b) je prikazanaklasifikacija novih podataka.Test podaci se koriste da
bi se utvrdila tanost klasifikacijskih pravila. Ako se tanost smatra prihvatljivom, pravila se
mogu primeniti za klasifikaciju novih podataka.
Sa obzirom da je u fazi uenja klasni atribut unapred poznat, ovafaza je takoe poznata i kao
nadgledano uenje (eng. supervised learning). Uenje klasifikatora je nadgledano u smislu da
je poznato kojoj klasnoj vrednosti svaki red pripada. To je u suprotnosti sa uenjem bez nadzora
(grupisanje, eng. clustering), gde klasni atribut nije unapred poznat.
Prvi korak klasifikacije takoe se moe posmatrati kao funkcija, Y = f(X), koja moe da predvidi
klasni naziv Y datog reda X iz baze. U ovom sluaju, namera je da se naui mapiranje ili
funkcija koja e da razdvaja klase podataka. Tipino, ovo mapiranje je predstavljeno u formi
klasifikacijskih pravila, stabala odluke (eng. decision trees), ili matematikih formula. Na
prethodnom primeru, mapiranje je predstavljeno kao klasifikacijska pravila koja identifikuju
kreditne zahteve kao bezbedne (eng. safe) ili rizine (eng. risky). Pravila mogu biti koriena da
se kategorisu budui podaci, kao i da se prui dublji uvid u sadraj samih podataka.
Tanost klasifikatora na zadatom test skupu je procenat test redova koji su pravilno klasifikovani
od strane klasifikatora. Povezani klasni naziv svakog reda se uporeuje sa nauenom klasnom
predikcijom klasifikatora za taj red. Ako se tanost klasifikatora smatra prihvatljivom,
klasifikator se moe koristiti za klasifikaciju nekih buduih redova za koje se ne zna klasni naziv
(takvi podaci se esto nazivaju i nepoznati ili jos nevieni podaci). Na primer, pravila sa
prethodne slike, koja su dobijena analizirajui podatke prethodnih kreditnih zahteva, mogu biti
koriena da se odobre ili odbiju novi ili budui kreditni zahtevi.
42
koren i od njega poinje grananje. Uobiajeno stablo odluke je prikazano na slici 6.2. Ovo stablo
predstavlja koncept kupovine raunara, tj. predvia da li e kupac da kupi raunar ili ne.
Unutranji vorovi su predstavljeni pravougaonicima, dok su terminalni vorovi predstavljeni
krugovima. Neki algoritmi proizvode samo binarna stabla (gde se svaki unutranji vor rava na
dva podvora), dok ostali mogu da proizvedu i drugaija stabla.
Na slici je prikazano stablo odluke za koncept kupovine raunara (buys_computer), koji ukazuje
na to da li je verovatnije da e kupac da kupi raunar ili ne. Svaki unutranji vor predstavlja test
jednog atributa. Svaki terminalni vor predstavlja klasu (ili buys_computer = yes ili
buys_computer = no).
Kako se stabla odluke koriste za klasifikaciju? Sa obzirom na dati red iz baze, za koji je povezani
klasni naziv nepoznat, vrednosti atributa toga reda su testirana stablom odluke. Putanja se prati
od korena pa sve do terminalnog vora, koji sadri klasnu predikciju za taj red. Stabla odluke
lako mogu da se konvertuju u klasifikaciona pravila.
Zato su decision tree klasifikatori tako popularni? Pravljenje decision tree klasifikatora ne
zahteva nikakvo poznavanje domena ili podeavanje parametara, i time je pogodan za
istraivako otkrivanje znanja. Decision trees, tj. stabla odluke, mogu da obrauju
multidimenzionalne podatke. Njihov prikaz steenog znanja u formi stabla je intuitivan i
generalno lako prihvaen od strane ljudi. Koraci uenja i klasifikacije su jednostavni i brzi. U
principu, decision tree klasifikatori imaju dobru tanost. Meutim, uspena upotreba moe
zavisiti od podataka koji su nam dostupni. Decision tree algoritmi su korieni za klasifikaciju u
mnogim oblastima kao to su medicina, proizvodnja, finansijske analize, astronomija i
molekularna biologija.
Tokom izgradnje stabla, koriste se odreene mere za izbor atributa koji e najbolje da razdele
redove u odgovarajue klase. Pri formiranju stabala odluke, mnoge grane, iz podataka koji slue
43
za testiranje, mogu da imaju um ili da odudaraju od ostatka. Potkresivanje stabala (Tree
pruning) pokusava da identifikuje i ukloni takve grane, sa ciljem da se pobolja tanost
klasifikacije.
Tokom kasnih 1970-ih i ranih 1980-ih godina, J. Ross Quinlan, machine learning istraiva,
razvio je decision tree algoritam poznat kao ID3 (Iterative Dichotomiser). Ovaj rad je nastavak
prethodnog rada na concept learning sistemima, opisanih od strane E. B. Hunt, J. Marin, i P. T.
Stone. Quinlan je kasnije predstavio C4.5 (naslednik ID3 algoritma), koji je postao benchmark sa
kojim se esto porede noviji nadgledani algoritmi uenja. 1984. godine, grupa statistiara (L.
Breiman, J. Friedman, R. Olshen, i C. Stone) objavila je knjigu Classification and Regression
Trees (CART), koja opisuje generaciju binarnih stabala odluke. ID3 i CART su razvijeni
odvojeno, otprilike u isto vreme, ali poseduju slian pristup za formiranje stabala odluke iz datih
podataka.
ID3, C4.5, i CART usvajaju prodrljivi (greedy) pristup za konstruisanje stabala odluke gde se
konstrukcija vri rekurzivnim podeli-i-osvoji nainom sa vrha prema dole. Veina algoritama
koji se koriste za stabla odluke takoe koriste pristup sa vrha prema dole, koji poinje sa setom
redova iz baze i njihovim odgovarajuim klasnim nazivima. Set je rekurzivno podeljen na manje
podskupove kako se formira stablo odluke. Koraci algoritma su sledei:
44
imaju istu vrednost za A, A ne mora biti u razmatranju u bilo kom buduem deljenju
redova. Zbog toga se uklanja sa liste atributa.
2. Kontinualno A (Continuous-valuedA): U ovom sluaju, test na voru N ima dva
mogua ishoda, u skladu sa uslovima A split_point i A > split_point, gde
split_point predstavlja taku podele, dobijenu od strane Attribute_selection_method
kao deo kriterijuma deljenja. (U praksi, split-point, a, se esto uzima kao sredinja
vrednost dve poznate pribline vrednosti od A i zbog toga zapravo i ne mora da bude
ve postojea vrednost od A) Dve grane se granaju iz N i oznaene su u skladu sa
rezultatima testa (slika b). Redovi su podeljeni tako da je D1 podskup redova sa
klasnim nazivima iz D za koje je A split_point, dok D2 sadri preostale redove.
3. Discrete-valuedA sa binarnim stablom(to je diktirano od strane atributa za izbor
mera ili algoritma koji se koristi ): Test na voru N je u formi A SA? gde je SA
deljeni podskup A, vraen od strane Attribute_selection_method kao deo kriterijuma
deljenja. To je podskup poznatih vrednosti A. Ako dati red ima vrednost aj od A i ako
aj SA, onda je uslov na voru N zadovoljen. Dve grane se ravaju iz vora N (slika
c). Leva grana je oznaena sa yes tako da D1 odgovara podskupu redova u D koji
ispunjavaju uslov testa. Desna grana je oznaena sa no tako da D2 odgovara podskupu
redova u D koji ne ispunjavaju uslov testa.
45
Algoritam koristi isti proces rekurzivno da formira stablo odluke za redove iz svake
rezultujue particije, Dj, od .
Rekurzivna podela prestaje samo ako se neki od sledeih uslova prekida ispuni:
3.Ne postoje redovi za datu granu, tj. particija Dj je prazna. U ovom sluaju, list je kreiran
sa veinskom klasom u D.
Raunarska kompleksnost algoritma za D set podataka je O(n x |D| x log(|D|)), gde je n broj
atributa koji opisuju redove iz D. Ovo znai da raunarski zahtevi rasta stabla rastu maksimum
za n x |D| x log(|D|) sa |D| redova.
Razlike u algoritmima stabala odluke ukljuuju izbor atributa pri konstrukciji stabla i mehanizme
za potkresivanje stabala (eng. pruning). Prethodno objanjeni algoritam zahteva jedan prolaz
kroz redove iz D za svaki nivo stabla. To moe dovesti do dugog vremena za procesuiranje
podataka kao i nedostatak dostupne memorije kada se radi sa velikim bazama podataka.
Mera za izbor atributa je heuristika metoda za izbor kriterijuma za podelu koji najbolje deli
datu particiju podataka, D. Ako bismo podelili particiju D na manje particije u skladu sa
kriterijumom deljenja, u idealnom sluaju svaka particija bi bila ista (tj. svi redovi koji bi bili
u navedenoj particiji bi pripadali istoj klasi). Konceptualno, najbolji kriterijum deljenja je onaj
koji najpriblinije rezultira takvom scenariju. Mere za izbor atributa su takoe poznate kao
kriterijumi deljenja zato to odreuju kako se redovi na datom voru dele.
Mera za izbor atributa prua rangiranje za svaki atribut koji opisuje date redove. Atribut koji ima
najbolji rezultat za meru je izabran kao kriterijum deljenja za dati red. U sluaju continuous-
valued atributa ili ako smo ogranieni na binarna stabla, onda ili taka deljenja (eng. split point)
ili podskup deljenja (eng. splitting subset) takoe moraju da se odrede kad deo kriterijuma
deljenja. vor na stablu kreiran za particiju D je imenovan u naziv kriterijuma deljenja, za svaki
rezultat kriterijuma dobija se nova grana stabla, i redovi se dele shodno tome. Neke od
popularnih mera za izbor atributa su: information gain, gain ratio, i Gini index.
Notacija koja e biti koriena je sledea. D i dalje predstavlja particiju podataka, koju ine
redovi sa klasnim nazivima. Ako pretpostavimo da klasni atribut ima m razliitih vrednosti koje
46
definiu m razliitih klasa, Ci (for i = 1,, m). Ci,d predstavlja set redova klase Ciu particiji D.
|D| i |Ci,d| predstavljaju broj redova u D i Ci,d.
Information gain
ID3 koristi information gain kao meru za izbor atributa. Ova mera je bazirana na pionirskom
radu Claude Shannon-a o informacionoj teoriji, koji je izuavao vrednost ili sadraj
informacija poruka. Neka vor N predstavlja ili sadri redove particije D. Atribut sa najveim
information gain-om je izabran kao kriterijum deljenja za vor N. Ovaj atribut minimizira
informacije potrebne za klasifikaciju redova u rezultujuoj particiji i odraava najmanji broj
sluajnosti ili neistoa u ovim particijama. Takav pristup smanjuje na minimum oekivani
broj testiranja potrebnih za klasifikaciju datog reda i garantuje formiranje jednostavnog (to ne
mora da znai i najednostavnijeg) stabla.
( ) ( )
U ovoj formuli pipredstavlja verovatnou, koja je razliita od nule, da proizvoljan red iz particije
D pripada klasi Cii procenjuje se sa |Ci,d |/|D|. Logaritamska funkcija sa osnovom 2 se koristi,
zato to je informacija enkodovana u bitima. Info(D) predstavlja prosenu vrednost potrebnih
informacija da bih se identifikovala klasa datog reda iz particije D.
47
( ) ( )
Termin |Dj|/|D| je teina j-te particije. InfoA(D) je oekivana informacija potrebna za klasifikaciju
reda iz particije D na osnovu deljenja sa A. to je manja, jo uvek, potrebna informacija, vea je
istoa particija. Information gain se definie kao razlika izmeu originalnog zahteva (baziranog
samo na opsegu klasa) i novog zahteva (dobijenog posle deljenja sa A). Formula je:
( ) ( ) ( )
Drugim reima, Gain(A) nam govori koliko bi se dobilo grananjem uA. Rezultat poznavanja
vrednosti A je oekivano smanjenje u zahtevanim, potrebnim, informacijama. Atribut A sa
najveim information gain-om, Gain(A), se bira kao atribut deljenja na voru N. Ovo je
ekvivalentno iskazu da elimo podelu po atributu A koja bi odradila najbolju klasifikaciju, tako
da koliina potrebnih informacija koja je jo uvek potrebna za zavretak klasifikacije redova
bude minimalna (tj. minimalna InfoA(D)).
Tabela T.1. predstavlja skup podataka, D, koji se sastoji iz redova nasumino izabranih iz baze
podataka vezanih za jednu prodavnicu raunara. U ovom primeru, svaki atribut ima diskretnu
48
vrednost. Continuous-valued atributi su generalizovani. Atribut koji predstavlja klasni naziv, u
ovom sluaju buys_computer, ima dve razliite vrednosti (yes i no), stoga, postoje dve razliite
klase (tj. m = 2). Neka klasa C1 odgovara klasi yes i klasa C2 odgovara klasi no. Postoji 9 redova
koji pripadaju klasi yes i 5 redova koji pripadaju klasi no. Koren, tj. poetni vor N se formira za
redove iz particije D. Da bi se naao kriterijum deljenja za ove redove, mora se izraunati
information gain za svaki atribut. Prvo se koristi formula za izraunavanje oekivanih
informacija potrebnih za klasifikaciju reda iz D particije:
( ) ( ) ( )
( ) ( )
( ) ( )
Slino ovome, moemo izraunati Gain(income) = 0.029 bits, Gain(student) = 0.151 bits i
Gain(credit_rating) = 0.048 bits. Zato to age atribut poseduje najveu vrednost information
gain-a od svih atributa, izabran je kao atribut deljenja. vor N nosi naziv age, i grane se granaju
za svaku vrednost atributa age. Redovi se zatim dele u shodno tome, kao to je i prikazano na
slici 6.5. Kao to moe da se vidi, redovi koji spadaju u grupu gde je age = middle_age svi
spadaju u istu klasu. Zato to svi pripadaju klasi yes, list treba biti kreiran na kraju ove grane sa
nazivom yes. Finalno stablo se vidi na prethodno pokazanoj slici 6.2.
49
Slika 6.5. Atribut age kao atribut deljenja
Sada se dolazi do pitanja kako se moe izraunati information gain atributa koji je continuous-
valued, za razliku od prethodnog primera. U tom sluaju, umesto okvirnih vrednosti age atributa
imali bih sirove vrednosti, tj. konkretne brojeve godina. Za takav scenario, mora se odrediti
najbolja taka deljenja (eng. split-point) za A, gde ta taka predstavlja prag.
Ako su vrednosti A sortirane unapred, onda odreivanje najboljeg deljenja za A zahteva samo
jedan prolaz kroz sve vrednosti. Za svaku moguu taku deljenja za A, procenjuje se InfoA(D),
gde je broj particija 2, tj. v = 2 (ili j = 1,2) u formuli 2. Taka sa minimalnim oekivanim
zahtevima za informacijama za A je izabrana kao taka deljenja (eng. split-point) za A. D1
pripada skupu redova iz D koji zadovoljavaju uslov A split_point, I D2 je skup redova iz D koji
zadovoljavaju uslov A > split_point.
Gain Ratio
50
Mera za prikupljanje informacija (eng. information gain) je naklonjena testovima sa vie
ishoda,tj. preferira da izabrani atributi poseduju veliki broj vrednosti. Na primer, ako se posmatra
atribut koji slui kao jedinstveni identifikator kao to je product_ID, podela preko product_ID bi
rezultovala velikim brojem particija (koliko vrednosti toliko i particija), dok bi svaka particija
sadrala samo jedan red. Sa obzirom da je svaka particija ista, potrebne informacije za
klasifikaciju podataka D baziranih na ovom deljenju bi bile Infoproduct_ID(D)=0. Dakle, koliina
prikupljenih informacija dobijenih deljenjem sa ovim atributom je maksimalna. Oigledno, takvo
deljenje je beskorisno za klasifikaciju.
C4.5, naslednik ID3, koristi ekstenziju za prikupljanje podataka poznatu kao gain ratio, koja
pokuava da prevazie ovu pristrasnost. Gain ratio primenjuje jednu vrstu normalizacije na
information gain koristei split information vrednost odreenu analogno sa Info(D):
| | | |
( ) ( )
Prikazaemo primer izraunavanja gain ratio-a za atribut income. Test deli Tabelu 1. na tri
particije, odnosno na low, medium i high, koje u skladu sadre etri, est i tri reda. Da bi se
izraunao gain ratio, prvo se koristi sledeca formula:
( ) ( ) ( ) ( )
51
Gini Index
Gini index se koristi u CART algoritmu. Korienjem prethodno opisane notacije, gini indeks
meri nivo neistoe u particiji D, nekoj drugoj particiji ili skupu redova. Forumla je sledea:
( )
Gini indeks razmatra binarnu podelu za svaki atribut. Na primer, postoje sluajevi gde je A
discrete-valued atribut koji sadri v raliitih vrednosti, {a1, a2, , av}, u D particiji. Da bi se
utvrdila najbolja binarna podela sa A, ispituju se svi mogui podskupovi koji mogu biti formirani
sa poznatim vrednostima A. Svaki podskup, SA, moe se smatrati kao binarni test za atribut A u
formi A SA?. Ovaj test e biti zadovoljen ako se vrednost A za dati red nalazi meu
vrednostima iz podskupa SA. Ako A ima v razliitih vrednosti, onda postoji 2v moguih
podskupova. Na primer, ako income ima tri mogue vrednosti, tj. low, medium i high, onda su
mogui podskupovi sledei: {low, medium, high}, {low, medium}, {low, high}, { medium,
high}, {low}, {medium}, {high}, { }. Ne uzimamo u razmatranje {low, medium, high} i prazan
skup zato to oni i generalno i ne predstavljaju deljenje. Stoga, postoji 2v-2 potencijalnih naina
da se formiraju dve particije podataka iz D, baziranih na binarnoj podeli.
Prilikom razmatranja binarne podele, izraunavamo zbir neistoa svake rezultujue particije. Na
primer, ako binarna podela sa A podeli D na D1 i D2, Gini indeks D sa obzirom na to deljenje je:
( ) ( ) ( )
52
Smanjenje neistoa koje bi bilo uzrokovano binarnom podelom na discrete-valued ili
continuous-value atributa A se predstavlja sledeom formulom:
( ) ( ) ( )
Atribut koji najvie utie na smanjenje neistoa (tj. koji ima najmanji Gini indeks) je izabran
kao atribut deljenja. Ovaj atribut i njegov ili splitting subset (za discrete-valued atribute deljenja)
ili split-point (za continuous-valued atribute deljenja) zajedno formiraju kriterijum deljenja.
Formiranje stabla odluke korienjem Gini indeksa:D predstavlja trening podatke prikazane
prethodno u Tabeli 1, gde devet redova pripada klasi buys_computer = yes i preostalih pet
redova pripada klasi buys_computer = no. Poetni vor N je kreiran za redove iz particije D.
Prvo se koristi sledea formula gde Gini indeks izraunava neistou particije D:
( ) ( ) ( )
{ }( ) ( ) ( )
( ( ) ( ) ) ( ( ) ( ) )
{ }( )
Slino tome, vrednosti Gini indeksa za podele na preostalim podskupovima su 0.458 (za
podskupove {low, high} i {medium} ), 0.450 (za podskupove {medium, high} i {low} ). Dakle,
najbolja binarna podela za atribut income je sa {low, medium} (ili {high}) zato to ima najnii
Gini indeks. Analizirajui atribut age, dolazimo do zakljuka da {youth, senior} (ili
{middle_aged}) su najbolji kandidati za podelu sa Gini indeksom 0.375; atributi student i
credit_rating su binarni, sa Gini indeks vrednostima 0.367 i 0.429.
Atribut age i njegov splitting subset {youth, senior} daju najmanji Gini indeks od svih
kombinacija, sa smanjenjem neistoa od 0.459 0.357 = 0.102. Binarna podela age{youth,
senior} rezultira sa najveim smanjenjem neistoa meu redovima iz particije D i bira se kao
53
kriterijum deljenja. vor N dobija naziv kriterijuma deljenja, dve grane se granaju iz vora N, i
redovi se dele u skladu sa kriterijumom.
Mera za odabir atributa bazirana na principu minimalne duine opisa (eng. Minimal Description
Length - MDL) ima najmanju naklonost prema atributima sa vie vrednosti. MDL bazirana mera
koristi tehnike kodiranja da definie najbolje stablo odluke koje zahteva najmanji broj bita da
bi se enkodiralo stablo i da bi se enkodirali izuzeci za stablo (tj. sluajevi koji nisu dobro
klasifikovani od strane stabla). Njegova glavna poenta je odabir najjednostavnijih reenja.
Druge mere za odabir atributa uzimaju u obzir multivariate splits (tj. podele gde se podela redova
bazira na kombinaciji atributa umesto samo na jednom atributu). CART sistem, na primer, moe
nai multivariate podele bazirane na linearnoj kombinaciji atributa. Multivariate podele su oblik
graenja atributa (ili funkcija), gde su novi atributi kreirani na osnovu postojeih.
Koja mera za selekciju atributa je najbolja? Sve mere imaju neke svoje naklonosti. Pokazalo se
da se, u veini sluajeva, kompleksnost stabla odluke eksponencijalno poveava sa visinom
stabla. Stoga, mere koje daju plia, tj. nia, stabla (stabla sa vie grana umesto binarnih, i stabla
koja preferiraju balansirane podele) mogu biti poeljnija. Meutim, neke studije su otkrile da
plia stabla imaju tendenciju da imaju veliki broj listova i visok nivo greki. Uprkos nekoliko
uporednih studija, ne moe se rei ni za jednu meru za odabir atributa da je uveliko superiornija
od neke druge mere. Veina mera daje poprilino dobre rezultate.
54
Kada se formira stablo odluke, mnoge grane e sadrati anomalije zbog uma (eng. noise) ili
vrednosti koje znaajno odudaraju od ostalih podataka (outliers). Tree pruning, ili potkresivanje,
reava ovaj problem sa podacima. Ove metode obino koriste statistike mere da bi se otklonile
najnepouzdanije grane. Nepotkresano stablo i potkresano stablo su prikazani na slici 6.6.
Potkresana stabla imaju tendenciju da budu manja i manje su kompleksna i, prema tome, laka su
za razumevanje. Obino su bra i bolja to se tie klasifikacije nezavisnih test podataka (tj.
podataka sa kojim se prvi put susreu) od nepotkresanih stabala.
U prepruning pristupu, stablo se potkresuje tako to se zaustavlja konstrukcija stabla u ranoj fazi,
tj. odlukom da se dalje ne deli podskup testnih redova na datom voru. Nakon prestanka deljenja,
vor postaje list.
Pri izgradnji stabla, mere kao to su statistiki znaaj, information gain, Gini index i druge, mogu
biti koriene da bi se procenio kvalitet podele. Ako bi podela redova na odreenom voru
rezultovala podelom koja se nalazi ispod predefinisanog praga, onda se dalja podela datog
podskupa zaustavlja. Meutim, postoje potekoe u biranju odgovarajueg praga. Visok prag
moe rezultovati u prejednostavnim stablima, dok premali prag moze dovesti do veoma malog
pojednostavljanja stabla.
55
listovima. List se imenuje nazivom najee klase iz podstabla koje se menja. Na primer na slici
6.6 vidi se podstablo na voru A3? na nepotkresanom stablu. Pretpostavlja se da je najea
klasa unutar ovog podstabla class B. Na potkresanoj verziji stabla, pomenuto podstablo je
potkresano tako to je zamenjeno listom class B.
Potkresivanje skupa klasnih redova se koristi za procenu cost complexity. Ovaj skup je nezavisan
od trening skupa koji se koristi za izradu neobrezanog stabla i bilo kog test skupa koji se koristi
za procenu tanosti. Algoritam generie skup progresivno orezanih stabala. Generalno, najmanje
stablo odluke koje ima najmanji cost complexity se preferira.
C4.5 koristi metod koji se naziva pesimistino potkresivanje (eng. pessimistic pruning), koji je
slian cost complexity metodi u smislu da takoe koristi procenu uestalosti greaka da bi se
odluilo o potkresivanju stabla. Meutim, pesimistino potkresivanje, ne zahteva upotrebu skupa
za potkresivanje. Umesto toga se koristi trening skup za procenu uestalosti greaka. Procena
tanosti ili greaka baziranih na trening skupu je previe optimistina, i zbog toga veoma
pristrasna. Metod pesimistinog potkresivanja zbog toga prilagoava uestalost greaka,
dobijenih uz pomo trening skupa, dodavanjem kaznenih poena, kako bi se povratila
ravnotea.
Umesto potkresivanja stabala na konto procene uestalosti greaka, mozemo vriti potkresivanje
stabala na osnovu broja bita potrebnih za enkodiranje stabla. Najboljepotkresano stablo je
stablo sa najmanjim brojem bita potrebnih za enkodiranje. Ovaj metod usvaja MDL princip.
Osnovna ideja je da je najjednostavnije reenje i najbolje. Za razliku od cost
complexitypotkresivanja, ne zahteva se nezavisan skup redova.
56
Iako potkresana stabla imaju tendenciju da budu kompaktnija od svojih potkresanih parnjaka,
ona ipak mogu biti prilino velika i kompleksna. Stabla odluke mogu imati problem ponavljanja
i replikacija, kao to se vidi na Slici 6.7, to ih ini veoma tekim za tumaenje. Ponavljanje se
javlja kada se atribut vie puta testira uz datu granu na stablu (npr. age < 60?, praeno sa age
< 45?, itd.). Pri replikaciji, javljaju se dupla podstabla u sklopu stabla. Ove pojave mogu
negativno uticati na tanost i razumljivost stabla odluke. Korienje multivariate podela (tj.
podela baziranih na kombinaciji vie atributa) moe spreiti ove probleme. Drugi pristup je da se
koristi drugaija forma predstavljanja znanja, kao to su pravila, umesto stabala odluke.
57
ta se deava ako D, trening set klasnih redova koji se nalaze na disku, ne moe da stane u
memoriju? Drugim reima, koliko je skalabilno stablo odluke? Efikasnost postojeih algoritama,
kao to su ID3, C4.5 i CART, je dobra u radu sa relativno malim skupovima podataka.
Efikasnost moe postati problem kada se ovi algoritmi primene na rudarenju (eng. mining)
velikih baza podataka. Pionirska stabla odluke, koja su bila tema do sada, imaju ogranienje da
redovi moraju da budu u memoriji.
U data mining aplikacijama, veliki skupovi koji broje milione redova su uobiajeni. Najee,
trening podaci, tj. redovi, ne mogu da stanu u memoriju. Zbog konstantnog prebacivanja redova
u i iz glavne i keirane memorije, generisanje stabla odluke postaje neefikasno Potrebni su
skalabilniji pristupi, sposobni da obrauju podatke koji su preveliki da bi stali u memoriju.
Ranije strategije da se utedi prostor ukljuuju diskretizaciju continuous-valued atributa i
podataka koji se testiraju na svakom voru. Meutim, ove tehnike jo uvek pretpostavljaju da
skupovi podataka mogu da stanu u memoriju.
Method odrava AVC skup (gde AVC predstavlja Attribute-Value, Classlabel) za svaki
atribut, na svakom voru stabla, opisujui redove koji se nalaze na voru. AVC skup atributa A
na voru N daje broj klasa za svaku vrednost A za redove na voru N. Slika 6.8. prikazuje AVC
skupove za podatke iz Tabele 6.1. Skup svih AVC skupova na voru N predstavljaju AVC grupu
N vora. Veliina AVC skupa za atribut A na voru N zavisi samo od broja razliitih vrednosti A
i broja klasa u skupu redova na voru N. Obino, ova veliina bi trebalo da se uklopi u memoriju,
ak i za velike baze podataka. RainForest takoe poseduje tehnike za obradu sluajeva gde AVC
grupa ne moe da stane u memoriju. Stoga, metod poseduje veliku skalabilnost za indukciju
stabla odluke pri velikim koliinama podataka.
BOAT (Bootstrapped Optimistic Algorithm for Tree construction) je algoritam stabla odluke koji
zauzima potpuno drugaiji pristup prema skalabilnosti nije baziran na korienju bilo kakvih
specijalnih struktura podataka. Umesto toga, koristi statistiku tehniku poznatu kao
bootstrapping da stvori nekoliko manjih uzoraka (ili podskupova) od datih trening podataka,
od kojih svaki uzorak moe da stane u memoriju. Svaki uzorak (ili podskup) se koristi za izradu
stabla, rezultujui tako u veem broju stabala. Stabla se ispituju i koriste se za izradu novog
stabla, T, za koje se ispostavi da je veoma blizu stablu koje bi bilo generisano da su svi
originalni podaci stali u memoriju u prvom sluaju.
58
Slika 6.8. AVC skupovi
BOAT moe da koristi bilo koju meru za izbor atributa koja bira binarne podele i koja je
bazirana na stanovitu istoe particija kao to je Gini indeks. BOAT koristi donju granicu mere
za biranje atributa da bi detektovao da li se veoma dobro stablo, T, razlikuje od pravog
stabla, T, koje bi bilo generisano korienjem svih podataka. T se prerauje u T.
BOAT obino zahteva samo dva skeniranja D particije. Ovo je prilino poboljanje, ak i u
poreenju sa tradicionalnim algoritmima stabla odluke, koji zahtevaju jedno skeniranje za svaki
nivo stabla. Za BOAT je utvreno da je dva do tri puta bri od RainForest-a a generie potpuno
isto stablo. Jo jedna prednost BOAT-a je da moe biti korien za inkrementalna auriranja, tj.
BOAT moe da primi nova umetanja i brisanja trening podataka i izvri auriranje stabla sa ovim
promenama, bez potrebe da rekonstruie stablo od nule.
59
dimenzionalne objekte podataka u krug koji je podeljen na d segmente, od kojih svaki
predstavlja jedan atribut. Ovde je jedna vrednost atributa objekta mapirana kao jedan obojeni
piksel, koji odraava klasu objekta. Ovo mapiranje se radi za svaki par atributa i njegove
vrednosti od svakog objekta. Sortiranje se vri za svaki atribut da bi se odredio redosled unutar
segmenta. Na primer, vrednosti atributa unutar datog segmenta mogu biti organizovane tako da
se prikau homogene oblasti unutar same vrednosti atributa. Koliina trening podataka koja
moe biti vizuelizovana u isto vreme je priblino odreena proizvodom broja atributa i broja
objekata.
PBC sistem prikazuje podeljeni ekran, koji se sastoji od prozora za interakciju sa podacima i
prozora za interakciju sa stablom (Slika 6.9). Prozor za interakciju sa podacima prikazuje
okrugle segmente podataka nad kojima se vri pregled, dok prozor za interakciju sa stablom
prikazuje stablo odluke izgraeno do tada. U poetku, kompletan trening set se vizualizuje u
prozoru za interakciju sa podacima, dok prozor za interakciju sa stablom prikazuje prazno stablo.
Tradicionalni algoritmi stabla odluke dozvoljavaju samo binarne podele za numerike atribute.
Meutim, PBC dozvoljava korisnicima da navedu nekoliko taki podela, to rezultuje
viestrukim granama koje rastu iz jednog vora na stablu.
60
Stablo se interaktivno konstruie na sledei nain. Korisnik vizualizuje multidimenzionalne
podatke u prozoru za interakciju sa podacima i bira atribut deljenja i jednu ili vie taaka
deljenja. Stablo koje se trenutno nalazi u prozoru za interakciju sa stablom se iri. Korisnik bira
vor stabla. Korisnik moe da dodeli klasni naziv voru (koji e vor da pretvori u list) ili da
zahteva vizualizaciju trening podataka koja odgovara izabranom voru. Ovo vodi ka novoj
vizualizaciji svakog atributa osim onih koji su korieni kao kriterijum podele na istoj putanji od
poetka stabla. Interaktivni proces se nastavlja dok se klasa ne dodeli svakom listu na stablu.
61
7 Evaluacija modela i selekcija
Ovde se predstavljaju mere za procenu koliko dobro ili koliko precizno dati klasifikator vri
predikciju naziva klase datih redova. Razmatra se sluaj gde su klasni redovi manje vie
ravnomerno rasporeeni, kao i sluaj gde klase nisu balansirane. Klasifikatorske mere evaluacije
koje su pomenute u ovom delu su prikazane na slici 7.1. One ukljuuju tanost (eng. accuracy)
takoe poznatu kao stopa priznavanja, osetljivost (eng. sensitivity), specifinost (eng.
specificity), preciznost (eng. precision), F1 i F.
Koristei trening podatke da se izvede klasifikator i onda proceni tanost rezultujueg modela,
moe dovesti do pogrenih preoptimistinih procena zbog prekomerne specijalizacije algoritma
uenja na podacima. Umesto toga, bolje je meriti tanost klasifikatora na testnom skupu koji se
sastoji od redova koji nisu korieni za kreiranje (trening) modela.
62
to se tie redova, kao to je ve pominjano, pozitivni redovi predstavljaju redove glavne klase
koja nas zanima dok negativni redovi predstavljaju sve ostale redove. Na primer, pozitivni redovi
mogu da budu buys_computer = yes dok su negativni redovi buys_computer = no.
Pretpostavimo da koristimo na klasifikator na test skupu redova sa klasnim nazivima. P je broj
pozitivnih redova i N je broj negativnih redova. Za svaki red poredimo predikciju koju je obavio
klasifikator sa poznatim klasnim nazivom tog reda.
U raunanju mnogih mera za procenu se koriste etiri veliine na osnovu kojih se formira
matrica konfuzije (confusion matrix), prikazanoj na Slici 7.2.:
True positives (TP): Oni se odnose na pozitivne redove koji su pravilno oznaeni od
strane klasifikatora.
True negatives (TN): Ovo su negativni redovi koji su pravilno oznaeni od strane
klasifikatora.
False positives (FP): Ovo su negativni redovi koji su pogreno oznaeni kao pozitivni
(npr. redovi klase buys_computer = no za koje je klasifikator odredio buys_computer =
yes ).
False negatives (FN): Ovo su pozitivni redovi koji su pogreno oznaeni kao negativni
(npr. redovi klase buys_computer = yes za koje je klasifikator odredio buys_computer =
no ).
Confusion matrix je korisna alatka za analizu koliko dobro klasifikator moe da prepozna redove
razliitih klasa. Veliine TP i TN definiu sluajeve kada je klasifikator u pravu, dok FP i FN
sluajeve kada klasifikator grei, tj. odreuje pogrenu klasu. Za dati klasni atribut sa m klasa
(gde je m 2), confusion matrix je veliine najmanje m x m. Kod matrice za idealni klasifikator,
sve vrednosti se nalaze u dijagonali od elementa 1,1 ka elementu m,m a ostale vrednosti u matrici
bi bile nule.
63
Tabela koja prikazuje matricu konfuzije moe da poseduje dodatne redove ili kolone da bi se
prikazali totali. Na primer, u tabeli na slici 7.3, pored P i N su prikazani i P, broj redova koji su
obeleeni kao pozitivni (TP + FP) i N, broj redova koji su oznaeni kao negativni (TN + FN) .
Ukupan broj redova je TP + TN + FP + TN, ili P + N , ili P + N. Ova tabela prikazuje matricu
sa dve klase: buys_computer = yes (pozitivna) i buys_computer = no (negativna). Brzim
pogledom na matricu, lako je videti koliko odgovarajui klasifikator grei u odreivanju klasa.
Na primer, moe se videti da je pogreno oznaio 412 no redova kao yes.
Tanost klasifikatora (eng. accuracy) na datom test setu je procenat test redova koji su ispravno
klasifikovani od strane klasifikatora.
Takoe se moe govoriti o stopi greaka (eng. error rate) ili stopi pogrenih klasifikacija (eng.
misclassification rate) klasifikatora, M, koja je 1 - accuracy(M), gde accuracy(M) predstavlja
tanost od M. Ovo se takoe moe izraunati na sledei nain:
Sada se dolazi do problema disbalansa klasa u sluajevima kada je glavna klasa retka, tj.
distribucija podataka odraava znaajnu veinu negativne klase i manjinu pozitivne klase. Na
primer, meu aplikacijama koje su pokuaj prevare, interesna klasa (ili pozitivna klasa) je
fraud, koja se javlja mnogo ree nego negativna nonfraudulant klasa. U medicinskim
podacima, moe postojati retka klasa, kao na primer cancer. Pretpostavimo da je klasifikator
istreniran da klasifikuje medicinske redove sa podacima, gde je klasni naziv atributa cancer i
mogue vrednosti atributa su yes i no. Stopa tanosti od, recimo, 97% se moe initi kao da
je klasifikator izuzetno taan, ali ta ako su samo, recimo, 3% procenta trening redova zapravo
rak (eng. cancer)? Oigledno, stopa tanosti od 97% ne moe biti prihvatljiva mogue je da
klasifikator pravilno obeleava samo redove koji nemaju vrednost cancer na primer, i da
pogreno klasifikuju sve cancer redove. Umesto toga, potrebne su druge mere koje imaju uvid
u to koliko dobro klasifikator moe da prepozna pozitivne redove (cancer = yes) i koliko dobro
moe da prepozna negativne redove (cancer = no).
Mere osetljivost (eng. sensitivity) i specifinost (eng. specificity) mogu biti koriene u tu svrhu.
Osetljivost se takoe naziva i pravom pozitivnom stopom (prepoznavanja), tj. razmera pozitivnih
redova koji su ispravno identifikovani, dok je specifinost prava negativna stopa, tj. razmera
negativnih redova koji su ispravno identifikovani. Ove mere se definiu kao:
64
Kao to moe da se vidi, tanost je funkcija osetljivosti i specifinosti:
( ) ( )
Slika 7.4. prikazuje matricu za medicinske podatke gde su vrednosti klase yes i no za klasni
atribut cancer.
Mere preciznost (eng. precision) i recall su takoe u irokoj upotrebi u klasifikaciji. Preciznost se
moe posmatrati kao mera tanosti, odnosno koliki procenat redova koji su obeleeni kao
pozitivni su zapravo pozitivni, dok je recall mera potpunosti, odnosno koliki procenat pozitivnih
redova je obeleen tako (pozitivno). Ove mere se definiu kao
65
Preciznost klasifikatora na Slici 7.4 za yes klasu je 90/230 = 39.13%. Recall je 90/300 = 30.00%,
to je isti broj kao i osetljivost iz prethodnog primera.
Savren rezultat preciznosti od 1.0 za klasu C znai da svaki red koji je klasifikator oznaio da
pripada klasi C zaista i pripada klasi C. Meutim, to ne govori nita o broju redova iz klase C
koje je klasifikator pogreno oznaio. Savreni recall rezultat od 1.0 za C znai da svaki predmet
iz klase C je i oznaen tako, ali ne govori nita o tome koliko drugih redova je pogreno
oznaeno da pripada klasi C. Postoji tendencija za inverznom vezom izmeu preciznosti i recall-
a, gde je mogue poveati jedno ali se za uzvrat smanjuje drugo. Na primer, medicinski
klasifikator moe da postigne visoku preciznost tako to e da oznai sve cancer redove koje
predstavljaju na jedan nain cancer, ali moe da ima mali recall u sluaju da pogreno oznai
mnoge druge instance cancer redova. Rezultati preciznosti i recall-a se esto koriste zajedno, gde
vrednosti preciznosti porede za fiksnu vrednost recall-a, ili obrnuto. Na primer, moemo porediti
vrednosti preciznosti za recall vrednost od, recimo, 0.75.
( )
Postavlja se pitanje da li postoje drugi sluajevi gde tanost nije dobro utvrena? Kod problema
sa klasifikacijom, obino se pretpostavlja da se svi redovi mogu jedinstveno klasifikovati, tj. da
svaki trening red moe da pripada samo jednoj klasi. Ipak, zahvaljujui velikoj raznolikosti
podataka u velikim bazama, nije uvek razumno pretpostaviti da se svi redovi mogu jedinstveno
klasifikovati. Umesto toga, verovatnija je pretpostavka da svaki red moe da pripada vie nego
jednoj klasi. Kako se onda moe izmeriti tanost klasifikatora na velikim bazama podataka?
Mera tanosti nije pogodna, zato to ne uzima u obzir mogunost da redovi mogu pripadati ne
samo jednoj klasi ve veem broju klasa.
Umesto vraanja klasnog naziva, korisno je vratiti verovatnou klasne raspodele. Mere tanosti
bi mogle tada koristiti heuristiku drugog pokuaja, po kojoj se predikcija klase ocenjuje kao
ispravna ako se sloi sa prvom ili drugom najverovatnijom klasom. Iako ovo uzima u obzir,
donekle, nejedinstvenu klasifikaciju redova, to nije potpuno reenje.
Pored mera baziranih na tanosti, klasifikatori se mogu uporediti u skladu sa sledeim dodatnim
aspektima:
66
Brzina (eng. speed): Ovo se odnosi na raunarsku cenu ukljuenu u generisanje i
korienje klasifikatora.
Robusnost (eng. robustness): Ovo je sposobnost klasifikatora da napravi tane predikcije
sa datim podacima koji imaju um ili podacima kojima nedostaju vrednosti. Robusnost se
obino procenjuje nizom sintetikih skupova podataka koji predstavljaju razliite stepene
podataka sa umom i nedostajuim vrednostima.
Skalabilnost (eng. scalability): Ovo se odnosi na sposobnost da se efikasno konstruie
klasifikator sa datim velikim koliinama podataka. Skalabilnost se obino procenjuje
nizom skupova podataka koji se poveavaju u veliini.
Interpretacija (eng. interpretability): Ovo se odnosi na nivo razumevanja i uvida koji je
dobijen od strane klasifikatora. Interpretacija je subjektivna i stoga se tee procenjuje.
67