Professional Documents
Culture Documents
Arboles de Decision Dr. Edgar Acuna Departmento de Matematicas Universidad de Puerto Rico- Mayaguez math.uprm.edu/~edgar
El uso de rboles de decisin tuvo su origen en las ciencias sociales con los trabajos de Sonquist y Morgan (1964) y Morgan y Messenger (1979) realizado en el Survey Research Center del Institute for Social Research de la Universidad de Michigan. El programa THAID (Theta Automatic Interaction Detection), de Sonquist, Baker y Morgan (1971), fue uno de los primeros mtodos de ajuste de los datos basados en rboles de clasificacin. En estadstica, Kass (1980) introdujo un algoritmo recursivo de clasificacin no binario, llamado CHAID (Chi-square automatic interaction detection). Ms tarde, Breiman, Friedman, Olshen y Stone (1984) introdujeron un nuevo algoritmo para la construccin de arboles y los aplicaron a problemas de regresin y clasificacin. El mtodo es conocido como CART (Classification and regression trees) por sus siglas en ingls. Casi al mismo tiempo el proceso de inducin mediante rboles de decisin comenz a ser usado por la comunidad de Machine Learning (Michalski, (1973), Quinlan (1983)). En el rea de Pattern Recognition , Henrichon y Fu (1969) escribieron un paper en particionamiento noparametrico que guarda cierta relacion con arboles de decisin, pero usa hiperplanos que no son paralelos a los ejes coordenados.
StatusMarital=ab |
Si
No
No 5/1
Si 0/3
No 3/2
Si 0/2
ESPOL 2008
Minera de Datos
Edgar Acua
C la s ific a c io n d e d a to s d e e x a m e n e s u s a n d o a r b o le s
E 2 < 4 3 .5 |
E 1 < 7 5 .5 f 6 /0 p 1 /2
p 1 /2 2
plot(arbol,margin=.25) text(arbol,use.n=T)
ESPOL 2008
Minera de Datos
Edgar Acua
ESPOL 2008
Minera de Datos
Edgar Acua
s u p e rfic ie d e d e c is io n g e n e ra d a p o r e l a rb o l
E1
E2
C la se s
ESPOL 2008
Minera de Datos
Edgar Acua
10
V 5 < 2 0 .5 |
V 5 < 3 6 .5
V 3 > = 2 7 .5 2 1 6 /6 4
1 5 /2
Minera Edgar
11
bupa$V5
0 0
50
100
150
200
250
300
50 bupa$V3
100
150
c) Si la variable xk es categrica tomando valores en {b1,b2,bm} entonces Q incluye todas las preguntas de la forma { xk A?} donde A es un subconjunto cualquiera de {b1,b2,bm} . En total se pueden considerar 2m-1-1 Por ejemplo si x2, x3 y x4 son variables predictoras continuas y x1 es categrica con valores 0, 1 y 2, entonces Q incluye preguntas de la siguiente forma: Es x3 4.5? Es x4 -1.4? Es x1= 0 1? Tambin se puede usar divisiones en mas de dos nodos, pero no se recomienda porque el conjunto de datos se dividira muy rpido dejando muy pocos datos para las subsiguientes divisiones.
El indice de la impureza del nodo s se define como i(s)=(p(1/s),p(2/s),.p(J/s)) donde es una funcin de impureza, la cual debe satisfacer ciertas propiedades. Entonces la regla para particionar el nodo t es como sigue: Formar el nodo hijo derecho tR y el nodo hijo izquierdo tL tal que la disminucin de la impureza dada por i(t)= i(t)-{p(tL)i(tL)+p(tR)i(tR)} sea mxima.
Medidas de Impureza
Para rboles de clasificacin se pueden usar las siguientes medidas de impureza. a) El Coeficiente de Gini. Para el nodo t se define por iG(t)= =
p( j / t ) p(k / t ) = p( j / t )(1 p( j / t ))
j k j =1
Si hay dos clases (J=2) presentes entonces iG(t)=2p(1-p), donde p es la proporcin de observaciones en la primera clase. El coeficiente de Gini se puede interpretar como uno en donde se clasifica cada observacin de un nodo a una clase j con probabilidad p(j/t) en lugar de clasificar todas las observaciones a la clase con mayor nmero de observaciones.
b) La Entropia Cruzada o Devianza o Impureza de Informacin definida por iE(t)= -j p(j/t)log[p(j/t)] El logaritmo es tomado en base 2. Cuando se aplica entropa a distribuciones continuas se aplica logaritmo natural. Para dos clases se tiene iE(t)= -p*log(p) -(1-p)*log(1-p) En regresion, La Devianza es equivalente a la suma de cuadrados de los errores y est dada por el negativo del doble del logaritmo de la funcin de verosimilitud. Rpart usa por default la impureza Gini, pero tiene la opcin de usar la impureza de informacin. C4.5 usa esta ultima.
c) La tasa de Mala clasificacin, definida por iMC(t)=1maxjp(j/t) Para dos clases sera: iMC(t)=1-max(p,1-p)
Para arboles de regresion donde la variable de respuesta y es continua, se pueden usar las siguientes medidas de impureza i) La Varianza, definida por
i (t ) =
( y j y t)2 nt
j t
i (t ) =
( y j y t)2 nt
j t
1 79/61
2 66/139
V3>=19.5
2 10/24
V5< 20.5 |
V3>=19.5
2 66/139
1 60/20
2 19/41
V3>=19.5 V3>=35.5
V6>=5.5 V2>=65.5 V4< 24.5 2 V6< 2.5 2 7/54 5/29 1 18/9 2 3/11
V4< 42.5 V4< 21.5 V1>=88.5 1 17/5 2 5/10 V2>=77 1 11/5 2 8/36 V2< 84.5 1 2 17/1 3/4 2 3/7
1 38/5
V3>=19.5
1 60/20
1 23/12
2 10/24
La funcin prune de la librera rpart ejecuta recorte de un rbol. La opcin cp () de prune es llamado el parmetro de complejidad. El cp indica que se descartar cualquier particin que no disminuye la impureza por un factor igual a cp.
prune(arbolbupa,cp=.05)