You are on page 1of 44

Arbol de decisin

Es un modelo de prediccin muy utilizado en

Minera de Datos.
Por su forma jerrquica, permite visualizar la

organizacin de los atributos.


Se construye a partir de la identificacin

sucesiva de los atributos ms relevantes.

Arbol de decisin Aplicaciones


Descripcin

Su estructura jerrquica les permite mostrar


cmo est organizada la informacin
disponible.

Prediccin

Recorriendo sus ramas se obtienen reglas que


permiten tomar decisiones.
Si todas las hojas se refieren al mismo atributo
y es discreto es un rbol de clasificacin.
2

Arbol de decisin. Ejemplo


Suponga que se dispone de la siguiente

informacin de pacientes tratados


previamente por problemas visuales
Edad
Astigmatismo (si o no)
Grado de miopa
Recomendacin de operarse (si o no)
A partir de esta informacin puede obtenerse un
modelo en forma de rbol que resuma el criterio
seguido para recomendar si debe operarse o no.

Arbol de decisin. Ejemplo


Astigmatismo?
no
25

no

si

Edad? >50
>25 y
50

Miopa?
6

no

si

>6

no

Miopa?
1,5

no

>1,5 y
10

si

>10

no

Note que las


opciones son
excluyentes
4

Obtencin del modelo


Algoritmos
(ej: C4.5, ID3)
Conj. de
Entrenamiento

Edad
55
20
30
42
60
26

Astig. Miopa Operar


SI
3.9
SI
NO
7
NO
SI
6
SI
SI
6.5
NO
NO
6
NO
SI
3
SI

Arbol
(Modelo)
Rama del rbol

IF Astigmatismo = SI
AND (Miopa<=6)
THEN Operar = SI 5

Uso del modelo

Arbol
(Modelo)
Datos de
Testing

Datos no
vistos

(29,SI, 3.5)
Edad
29
63
27

Astig. Miopa Operar


SI
3.5
SI
NO
7
NO
SI
6.3
SI

Operar?
SI

Arboles como reglas

Si (Astig=NO) y (25< Edad 50) y (1,5< Miopa 10) entonces SI


Si (Astig.=SI) y (Miopa<=6) entonces SI
EN OTRO CASO NO

Obtencin del rbol de decisin


Algoritmo Bsico
El rbol se construye de la forma top-down recursive

divide-and-conquer
Al comienzo, todos los ejemplos de entrenamiento

estn en el nodo raz


Los atributos son categricos (si hay valores

continuos, deben discretizarse previamente)


Los ejemplos se particionan recursivamente basado

en los atributos seleccionados


Los atributos se seleccionan en base a una

heurstica o una medida estadstica (p.ej., ganancia


8
de informacin)

Obtencin del rbol de decisin


Condiciones para detener el particionamiento

Todas las muestras para un nodo dado


corresponden a la misma clase.

No hay atributos restantes para particionar. Se


usa voto mayoritario para clasificar la hoja.

No quedan ms muestras (registros del


conjunto de entrenamiento).

Ejemplo 1: Construccin del rbol

Cul atributo elegira como raz del rbol?


10

Es la seleccionada por tener la mayor


cantidad de elementos en subconjuntos
homogneos

Qu pasara si eligiera?
PELO

Rubio
Sara
Diana
Ana
Catalina

PESO
Pelirrojo

Castao
Emilia
Alexis
Pedro
Juan

Pesado

Ligero
Prom
Sara
Catalina

Diana
Alexis
Ana

Emilia
Pedro
Juan

PROTECTOR
Si
Diana
Alexis
Catalina

No
Sara
Ana
Emilia
Pedro
Juan

11

Cmo sigue?
PELO
Rubio
Sara
Diana
Ana
Catalina

Pelirrojo

Castao
Emilia
Alexis
Pedro
Juan

Analizar la repuesta del resto de los


atributos para los elementos que aun no
pertenecen a un subconjunto homogneo

12

Qu pasara si eligiera?
ESTATURA
Alta

Baja
Ana
Catalina

PESO
Pesado

Ligero

Prom

Prom
Diana

Sara

Sara
Catalina

Diana
Ana

PROTECTOR
Si
Diana
Catalina

No
Sara
Ana

Es la seleccionada Por qu?

13

Arbol de clasificacin
PELO
Rubio

Pelirrojo
Castao
Quemado
Ninguno

PROTECTOR
Si

No

Ninguno

Quemado

14

Medida de desorden
El desorden promedio producido por la seleccin de

un atributo puede medirse como:

nb
nbc
nbc
Desorden Pr omedio ( ) * (
log 2
)
nt
nb
nb
b
c
Donde
nb es el nmero de muestras en la rama b,
nt es el nmero total de muestras en todas las ramas,
nbc es el total de muestras en la rama b de la clase c.
Es un nmero real entre 0 y 1 que ser ms chico cuanto ms
homogneos sean los subconjuntos que este atributo genere.

15

Desorden en una rama


Analizando slo una rama de un atributo

nbc
nbc
Desorden
log 2
nb
nb
c
Donde
nb es el nmero de muestras en la rama b,
nbc es el total de muestras en la rama b de la clase c.

16

Desorden en una rama


Rama SI del atributo Protector
PROTECTOR

nbc
nbc
Desorden
log 2
nb
nb
c

Si
Diana
Alexis
Catalina

No
Sara
Ana
Emilia
Pedro
Juan

La rama SI tiene nb=3 muestras de las

cuales 0 son Quemadas y 3 son Ninguno

0
0 3
3
Desorden log 2 log 2 0 log 2 1 0
3
3 3
3
17

Desorden en una rama


Rama NO del atributo Protector
PROTECTOR

nbc
nbc
Desorden
log 2
nb
nb
c

Si
Diana
Alexis
Catalina

No
Sara
Ana
Emilia
Pedro
Juan

La rama NO tiene nb=5 muestras de las

cuales 3 son Quemadas y 2 son Ninguno

3
3 2
2
Desorden log 2 log 2 0.4422 0.5288 0.971
5
5 5
5

18

Desorden del atributo Protector


nb
nbc
nbc
Desorden Pr omedio ( ) * (
log 2
)
nt
nb
nb
b
c
PROTECTOR
Si
Diana
Alexis
Catalina

No
Sara
Ana
Emilia
Pedro
Juan

3
5
Desorden Pr omedio * 0 * 0.9710 0.6069
8
8
DesordenSI

DesordenNO

19

Desorden Promedio de cada atributo


Repitiendo el mismo proceso para el resto de

los atributos puede completarse la siguiente


tabla:
Atributo
Pelo

Desorden
Promedio
0.5

Estatura

0.69

Peso

0.94

Protector

0.61

Es el seleccionado
por ser el de
menor Desorden

20

Cmo sigue?
Repitiendo el mismo proceso para cada

rama del atributo PELO que no sea


homognea, se obtiene
Atributo

Desorden
Promedio

Estatura

0.5

Peso

Protector

Es el seleccionado
por ser el de
menor Desorden

21

Arbol de clasificacin
PELO
Rubio

Pelirrojo
Castao
Quemado
Ninguno

PROTECTOR
Si

No

Ninguno

Quemado

22

Ejemplo 2: Construir el rbol a partir


de los siguientes datos
N

Ambiente

Temperatura

Humedad

Viento

Juega?

soleado

alta

alta

no

No

soleado

alta

alta

si

No

nublado

alta

alta

no

Si

lluvioso

media

alta

no

Si

lluvioso

baja

normal

no

Si

lluvioso

baja

normal

si

No

nublado

baja

normal

si

Si

Soleado

media

alta

no

No

Soleado

baja

normal

no

Si

10

lluvioso

media

normal

no

Si

11

Soleado

media

normal

si

Si

12

Nublado

media

alta

si

Si

13

Nublado

alta

normal

no

Si

14

lluvioso

media

alta

si

No
23

Analizando el atributo para la raz


AMBIENTE
Soleado
2 SI
3 NO

TEMPERATURA

Lluvioso
Nublado
3 SI
4 SI
2 NO

Alta

Baja
Media

2 SI
2 NO

HUMEDAD

3 SI
1 NO

3 SI
1 NO

VIENTO

Alta

Normal

3 SI
4 NO

6 SI
1 NO

Si
3 SI
3 NO

No
6 SI
2 NO
24

Analizando cada rama de AMBIENTE


AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
4 SI
2 NO

2
2 3
3
DesordenSoleado log 2 log 2 0,9710
5
5 5
5
25

Analizando cada rama de AMBIENTE


AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
4 SI
2 NO

0,9710

4
4
DesordenNublado log 2 0
4
4
26

Analizando cada rama de AMBIENTE


AMBIENTE
Soleado
2 SI
3 NO
0,9710

Lluvioso
Nublado
3 SI
4 SI
2 NO
0

3
3 2
2
DesordenLluvioso log 2 log 2 0,9710
5
5 5
5
27

Analizando cada rama de AMBIENTE


AMBIENTE
Soleado
2 SI
3 NO
0,9710

DesordenAMBIENTE

Lluvioso
Nublado
3 SI
4 SI
2 NO
0

0,9710

5
4
5
* 0,9710 * 0 * 0,9710 0,6935
14
14
14
28

Analizando el atributo para la raz


0,6935
AMBIENTE
Soleado
2 SI
3 NO

TEMPERATURA

Lluvioso
Nublado
3 SI
4 SI
2 NO

Alta

Baja
Media

2 SI
2 NO

3 SI
1 NO

3 SI
1 NO

0,8113

0,9308
HUMEDAD

VIENTO

Alta

Normal

3 SI
4 NO

6 SI
1 NO

Si
3 SI
3 NO

No
6 SI
2 NO
29

Analizando el atributo para la raz


0,6935

0,9164

AMBIENTE
Soleado
2 SI
3 NO

TEMPERATURA

Lluvioso
Nublado
3 SI
4 SI
2 NO

Alta

Baja
Media

2 SI
2 NO

HUMEDAD

3 SI
1 NO

3 SI
1 NO

VIENTO

Alta

Normal

3 SI
4 NO

6 SI
1 NO

Si
3 SI
3 NO

No
6 SI
2 NO
30

Es la seleccionada por tener el menor valor de


Desorden, es decir, la mayor cantidad de elementos en
subconjuntos homogneos

Analizando el atributo para la raz


0,6935

0,9164

AMBIENTE
Soleado
2 SI
3 NO

TEMPERATURA

Lluvioso
Nublado
3 SI
4 SI
2 NO

Alta

Baja
Media

2 SI
2 NO

HUMEDAD

3 SI
1 NO

3 SI
1 NO

VIENTO

Alta

Normal

3 SI
4 NO

6 SI
1 NO
0,7885

Si
3 SI
3 NO

No
6 SI
2 NO
31
0,8922

Ya tenemos el nodo raz


AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

Si est nublado, SI juega.


Ahora falta analizar las dos ramas que no

son puras.

32

Buscando los nodos del 1er. nivel del rbol


AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

Para estas 5 muestras,


calcular el desorden de los
3 atributos restantes

33

Muestras a considerar para la rama


SOLEADO del atributo AMBIENTE
N

Ambiente

Temperatura

Humedad

Viento

Juega?

soleado

alta

alta

no

No

soleado

alta

alta

si

No

Soleado

media

alta

no

No

Soleado

baja

normal

no

Si

11

Soleado

media

normal

si

Si

34

Buscando el atributo que mejor


clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

TEMPERATURA
Alta

Baja
Media

2 NO
0

HUMEDAD

1 SI
1 SI
1 NO
1

Alta
3 NO

Normal
2 SI

VIENTO
Si
1 SI
1 NO

No
1 SI
2 NO

0
35

Buscando el atributo que mejor


clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

TEMPERATURA
Alta
2 NO

Baja
Media
1 SI
1 SI
1 NO

0,40

HUMEDAD
Alta

Normal

3 NO

2 SI

VIENTO
Si
1 SI
1 NO

No
1 SI
2 NO

36

Buscando el atributo que mejor


clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

TEMPERATURA
Alta
2 NO

Baja
Media
1 SI
1 SI
1 NO

0,40

HUMEDAD
Alta

Normal

3 NO

2 SI

VIENTO
Si

No

1 SI
1 NO

1 SI
2 NO

0,9183

37

Buscando el atributo que mejor


clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado
2 SI
3 NO

Lluvioso
Nublado
3 SI
SI
2 NO

TEMPERATURA
Alta
2 NO

Baja
Media
1 SI
1 SI
1 NO

0,40

HUMEDAD
Alta

Normal

3 NO

2 SI

VIENTO
Si

No

1 SI
1 NO

1 SI
2 NO

0
0,9510
38

Estado actual del rbol


AMBIENTE
Soleado

Nublado

HUMEDAD

SI

Alta

Normal

NO

SI

Lluvioso
3 SI
2 NO

Para estas 5 muestras,


calcular el desorden de los
3 atributos restantes
(sacando AMBIENTE)
39

Buscando el atributo que mejor


clasifica la rama Lluvioso de Ambiente
AMBIENTE
Soleado

Nublado

HUMEDAD
Alta

Normal

NO

SI

Media
2 SI
1 NO
0,7510

Baja
1 SI
1 NO

3 SI
2 NO

SI

TEMPERATURA
Alta

Lluvioso

HUMEDAD
Alta

Normal

1 SI
1 NO

2 SI
1 NO

0,4340

VIENTO
Si

No

2 NO

3 SI
0
40

Arbol de decisin

AMBIENTE
Soleado
HUMEDAD

Nublado

Lluvioso

SI

VIENTO

Alta

Normal

Si

NO

SI

NO

No
SI

41

Ejercicio 4 (para entregar)


El archivo Curso.xls contiene informacin

del desempeo de un conjunto de alumnos al


desarrollar distinta tareas.
Se ha relevado el desempeo en

Prctica
Actividad Presencial
Actividad a Distancia

Finalmente, para cada alumno se conoce si

ha aprobado o no el curso.
42

Archivo Curso.xls
Practica
bien
bien
muy_bien
regular
regular
regular
muy_bien
bien
bien
regular
bien
muy_bien
regular
regular

Activ-Distancia Activ-Presencial
alta
alta
baja
alta
alta
alta
alta
alta
alta
baja
baja
baja
baja
baja
baja
baja
alta
baja
baja
baja
alta
baja
alta
alta
baja
baja
alta
alta

Calificacion
aprobado
desaprobado
aprobado
aprobado
desaprobado
desaprobado
aprobado
desaprobado
aprobado
desaprobado
aprobado
aprobado
desaprobado
aprobado

Ejercicio 4 (para entregar)


Utilizando la informacin del archivo

Curso.xls y la medida de Desorden


Promedio, indicar el rbol de clasificacin
para decidir si un alumno aprobar o no el
curso en base a su desempeo en la prctica
y las actividades presencial y a distancia.
Indicar en cada paso los valores de desorden

obtenidos y las selecciones realizadas.


44

You might also like