You are on page 1of 8

APLICACIN DEL ALGORITMO ID3 PLANTEAMIENTO DEL PROBLEMA

Se cuenta con una base de datos de inmuebles (bienes races); recordando que es un inmueble; se denomina bienes races o inmuebles aquellos que no pueden transportarse un lugar a otro, como las tierras y minas, y las que adhieren permanentemente a ellas como los edificios, los rboles. La cual mediante el uso de la aplicacin del algoritmo de clasificacin ID3 se desea predecir cul es la probabilidad de que un bien inmueble se pueda vender y al finalizar comparar los resultados.

Imagen 1 Base de Datos Bienes Races

La Imagen 1 nos muestra la base de datos de la inmueblera dela cual se va trabajar, esta cuenta con siete campos. Tipo: en la cual se muestran los tipos de bienes races que se manejan Operacin: en este campo est el tipo de operacin que se realiz cuenta solo con dos tipos de operaciones Alquiler y VentaProvincia: Muestra el lugar donde se realiz la operacin. Superficie: Muestra los metros cuadrados que cuenta el tipo de operacin Precio Venta: Muestra la cantidad que equivale el tipo de operacin, en base a la superficie.

Fecha de venta: Muestra la fecha en que este fue vendido o alquilado. Vendedor: Muestra el nombre de la Persona que vendi o alquilo el predio. A efectos de este anlisis se eliminan los campos superficie y precio de venta. A continuacin se hace uso de los filtros en Excel para granular la base de datos quedando esta de la siguiente manera (Imagen 2).

Imagen 2 Finalmente como queda granulada la base de datos

La Imagen 2 muestra una parte de cmo es que queda ya granulada la base de datos, para hacer esto se hicieron los siguientes cambios: La Fecha de Alta: se clasifico en cuanto a los meses MesUnoEnero = este referente a mes de enero MesDosFebrero = referente al mes de febrero MesDosMarzo = referente al mes de febrero En cuanto a la columna de Vendedor se cambi a Sexo referente a Hombre y Mujer

Posteriormente teniendo nuestra base de datos ya granulada y filtrada, se guarda el archivo con la extensin .csv (Ver Imagen 3), esto es para poder abrirla en WEKA.

Posteriormente se procede a abrir WEKA y abrir el archivo guardado con extensin .csv (Ver Imagen 4).

NOTA: no olvidemos seleccionar el tipo de archivo que abriremos en este caso es con la extensin .csv, de lo contrario no podr abrir la base de datos.

Imagen 5 Muestra campos y graficas

En la Imagen 5 se puede ver de lado izquierdo en la parte media los campos con los que cuenta nuestra base de datos, recordando cuales son estos: Fecha alta, Tipo, Operacin Provincia, Fecha Venta y Sexo. Y de lado derecho se muestra las grficas de cada uno de estos campos se puede ver seleccionando el campo del cual se desea ver la grfica. A continuacin se procede a elegir el tipo de algoritmo que vamos a utilizar en este caso el algoritmo que vamos a utilizar es el ID3; en la parte superior en la pestaa nmero dos elegimos Classifi, posteriormente elegimos el tipo de algoritmo a aplicar en este caso ser el de ID3 ubicado en la carpeta trees (Ver Imagen 6).

Imagen 6 Elegir el algoritmo de clasificacin ID3

Posteriormente se elige el nombre del atributo para generar el algoritmo comenzamos con el atributo (nom)Fecha Alta al seleccionarlo presionamos Start para general el algoritmo y la matriz de confusin (Ver Imagen 7).

Enseguida podemos darlos cuenta como del lado derecho nos aparece la informacin del algoritmo a ejecutar (Ver Imagen 8), en la cual nos muestra informacin general de la base de datos como los son el tipo de algoritmo a ejecutar, el nombre de la base de datos, el nmero de instancias, el nmero de atributos as como el nombre de cada una de estas.

Enseguida de esa informacin encontramos la siguiente informacin (Ver Imagen 9), en la cual se muestra el desarrollo que WEKA utilizo para llegar a obtener una matriz de confusin, cabe resaltar que este algoritmo es diferente dependiendo el atributo que se desea escoger.

De manera muy general podemos describir cmo se interpreta el algoritmo. Comienza a partir del atributo elegido en este caso es Fecha Venta posteriormente comienza a desglosar cada uno de los dems atributos.
SI Fecha_Venta es igual a ene-05 SI Tipo es igual a Parking Si Provincia es igual a Lleida SI Operacin es Igual alquiler ENTONCES Sexo es igual a mujer total del MesUnoEnero Sexo es igual a hombre total del MesTresMarzo FIN SI FIN SI SI Provincia es igual a Girona Si Operacin es igual a Alquiler ENTONCES Alquiler pertenece al MesUnoEnero FIN SI SI Operacin es igual a Venta ENTONCES Sexo es igual a mujer total del MesDosFebrero Sexo es igual a hombre total del MesDosFebrero FIN SI SI Provincia es igual a Tarragona ENTONCES Tarragona pertenece al MesUnoEnero FIN SI SI Provincia es igual a Barcelona SI Sexo es igual a Mujer ENTONCES Operacin es igual Alquiler del MesUnoEnero Operacin es igual a Venta del MesUnoEnero FIN SI SI Sexo es igual a Hombre ENTONCES Operacin es igual Alquiler del MesDosFebrero Operacin es igual a Venta del MesUnoEnero FIN SI FIN SI

. . . El algoritmo sigue ejecutndose con cada uno de los atributos, finalmente genera una Matriz de Confusin (Ver
Imagen 9. Generacin de Algoritmo id3 Imagen 10), no olvidemos est en relacin al atributo Fecha Venta.

En donde a, b y c pertenecientes a cada uno de los campos MesUnoEnero, MesDosFebrero y MesTresMarzo. La Primera fila nos muestra el nmero total de valores correctos o ciertos. En la segunda fila nos muestra el margen de error que cada campo obtuvo. Y en la tercera fila nos muestra el nmero de campos inexistentes.
Imagen 10. Matriz de Confusin del atributo Fecha Venta

Por otro lado nos muestra o nos arroja un rbol (diagramas) esto lo podemos visualizar dndole click derecho en donde nos arroja la lista de resultados (Ver Imagen 11.) y posteriormente seleccionar Visualize tree.

Imagen 11. Visualizacin del rbol

Y Finalmente podemos observar nuestro rbol de la siguiente manera, no olvidemos que esto es de acuerdo al atributo FechaVenta (Ver imagen 12.).

Imagen 12. Visualizacin del rbol terminado

CONCLUCIN No olvidar que esto se hizo de acuerdo al atributo de nombre FechaVenta, esto es para poder predecir cual es la probabilidad de que una venta en un mes determinado o para ver el tipo de inmueble que puede ser vendido, en el siguiente mes, tomando en cuenta las ventas del mes anterior. Este algoritmo ID3 a pesar de ser uno de los ms fciles en usar es de gran utilidad para poder predecir si se puede llevar acabo un evento o no.