06 MD

MINERA DE DATOS
Tania del Cerro Snchez
Patricia Novalbos Laina
Universidad Carlos III de Madrid

100275174@alumnos.uc3m.es
Universidad Carlos III de Madrid

100080718@alumnos.uc3m.es
INTELIGENCIA EN REDES DE
ORDENADORES
5 INGENIERIA DE TELECOMUNIACIN
ABSTRACT
En este documento vamos a realizar un estudio de minera
de datos a partir de datos obtenidos en gapminder.
Trminos Generales
Algoritmos,
Documentacin,
Confiabilidad,
Experimentacin, Factores Humanos, Teora.
1. Qu es la minera de datos?
Es un modelo de decisin basado en rboles en el que se

procesa tanto variables cuantitativas como cualitativas.
Existen tcnicas de podado que acotan la dimensin de la
estructura de decisin siendo as ms rpidos y eficientes.
3.
La minera de datos es un rea de las ciencias de la

computacin que intenta descubrir patrones entre grandes
volmenes de datos, se le conoce tambin con el nombre
de "Knowledge Discovery in Databases" o KDD. Se basa en
mtodos de inteligencia artificial como es el aprendizaje,
aunque se apoya tambin en la estadstica y bases de datos.
2. Aprendizaje
supervisado,
supervisado y algoritmos.
Qu es el algoritmo basado en rboles de decisin?
Estudio de datos.
El estudio que vamos a realizar trata de relacionar el

nmero de hijos que tiene una mujer, con edades
comprendidas entre los 15 y los 44, con los aos que haya
estado escolarizada.
Haremos una comparativa de los datos que se dan en
Espaa con los del resto del mundo, luego aplicaremos
algoritmos de clustering, arboles y KNN. Y veremos cmo
los datos van variando a lo largo de los aos.
no
En dicho documento realizaremos un estudio de las

tendencias y caractersticas de un conjunto de datos.
Utilizaremos diferentes tcnicas como el algoritmo de
clustering que es una tcnica no supervisada y KNN y
rboles que son tcnicas supervisadas.
3.1 Espaa frente a los dems pases.

En la imagen siguiente los diferentes colores representan
las diferentes zonas mundiales.
Qu son las tcnicas no supervisadas?

Son una agrupacin automtica de conjuntos de datos que
tienen unos rasgos similares.
Qu es clustering?
Es un algoritmo que maximiza la similitud entre miembros
del mismo grupo y las diferencia entre elementos
pertenecientes a distintos grupos. Procesa variables
cuantitativas como cualitativas y el nmero de segmentos o
grupos se determina en tiempo de ejecucin.
Qu es el aprendizaje supervisado?
Es una tcnica para deducir una funcin que sea capaz de
predecir el valor correspondiente de un dato de entrada a
partir de unos datos de entrenamiento, es decir unos
ejemplos previamente estudiados.
En 1970 en Espaa con relacin a la Unin Europea es uno

de los pases que tiene la tasa ms alta de nios por mujer
(2.9 hijos) a la vez y que menos tiempo permaneca
escolarizada (3.7 aos). En pases como Japn o India
observamos que la tasa de escolarizacin es an menor que
en Espaa y la natalidad mayor. La mayora de los pases
siguen la misma tendencia, es decir a medida que las
mujeres pasan un mayor tiempo escolarizadas se reduce el
nmero de hijos que tiene. Salvo en algunos pases como
Filipinas que tiene una tasa mayor de escolarizacin y
natalidad.
El grfico anterior corresponde a la natalidad en Europa

Occidental desde el inicio de la crisis (Datos del Banco
Mundial). Como se puede observar, a partir de finales de
2007 la tasa en todos los pases de Europa Occidental ha
ido decreciendo constantemente a lo largo de estos 6
aos.
Con el paso de los aos hemos podido observar que se ha
producido un fuerte descenso de la tasa de hijos por mujer
y un aumento de los aos de escolarizacin en casi todos
los lugares, menos en frica que vemos que a pesar que
las tasas de escolarizacin se han incrementado la
natalidad sigue tomando aproximadamente los mismos
valores.
Los pases de la Unin Europea, Amrica o Asia tienden a
converger. En Europa existe una tasa de unos 12 aos
escolarizadas y tener 1.4 hijos de media.
En este punto nos podemos plantear, qu hace a la
sociedad cambiar? El fomento de la educacin y la
insercin de la mujer en el mundo laboral junto con las
diferentes tcnicas anticonceptivas que han ido surgiendo
a lo largo de estos aos, son los aspectos clave para este
punto de inflexin en los datos.
Espaa actualmente es uno de los pases de Europa

Occidental con una tasa de natalidad ms baja, 9.7% segn
los resultados de 2012.
Por tanto, centrndonos en Espaa, la reduccin de la
natalidad en estos ltimos aos se debe principalmente a
unos salarios demasiado bajos y a unas hipotecas
demasiado altas que hacen inviable afrontar el gasto que
supondra tener un hijo. A esto podemos unir las cortas
bajas por maternidad/paternidad y el aumento de los
precios de las guarderas.
3.2 Estudio de los datos mediante

clustering
Como ya hemos comentado antes la tcnica de clustering
forma parte del aprendizaje no supervisado, utilizaremos
dos algoritmos diferentes como son Xmeans y simpleKmin
y realizaremos la comparativa pertinente.
A. Xmeans
Este algoritmo se basa en la tcnica de los centroides
buscando los knn vecinos ms prximos los va agrupando
con la referencia de los centroides y as se da origen a los
clusters. En dicho algoritmo necesita el nmero mximo y
mnimo de clusters que deseamos; y el propio algoritmo se
encargar de elegir el nmero ptimo en el rango
asignado.
Pero est claro que a pesar del mayor grado de

alfabetizacin y del aumento de educacin sexual, hay
otros factores que debemos tener en cuenta.
En nuestro caso hemos realizado el algoritmo Xmeans

con un nmero mximo de clusters igual a 4 y el mnimo 2.
Y con un 66% de los datos los usamos para entrenamiento
y la parte restante para test.
Los resultados han sido los siguientes:
TRAIN
El nmero ptimo de cluster han sido tres, en cuanto
a los aos los divide en tramos de 45 aos, y podemos
observar que el nmero medio de hijos ha ido
disminuyendo a la vez que el tiempo de escolarizacin ha

ido aumentando.
TEST
Con los datos restantes observamos a que cluster
pertenecen y observamos que el 80% de los datos de test
pertenecen al cluster 0 (los que mayor tasa de hijos tienen
y menor de escolarizacin) y tan solo el 20% al cluster 1
que es el cluster intermedio.
4 CLUSTERS
Como es de esperar conforme vayamos incrementando el
nmero de clustering para clasificar nuestros datos el error
ser menor ya que al tener ms grupos los datos que
ajustarn ms a estos. Que vaya disminuyendo el error no
es siempre bueno ya que podemos incrementar de tal
forma el nmero de clusters que haya muy pocos
elementos en los grupos o que las diferencias entre unos y
otros sean insignificantes. Hemos realizado la prueba con 4
clusters.
TRAIN
Comprobamos que el error ha disminuido frente al
anterior caso ha pasado a ser 0.26 frente a 0.59.
Este caso sera aceptable o incluso elegiramos este
nmero de cluster para analizar la informacin porque
todava hay diferencias significantes entre los distintos
grupos.
B. SimpleKmean
En este algoritmo tenemos que fijar el nmero de
clustering que queremos encontrar con los datos dados,
como en nuestro caso contamos con pocos queremos que
el nmero de clustering no sea muy elevado.
3 CLUSTERS
10 CLUSTERS
TRAIN
Con este ejemplo con diez cluster verificamos lo
anteriormente comentado en cuanto al error y a las pocas
diferencias que se observan entre los clustering.
TEST
3.3 Estudio de los datos mediante

rboles de decisin.
Podemos observar ahora que los datos utilizados para test
se han repartido entre todos los clustering definidos, pero
esto no nos dice que el algoritmo sea mejor o peor sino
que como es aleatorio los valores que se cogen para test
ha dado la casualidad que haba datos que pertenecan a
cada uno de los tres clusters definidos.
DecisionStump
DecisionStump o rbol de decisin de un solo
nivel.
Cada nodo representa una caracterstica de un
caso para ser clasificado, y cada rama representa
un valor que el nodo puede tomar. Los casos son
clasificados comenzando en el nodo raz y se

cataloga
basndose
en
sus
valores
caractersticos.
3.4 Estudio de los datos mediante knn.
En esta imagen se observa el rbol generado y el

nmero de instancias que clasifica cada nodo.
Y aqu obtenemos los resultados del test.
M5P
Es un rbol de regresin. Cada hoja tiene asociada

una clase que permite calcular el valor estimado de la
instancia mediante una regresin lineal.
4. Conclusiones
En el caso de clustering podemos observar como
al aumentar el nmero de clusters disminuye el error. Pero
siempre debemos encontrar una relacin de compromiso
entre el nmero de datos con el que contamos en el
estudio y el de clusters, es decir, no puede haber tantos
clusters como datos. Dependiendo del caso en concreto
nos interesar clasificar en ms o menos grupos. Como
hemos comentado anteriormente, sino tenemos claro el
nmero de clusters es mejor elegir el algoritmo Xmeans ya
que te optimiza el nmero de clusters dentro de un rango
dado.
En el caso del estudio que nos ocupa, mediante
rboles y Knn, podemos observar que la mejor tasa de
error la obtenemos con el rbol de regresin M5P.
ReepTree
Construye un rbol de decisin usando la varianza y lo

poda usando la reduccin del error.
La tcnica de arboles es muy fcil de entender y

de visualizar el resultado, son robustos al ruido, pero no
suelen generalizar demasiado bien. Y a cuanto knn
destacar que se utiliza tanto en tcnicas supervisadas
como las no supervisadas.

06 MD

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

06 MD

Uploaded by

Copyright:

Available Formats

MINERA DE DATOS

Tania del Cerro Snchez

Patricia Novalbos Laina

Universidad Carlos III de Madrid

Universidad Carlos III de Madrid

Es un modelo de decisin basado en rboles en el que se

La minera de datos es un rea de las ciencias de la

Qu es el algoritmo basado en rboles de decisin?

El estudio que vamos a realizar trata de relacionar el

En dicho documento realizaremos un estudio de las

3.1 Espaa frente a los dems pases.

Qu son las tcnicas no supervisadas?

En 1970 en Espaa con relacin a la Unin Europea es uno

El grfico anterior corresponde a la natalidad en Europa

Espaa actualmente es uno de los pases de Europa

3.2 Estudio de los datos mediante

Pero est claro que a pesar del mayor grado de

En nuestro caso hemos realizado el algoritmo Xmeans

disminuyendo a la vez que el tiempo de escolarizacin ha

3.3 Estudio de los datos mediante

clasificados comenzando en el nodo raz y se

3.4 Estudio de los datos mediante knn.

En esta imagen se observa el rbol generado y el

Y aqu obtenemos los resultados del test.

Es un rbol de regresin. Cada hoja tiene asociada

Construye un rbol de decisin usando la varianza y lo

La tcnica de arboles es muy fcil de entender y

You might also like