Professional Documents
Culture Documents
Elaborado por:
Andrea Freire
Susana Daz
Fernanda Herrera
Tabla de Contenido
RESUMEN .............................................................................................................................................. 2
INTRODUCCIN ..................................................................................................................................... 2
1.
DESARROLLO ................................................................................................................................. 2
1.1
RECOPILACIN ................................................................................................................................ 2
1.2
SELECCIN DE LOS DATOS ................................................................................................................. 3
1.2.1 Tamao de la muestra ........................................................................................................... 3
1.3
PRE-PROCESAMIENTO ...................................................................................................................... 6
1.4
MINERA DE DATOS ......................................................................................................................... 9
1.5
INTERPRETACIN Y EVALUACIONES ................................................................................................... 18
Tabla de Grficas
RESUMEN
La presente monografa muestra un anlisis de intencin del voto;
determinando los parmetros en los que se basan utilizando
herramientas y tcnicas de minera de datos para la toma de
decisiones, determinar cul es el modelo ms ptimo y llegar a
conclusiones que nos permitan optimizar recursos. Se tomarn un
conjunto de datos de los municipios con mayor nmero de votantes
dentro de la comunidad de Espaa; los mismos sern evaluados por
tcnicas no supervisadas (EM, K-Medias, COBWEB). Mediante Weka
que es un programa de cdigo abierto y que nos brinda algoritmos de
aprendizaje tiles para la minera de datos.
INTRODUCCIN
El presente documento muestra un anlisis para la intencin del voto; con lo cual, se dispone
de datos reales tomados de Internet de las elecciones para el Congreso de Noviembre del 2011
del Gobierno de Espaa.
Se tomarn los datos ms representativos que determinen la intencin del voto para los
distintos partidos y para cada uno de los municipios de las diferentes comunidades de Espaa;
partiendo de la poblacin electoral y utilizando algoritmos de procesamiento de datos. No
existe una metodologa para saber cules son las dimensiones para predecir o determinar lo
resultados de una eleccin; pero si se puede establecer niveles de comportamiento a partir de
un conjunto de datos.
La evaluacin de los mismos se realizar con WEKA, es una herramienta que permite la
experimentacin de anlisis de datos mediante anlisis y evaluacin de las tcnicas ms
relevantes de anlisis de datos, principalmente provenientes del aprendizaje automtico sobre
cualquier conjunto de datos del usuario. 1
Los datos que se han obtenido son de las elecciones para el Congreso de Noviembre del 2011
para las diferentes comunidades de Espaa; se tomar como referencia para el anlisis las
poblaciones cuyo nmero de votantes sea representativo y de esta manera saber cun
determinante es el nmero de poblacin para estimar la intencin de voto.
Anlisis de datos en WEKA Pruebas de selectividad. GARCA JIMNEZ, Mara Gabriela, Universidad
Carlos III
1. DESARROLLO
El estudio que se presenta a continuacin, se realiza a partir de datos histricos para estimar o
predecir los resultados de una eleccin. Una metodologa como tal no existe para determinar
la intencin de voto; se realiza encuestas antes o durante las elecciones para establecer que
candidatos tienden a obtener el mayor nmero de votos.
El proceso a seguir para el anlisis de los datos obtenidos es el siguiente:
Recopilacin
Seleccin de Datos
Preprocesamiento
Minera de Datos
Interpretacin y
Evaluacin
1.1 Recopilacin
Partimos de la base de datos de las elecciones para Congreso de Espaa de Noviembre del
2011. A travs de una base de datos obtenido en formato de Excel con extensin (.xls),
organizados y estructurados de acuerdo a la distribucin poltica de Espaa, estos datos son los
siguientes:
Comunidad
Cdigo de provincia
Nombre de provincia
Cdigo de municipio
Nombre de municipio
Poblacin
Nmero de mesas
Total censo electoral
Total votantes
Votos vlidos
Votos a candidaturas
Votos en blanco
Votos nulos
Partidos polticos
Partido popular
Partido socialista obrero espaol
Izquierda unida
Unin progreso y democracia
Otros
Poblacin;
47.021.031
Existen en total 8115 registros de todos los municipios de este pas, por lo que tomamos como
tamao de la muestra la comunidad de Andaluca que abarca las provincias de: Almera, Cdiz,
Crdoba, Granada, Jan, Huelva, Mlaga y Sevilla y de estas provincias
provincias los municipios con
mayor nmero de electores que pueden ser determinantes a la hora de definir el o los partidos
ganadores.
Poblacin
1400000
1200000
1000000
800000
600000
400000
200000
0
TAMAO DE LA MUESTRA
[NOMBRE
DE
CATEGORA
]Total
Censo
electoral;
Poblacin;
5.498.812
De esta manera queda considerablemente reducida la base de datos y el anlisis que se realice
a esta comunidad servir de base para las dems comunidades.
De igual manera existen numerosos partidos polticos de los cuales solo se destacan pocos que
consideramos los ms representativos
epresentativos del pas.
pas
1.3 Pre-procesamiento
procesamiento
Una vez recolectada la informacin necesaria sobre la cual se va a realizar el anlisis,
anlisis
codificamos el archivo en formato .arff
arff de tipo real o entero y simblico, en cuyo caso se
especifican los valores posibles que puede tomar entre llaves.
El fichero de datos contiene 93 registros de los municipios con mayor nmero de votantes,
adems de los votos vlidos, blancos, nulos total de electores y las votaciones para cada
partido poltico ms representativos dentro de
d la localidad de Andaluca.
Provincias
Comunidad
Almera
12
Municipios
Cdiz
5 Municipios
Crdoba
9 Municipios
Granada
20
Municipios
Huelva
9 Municipios
Jan
12
Municpios
Mlaga
12
Municipios
Sevilla
12
Municipios
Andaluca
Existen grupos de ciudades que no se encuentran dentro del rango donde estn la mayora de
ciudades y esto puede influir en el resultado del anlisis.
Procedemos a filtrar los datos que no vamos a utilizar tal como es el nmero de mesas, que
para nuestro anlisis no ser necesario este campo.
Debido a que vamos a trabajar con datos numricos debemos discretizar los datos de tal
manera que los atributos numricos seleccionados se transformen en atributos simblicos,
para optimizar el nmero de cajas y que tenga la misma amplitud con un criterio de
clasificacin de mnimo error en funcin de las etiquetas. Se dividirn en 4 intervalos de la
misma frecuencia y esto nos permitir determinar los cuatro cuartiles de la clasificacin de la
poblacin.
Puede verse una marcada diferencia entre el primer cuartil y el cuarto cuartil, ya que las
poblaciones que son importantes para determinar la intencin de voto son las del primer
cuartil que son 86 poblaciones donde se debe empezar a realizar encuestas o sondeos que en
acontecimientos futuros pueden impactar en los resultados.
Realizando una evaluacin entre el total de votantes y el total del censo electoral se determina
que el porcentaje de ausentismo es mnimo.
m
Nos muestra los municipios que ms destacan y el rango de votantes, la cantidad de ciudades
que agrupan, podemos decir que el clster 0 es el que ms ciudades ha agrupado y de dnde
existe la informacin
cin ms destacada para el total de votantes ms representativos.
representativos
Es de inters analizar grficamente como se distribuyen los diferentes valores de los atributos
en los grupos generados.
Este algoritmo precisa nicamente el nmero de categoras similares en las que queremos
dividir el conjunto de datos.
Podemos hacer la una agrupacin entre el nmero de votantes y la distribucin de votos para
cada uno de los partidos ms representativos.
Probamos ahora con el algoritmo EM que proviene de la estadstica y es ms elaborado que el
de K-medias,
medias, este algoritmo es ms
ms apropiado cuando sabemos que los datos tienen una
variabilidad estadstica de modelo conocido.
EM permite buscar el nmero de grupos ms apropiado y esto se interpreta como dejar
dej el
parmetro del nmero de clsteres como un valor a optimizar por el propio
o algoritmo.
Filtramos las instancias al 3% y obtenemos el siguiente resultado indicando los centroides de
cada grupo:
Agrupando las instancias Provincia, total censo electoral y total votantes tenemos el siguiente
resultado:
Grfica 17 Distribucin EM
los datos, permite homogeneidad de los valores de los atributos dentro de cada una y al
mismo tiempo
o una separacin entre categoras dadas por los atributos.
Aplicando cobweb con los parmetros por defecto sobre la muestra tenemos el siguiente
resultado:
Hay 2 grupos en un primer nivel (nodos) y el segundo nodo se divide en 3 niveles, y estos
subdividindose en 2 y 3 niveles respectivamente:
Cada uno de los nodos representa una clase de objeto, esta se basa en medir en cul se tiene
la mayor ganancia en cada categora.
Dependiendo del nmero de instancias y si estas son numricas o simblicas se tomar el
mejor algoritmo de agrupacin par la toma de decisiones.
En este caso el algoritmo EM (expectation maximization) es el mejor algoritmo para
determinar el resultado de intencin de voto, puesto que la mayora de los datos son
numricos y calcula las probabilidades de que cada objeto analizado pertenezca a un clster y
usa esas probabilidades para re-estimar los parmetros de las probabilidades hasta converger.
1.
2.
3.
4.
5.
6.