You are on page 1of 33

Captulo 5

Reglas de asociacin

Contexto y perspectiva
Roger es administrador de una ciudad mediana, pero en constante
crecimiento. La ciudad y la mayora de municipios tienen recursos
limitados, por lo que puede decirse que hay ms necesidades que
recursos. l siente que los ciudadanos son bastante activos en varias
organizaciones de la comunidad, y se cree capaz de lograr hacer que
diferentes grupos trabajen juntos para satisfacer las necesidades de la
comunidad. Conoce iglesias, clubes sociales, y otros tipos de grupos
existentes pero no sabe si hay una conexin entre ellos que pueda
permitir una colaboracin natural entre dos o ms de los mismos y de
esa manera trabajar juntos en proyectos para beneficio de la
comunidad. As que se da cuenta que necesita buscar alguna asociacin
entre las organizaciones para poder pedirles que empiecen a trabajar
juntas y acepten proyectos para suplir las necesidades de la ciudad.

Comprensin organizacional
La meta de Roger es identificar y luego tratar de tomar
ventaja de alguna conexin existente en su comunidad local
para obtener un poco de trabajo que pueda beneficiar a la
ciudad completa.
l posee la informacin necesaria para contactar a las
organizaciones de la ciudad e incluso se ha visto involucrado
en algunas de ellas. Su familia est envuelta en un amplio
nmero de organizaciones comunitarias, as que comprende a
nivel personal la diversidad de grupos e intereses, objetivos,
y potencial de contribucin que poseen para la ciudad.

Comprensin organizacional
La principal preocupacin de Roger es encontrar tipos de
organizacin que puedan estar conectadas con otras. La
identificacin de personas para trabajar en cada iglesia, club
social u organizacin poltica podra ser abrumadora sin antes
clasificar las organizaciones en grupos y en busca de
asociaciones entre los mismos.
Una vez comprobado que existe una conexin se sentir
preparado para comenzar a contactar a personas y pedirles
que se comuniquen entre organizaciones para asumir la
responsabilidad
del
proyecto.
Como
mencionamos
anteriormente, su primera necesidad es encontrar dicha
conexin.

Comprensin de los datos


Con el fin de contestar su pregunta, Roger necesita ayuda creando
reglas de asociacin en un modelo de minera de datos. Las reglas
de asociacin son una metodologa de minera de datos que busca
encontrar una conexin frecuente entre atributos en un conjunto
de datos.
Las reglas de asociacin son muy comunes cuando se hacen
anlisis de cestas de compra. Comerciantes y vendedores al utilizar
minera de datos se enfocan en encontrar qu productos son
comprados en conjunto con mayor frecuencia. Si alguna vez ha
comprado en sitios web como Amazon.com, seguramente ha visto
el fruto de las reglas de asociacin en la minera de datos, al notar
la seccin de recomendaciones cuando compra algn articulo en
dicho sitio.

Comprensin de los datos


Por ejemplo, cuando alguien compra un celular en las
recomendaciones suele aparecerle un protector de pantalla,
cargador, cable USB, estuche para celular, etc.
Estas recomendaciones funcionan gracias a las compras de
clientes que adquirieron artculos en conjunto anteriormente,
es decir que compraron un celular y junto al celular, un
protector de pantalla, cargador, cable USB y estuche para
celular. En otras palabras, esos artculos se ven asociados con
alta frecuencia que ya son considerados una regla de
asociacin en el conjunto de datos del sitio web.

Comprensin de los datos


Con fin de asegurar una medicin de integridad de datos, e
intentar de protegerlos de cualquier abuso, nuestro estudio web
debe estar protegido con contrasea. Cada organizacin
invitada a participar al estudio debe tener una contrasea
nica. Debe pedirse al lder de cada organizacin que comparta
la contrasea con sus miembros y alentarlos a participar en el
estudio.
Los miembros tienen un mes para poder participar en el
estudio, y registrarse individualmente. La contrasea est
grabada as que podremos determinar cuantas personas
participaron por organizacin

Comprensin de los datos


Cuando el mes acabe, tendremos un conjunto de datos
compuesto por los siguientes atributos:
Tiempo transcurrido (Elapsed_Time): el tiempo que cada
participante pas en nuestro estudio, expresado en minutos
decimales (ejm: 4.5 = 4 minutos 30 segundos)
Tiempo en la comunidad (Time_in_Community): El tiempo
que ha vivido el participante en la comunidad, 0-2 aos, 3-9
aos, 10+ aos; tambin guardado como corto, mediano o
largo plazo de tiempo vivido.
Genero (Gender): El genero del participante
Trabajo(Working): una columna de s o no que nos indica si
el participante tiene un trabajo asalariado.

Comprensin de los datos


Edad (Age): La edad del participante
Familia(Family): una columna de s o no que nos indica si el
participante es miembro de una organizacin comunitaria orientada
a la familia.
Hobbies: una columna de s o no que nos indica si el participante es
miembro de una organizacin comunitaria orientada a hobbies.
Club social(Social_Club): una columna de s o no que nos indica si
el participante es miembro de una organizacin social.
Poltica(Political): una columna de s o no que nos indica si el
participante es miembro de una organizacin poltica.
Profesional(Professional): una columna de s o no que nos indica
si el participante es miembro de una organizacin profesional.

Comprensin de los datos


Religioso(Religious): una columna de s o no que nos
indica si el participante es miembro de una iglesia en la
comunidad.
Grupo de apoyo o soporte (Support_Group): una
columna de s o no que nos indica si el participante es
miembro de una organizacin orientada al soporte o apoyo
de la comunidad.
Con fines de preservar un nivel personal de privacidad se opt
por no recopilar el nombre de cada participante en el
estudio

Preparacin de los datos


En el sitio https://sites.google.com/site/dataminingforthemasses/
puede
descargarse
el
ejercicio
de
este
capitulo
(Chapter05DataSet.csv). Descrgalo y gurdalo en tu carpeta de
datos RapidMiner. Y completa los siguientes pasos para preparar el
conjunto de datos de un las reglas de asociacin en la minera de
datos.
Importar el archivo Chapter 5 CSV data set en tu repositorio de
datos RapidMiner. Gurdalo con el nombre Chapter5. Si necesitas
recordar puedes buscar los pasos 7 al 14 del ejercicio en el capitulo
3, son exactamente los mismos pasos con excepcin que al
importar seleccionars importar todos los atributos (all attributes.)

Preparacin de los datos


Arrastra el archivo Chapter5 en una nueva ventana de
proceso en RapidMiner, y corre el modelo con el fin de
inspeccionar los datos. Guarda el proceso como
Chapter5_Process

Preparacin de los datos


En la perspectiva de resultados, al revisar el visualizador de
metadatos (Meta data view) podemos observar que no
tenemos prdida de datos en ninguno de los 12 atributos
durante 3483 observaciones , examinando las estadsticas no
tenemos ningn dato inconsistente y que adems RapidMiner
nos da un promedio para los datos nmeros y as tambin su
desviacin tpica estndar.

Preparacin de los datos


Cambiemos a la perspectiva de diseo. El primer paso para la preparacin
de datos es reducir el nmero de atributos. Eligiendo solo aquellos que sean
significativos para nuestro estudio que es conocer la conexin entre las
organizaciones. Los datos a elegir son: Family, Hobbies, Social_Club, Political,
Professional, Religious, Support_Group. Una vez tengamos seleccionados
estos atributos damos clic a OK y regresamos al proceso principal

Preparacin de los datos


Otro paso que hay que hacer es cambiar el tipo de dato de
los datos que hemos elegido de integral a binominal. Los
operadores de las reglas de asociacin necesitan este tipo
de datos para funcionar . Esto se hace en la barra de
operadores (operators tab) en el visualizador de diseo
(design view), se selecciona type Numerical to Binominal.
Es necesario que todos los atributos sean cambiados de
numricos (Numerical) a Binominal. Binominal significa uno
de dos valores que puede ser numrico o carcter

Preparacin de los datos

Preparacin de los datos


Por cada dato que indicaba 0 1 ahora refleja un verdadero
o falso, con esto concluimos nuestra preparacin de datos y
podemos iniciar el modelado de ellos.

Modelacin
Cambiemos de nuevo a design perspective (perspectiva de
diseo). Y utilizaremos dos operadores en especfico para
generar nuestra regla de asociacin de minera de datos.
Utilizamos el campo de bsqueda en operator tab y
buscamos
por
un
operador
llamado
FP-Growth.
Posiblemente encuentres uno que llamado W-FPGrowth.
Que es una implementacin ligeramente diferente al
algoritmo FP-Growth, as que no te confundas que son
nombres bastante similares. Para este ejemplo utilizaremos
FP-Growth. FP es un acrnimo de Frequency pattern que
significa parmetros de frecuencia. Los anlisis de
parmetros de frecuencia son prcticos para muchos tipos de
minera de datos, y son componentes fundamentales de las
reglas de asociacin.

Modelacin
Si no tuviramos frecuencias en la combinacin de atributos, no
podramos
determinar
si
los
patrones
ocurren
lo
suficientemente a menudo para considerarlos como reglas.

Modelacin
Arrastramos el FP-Growth al stream de
datos y debera de verse de la siguiente
manera.

Asegrate que los puertos exa y fre estn conectados con


puertos res. Observen el parmetro Min support, lo
volveremos a ver pronto.

Modelacin
En la perspectiva de resultados vemos que algunos de
nuestros atributos tienen patrones frecuentes en ellos, de
hecho, vemos como tres de ellos parecen tener asociacin el
uno con el otro. Podemos ver como las organizaciones
religiosas tienen una conexin natural con las familiares y de
hobbies. Podemos estudiar esto ms a fondo agregando otro
operador a nuestro modelo. En el visualizador de diseo
buscamos Create Asociation, este operador toma los patrones
frecuentes y observa que tan frecuentes son los patrones para
poder ser considerados como reglas
Arrastra el operador y sultalo en el stream, conecta los
puertos fre con los res y debe quedarte de la siguiente manera

Modelacin

Modelacin
El operador de reglas de asociacin (association rules operator) puede
generar ambos, un conjuntos de reglas (por los puertos rul) y un conjunto
de tems asociados (por los puertos ite). Nosotros simplemente
generaremos reglas, y por ahora aceptar los parmetros por defecto para
crear reglas de asociacin

Ninguna regla fue encontrada, Hicimos todo eso para nada?


Pareca que tenamos esperanza en el paso 9, pero recuerden
lo que se dijo en el capitulo 1 que el CRISP-DM es un proceso
cclico natural y a veces, tienes que ir y venir entre pasos
para encontrar un modelo que produzca resultados. Sin ms

Evaluacin
Al evaluar el primer intento de modelo podemos darnos cuenta
que haba dos factores principales que dictaron si s o no los
parmetros de frecuencia son traducidos en reglas de
asociacin: el porcentaje de confiabilidad y el porcentaje de
soporte.
El porcentaje de confiabilidad est medido en cun seguros
estamos que un atributo es marcado como verdadero y su
atributo asociado tambin es marcado como verdadero. Por
ejemplo: en un supermercado hubieron 10 clientes, en 7 de los
casos se compr leche y 4 personas compraron galletas, 3 de
los casos de galletas compraron leche con las galletas, esto nos
da un margen de confiabilidad del 75% (3/4).

Evaluacin
Lo que nos indica que nuestra confianza en esta regla no es
absoluta, este tipo de operacin se vuelve ms completa al ver el
caso de la leche con las galletas, es bueno tener RapidMiner para
encontrar estas combinaciones y que haga los clculos por
nosotros.
El porcentaje de soporte es ms fcil de calcular. Es simplemente
el nmero de veces que la regla ocurri, dividido por el nmero de
observaciones en el conjunto de datos. El nmero de tems en un
grupo de datos es el nmero absoluto de veces que la asociacin
pudo haber ocurrido. Volviendo al caso de las galletas y leche
encontramos que la asociacin se dio en 3 de 10 ventas, as que
nuestro porcentaje de soporte para esta asociacin es del 30%
(3/10 = .3 o 30%)

Evaluacin
Ahora que comprendemos un poco estos parmetros,
hagamos una pequea modificacin para encontrar alguna
regla de modificacin en nuestros datos. Regresemos al
visualizador de diseo y presionemos clic en el operador de
reglas de asociacin y cambiamos el parmetro min
confidence a 0.5

Evaluacin
Lo conseguimos! Hemos descubierto que en las organizaciones
religiosas, familiares y de hobbies estn relacionadas. Observe la regla
nmero 4 y notara que estuvo a punto de ser considerada regla con un
80% quedndose a penas con un 79.6% nuestras otras asociaciones son
un poco bajas en porcentaje de confianza pero siguen siendo buenas

Evaluacin
Podemos ver que en cada una de las 4 reglas existe ms del
20% de porcentaje de soporte, el porcentaje de soporte no es
recproco ya que solo nos dicta cuantas veces ocurri la
asociacin sobre el nmero de veces que pudo haber sucedido
Segn los resultados establecidos (buscando un 50% de
porcentaje de confianza) podemos decir que existe una
relacin en las organizaciones y establecer reglas de
asociacin.
Por ejemplo familiar religiosa sera una regla pero religiosa
familiar no lo sera ya que no cumple el grado de
confiabilidad que establecimos.

Evaluacin
En otras mediciones podemos ver tambin que si comparamos
ambos porcentajes (confiabilidad y soporte) son bastante
consistentes entre ellos
El min support parameter es el que dicta el grado de
confiabilidad de una relacin, FP-Growth por defecto busca el
95% (0.95) de confiabilidad por tal motivo no nos aparecan
reglas, sin embargo al bajar a 50% (0.5) pudimos encontrar que
si haba relacin entre organizaciones.
De esta manera podemos darnos cuenta que para que un
modelo de minera de datos nos de resultados a veces es
necesario ir y venir entre pasos para encontrar uno que nos de
los resultados que necesitamos.

Implementacin
Pudimos ayudarle a Roger a encontrar la respuesta que
necesitaba saber, Existe una conexin entre organizaciones
comunitarias? S las hay, pudimos encontrar que las
organizaciones de hobbies, familiares y religiosas tienen
miembros en comn y sorprendentemente las profesionales
y polticas no se relacionan entre s.
Por lo visto Roger tendra ms suerte encontrando grupos
que colaboraran en proyectos en beneficio a la ciudad si
busca y compromete a iglesias, y organizaciones de hobbies
y familias.

Resumen
Los modelos de minera de datos son ciclos que
posiblemente no funcionen al primer intento y deba
regresarse entre pasos para encontrar resultados.
Las reglas de asociacin son de gran utilidad para
identificar vnculos entre diferentes elementos y as
implementar aplicaciones prcticas y efectivas para
nuestros objetivos.

Preguntas

Qu son las reglas de asociacin?


Para qu nos sirven las reglas de asociacin?
Cules son las dos medidas principales para calcular las
reglas de asociacin?
Qu es un tipo de datos binominal?
Qu es un tipo de datos binomial?

Preguntas
Qu tipo de datos debe ser utilizado en los atributos para
calcular los parmetros de frecuencia en RapidMiner?
Mencione el componente fundamental para la creacin de
reglas de asociacin:
Cmo se llama el operador utilizado en este ejercicio?
Qu significa FP en el parmetro FP-Growth?
Cul es el parmetro que nos ayuda a seleccionar un
porcentaje de confianza en RapidMiner?

You might also like