Professional Documents
Culture Documents
2
test with the chosen signicance level. How-
ever, applying a signicance test in this context
is problematic because of the so-called multiple
comparison problem: if we perform a test hun-
dreds of times for hundreds of association rules, it
is likely that a signicant eect will be found just
by chance (i.e., an association seems to be statis-
tically signicant when really it is not). Also, the
2
test is inaccurate for small sample sizes (in this
context, small support values).
Apriori tiene algunos parametros mas. Si signif-
icanceLevel se establece en un valor entre cero
y uno, las reglas de asociacion se ltran sobre la
base de un
2
la prueba con el nivel de signicacion
elegido. Sin embargo, la aplicacion de una prueba
de signicacion en este contexto es problematico
debido a los llamados problemas de comparacion
m ultiple: si realizamos una prueba cientos de ve-
ces por cientos de reglas de asociacion, es probable
que un efecto signicativo se encuentran solo por
casualidad (es decir, una asociacion parece ser es-
tadsticamente signicativa, cuando en realidad no
lo es). Ademas, el
2
la prueba es inexacto para
peque nos tama nos de muestra (en este contexto,
los valores de apoyar a los peque nos).
There are alternative measures for ranking rules.
As well as Condence, Apriori supports Lift,
Leverage, and Conviction. These can be se-
lected using metricType. More information is
available by clicking More in the GenericOb-
jectEditor.
Hay medidas alternativas para las reglas de clasi-
cacion. Ademas de Condence, Apriori Lift
apoya, Leverage y Conviction. Estos pueden ser
seleccionados con metricType. Mas informacion
esta disponible haciendo clic More en el Generi-
cObjectEditor.
Ex. 3: Run Apriori on the weather data with
each of the four rule ranking metrics, and
default settings otherwise. What is the top-
ranked rule that is output for each metric?
Ex. 3: Ejecutar Apriori en la informacion del
tiempo con cada uno de los cuatro indi-
cadores regla de clasicacion, y la congu-
racion por defecto de otra manera. Cual es
la primera regla de clasicacion que se emite
para cada metrica?
3 Mining a real-world dataset
Now consider a real-world dataset, vote.arff,
which gives the votes of 435 U.S. congressmen on
16 key issues gathered in the mid-80s, and also in-
cludes their party aliation as a binary attribute.
This is a purely nominal dataset with some miss-
ing values (actually, abstentions). It is normally
treated as a classication problem, the task being
to predict party aliation based on voting pat-
terns. However, we can also apply association rule
mining to this data and seek interesting associa-
tions. More information on the data appears in
the comments in the ARFF le.
Consideremos ahora un conjunto de datos del
mundo real, vote.arff, lo que da los votos de 435
congresistas EE.UU. el 16 de cuestiones clave se
reunieron a mediados de los a nos 80, y tambien in-
cluye su aliacion a un partido como un atributo
binario. Se trata de un conjunto de datos pura-
mente nominal con algunos valores que faltan (de
hecho, abstenciones). Normalmente se trata como
un problema de clasicacion, la tarea que para pre-
decir aliacion a un partido basado en los patrones
de voto. Sin embargo, tambien podemos aplicar
la minera de reglas de asociacion a estos datos y
buscar asociaciones interesantes. Mas informacion
sobre los datos aparecen en los comentarios en el
archivo ARFF.
Ex. 4: Run Apriori on this data with default set-
tings. Comment on the rules that are gener-
ated. Several of them are quite similar. How
are their support and condence values re-
lated?
Ex. 4: Ejecutar Apriori en estos datos con la
conguracion predeterminada. Opina sobre
las reglas que se generan. Varios de ellos
son bastante similares. Como son su apoyo
y conanza de los valores asociados?
4
Ex. 5: It is interesting to see that none of
the rules in the default output involve
Class=republican. Why do you think that
is?
Ex. 5: Es interesante ver que ninguna de las re-
glas en la salida predeterminada implican
Clase=republicana. Por que crees que es?
4 Market basket analysis
A popular application of association rule mining is
market basket analysisanalyzing customer pur-
chasing habits by seeking associations in the items
they buy when visiting a store. To do market bas-
ket analysis in WEKA, each transaction is coded
as an instance whose attributes represent the items
in the store. Each attribute has only one value: if a
particular transaction does not contain it (i.e., the
customer did not buy that particular item), this is
coded as a missing value.
Una aplicacion popular de la minera de reglas
de asociacion es el analisis de la cestaanalizar
los habitos de compra de los clientes mediante
la b usqueda de asociaciones en los productos que
compran al visitar una tienda. Para hacer analisis
de la cesta de WEKA, cada transaccion se codi-
ca como una instancia cuyos atributos represen-
tan los artculos de la tienda. Cada atributo tiene
un unico valor: si una transaccion en particular
no lo contiene (es decir, el cliente no comprar ese
artculo en particular), esto se codica como un
valor que falta.
Your job is to mine supermarket checkout data for
associations. The data in supermarket.arff was
collected from an actual New Zealand supermar-
ket. Take a look at this le using a text editor
to verify that you understand the structure. The
main point of this exercise is to show you how dif-
cult it is to nd any interesting patterns in this
type of data!
Su trabajo consiste en extraer datos superme-
rcado para las asociaciones. Los datos de
supermarket.arff se obtuvo de un verdadero su-
permercado de Nueva Zelanda. Echa un vistazo
a este archivo utilizando un editor de texto para
comprobar que entender la estructura. El punto
principal de este ejercicio es mostrar lo difcil que
es encontrar cualquier patrones interesantes en este
tipo de datos!
Ex. 6: Experiment with Apriori and investigate
the eect of the various parameters discussed
above. Write a brief report on your investi-
gation and the main ndings.
Ex. 6: Experimente con Apriori e investigar el
efecto de la diversos parmetros discutidos an-
teriormente. Escriba un breve informe en su
investigacin y las conclusiones principales.
5