You are on page 1of 9

Mtodos de Minera de Datos para Aplicaciones en Tiempo Real

Alix E. Rojas Hernndez


Facultad de Ingeniera de Sistemas, Universidad Nacional de Colombia Avenida Carrera 30 No. 45 03, Bogot D.C., Colombia

aerojash@unal.edu.co

RESUMEN
En este artculo se presenta una visin general de algunos mtodos usados en minera de datos para ambientes de tiempo real. Se identifica una clasificacin a priori de los mtodos de minera, enfocados en el tema para narrar de una forma ordenada este estado del arte.

4.2.1.3. de datos

rboles de decisin para minera en flujos

4.2.2 Mtodos que encuentran Reglas de Asociacin


4.2.2.1. Encontrando conjuntos de tems frecuentes sobre flujos de datos en lnea 4.2.2.2. Un simple algoritmo para encontrar elementos frecuentes en flujos de datos y bolsas 4.2.2.3. Tpicos de investigacin en reglas de asociacin de minera para flujos de datos

Palabras Clave
Minera de Datos, aplicaciones, tiempo real, en lnea, algoritmos, flujos de Datos (Data Streams).

4.2.3

Mtodos Agrupadores

CONTENIDO
1. 2. INTRODUCCIN EL CONCEPTO DE TIEMPO REAL 2.1. 2.2. 3. CONTEXTO TERMINOLOGA

GENERALIDADES 3.1. ORGENES 3.2. CUADRO SINPTICO SOBRE LA MINERA DE DATOS EN TIEMPO REAL 3.3. LO QUE NO EST CUBIERTO

4.2.3.1. Un marco de trabajo para agrupamiento en flujos de datos 4.2.3.2. Agrupamiento Proyectado sobre Flujos de Datos Altamente Dimensionales 4.2.3.3. Un marco de trabajo para agrupamiento proyectado sobre flujos de datos altamente dimensionales 4.2.3.4. Agrupamiento en lnea de flujos de datos paralelos 4.2.3.5. Un marco de trabajo para diagnosticar cambios en flujos de datos que evolucionan 4.2.3.6. Agrupamiento binario: Flujos de datos con K-means 4.2.3.7. Algoritmos de flujos de datos para un agrupamiento refinado

4.2.4

Mtodos que Descubren Patrones

4.

MINERA EN TIEMPO REAL 4.1. 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.2. 4.2.1 INVESTIGADORES CHARU AGGARWAL JIAWEI HAN PEDRO DOMINGOS PHILIP S. YU JOO GAMA OTROS AUTORES DESTACADOS MTODOS INVESTIGADOS Mtodos Clasificadores

4.2.4.1. Algoritmos de tiempo real para correspondencia de cadenas y reconocimiento de palndromos 4.2.4.2. Un marco de trabajo intuitivo para entender cambios en flujos de datos

4.2.5

Mtodos Detectores de anomalas

4.2.5.1. Deteccin de cambio en flujos de datos 4.2.5.2. Clasificacin en lnea de flujos de datos no estacionarios 4.2.5.3. Algoritmos incrementales Info-Difusos para minera de datos en tiempo real de flujos de datos no estacionarios

5. 6. 7.

TEMAS DE INVESTIGACIN OPININ Y CONCLUSIONES REFERENCIAS

4.2.1.1. Un modelo de clasificacin bayesiano para la deteccin de intrusos en tiempo real 4.2.1.2. rboles de decisin de flujos de datos espaciales usando Peano Count Trees

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real 2.2. Terminologa

1. INTRODUCCIN
El concepto de tiempo real, en lo que tiene que ver con minera de datos, es un tema relativamente reciente. Sin embargo, es una nocin transversal para la gran mayora de mtodos de minera que existen; es decir, se pueden tener aplicaciones que respondan en cualquier momento, y que basen su arquitectura en algoritmos de clasificacin o agrupamiento, indistintamente. En este estado del arte se mostrarn varios trabajos realizados hasta el momento sobre minera de datos en ambientes de tiempo real, con el nico objeto de saber que hay hasta el momento en cuanto a investigaciones sobre el tema, cual es la tendencia, grupos e investigadores especialistas, y sobre todo, llegar a plantear una idea esquemtica de qu, cmo y por qu el concepto de tiempo real en la metodologa de minera de datos. El artculo se compone inicialmente por la definicin del tema a tratar, para luego pasar a mencionar y discutir los trabajos de investigacin alrededor del rea, y por ltimo, terminar con lo que se podra seguir investigando sobre este tema.

Dentro de una bsqueda normal, sobre minera de datos en tiempo real, es normal que aparezcan trminos como en lnea, tiempo real, aprendizaje de mquina o su trmino tal vez ms familiar en ingls machine learning, flujos de datos o su equivalencia anglosajona data streams, entre otros, que en su momento, sern mencionados de acuerdo a su contexto. De manera concreta se puede decir que el trmino tiempo real se emplea para definir mtodos o aplicaciones que requieren una respuesta casi inmediata durante su procesamiento. Se puede pensar en la ejecucin continua de algn proceso que se alimenta de datos externos que afectan su comportamiento. Este proceso se podra bautizar, como uno, de tiempo-real. Tambin se ha empleado el trmino en lnea en este artculo. Este trae consigo todo el contexto web, pues la mayor parte de procesos o aplicaciones montadas en Internet, tiene la caracterstica de ser altamente transaccionales e implcitamente se relacionan al concepto de tiempo-real; por ello, aunque no son la misma idea, para este caso, se tomarn de manera indistinta. Por otra parte, los flujos de datos o data streams que son el concepto concreto del trmino en lnea; porque son los datos que usados para recibir y transmitir informacin en la web. Sern referidos al mismo contexto. Obsrvese que los tres trminos mencionados, tienen inherente a as mismos, el concepto de tiempo. Por ltimo, se menciona el trmino aprendizaje de mquina o machine learning que es como el padre de la minera de datos; y que por ello, tambin se tuvo en cuenta.

2. EL CONCEPTO DE TIEMPO REAL


Con el fin de ubicar el contexto del cual se hablar de aqu en adelante, se plantear de forma concreta que ambientes son relevantes para este artculo. Adems se definir que significa tiempo real y una serie de terminologa comn para evitar, en lo posible, ambigedades.

2.1. Contexto
Cuando se toca el tema de aplicaciones en tiempo real (y ello no significa que sea absoluto) hay dos posibles puntos de vista: 1) minera sobre modelos preconstruidos y 2) minera sobre modelos en construccin. Ahora, lo ms lgico es explicar en que consiste cada uno de ellos. Un modelo en construccin cumple las siguientes condiciones: a) Aplicaciones en lnea que se estn alimentando constantemente de diferentes modalidades: por mltiples usuarios que acceden de una u otra forma a la aplicacin porque reciben datos de la red de otros medios; b) realizan predicciones o reconocen ciertos patrones en los datos a travs de un modelo que se va construyendo a medida que los datos van llegando y c) con los nuevos datos se espera que el modelo se actualice y que los valores de error vayan disminuyendo. Un modelo preconstruido, difiere del anterior, en que se basa de un modelo que ya est construido con anterioridad; el cual tom como conjunto de datos informacin histrica, pasando por todo el proceso de minera para la construccin de dicho modelo. En este artculo se tomarn los mtodos de minera que cubren el primer grupo: modelos en construccin.

3. GENERALIDADES
A continuacin se expone una serie de ideas que son bsicas para continuar con la definicin del tema en cuestin.

3.1. Orgenes
El tema de inters se ubica a mediados de los aos noventa [1], despus del nacimiento de la minera de datos, y con ella conceptos como: Adaptive software agents, teora de refinamiento, programacin de lgica inductiva, aprendizaje de redes bayesianas, bagging, boosting, stacking y voting. Con el nacimiento de la minera de datos y el boom de Internet, se abre paso a nuevas investigaciones enfocadas a explotar la riqueza de la minera de datos, en mbitos donde una respuesta inmediata se vuelve mucho ms valiosa, que un modelo construido con datos de antao e inamovibles, que pierden su inters al transcurrir del tiempo. Vlgase aclarar que existen muchos temas alrededor de la minera de datos, como los que se mencionaron en el prrafo anterior, pero se sealan para ubicar un contexto comn, pues ningn tema de investigacin nace y se desarrolla de manera nica y exclusiva; pero no se entra en detalle para no descuidar el tema central de este artculo, ya que con un tema tan amplio como este, es muy fcil irse por las ramas.

En ningn artculo dentro de esta bibliografa seleccionada, bautizan estos tipos de aplicaciones, pero se ha hecho, con el nico objeto de dar claridad dentro del curso de la lectura.

En algunos casos no fueron traducidos los trminos en ingls con el nimo de no caer en barbarismos innecesarios.

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real 3.2. Cuadro Sinptico sobre la Minera de Datos en Tiempo Real
El siguiente esquema (ver Ilustracin 1) no es una conclusin propia, pero si es una posible compilacin del trabajo de muchas personas alrededor de este tema [2][3]. A continuacin se muestra una clasificacin compacta de la minera de datos, en la que se ha trabajado el tema de mtodos en tiempo real.
Modelos para DS Resultado Patrones para DS

4.1. Investigadores
El objetivo de identificar diferentes investigadores, es sin duda, conocer las tendencias en este medio acadmico y llegar directamente a las fuentes de conocimiento. A continuacin se relacionan algunos autores representativos y una descripcin de su trabajo; para otros solo se menciona el nombre del investigador :

4.1.1 Charu Aggarwal


Investigador miembro de la IBM T. J, Centro de Investigacin Watson en Yorktown Heights, Nueva York. Realiz su doctorado en el MIT en 1996. El tema de sus tesis fue algoritmos en flujos de redes y el director de su trabajo fue el Profesor James B. Orlin. Desde entonces ha trabajado en el campo de anlisis del desempeo de la Minera de Datos. Ha publicado cerca de 95 artculos en conferencias y revistas especializadas, adems de obtener alrededor de 40 patentes. Y a parte del valor comercial de los patentes mencionados, l ha sido nombrado inventor maestro en IBM desde el ao 2.000. Con su trabajo sobre tiempo real y deteccin de bio-ataques en flujos de datos, gan el premio corporativo de IBM por excelencia en el 2003. l es editor asociado de la IEEE Transactions on Knowledge and Data Engineering Journal y editor activo de Data Mining and Knowledge Discovery Journal. Sus intereses incluyen minera de datos, privacidad, recuperacin de informacin y flujos de datos.

Minera de Datos

Mtodos

Objetivo

Prediccin para DS Clasificacin de DS Agrupamiento de DS Asociacin de DS Deteccin de Anomalas en DS Bsqueda y Recuperacin de DS Descubrimiento de Patrones en DS

Ilustracin 1. Se define el marco de trabajo de la Minera de Datos en tiempo real. Ntese que es tansversal a las diferentes tcnicas empleadas en la Minera de Datos convencional. Se abrevi el trmino Data Streams como DS para facilitar el despliegue.

4.1.2 Jiawei Han


Profesor del Departamento de Ciencia de la Universidad de Illinois en Urbana-Champaign del Centro Siebel para Ciencias de la Computacin y Doctor de Ciencias de la Computacin de la Universidad Wisconsin-Madison. Actualmente tiene un grupo de investigacin en Minera de Datos y Sistemas de Bases de Datos con el que adelanta proyectos de investigacin en: Endowing Biological Databases with Analytical Power: Indexing, Querying, and Mining of Complex Biological Structures (NSF/BDI), MotionEye: Querying and Mining Large Datasets of Moving Objects (NSF/SEIII) y Automatic On-the-fly Detection, Characterization, Recovery, and Correction of Software Bugs in Production Runs (NSF/ITR).

3.3. Lo que no est cubierto


Aunque en este artculo se hace bastante referencia a aplicaciones y ambientes de tiempo real, no se hablar de OLAP (On-Line Analytical Processing): 1) porque no es un tema que est relacionado con el inters particular de este artculo. 2) OLAP es una solucin, valga la aclaracin, que hace parte de otra rama que no nace precisamente del aprendizaje de mquina; su contexto es el de `Inteligencia de negocios. La nica forma en la que se relaciona con el tema de minera de datos, es en su presencia opcional, dentro del proceso completo del descubrimiento de conocimiento. Por otra parte, aun cuando se mencionan los mtodos de minera como parte del enfoque de este artculo, ello no significa que se har un anlisis de cada uno de los existentes, ni que se revisar cual tiene mejor desempeo cada una de las propuestas en el campo de la investigacin que existe alrededor del mundo; pues este artculo pasara de ser un estado del arte a ser un tratado completo sobre minera de datos: cuestin que est lejos del alcance y expectativas de este trabajo.

4.1.3 Pedro Domingos


Investigador del Departamento de Ciencias de la Computacin e Ingeniera de la Universidad de Washington. Entre sus principales intereses se encuentra la investigacin en las reas de Minera de Datos y Aprendizaje de Mquina. Proyectos actuales: Aprendizaje Estadstico Relacional, Bases Colectivas de Conocimiento y Aprendizaje de Mquina a gran escala.

4.1.4 Philip S. Yu
El Doctor Philip es el director del grupo de Herramientas y Tcnicas de Software del Centro de Investigacin del IBM Thomas J. Watson. El enfoque actual del proyecto incluye el desarrollo de algoritmos avanzados y optimizacin de tcnicas para Minera de Datos, deteccin de anomalas y personalizacin. Es editor asociado de la ACM Transactions de Tecnologa en Internet y es editor de la IEEE Transactions on knowledge and Data Engineering desde enero de 2001

4. MINERA EN TIEMPO REAL


Esta seccin es el ncleo de todo el artculo. Aqu se comenta sobre los investigadores contemporneos ms destacados y las investigaciones y dems trabajos relacionados sobre el tema.

Descripcin detallada a cerca de OLAP, se puede encontrar en: http://es.wikipedia.org/wiki/OLAP.

Esta lista fue seleccionada a partir del sitio web: http://www.csse.monash.edu.au/~mgaber/researcher.htm

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real

4.1.5 Joo Gama


Es investigador en LIACC y hace parte del grupo de investigacin sobre Aprendizaje de Mquina del laboratorio de Inteligencia Artificial y Ciencias de la Computacin de la Universidad de Porto en Portugal. Su tesis de doctorado fue sobre Combinacin de Algoritmos de Clasificacin. Entre sus intereses de investigacin estn Aprendizaje de mquina, Combinacin de clasificadores, aprendizaje de flujos de datos en lnea, Induccin Constructiva, Caracterizacin de aprendizaje de algoritmos y razonamiento probabilstico.

4.2.1.2. rboles de decisin de flujos de datos espaciales usando Peano Count Trees
Cuando se lee la palabra Peano, se podra pensar, que es el autor de un mtodo especfico, as como el caso anterior, que era Bayes; pero realmente, Peano Count Trees es una estructura que organiza datos espaciales y que los representa de una forma comprimida y sin prdida de datos, de tal forma que facilita una clasificacin del conjunto de datos ms eficiente, al igual que otras tcnicas de minera. Para probar la efectividad del modelo realizan pruebas contra el mtodo clsico de induccin de rboles de decisin; y muestran que la construccin del modelo es significativamente ms rpida con la nueva estructura [10]. Es un artculo muy ilustrativo, y las frmulas y dems grficos empleados por los investigadores, ayuda en la comprensin de todo el proceso.

4.1.6 Otros autores destacados


Otros autores destacados: Venkatesh Ganti, Minos N. Garofalakis, Johannes Gehrke, Sudipto Guha, Geoff Hulten, Hillol Kargupta, Eamonn Keogh, Ralf Klinkenberg, Nikos Koudas, Nina Mishra, Rajeev Motwani, Muthu Muthukrishnan, Olfa Nasraoui, Rajeev Rastogi, Haixun Wang, Qian Weining,

4.2. Mtodos investigados


Los mtodos fueron escogidos por los siguientes criterios: 1) Los ms recientes; 2) que fueran reconocidos; 3) por su disponibilidad y 4) que tocaran tems especficos en la clasificacin propuesta. De tal forma que para abarcar las diferentes investigaciones alrededor del tema de enfoque, se trata de seguir el orden propuesto en el esquema de la seccin 3.2. Especficamente se retomarn los mtodos clasificados por objetivo, ya que es mucho ms amplia y fcil de seguir.

4.2.1.3. rboles de decisin para minera en flujos de datos


Se describe en gran detalle la construccin de rboles de decisin de flujos de datos usando un algoritmo mejorado del VFDT (Very Fast Decisin Tree learner). Tpicos importantes del artculo son la clasificacin de nuevos datos en lnea con buenos tiempos de respuestas; el anlisis de datos reales que muestran un desempeo interesante y la demostracin del uso de este algoritmo en conjuntos de datos grandes y medianos. Este es un buen artculo para incursionar sobre el tema en cuestin, pues se explica de manera sencilla como se hace la construccin de los rboles resaltando en cada paso la relevancia de los flujos de datos [11].

4.2.1

Mtodos Clasificadores

Previamente se consultaron algunos artculos para identificar este tema en particular [4], [5], [6], [7], [8].

4.2.2 Mtodos que encuentran Reglas de Asociacin


Para la comprensin de ciertos artculos se hizo necesario hacer consultas adicionales en otros textos [12][13], para as comprender el contexto de algunas investigaciones especficas. Tambin fue necesario identificar que es lo que ya no se est investigando con tanto auge; y lo que definitivamente, empieza a ganar inters entre los medios acadmicos de este tema especfico [14]. A continuacin se dan a conocer un grupo de artculos muy interesantes y que coinciden en este grupo de mtodos.

4.2.1.1. Un modelo de clasificacin bayesiano para la deteccin de intrusos en tiempo real


Clasificar este artculo en este primer grupo, podra parecer injusto, pues por la finalidad de los autores y la forma en la que este se encuentra escrito, podra identificarse en el grupo de los detectores de anomalas; sin embargo, se dej aqu, porque la estrategia de solucin es un mtodo netamente de clasificacin y, definitivamente es el hecho, de lo flexible que esta macro-tcnica (me refiero a la clasificacin) lo que hace que se sienta cierta dependencia con otros temas[9]. Se identifica un tema central que son los IDS (InstructionDetection Systems), alrededor de ellos se realiza el proceso de minera completo. Para realizar el modelo, se explican tres etapas: uno, construccin bajo un comportamiento normal; dos, deteccin de anomalas; tres, actualizacin del modelo. En la primera etapa se usa un modelo paramtrico con el fin de modelar el conjunto de datos. En la segunda, se usa la clasificacin bayesiana. Para la tercera etapa, discuten un modelo continuo con parmetros de re-estimacin con fines heursticos. La caracterstica de tiempo real, es tenida en cuenta para identificar los requerimientos del sistema. Lo interesante del artculo, es que se incluyen todas las pruebas necesarias para mostrar la funcionalidad de su trabajo, y estas no requieren de una plataforma especial, ni condiciones de hardware especficas.

4.2.2.1. Encontrando conjuntos de tems frecuentes sobre flujos de datos en lnea


La motivacin del artculo se centra en la propuesta de solventar el esfuerzo computacional requerido para encontrar tems frecuentes en flujos de datos. La idea del equipo de trabajo es satisfacer los requerimientos de tiempo de procesamiento pequeo, precisin en la minera y disponibilidad de un conjunto de tems frecuentes en cualquier momento, a travs de un rbol lexicogrfico residente en memoria, el cual examina cada transaccin sin escoger un candidato para generar el proceso de minera. Ahora, el conjunto de datos actual de items monitoreados del flujo de datos en lnea se minimiza con dos operaciones: insercin tarda y poda. En el primero, se retarda la insercin de un tem hasta que este se vuelva significante durante el monitoreo. En el segundo, se poda un tem cuando deja de ser significante al ser pocamente monitoreado [15].

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real


En las pruebas realizadas por el equipo no hay una comparacin explcita con otro algoritmo, pero muestran grficas de escalabilidad y desempeo variando el tamao de los flujos de datos.

4.2.2.2. Un simple algoritmo para encontrar elementos frecuentes en flujos de datos y bolsas
Los autores presentan un algoritmo para hallar tems frecuentes en flujos de datos y grupos de elementos que pueden repetirse, en el que definen un parmetro que identifica el espacio en el que trabajar el algoritmo. La idea es que usando el algoritmo para encontrar el mayor elemento, se pueda identificar un conjunto de al menos 1/ tems que incluyen todos los elementos con una frecuencia mayor a . Finalmente, hacen una demostracin formal para probar la correctitud del algoritmo; sin embargo, no hacen pruebas de desempeo ni escalabilidad, ni comparaciones con otros algoritmos de la misma clase [16].

solucin: El algoritmo HPStream. Y antes de comenzar con su explicacin definen varios conceptos alrededor de esto como son: flujos de datos proyectados, la estructura atenuante y tiempo de vida media de los datos. As, para cada registro X de un conjunto de datos, existe un tiempo T relacionado con el registro X, ya que los flujos de datos estn cambiando rpidamente en el tiempo y es necesario asociarles una prioridad de permanencia que consiste en asignarle un peso a cada registro e ir conservando los ms jvenes (de menor peso) y desechar los ms antiguos. Por ello los autores asocian el trmino tiempo de vida media como f(t0) = f(0), de tal forma que se reduce el peso de cada registro a la mitad por cada procesamiento. Despus usan el trmino proyectado para asumir el nmero de grupos y conjunto de dimensiones que sern calculadas por el algoritmo. Con esto, se cierra el algoritmo completo HPStream que agrupa flujos de datos va distancia ecludiana. Finalmente, se compara dicho algoritmo con CluStream (su predecesor) y comentan el incremento significativo en cuanto a desempeo y calidad [21]. Este artculo fue de gran utilidad acadmica. Pude identificar la problemtica existente alrededor de los flujos de datos. Sin embargo, algunos conceptos se tienden a tornar complejos debido a su fuerte contexto matemtico.

4.2.2.3. Tpicos de investigacin en reglas de asociacin de minera para flujos de datos


La idea principal de este artculo es identificar aquellos tpicos que deben ser tenidos en cuenta cuando se quiere investigar sobre reglas de asociacin para flujos de datos. Presentan varios algoritmos para implementar las reglas de asociacin, pero sobre todo hacen un gran nfasis en las aplicaciones y motivaciones que conllevan a empezar una investigacin en esta rea tan especfica [17].

4.2.3.3. Un marco de trabajo para agrupamiento proyectado sobre flujos de datos altamente dimensionales
Este fue un trabajo previo al artculo presentado anteriormente, realizado por el mismo equipo. Aqu se definen la mayor parte de conceptos empleados en la siguiente etapa de esta investigacin [22]. La principal razn para adicionarlo al conjunto de artculos seleccionados, fue el hecho de incluir las motivaciones para realizar la investigacin y una introduccin mucho ms amplia del nacimiento del algoritmo HPStream.

4.2.3 Mtodos Agrupadores


Se puede definir agrupamiento [18] como una divisin de datos en grupos de objetos similares. Al representar los datos en varios cluster necesariamente se pierden ciertos detalles finos de los elementos, pero se gana simplificacin. Y esto es justamente lo que se mostrar en los siguientes artculos [19].

4.2.3.4. Agrupamiento en lnea de flujos de datos paralelos


El enfoque de este artculo es el problema de agrupar flujos de datos. El autor proporciona un ligero contexto a manera de informacin sobre flujos de datos y agrupamiento. Entonces se menciona el preprocesamiento y mantenimiento de los flujos de datos, para pasar a explicar la versin en lnea del k-means y la extensin de este ltimo, al que le adiciona lgica difusa. Finalmente, se discuten partes especficas de las implementaciones de la solucin a partir de resultados experimentales con varios conjuntos de datos [23].

4.2.3.1. Un marco de trabajo para agrupamiento en flujos de datos


En resumen se puede decir que la solucin propuesta empieza con el marco de trabajo para agrupamiento de flujos de datos: primero, la separacin del enfoque del agrupamiento en lnea y de sus componentes que tambin estn en lnea. Segundo, el resumen estadstico que debe proporcionar suficiente informacin temporal y espacial para un horizonte especfico en el proceso del agrupamiento en lnea [20]. Finalmente, los autores comentan acerca de la evolucin de los clster para analizar ambientes de prueba. Muestran resultados empricos y su respectiva evaluacin.

4.2.3.5. Un marco de trabajo para diagnosticar cambios en flujos de datos que evolucionan
Al inicio del artculo se definen conceptos como: kernel y estimacin de densidad, que proporcionan una visin general del tema a tratar. Luego, enfatizan en la tcnica de estimacin de la velocidad de densidad y muestran como se calcula. De all, los autores definen como la velocidad temporal puede ser usada para generar perfiles de velocidad espacial, usados para proporcionar entendimiento visual de reorganizacin de datos. Finalmente se habla de datos altamente dimensionales y problemas temporales y espaciales para presentar resultados empricos, los cuales muestran un comportamiento de evolucin para diferentes conjuntos de datos [24].

4.2.3.2. Agrupamiento Proyectado sobre Flujos de Datos Altamente Dimensionales


En este problema se reconoce claramente qu son los flujos de datos. Tambin se explica, la definicin sobre agrupamiento, que es el otro tema en el que se centra la investigacin; y la definen as: un conjunto de puntos (de datos) que se quieren repartir dentro de uno o ms grupos de objetos similares, donde la nocin de similitud est definida por una funcin de distancia. Partiendo de esto, comienzan a ilustrar su propuesta de una buena

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real


4.2.3.6. Agrupamiento binario: Flujos de datos con K-means
En este artculo se proponen tres extensiones para el clsico algoritmo del k-means. Estos son: k-means en lnea, k-means incremental y k-means escalable. Estos no solo tienen la caracterstica de ser ms rpidos que el algoritmo clsico, sino que presentan soluciones de mayor calidad. Las tres extensiones se basan en una informacin estadstica adicional que se convierten en un parmetro de entrada para los algoritmos. Al final del artculo presentan diferentes pruebas realizadas con los tres nuevos algoritmos, y se comprueba en la mayora de ilustraciones la efectividad de los mismos [25].

No se tuvo la versin final y completa de este artculo, pero lo que se ley someramente de este, gust tanto, que se opt por adicionarlo con los dems.

4.2.5 Mtodos Detectores de anomalas


A continuacin se adicionan artculos en los que el enfoque de la investigacin es la deteccin de valores atpicos dentro de conjuntos de datos en un contexto de tiempo real.

4.2.5.1. Deteccin de cambio en flujos de datos


El artculo se enfoca principalmente en resaltar la aplicabilidad de encontrar cambios en los conjuntos de datos. De esas aplicaciones se destacan: Control de calidad, para analizar la cantidad de productos defectuosas en el tiempo para la toma de decisiones; y la minera de datos, en el que el cambio funciona para reestructuran el modelo y desvincular datos desactualizados que podran ser removidos, de ser detectados. Despus, resuelven los requisitos bsicos para alimentar los algoritmos, presentados a posteriori, que son: las probabilidades de densidad de los datos. Luego, enuncian diferentes propuestas de algoritmos y el metaalgoritmo final para la deteccin del cambio en flujos de datos. Para demostrar la correctitud de los algoritmos presentan definiciones y pruebas formales, junto con una serie de teoremas, que corroboran la funcionalidad de la tcnica [29].

4.2.3.7. Algoritmos de flujos de datos para un agrupamiento refinado


En la parte introductoria de este artculo se hace toda una reflexin sobre la problemtica de los flujos de datos. De aqu, los autores rescatan principalmente el consumo desmesurado de memoria, que requiere el procesamiento de cantidades de datos tan altamente cambiantes. Entonces proponen, el algoritmo de flujos (en ingls, the streaming algorithm) que propone solventar, en parte, el problema crtico de los recursos que intervienen en el proceso. Despus de definir el algoritmo, proporcionan varias pruebas empricas con conjuntos de datos creados, y por otra parte, conjunto de datos reales; con los cuales hacen comparaciones de desempeo y calidad [26].

4.2.5.2. Clasificacin en lnea de flujos de datos no estacionarios


Se enfoca en el funcionamiento y pruebas empricas de su sistema OLIN (On Line Information Network). El supuesto con el que se este se crea, es la problemtica que existe al trabajar con datos reales, y el hecho de ignorar los cambios inherente a estos; dicho fenmeno se conoce como concept drift. Las caractersticas ms relevantes de este sistema es el ajuste dinmico del tamao de la ventana de entrenamiento y el nmero de nuevos ejemplos para la re-construccin del modelo [30].

4.2.4 Mtodos que Descubren Patrones


En esta seccin se presentan artculos relacionados con investigaciones enfocadas en el hallazgo de patrones para grandes volmenes de datos en tiempo real.

4.2.4.1. Algoritmos de tiempo real para correspondencia de cadenas y reconocimiento de palndromos


En la primera parte resaltan especficamente dos conceptos: uno, el modelo computacional RAM (Random Access Machine) y la mquina de Turing. Dos, la definicin de maquinas en el tiempo. Este artculo tratan un tema especifico: Los palndromos. Pero no fue seleccionado por esta aplicacin tan especfica, sino por una la caracterstica de pasar de un algoritmo en lnea a uno de tiempo real, gracias al concepto de string-matching. Igual, a veces es importante hacer una escogencia no por el tema general sino por la parte que resulta de gran inters [27].

4.2.5.3. Algoritmos incrementales Info-Difusos para minera de datos en tiempo real de flujos de datos no estacionarios
Este artculo es la continuacin del anterior. Como caracterstica principal, este nuevo y renovado sistema adiciona lgica difusa para contrarrestar el esfuerzo computacional en el procesamiento de los datos. Para ello, se incorpora un algoritmo que lo bautizan como el algoritmo IFN, que se basa en una estructura de redes neuronales. Prueban el algoritmo con dos conjuntos de datos; uno, con datos del tipo trfico en Internet; y otro, con datos sobre el abastecimiento de un producto. Y hacen pruebas comparativas entre el viejo OLIN y el mejorado [31].

4.2.4.2. Un marco de trabajo intuitivo para entender cambios en flujos de datos


Aqu se explica como se pueden convertir procesos computacionales en formatos grficos. Este ltimo puede ser til para analizar como obtener un amplio entendimiento de la cantidad y el nivel de cambios en diferentes regiones. En algunos casos, la naturaleza del cambio en una regin dada, hace difcil su clasificacin; y es all, donde se centra la mayor motivacin de estudiar flujos de datos. Un comentario del grupo de investigacin es los flujos de datos son nuestra pasin, nuestro reto [28].

5. TEMAS DE INVESTIGACIN
Dada la importancia de este tema han surgido varias investigaciones y actualmente se estudian varios casos que aqu se mencionan de manera general: [32] Uno, manejo de datos: Bases de datos tradicionales con la variante de ser alimentadas con datos altamente cambiantes en el tiempo. [33] Dos, requerimientos de memoria: Se refiere al manejo de memoria que debe hacerse al utilizar diferentes algoritmos que residen sus datos y procesos en ella, y que dadas las limitaciones se hace un problema evidente. Resultados con alta precisin: Hace referencia

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real


al uso de tcnicas que generen resultados muy buenos, que al ser probados se compruebe la precisin de sus predicciones. [34] Tres, Transferencia de resultados de minera sobre medio inalmbricos con ancho de banda limitados. [35] Cuatro, Modelado de cambios en resultados de minera en el tiempo: La adaptabilidad de modelos generados en el proceso de minera que deben ajustarse a la variacin de los datos para su uso en diferentes aplicaciones de anlisis. Cinco, Visualizacin de los resultados de minera en dispositivos mviles. Seis, Preprocesamiento: Especficamente, como deben estar los datos a la hora de trabajar con ellos. [36] Siete, Modelos sobre-ajustados: No hay mucha literatura que se enfoque especficamente sobre los modelos de flujos de datos que presenten estos inconvenientes. [37] Ocho, Tecnologa: las plataformas, los diferentes ambientes de ejecucin y varias particularidades fsicas, son importantes a la hora de procesar grandes cantidades de datos. [38] Nueve, Formalizacin: Es importante entrar a definir formalmente los flujos de datos y su contexto para hallar algoritmos ptimos y precisos.

implemented on system SO-NN (Symbolic Objects Nearest Neighbor). It's useful for my job. But the author often comments the SO-NN, because that is like the application research, but for my case is irrelevant. Principal keys: K-means, symbolic objects, lazzy-learning. [7] Murthy, S. K. (1998), Automatic Construction of Decision Trees from Data: A Multi-Disciplinary Survey, Data Mining and Knowledge Discovery 2, 345. This article review three ways for data exploration. One, description: To reduce a volume of data. Two, classification: Discovering whether the data contains wellseparated classes of objects. Three, generalization: To make a mapping from independent to dependent variables for predicting the value of the dependent variable in the future (It's part is not so clear). After, they mention several advantages of decision tree-based classification: Knowatledge acquisition, Hierarchical decomposition, trees can be used with the same ease in deterministic as well as incomplete problems, and their use in data streams probles (maybe the most important for me). with those ideas they show the entire process to begin trees. In the last sections, they talk about real-world data (authors commentairs: it's complex and imperfect). [8] Fu, B. L. L. S. R. S. W. E. (2006), Diversification for better classification trees, Computers & Operations Research 33(11), 3185-3202. The principal idea of this article is decision trees. They use a different mechanism for building trees with genetic algorithms and changing the mean value by various percetiles. They shows the wholy process to develop this proposal. The author is clear to explain the advantages of this new way to make decision trees. However, some procedures are no obvious and have short explanations. [9] Puttini, Z.M.L. (2003), A Bayesian Classification Model for Real-Time Intrusion Detection, in C. J. Williams, ed.,'AIP Conf. Proc. 659: Bayesian Inference and Maximum Entropy Methods in Science and Engineering', pp. 150-162. [10] Ding, Q. and Perrizo, W. (2002), Decision tree classification of spatial data streams using Peano Count Trees, in 'SAC '02: Proceedings of the 2002 ACM symposium on Applied computing', ACM Press, New York, NY, USA, pp. 413-417. [11] Gama, R.R.R. (2006), Decision trees for mining data streams, Intelligent Data Analysis 10(1), 23-45.

6. OPININ Y CONCLUSIONES
El rea de minera de datos es relativamente nueva, y no por ello, carece de informacin o de inters en su investigacin. Pero es an ms motivante, no dejar de encontrar informacin con una de sus ramas: La minera de datos en aplicaciones de tiempo real. En esta exhaustiva consulta, he encontrado diferentes trabajos relacionados con el tema, y de todos ellos he aprendido bastante; por eso espero que a los lectores les resulte muy til.

7. REFERENCIAS
[1] Domingos, P. & Hulten, G. (2001), Catching Up with the Data: Research Issues in Mining Data Streams. [2] Srivatsan Laxman And P S Sastry. A survey of temporal data mining. Department of Electrical Engineering, Indian Institute of Science, Bangalore 560 012, India. Sadhana Vol. 31, Part 2, pp. 173198. April 2006. [3] Agrawal, R., Mannila, H., Srikant, H. et al. (1996), Fast discovery of association rules, in Fayyad, U.M., PiatetskyShapiro, G., Smy, P. et al. (eds), Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, Menlo Park, CA, pp. 307 328. [4] Demsar, J. (2006), Statistical Comparisons of Classifiers over Multiple Data Sets, Journal of Machine Learning Research 7, 1-30.

[5] ZHANG, H. (2005), Exploring Conditions For The Optimality Of Nive Bayes, International Journal of Pattern Recognition & Artificial Intelligence 19(2), 183-198. [6] Appice, A. and Appice, C.E.F.M.D. (2006), Classification of symbolic objects: A lazy learning approach, Intelligent Data Analysis 10, 301-324. The author proposal is to use a general method to classify data set, specially symbolic objects (SOs). It's is based on k-means algorithm: A lazzy-learning one. And It was

[12] (2006), Association Mining, ACM Computing Surveys 38(2), 1-42. [13] Bodon, I. N. M. C. H. T. A. K. (2005), Automatic discovery of locally frequent itemsets in the presence of highly frequent itemsets, Intelligent Data Analysis 9(1), 83-104.

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real

[14] Cormode, S. (2005), What's Hot and What's Not: Tracking Most Frequent Items Dynamically, ACM Transactions on Database Systems 30(1), 249-278. I think topics more important are: - Onepass algorithms with limited storage, has reopened interest in this problem (Author recomendation. Surveys such as those by Muthukrishnan and Garofalakis). - Insert-Only Algorithms with Item Counts. The earliest work on finding frequent items considered the problem of finding an item which occurred more than half of the time. - All the methods discussed thus far have certain features in common: in particular, they all hold some number of counters, each of which counts the number of times a single item is seen in the sequence. -Insert-Only Algorithms with Filters. An alternative approach to finding frequent items is based on constructing a data structure which can be used as a filter. This has been suggested several times to construct such filters being suggested. - Insert and Delete Algorithms. Previous work that studied hot items in the presence of both of inserts and deletes is sparse. These articles have proposed methods to maintain a sample of items and count of the number of times each item occurs in the data set, and focused on the harder problem of monitoring the k most frequent items. - They propose some new approaches to this problem, based on ideas from group testing and error-correcting codes. Our algorithms depend on ideas drawn from group testing. The idea of group testing is to arrange a number of tests, each of which groups together a number of themitems in order to find up to k items which test positive. [15] Chang, W.S. (2006), Finding frequent itemsets over online data streams, Information & Software Technology 48(7), 606-618.

Clustering; Density-Based Partitioning; Grid-Based Methods; Co-Occurrence of Categorical; ConstraintBased Clustering; Relation to Supervised Learning; Gradient Descent and Artificial Neural Networks; Evolutionary Methods; Scalability and VLDB Extensions; Clustering High Dimensional Data; and General Algorithmic Issues. [19] Aggarwal, R.; Gehrke, J.; Gunopulos, D. & Raghavan, P. (1998), Automatic subspace clustering of high dimensional data for data mining applications, in 'SIGMOD '98: Proceedings of the 1998 ACM SIGMOD international conference on Management of data', ACM Press, New York, NY, USA, pp. 94--105. [20] C. Aggarwal, J.W.P.S.Y. (2003), A Framework for Clustering Evolving Data Streams, Proc. 2003 Int. Conf. on Very Large Data Bases (VLDB'03), Berlin, Germany [21] Aggarwal, C., Han, J., Wang, J. & Yu, P.S. (2005), On High Dimensional Projected Clustering of Data Streams, Data Mining and Knowledge Discovery, 251 273. [22] Aggarwal, C.; Han, J.; Wang, J. & Yu, P.S. (2004), A Framework for Projected Clustering of High Dimensional Data Streams, Proceedings, 852-863. [23] Beringer, J. & Hllermeier, E. (2006), Online clustering of parallel data streams, Data Knowl. Eng. 58(2), 180-204. [24] Aggarwal, C. (2003), A Framework for Diagnosing Changes in Evolving Data Streams, Proceedings of the ACM SIGMOD [25] Ordonez, C. (2003), Clustering binary data streams with K-means, in 'DMKD '03: Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery', ACM Press, New York, NY, USA, pp. 12-19. [26] Oapos Callaghan, N. M. A. G. S. M. R. (2002), Streamingdata algorithms for high-quality clustering, Data Engineering, 2002. Proceedings. 18th International Conference on', 685-694. [27] Galil, Z. (1976), Real-time algorithms for stringmatching and palindrome recognition, in 'STOC '76: Proceedings of the eighth annual ACM symposium on Theory of computing', ACM Press, New York, NY, USA, pp. 161-173.

[16] Karp, R. M., Shenker, S. and Papadimitriou, C. H. (2003), A simple algorithm for finding frequent elements in streams and bags, ACM Trans. Database Syst. 28(1), 5155. [17] Jiang, N. & Gruenwald, L. (2006), Research issues in data stream association rule mining, SIGMOD Rec. 35(1), 1419. [18] Berkhin, P. (2002),'Survey Of Clustering Data Mining Techniques', Technical report, Accrue Software, San Jose, CA. Author defines the following "Clustering is a division of data into groups of similar objects. Representing the data by fewer clusters necessarily loses certain fine details, but achieves simplification. It models data by its clusters. Data modeling puts clustering in a historical perspective rooted in mathematics, statistics, and numerical analysis. From a machine learning perspective clusters correspond to hidden patterns, the search for clusters is unsupervised learning, and the resulting system represents a data concept". For covering the entire theme he talk about: Clustering and Classification of Clustering Algorithms; Hierarchical Clustering; Partitioning Relocation

[28] Aggarwal, C. (2002), An Intuitive Framework for Understanding Changes in Evolving Data Streams, Proceedings of the ICDE Conference [29] Kifer, D.; Ben-David, S. & Gehrke, J., Detecting Change in Data Streams. [30] Last, M. (2002), Online Classification of Nonstationary Data Streams, Intelligent Data Analysis 6(2), 129-147.

Algoritmos de Minera de Datos para Aplicaciones en Tiempo Real

[31] L. Cohen, G.A. & Last, M. (2004), Incremental Info-Fuzzy Algorithm for Real Time Data Mining of NonStationary Data Streams, Proceedings of TDM 2004 ICDM 2004 Workshop on Temporal Data Mining: Algorithms, Theory and Applications. [32] Gaber, M. M.; Zaslavsky, A., and Krishnaswamy, S. (2005), Mining data streams: A review, SIGMOD Rec. 34(2), 18-26. [33] Cannataro, A. P. A. T. D. T. P. (2004), Distributed Data Mining on Grids: Services, Tools, and Applications, IEEE Transactions on Systems, Man & Cybernetics: Part B 34(6), 2451-2465. [34] Guozhu Dong, L.V.L.J.P.H.W. & Yu., P.S. (2003), Online mining of changes from data streams: Research problems and preliminary results, In ACM SIGMOD MPDS. [35] Berberidis, I. (2005), Mining for weak periodic signals in time series databases, Intelligent Data Analysis 9(1), 2942. [36] Bull, B. (2005), Exemplar Sampling: Nonrandom Methods of Selecting a Sample Which Characterizes a Finite Multivariate Population, American Statistician 59(2), 166-172. [37] Connolly, B. (2004), SQL, Data Mining & Genetic Programming, Dr. Dobb's Journal: Software Tools for the Professional Programmer 29(4), 34-39. [38] Babcock, S. B. M. D. R. M. J. W. (2002), Models and Issues in Data Stream Systems, Madison, Wisconsin.

You might also like