Mine Lucene IndeGerardo Leo David

Instituto Tecnol ogico Superior de los R os
Nombre de la carrera:
Ingenier a en Sistemas Computacionales.
Nombres:
David Gilberto L opez Hern andez.
Gerardo Gabriel Jimenez Mojarraz
Leonardo Vidal Santiago
Nombre del profesor:

Luis Alberto de la Cruz Diaz
Balanc an, Tabasco. A 18 de Febrero del 2014
Datamining (Miner a de datos)

El datamining (miner a de datos), es el conjunto de t ecnicas y tecnolog as que permiten explorar grandes bases de datos, de manera autom atica o semiautom atica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. B asicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este n, hace uso de pr acticas estad sticas y, en algunos casos, de algoritmos de b usqueda pr oximos a la Inteligencia Articial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye alg un signicado especial pasan a convertirse en informaci on. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretaci on que surge entre la informaci on y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. http://www.sinnexus.com/business intelligence/datamining.aspx
Data mining
Aunque desde un punto de vista acad emico el t ermino data mining es una etapa dentro de un proceso mayor llamado extracci on de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, as como en este trabajo, ambos t erminos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias areas como la Estad stica, la Inteligencia Articial, la Computaci on Gr aca, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases proceso no trivial de identicaci de datos. Una denici on tradicional es la siguiente: Un on v alida, novedosa, potencialmente u til y entendible de patrones comprensibles que se encuentran ocultos en los datos(Fayyad y otros, 1996). Desde nuestro punto de vista, lo denimos como la integraci on de un conjunto de areas que tienen como prop osito la identicaci on de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisi on(Molina y otros, 2001). Podemos decir que .en data mining cada caso es un caso. Sin embargo, en t erminos generales, el proceso se compone de cuatro etapas principales: 1. Determinaci on de los objetivos. Trata de la delimitaci on de los objetivos que el cliente desea bajo la orientaci on del especialista en data mining. 2. Preprocesamiento de los datos. Se reere a la selecci on, la limpieza, el enriquecimiento, la reducci on y la transformaci on de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Determinaci on del modelo. Se comienza realizando unos an alisis estad sticos de los da2
tos, y despu es se lleva a cabo una visualizaci on gr aca de los mismos para tener una primera aproximaci on. Seg un los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes a reas de la Inteligencia Articial. 4. An alisis de los resultados. Verica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los an alisis estad sticos y de visualizaci on gr aca. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
Indexaci on de informaci on
El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los u ltimos a nos, ha motivado la aparici on de un creciente inter es por los sistemas de clasicaci on autom atica de documentos. Estos sistemas realizan diferentes operaciones de clasicaci on bas andose en el an alisis del contenido del texto de los documentos que procesan. La mayor a de las t ecnicas de an alisis y representaci on de documentos utilizadas en la actualidad en los sistemas de clasicaci on, se basan en criterios fundamentalmente estad sticos, centrados en frecuencias de aparici on de t erminos en documentos. Dentro de los sistemas de clasicaci on de documentos podemos distinguir los sistemas de recuperaci on de texto, que seleccionan aquellos textos o documentos que son adecuados a una necesidad del usuario entre un conjunto m as amplio, y sistemas de agrupamiento de textos que, a partir de un conjunto de textos, construyen subconjuntos de estos con contenidos semejantes. Si trabajamos con este tipo de sistemas, debemos centrarnos en tres cuestiones fundamentales: M etodo de representaci on: forma en que ser an representados internamente los documentos. M etodo de an alisis: proceso que permitir a obtener las representaciones concretas de los documentos a partir del an alisis de su contenido. M etodo de c alculo de similitud: entre las representaciones de los documentos y la representaci on del otro elemento de la operaci on de clasicaci on. En la gura 1 que se muestra a continuaci on se representa la operaci on de recuperaci on de textos centrada en las tres cuestiones descritas. En ella se puede observar que, en este caso, el elemento espec co de la operaci on de clasicaci on es una consulta de usuario; es decir, que los documentos que se recuperar an ser an aquellos cuya representaci on interna presentase una mayor similitud con la de la consulta del usuario.
Figura 1: operaci on de recuperaci on de textos centrada en las tres cuestiones descritas
Una vez introducida la recuperaci on de textos, diremos que el t ermino de indexaci on hace referencia a un m etodo que engloba la denici on de uno de representaci on y uno de an alisis. El t ermino proceso de indexaci on hace referencia al proceso de an alisis de documentos para la obtenci on de una representaci on concreta de los mismos. Existe una serie de elementos que se pueden utilizar para la denici on de m etodos de indexaci on y c alculo de similitud. En concreto, el modelo del espacio vectorial proporciona las bases para denir un m etodo de representaci on y c alculo de similitud. En el modelo del espacio vectorial se propone la representaci on de cada documento mediante un vector cuyos componentes son los pesos asociados a los t erminos utilizados en la representaci on. Para realizar el proceso de indexaci on utilizando una representaci on basada en el espacio vectorial se pueden utilizar los siguientes elementos, que permiten obtener la representaci on interna de los documentos mediante un an alisis autom atico de su contenido: 1. Peso de los t erminos El concepto de poder de resoluci on de un t ermino proporciona una base para los m etodos de indexaci on basados en frecuencia de aparici on de t erminos. El poder de resoluci on de un t ermino proporciona informaci on acerca de su adecuaci on como t ermino de indexaci on. 2. Listas de parada Las listas de parada(stoplists) se utilizan en el an alisis de los documentos para la eliminaci on de una serie de palabras que no resultan u tiles para la obtenci on de t erminos de indexaci on, por ejemplo, de, en, el, etc. 3. Extracci on de ra ces Los algoritmos de extracci on de ra ces(stemming), o de eliminaci on de sujos, se encuentran orientados a obtener un u nico t ermino a partir diferentes palabras que constituyen, esencialmente, variaciones morfol ogicas con un mismo signicado. El resultado del algoritmo debe ser una misma forma regular para las diferentes variantes morfol ogicas de una palabra, que no tiene por qu e ser, necesariamente, la ra z ling u stica. 4. Frases de t erminos Las frases de t erminos se orientan a la obtenci on de t erminos de indexaci on con un signicado m as preciso que el de los t erminos obtenidos directamente a partir de las palabras individuales. Una frase de t erminos es una tupla de t erminos y constituye en s misma un nuevo t ermino de indexaci on. 5. Thesaurus Un thesaurus proporciona una agrupaci on o clasicaci on de t erminos en un determinado dominio o area en categor as denominadas clases. Permite recuperar documentos que son relevantes a la consulta de un usuario, aunque no aparezcan en ellos los t erminos de la consulta, pero si sin onimos de estos.
Lucene
Lucene es una novedosa herramienta que permite tanto la indexaci on c omo la b usqueda de documentos. Creada bajo una metodolog a orientada a objetos e implementada completamente en Java, no se trata de una aplicaci on que pueda ser descargada, instalada y ejecutada sino de una API exible, muy potente y realmente f acil de utilizar, a trav es de la cual se pueden a nadir, con pocos esfuerzos de programaci on, capacidades de indexaci on y b usqueda a cualquier sistema que se est e desarrollando. Originalmente escrita por Doug Cutting, en Septiembre de 2001 pas o a formar parte de la familia de c odigo abierto de la fundaci on Jakarta. Desde entonces, debido a su mayor disponibilidad, ha atra do a un gran n umero de desarrolladores, incluso empresas como Hewlett Packard, FedEx, etc. usan, o al menos lo han evaluado. Existen otras herramientas, a parte de Lucene, que permiten realizar la indexaci on y b usqueda de documentos pero dichas herramientas han sido optimizadas para usos concretos, lo que implica que el intentar adaptar dichas herramientas a un proyecto espec co sea una tarea realmente dif cil. La idea que engloba Lucene es completamente diferente, ya que su principal ventaja es su exibilidad, que permite su utilizaci on en cualquier sistema que lleve a cabo procesos de indexaci on.
Caracter stica
A continuaci on se detallan algunas caracter sticas que hacen de Lucene una herramienta exible y adaptable:
Indexaci on incremental vs indexaci on por lotes. El t ermino de indexaci on por lotes se utiliza para referirse a aquellos procesos de indexaci on, en los cuales, una vez que ha sido creado el ndice para un conjunto de documentos, el intentar a nadir algunos documentos nuevos es una tarea dif cil por lo que se opta por reindexar todos los documentos de nuevo. Sin embargo en la indexaci on incremental se pueden a nadir documentos a un ndice ya creado con anterioridad de forma f acil. Lucene soporta ambos tipos de indexaci on. Origen de datos. Muchas herramientas de indexaci on s olo permiten indexar cheros o p aginas web, lo que supone un serio inconveniente cuando se tiene que indexar contenido almacenado en una base de datos. Lucene permite indexar tanto documentos y p aginas web como el contenido procedente de una base de datos. Contenido Etiquetado. 6
Algunas herramientas, tratan los documentos como simples ujos de palabras. Pero otras como Lucene permiten dividir el contenido de los documentos en campos y as poder realizar consultas con un mayor contenido sem antico. Esto es, se pueden buscar t erminos en los distintos campos del documento concedi endole m as importancia seg un el campo en el que aparezca. Por ejemplo, si se dividen los documentos en dos campos, t tulo y contenido, puede concederse mayor importancia a aquellos documentos que contengan los t erminos de la b usqueda en el campo t tulo. T ecnica de indexaci on. Existen palabras tales como a, unos, el, la . . . etc. que a naden poco signicado al ndice, son palabras poco representativas del documento. Al eliminar estas palabras del ndice se reduce considerablemente el tama no del mismo as como el tiempo de indexaci on. Estas palabras est an contenidas en lo que se denomina lista de parada, que es la t ecnica de indexaci on contemplada por Lucene. Concurrencia. Lucene gestiona que varios usuarios puedan buscar en el ndice de forma simult anea as como tambi en que un usuario modique el ndice al mismo tiempo que otro lo consulta. Elecci on del idioma Tal y como ya se indic o con anterioridad Lucene trabaja con listas de parada, las cuales son proporcionadas por el desarrollador que est a utilizando Lucene, esto permite escoger el idioma a utilizar.

Mine Lucene IndeGerardo Leo David

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mine Lucene IndeGerardo Leo David

Uploaded by

Copyright:

Available Formats

Instituto Tecnol ogico Superior de los R os

Gerardo Gabriel Jimenez Mojarraz

Leonardo Vidal Santiago

Nombre del profesor:

Balanc an, Tabasco. A 18 de Febrero del 2014

Datamining (Miner a de datos)

Figura 1: operaci on de recuperaci on de textos centrada en las tres cuestiones descritas

You might also like