Professional Documents
Culture Documents
Recuperaci on de informaci on Bases de Datos Documentales Grao en Informaci on e Documentaci on Curso 2012/2013
Miguel Angel Rodr guez Luaces Laboratorio de Bases de Datos Universidade da Coru na
Introducci on
Hemos dedicado la primera mitad del curso a dise nar e implementar bases de datos documentales
Seleccin del dominio (minimundo) Anlisis de requisitos Descripcin en texto
Diseo Conceptual
Tablas: Diseo Lxico Modelo Relacional Emp(DNI, Nome, ) Dept(NumDep, Nome, ) Esquema Relacional
Diseo Fsico
Sistema Gestor de BD
Introducci on
Hemos aplicado varias t ecnicas propias de bases de datos documentales Relacionadas con el dise no de bases de datos
P aginas digitalizadas Texto completo Palabras clave Descriptores Materias Documentos, Ediciones, Ejemplares, Autores Autoridades
Introducci on
Sin embargo, no es suciente por las siguientes razones: La calidad de la informaci on depende en gran medida de la habilidad del catalogador El esfuerzo que hay que realizar es enorme y no puede ser exhaustivo El lenguaje de consulta no es apropiado
Ejemplo: recuperar documentos que hablen de aviaci on
SELECT codigodedocumento FROM pagina digitalizada WHERE texto completo LIKE *avi on* OR texto completo LIKE Avi on* on* OR texto completo LIKE *aviaci OR . . .
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)
Introducci on
La conclusi on es que lo que hemos hecho hasta ahora se puede denominar recuperaci on de textos Clasicaci on manual de documentos Consultas sem anticamente limitadas M etodos cl asicos de recuperaci on (b usqueda de palabras) Presentaci on de resultados sin procesar Lo que necesitamos es un sistema de recuperaci on de informaci on Clasicaci on autom atica de los documentos Lenguaje de consulta m as poderoso M etodos de recuperaci on de informaci on Presentaci on de los resultados clasicados por relevancia
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Introducci on de la informaci on
El proceso de introducci on de la informaci on consiste en estas tareas: Escaneado de los documentos originales Reconocimiento del texto mediante un software espec co (OCR, Optical Character Recognition) Procesado manual del resultado del reconocimiento para corregir errores Introducci on de los documentos en el sistema
Un aspecto importante son los diferentes formatos soportados por el sistema (PDF, DOC, HTML, XML, etc.)
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Almacenamiento de la informaci on
Tras la clasicaci on, se construye una tabla de palabras clave Cada la es un documento Tantas columnas como palabras clave se hayan encontrado En cada celda, la posici on del documento en la que se encuentra la palabra clave
docID 43 56 115
Almacenamiento de la informaci on
Esta soluci on no puede utilizarse directamente: El espacio de almacenamiento necesitado es enorme Las b usquedas en la tabla son muy costosas La soluci on es utilizar estructuras de almacenamiento que eviten estos problemas. La alternativa m as com un es la utilizaci on de un ndice de documentos. La estructura es la siguiente: En el primer nivel, una lista de todas las palabras clave que hay en el sistema de informaci on En un segundo nivel, ara cada palabra clave, una lista de todos los documentos en los que aparece En un tercer nivel, para cada documento, la lista de posiciones en las que est a la palabra
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)
Almacenamiento de informaci on
Ejemplo:
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
M etodos de b usqueda
Los m etodos de b usqueda de los lenguajes tradicionales (SQL) no son sucientes Necesitamos nuevos m etodos que nos den m as potencia a la hora de expresar consultas y de obtener resultados Describiremos brevemente los siguientes:
Modelo Modelo Modelo Modelo booleano vectorial probabil stico estructurado
Expresamos la consulta utilizando los operadores booleanos cl asicos: and, or, not La consulta se traduce en un conjunto de patrones de las que hay que buscar
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)
La consulta se escribe en lenguaje natural Se eval ua la consulta usando los mismos criterios y se obtiene un conjunto de pesos Se considera cada conjunto de pesos como un punto en un espacio multidimensional, y se calcula la distancia vectorial entre la consulta y cada documento
Y la siguiente consulta:
docID consulta Ares 0,8 Ferrol 0,5 Narn 0,3
En el m etodo de calcular las distancias En el m etodo de escribir las consultas Ventajas: Permite el uso de lenguaje natural en las consultas No es obligatorio que todos los t erminos aparezcan para que el documento sea relevante El m etodo calcula la distancia de la consulta al documento, lo que permite ordenar los resultados por relevancia
Inconvenientes:
La probabilidad inicial hay que estimarla La frecuencia de las palabras clave no se tiene en cuenta
f. de precisin =
f. de recuperacin =
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Creaci on de consultas
Existen muchas variantes en cuanto a c omo puede escribir las consultas el usuario B usquedas exactas
Se escriben palabras o frases que tienen que aparecer exactamente (por ejemplo, Google)
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Interfaces de usuario
Un campo de investigaci on que se sale de nuestros objetivos. Aspectos importantes a considerar: Usabilidad del interfaz
Forma de realizar las consultas. Ejemplo: con cuadro de texto o con asistente Ayudas a la hora de consultar. Ejemplo: cuatro de texto o desplegable con opciones
Introduccin de la informacin
Clasificacin de documentos
Documentos en papel
Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}
Documentos clasificados
Almacenamiento de la informacin
Creacin de consultas
Interfaces de usuario
Mtodos de bsqueda
Recuperaci on de informaci on Bases de Datos Documentales Grao en Informaci on e Documentaci on Curso 2012/2013
Miguel Angel Rodr guez Luaces Laboratorio de Bases de Datos Universidade da Coru na