You are on page 1of 33

Bases de Datos Documentales

Recuperaci on de informaci on Bases de Datos Documentales Grao en Informaci on e Documentaci on Curso 2012/2013

Miguel Angel Rodr guez Luaces Laboratorio de Bases de Datos Universidade da Coru na

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Introducci on
Hemos dedicado la primera mitad del curso a dise nar e implementar bases de datos documentales
Seleccin del dominio (minimundo) Anlisis de requisitos Descripcin en texto

Diseo Conceptual

Modelo Entidad-Relacin Diagrama Entidad-Relacin

Tablas: Diseo Lxico Modelo Relacional Emp(DNI, Nome, ) Dept(NumDep, Nome, ) Esquema Relacional

Diseo Fsico

Sistema Gestor de BD

Esquema Fsico de la Base de Datos

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Introducci on
Hemos aplicado varias t ecnicas propias de bases de datos documentales Relacionadas con el dise no de bases de datos
P aginas digitalizadas Texto completo Palabras clave Descriptores Materias Documentos, Ediciones, Ejemplares, Autores Autoridades

Relacionadas con la consulta de informaci on


Lenguaje de consulta SQL Operaciones de comparaci on y operaci on LIKE

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Introducci on
Sin embargo, no es suciente por las siguientes razones: La calidad de la informaci on depende en gran medida de la habilidad del catalogador El esfuerzo que hay que realizar es enorme y no puede ser exhaustivo El lenguaje de consulta no es apropiado
Ejemplo: recuperar documentos que hablen de aviaci on

SELECT codigodedocumento FROM pagina digitalizada WHERE texto completo LIKE *avi on* OR texto completo LIKE Avi on* on* OR texto completo LIKE *aviaci OR . . .
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Introducci on
La conclusi on es que lo que hemos hecho hasta ahora se puede denominar recuperaci on de textos Clasicaci on manual de documentos Consultas sem anticamente limitadas M etodos cl asicos de recuperaci on (b usqueda de palabras) Presentaci on de resultados sin procesar Lo que necesitamos es un sistema de recuperaci on de informaci on Clasicaci on autom atica de los documentos Lenguaje de consulta m as poderoso M etodos de recuperaci on de informaci on Presentaci on de los resultados clasicados por relevancia

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Introducci on de la informaci on
El proceso de introducci on de la informaci on consiste en estas tareas: Escaneado de los documentos originales Reconocimiento del texto mediante un software espec co (OCR, Optical Character Recognition) Procesado manual del resultado del reconocimiento para corregir errores Introducci on de los documentos en el sistema
Un aspecto importante son los diferentes formatos soportados por el sistema (PDF, DOC, HTML, XML, etc.)

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Clasicaci on de los documentos


Extracci on de palabras clave de cada documento Primera aproximaci on: cada palabra del documento es una palabra clave Problema: elevada complejidad Segunda aproximaci on: reducir el n umero de palabras clave
Eliminaci on de stop words: palabras sin signicado (art culos, preposiciones, conjunciones) Uso de lematizadores: se reducen las palabras a su lema gramatical (ej: amoroso a amor, corriendo a correr ) Identicar grupos nominales: sustituir adjetivos y verbos por un sustantivo asociado (ej: enamorar a amor )

Resultado nal: lista de palabras clave para cada documento

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Almacenamiento de la informaci on
Tras la clasicaci on, se construye una tabla de palabras clave Cada la es un documento Tantas columnas como palabras clave se hayan encontrado En cada celda, la posici on del documento en la que se encuentra la palabra clave

docID 43 56 115

amor {15, 25} {} {}

correr {200, 1303} {190, 2006} {}

Zapato {} {} {115, 303}

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Almacenamiento de la informaci on
Esta soluci on no puede utilizarse directamente: El espacio de almacenamiento necesitado es enorme Las b usquedas en la tabla son muy costosas La soluci on es utilizar estructuras de almacenamiento que eviten estos problemas. La alternativa m as com un es la utilizaci on de un ndice de documentos. La estructura es la siguiente: En el primer nivel, una lista de todas las palabras clave que hay en el sistema de informaci on En un segundo nivel, ara cada palabra clave, una lista de todos los documentos en los que aparece En un tercer nivel, para cada documento, la lista de posiciones en las que est a la palabra
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Almacenamiento de informaci on
Ejemplo:

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

M etodos de b usqueda
Los m etodos de b usqueda de los lenguajes tradicionales (SQL) no son sucientes Necesitamos nuevos m etodos que nos den m as potencia a la hora de expresar consultas y de obtener resultados Describiremos brevemente los siguientes:
Modelo Modelo Modelo Modelo booleano vectorial probabil stico estructurado

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo booleano


Para cada documento, despu es del proceso de clasicaci on, conocemos si contiene o no contiene una palabra clave
docID 43 56 115 Ares S No No Ferrol S S No Narn No No S

Expresamos la consulta utilizando los operadores booleanos cl asicos: and, or, not La consulta se traduce en un conjunto de patrones de las que hay que buscar
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo booleano


Ejemplo: Quiero obtener documentos que hablen de Ferrol o de Nar on, pero no de Ares Consulta: (ferrol or naron) and not Ares Esta consulta implica buscar las siguientes las
Ares No Ares No Ares No Ferrol S Ferrol No Ferrol S Narn No Narn S Narn S

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo booleano


Ventajas: La implementaci on es muy sencilla Inconvenientes: Es muy dif cil pensar consultas en t erminos de operadores de l ogica booleana No permite indicar la relevancia de cada documento con respecto a la consulta No tiene en cuenta la importancia de una palabra en el documento con respecto a las dem as Ejemplo: si la palabra Ferrol se repite mucho, y la palabra Nar on se repite poco, es probable que el documento sea muy espec co de Ferrol y poco de Nar on
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo booleano


Inconvenientes (siguen): El operador and restringe mucho las consultas, el operador or las restringe demasiado poco Ejemplo:
Buscamos documentos relativos a la r a de Ferrol. Las palabras clave que consideramos son: Ferrol, Nar on, Neda, Fene, y Mugardos Si la consulta es Ferrol and Nar on and Neda and Fene and Mugardos No aparecen los documentos en los que no est en todas las palabras. Si la consulta es Ferrol or Nar on or Neda or Fene or Mugardos Aparece cualquier documento que mencione alguna de las palabras
Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo vectorial


Se asigna a cada documento un peso con respecto a cada palabra clave El peso se calcula en funci on de:
Frecuencia de aparici on de la palabra en el documento Frecuencia de aparici on de la palabra en todos los documentos Otros criterios. . .

La consulta se escribe en lenguaje natural Se eval ua la consulta usando los mismos criterios y se obtiene un conjunto de pesos Se considera cada conjunto de pesos como un punto en un espacio multidimensional, y se calcula la distancia vectorial entre la consulta y cada documento

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo vectorial


Ejemplo: dados estos documentos
docID 43 56 115 Ares 0,5 0 0,2 Ferrol 0,8 0,7 0,3 Narn 0,1 0,2 0,9

Y la siguiente consulta:
docID consulta Ares 0,8 Ferrol 0,5 Narn 0,3

Obtenemos las siguientes distancias


docID 43 56 115
Grao en Informaci on e Documentaci on

distancia 0,47 0,83 0,87

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo vectorial


Variantes: En el m etodo de asignar los pesos
Ejemplo: Google utiliza los enlaces que apuntan a la p agina

En el m etodo de calcular las distancias En el m etodo de escribir las consultas Ventajas: Permite el uso de lenguaje natural en las consultas No es obligatorio que todos los t erminos aparezcan para que el documento sea relevante El m etodo calcula la distancia de la consulta al documento, lo que permite ordenar los resultados por relevancia

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo probabil stico


A partir de la consulta inicial, se calcula para cada documento la probabilidad de que sea relevante Se le presentan al usuario los documentos, y marca cuales son realmente relevantes A partir de esta informaci on, se pueden utilizar m etodos estad sticos para volver a calcular las probabilidades Ventajas:
Se calcula para cada documento su relevancia

Inconvenientes:
La probabilidad inicial hay que estimarla La frecuencia de las palabras clave no se tiene en cuenta

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

B usqueda: Modelo estructurado


M as que una variante es una alternativa a los m etodos anteriores Basa su utilidad en hacer expl cita la estructura de los documentos Para almacenar esta estructura podemos utilizar lenguajes de marcado (por ejemplo XML) La estructura se utiliza en las consultas y en la b usqueda Por ejemplo:
Recuperar documentos con im agenes de Ferrol

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Eciencia del m etodo de b usqueda


C omo podemos saber si un m etodo es bueno o malo? Se miden dos factores de cada m etodo
Factor de recuperaci on: de los documentos relevantes que hay en la BD, cuantos ha encontrado el m etodo? Factor de precisi on: de los documentos que ha recuperado el m etodo, cu antos son realmente relevantes?

Las f ormulas son:

f. de precisin =

nmero de documentos relevantes recuperado s nmero de documentos recuperado s

f. de recuperacin =

nmero de documentos relevantes recuperados nmero total de documentos relevantes

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Eciencia del m etodo de b usqueda


Para poder evaluar un m etodo, es necesario: Poseer un conjunto de documentos conocido (un corpus documental de prueba) Conocer la cantidad de documentos relevantes a determinadas consultas Probar el m etodo con ese conjunto de documentos Se espera que el comportamiento del m etodo con datos reales sea parecido al comportamiento con el corpus Ambos factores son importantes e independientes, es dif cil ponderar cual es m as importante

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Eciencia del m etodo de b usqueda


Ejemplo: Tenemos un corpus con 153.247 documentos Para una consulta q existen 600 documentos relevantes Se prueban los algoritmos, y se obtienen los resultados de la tabla. Cu al es mejor?
Documentos Relevantes Recuperados 300 200

Algoritmo Algoritmo 1 Algoritmo 2

Documentos Recuperados 900 300

Factor de precisin 300/900=1/3 200/300=2/3

Factor de recuperacin 300/600=1/2 200/600=1/3

En t erminos de precisi on, el segundo. En capacidad de recuperaci on, el primero.


Grao en Informaci on e Documentaci on Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Creaci on de consultas
Existen muchas variantes en cuanto a c omo puede escribir las consultas el usuario B usquedas exactas
Se escriben palabras o frases que tienen que aparecer exactamente (por ejemplo, Google)

B usquedas por similitud


Se propone un documento o un texto, y se buscan elementos parecidos (por ejemplo, con el modelo vectorial)

Extensi on de las consultas [ontolog as]


Se a naden a la consulta t erminos de b usqueda relacionados Por ejemplo:
Sin onimos Generalizaci on o especializaci on Relaciones sem anticas

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Interfaces de usuario
Un campo de investigaci on que se sale de nuestros objetivos. Aspectos importantes a considerar: Usabilidad del interfaz
Forma de realizar las consultas. Ejemplo: con cuadro de texto o con asistente Ayudas a la hora de consultar. Ejemplo: cuatro de texto o desplegable con opciones

Presentaci on de los resultados


Ordenaci on por relevancia Navegaci on por los resultados Renamiento de las consultas

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Arquitectura del sistema

En un lugar de La Mancha ...

Introduccin de la informacin

En un lugar de La Mancha ...

Clasificacin de documentos

Documentos en papel

Documentos digitales
docID 43 56 115 amor {15, 25} {} {} correr {200, 1303} {190, 2006} {} Zapato {} {} {115, 303}

Documentos clasificados

Almacenamiento de la informacin
Creacin de consultas

Interfaces de usuario

Mtodos de bsqueda

Base de Datos e ndice

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

Bases de Datos Documentales Recuperaci on de informaci on

Recuperaci on de informaci on Bases de Datos Documentales Grao en Informaci on e Documentaci on Curso 2012/2013

Miguel Angel Rodr guez Luaces Laboratorio de Bases de Datos Universidade da Coru na

Grao en Informaci on e Documentaci on

Miguel R. Luaces (luaces@udc.es)

You might also like