You are on page 1of 4

1.

Modelo Booleano

Está basado en la teoría de conjuntos y en el álgebra de Boole. Su uso es de larga trayectoria y


se ha aplicado con frecuencia a sistemas de recuperación de información comercializados y
utilizados frecuentemente por los usuarios.

En este modelo, cada documento se representa por un conjunto de términos, donde cada uno
se trata como una variable booleana que se determina como verdadero si el término está
presente en el documento y en falso por lo contrario. Se emplean únicamente pesos binarios
(0, 1) asociados a los términos, lo cual implica que no se tiene en cuenta si el término es de alta
o baja frecuencia, solo importa su ausencia o presencia.

Formalmente, el modelo booleano [D, Q, F, R(qi, dj)], se define como:

D Conjunto de términos presentes en los documentos.

Q Expresión booleana formada por términos y operadores (OR, AND, NOT).

F Álgebra booleana sobre los conjuntos de términos y documentos.

R(qi, dj) Un documento se considera relevante a una consulta si satisface la expresión de


consulta. No existe ranking alguno.

Los pesos de los términos están en el dominio 0/1.

Uno de los puntos débiles del modelo booleano está dado por que en ciertas situaciones
puede brindar resultados no óptimos.

Como se ha mencionado, en este modelo están claros sus fundamentos y es simple de


comprender y operar. Debido a que no posibilita ranking de documentos, las expresiones de
búsqueda pueden ser demasiado restrictivas y se recuperarán pocos documentos, o bien, poco
restrictivas y se recuperarán muchos documentos. No obstante, el modelo booleano ha sido
utilizado en diversos sistemas de recuperación de información y en los primeros buscadores
web.

2. El modelo vectorial

El modelo vectorial se basa en cálculos que permiten introducir un orden (ranking) en los
documentos recuperados en función de su relevancia respecto de la consulta. Plantea la
necesidad de utilizar una función de similitud entre el documento y la consulta.

En el modelo vectorial, cada documento de la colección está representado por un vector t-


dimensional, donde t es la cardinalidad (es decir, el número de términos totales diferentes o
vocabulario) del conjunto de términos indexados que representan a un corpus de documentos.
Cada elemento del vector corresponde al peso del término asociado a esa dimensión.
En un esquema binario –el más simple pero también el más ineficaz– se asigna a los elementos
del vector un 1 si la palabra forma parte de documento o un 0 en caso contrario. No obstante,
es de uso común que los pesos asociados a los términos indiquen una medida de relevancia
basada en un cálculo de frecuencias. Generalmente, se utiliza la métrica de ponderación
TF*IDF, la cual ha sido explicada en el tema cuatro.

En el momento de la recuperación, las consultas se describen de la misma forma, generando


un vector consulta. Luego, se procede a realizar los cálculos algebraicos para determinar la
semejanza (por ejemplo, mediante el producto escalar) entre el vector consulta y cada uno de
los vectores que representan a los documentos del corpus.

Finalmente, se realiza el ranking, de forma descendente por el valor de similitud calculado y se


presenta la respuesta al usuario.

Formalmente, el modelo vectorial [D, Q, F, R(qi, dj)], se define como:

D Conjunto de términos presentes en los documentos.

Q Conjunto de términos que forman la consulta

F Representación de D y Q como vectores en un espacio t-dimensional y álgebra de vectores

R(qi, dj) Se considera la similitud entre un documento y una consulta de acuerdo a una medida
de semejanza, por ejemplo, el coseno del ángulo que forman los vectores. Existe matching
aproximado y ranking por similitud.

El modelo vectorial es ampliamente utilizado ya que aporta visibles ventajas respecto del
modelo booleano. Principalmente:

El esquema de pesos mejora las prestaciones de la recuperación. Aquí se adquiere gran


flexibilidad al poder incorporar diferentes esquemas de cálculo de los pesos.

Se pueden considerar búsquedas aproximadas

La medida de similitud proporciona un método de ranking de los resultados

Mediante esta representación se puede medir la similitud entre diferentes objetos


(documentos y consultas, documentos y documentos, oraciones y consultas, etc.)

Por otro lado, la simplificación realizada al considerar la independencia de los términos se


puede ver como una desventaja. Además, asume que los documentos y las consultas son
tratados de igual manera y no existe una justificación que la soporte (tanto la longitud como el
proceso de creación de ambos son completamente diferentes). No obstante estas
observaciones, el modelo vectorial es superior o al menos equivalente al booleano.

3. Archivo Inverso

Es un conjunto de términos donde cada uno tiene asociada una lista de los identificadores de
documentos donde cada término aparece. Es decir, cada entrada en el archivo invertido
mapea un término con un conjunto de documentos que lo contienen. Esta organización es
completamente opuesta a la representación de cada documento como una bolsa de palabras,
donde un documento podemos ver la matriz documento–término en forma invertida como
matriz término-documento. A partir de ésta, la construcción del archivo invertido surge de
forma directa.

4. Retroalimentación por relevancia

En la retroalimentación por relevancia el objetivo perseguido es agregar términos y generar


una nueva consulta. Con ésta, en una nueva operación de recuperación, se espera obtener
nuevos documentos relevantes.

Esto se logra a partir de que el usuario seleccione conjuntos de documentos relevantes y no


relevantes, el sistema los analice y extraiga aquellos términos significativos. Con éstos se
recalculan los pesos globales de todos los términos de la consulta de manera que ésta exprese
más precisamente la necesidad de información del usuario.

5. Recuperación parcial

Belkin y Croft (1987) propusieron una clasificación de las técnicas de recuperación de


información distinguiendo dos grandes grupos: técnicas de equiparación total (donde se
engloban aquellas que responden al modelo booleano) y técnicas de equiparación parcial
(donde se incluyen todas las demás, que intentan superar las limitaciones del modelo
booleano).

A su vez, las técnicas de equiparación parcial las subdividen en:

 Técnicas de equiparación parcial individual: que consideran que los documentos en


una colección son independientes entre sí, individuales, e incluyen, entre otras, las
técnicas de recuperación que se desarrollan en el marco del modelo de espacio
vectorial, del modelo probabilístico y del modelo basado en la lógica difusa.
 Técnicas de equiparación parcial en red: que consideran que los documentos de una
colección tienen relaciones entre ellos y que ésto hay que tenerlo en cuenta en la
recuperación e incluyen técnicas, novedosas en ese momento, como el clustering o el
browsing.

6. Etapas de cluster

En recuperación de información

1. Seleccionar de la muestra de datos


2. Selección de los atributos o variables que se utilizarán para caracterizar los
documentos.
3. Elegir un algoritmo de ponderación (habitualmente tf*idf)
4. Elegir un coeficiente de similaridad para determinar el grado de semejanza entre los
vectores (coseno, Dice, Jaccard, entre otros)
5. Estandarización de datos
6. Elegir un método de aglomeración (no jerárquico o jerárquico, aglomerativo o
divisivo...)
7. Representación de los datos: dendograma
8. Interpretación y perfil de los grupos

7. ¿Qué es el MDS?

Escalamiento multidimensional o MDS. Este proceso de simplificación consiste en la


proyección de un gran número de dimensiones en un número menor de ellas, generalmente
dos o tres (que, además, puede ser representada gráficamente para facilitar su comprensión).

You might also like