Professional Documents
Culture Documents
Modelo Booleano
En este modelo, cada documento se representa por un conjunto de términos, donde cada uno
se trata como una variable booleana que se determina como verdadero si el término está
presente en el documento y en falso por lo contrario. Se emplean únicamente pesos binarios
(0, 1) asociados a los términos, lo cual implica que no se tiene en cuenta si el término es de alta
o baja frecuencia, solo importa su ausencia o presencia.
Uno de los puntos débiles del modelo booleano está dado por que en ciertas situaciones
puede brindar resultados no óptimos.
2. El modelo vectorial
El modelo vectorial se basa en cálculos que permiten introducir un orden (ranking) en los
documentos recuperados en función de su relevancia respecto de la consulta. Plantea la
necesidad de utilizar una función de similitud entre el documento y la consulta.
R(qi, dj) Se considera la similitud entre un documento y una consulta de acuerdo a una medida
de semejanza, por ejemplo, el coseno del ángulo que forman los vectores. Existe matching
aproximado y ranking por similitud.
El modelo vectorial es ampliamente utilizado ya que aporta visibles ventajas respecto del
modelo booleano. Principalmente:
3. Archivo Inverso
Es un conjunto de términos donde cada uno tiene asociada una lista de los identificadores de
documentos donde cada término aparece. Es decir, cada entrada en el archivo invertido
mapea un término con un conjunto de documentos que lo contienen. Esta organización es
completamente opuesta a la representación de cada documento como una bolsa de palabras,
donde un documento podemos ver la matriz documento–término en forma invertida como
matriz término-documento. A partir de ésta, la construcción del archivo invertido surge de
forma directa.
5. Recuperación parcial
6. Etapas de cluster
En recuperación de información
7. ¿Qué es el MDS?