You are on page 1of 10

Universidade Aberta

MW – Mestrado em Tecnologias e Sistemas Informáticos


Web

22119_16_01 Pesquisa e Recuperação de Informação

2016/2017

Projeto Final

Alexon Delgado - 1601710


Universidade Aberta

Evaluation in Information Retrieval


O documento apresenta um resume das noções básicas de medir a eficácia dos
sistemas de RI e as coleções de teste que são mais utilizadas para esse fim. A
noção direta de documentos relevantes e não relevantes e a metodologia de
avaliação formal desenvolvida para avaliação de resultados de recuperação não
classificados. Isso inclui explicar os tipos de medidas de avaliação que são
usadas de forma padrão para recuperação de documentos e tarefas
relacionadas, como a classificação de texto e por que elas são apropriadas.
Estender essas noções e desenvolver medidas adicionais para avaliar os
resultados de recuperação classificados.

Avaliação do sistema de recuperação de informação


Para medir a eficácia de recuperação de informações da maneira padrão, é
necessário uma coleção de teste composta por três elementos:
1. Uma coleção de documentos de referência;
2. Um conjunto de informações de teste, expressa como consultas;
3. Uma avaliação, geralmente binária, de Relevante ou Não-Relevante para
cada par consulta-documento.
A abordagem padrão para a avaliação do sistema de recuperação de
informações gira em torno da noção de documentos relevantes e não
relevantes. No que diz respeito a uma necessidade de informação do utilizador,
um documento na coleção de teste recebe uma classificação binária como
relevante ou não relevante.
A relevância é avaliada em relação a uma necessidade de informação, não uma
consulta. Por exemplo, uma necessidade de informação pode ser:
“As informações sobre se beber vinho tinto é mais eficaz para reduzir o risco
de ataques cardíacos do que o vinho branco”.
Isso pode ser traduzido para uma consulta, como:
“Vinho E vermelho E branco E ataque E cardíaco E eficaz”.
Considere o documento: Quase ele teve um ataque cardíaco ao atacar o lobby
da indústria do vinho para minimizar o papel do vinho tinto e vinho branco em
acidentes envolvendo motoristas alcoolizados.

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 2


Universidade Aberta

O documento não é relevante a necessidade de informação. Um documento é


relevante se ele aborda a informação necessário, não porque apenas contenha
todas as palavras na consulta.
Para avaliar um sistema, exige-se uma expressão aberta de uma necessidade
de informação, que pode ser usada para julgar documentos retornados como
relevantes ou não relevantes. Satisfação do utilizador pode ser medida pela
relevância a uma necessidade de informação, não pela relevância a consultas.
Julgamento de relevância consulta-documento = julgamento de relevância
necessidade de informação-documentos.

Coleções de teste para avaliação do sistema de recuperação de


informações
O que é necessário?
 Umas coleção de documentos, documentos precisam ser representativos
dos documentos que esperamos ver na realidade.
 Umas coleção de necessidades de informação, necessidades de
informação devem ser representativas das necessidades de informação
que esperamos ver na realidade.
 Julgamento de relevância por humanos, avaliadores para fazer isso.
Avaliadores devem ser representativos dos utilizadores que espera-se
ver na realidade.

Cranfield
Foi a coleção pioneira do teste, permitindo medidas quantitativas precisas de
eficácia da recuperação da informação, mas hoje em dia é muito pequena para
qualquer outra coisa, exceto as experiências piloto mais elementares.
Recolhido no Reino Unido a partir do final da década de 1950, contém 1398
resumos de artigos de revistas aerodinâmicas, um conjunto de 225 consultas e
julgamentos de relevância exaustiva de todos os pares (consulta, documento).

Text Retrieval Conference (TREC)


National Institute of Standards and Technology, US (NIST) realizou uma grande
série de avaliação de teste base de RI desde 1992. Reuters e outras coleções de

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 3


Universidade Aberta

documentos de referência usados, “tarefas de recuperação” especificadas as


vezes como consultas e um expert marca, para cada consulta e cada
documento, Relevante ou Não-relevante, ou pelo menos um subconjunto de
documentos que alguns sistemas retornam para a consulta.
As coleções de teste mais conhecidas são as usadas para a tarefa TREC Ad Hoc
durante as primeiras 8 avaliações TRECs entre 1992 e 1999. 1.89 milhões de
documentos, principalmente artigos de noticia, 450 necessidades de info. As
TREC iniciais consistiram em 50 informações necessárias, avaliadas em
conjuntos de documentos diferentes, mas sobrepostos. Não possui julgamento
exaustivo de relevância por ser muito caro. Avaliação humana de resultados
retornados agrupados, e mais recentemente outras coisas relacionadas: Web
track, HARD. Avaliadores julgam relevância apenas nos documentos que estão
entre os top-k documentos recuperados por algum SRI executado sob esses
dados de avaliação.

Uma consulta TREC (TREC 5)


<top>
<num> Número: 225
<desc> Descrição:
Qual é a função principal da Federal Emergency Management Agency (FEMA) e
o nível de financiamento previsto para atender situações de emergência? E
também, que recursos estão disponíveis para a FEMA tais como pessoas,
equipamentos, facilidades?
</top>

GOV2
Uma coleção TREC/NIST de 25 milhões de páginas web é a maior coleção da
Web facilmente disponível para fins de pesquisa. No entanto, GOV2 é menor
em índice do que das coleções de documentos indexadas pelas grandes
empresas de pesquisa na web como a Google/Yahoo/MSN em 3 ordens de
magnitude.

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 4


Universidade Aberta

NTCIR (East Asian language and cross-language information retrieval)


Coleções de teste de tamanhos semelhantes às coleções TREC, focando na
língua asiática e recuperação de informações em idiomas multilingue.

Cross Language Evaluation Forum (CLEF)


Série de avaliação concentrada em idiomas europeus e recuperação de
informações em múltiplos idiomas.

Avaliação de conjuntos de recuperação não classificados


As duas medidas mais frequentes e básicas para a eficácia da recuperação da
informação são a precisão e o retorno.
Estes são primeiro definidos para o caso simples em que um sistema RI retorna
um conjunto de documentos para uma consulta.
Precisão (P) é a fração de documentos recuperados que são relevantes
Precisão = #(itens relev. rec.) / #(itens rec.) = P(relev. / rec.)

Retorno (R) é a fração de documentos relevantes que são recuperados


Retorno = #(itens relev. rec.) / #(itens relev.) = P(rec. / relev.)

Relevante Não-Relevante

# Recuperado true positives (tp) false positives (fp)

# Não Recuperado false negatives (fn) true negatives (tn)


Tabela 1

Precisão P = tp/(tp + fp)


Retorno R = tp/(tp + fn)
Precisão = (tp + tn) / (tp + f p + f n + tn).
Existem duas classes atuais, relevantes e não relevantes, e um sistema de
recuperação de informações pode ser considerado como um classificador de
duas classes que tenta rotular como tal (recupera o subconjunto de documentos
que considera relevante). Esta é precisamente a medida de efetividade
frequentemente usada para avaliar os problemas de classificação da
aprendizagem da máquina. Há uma boa razão pela qual a precisão não é uma
medida apropriada para problemas de recuperação de informações. Em quase

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 5


Universidade Aberta

todas as circunstâncias, os dados são extremamente distorcidos: normalmente


mais de 99,9% dos documentos estão na categoria não relevante.
Os utilizadores sempre vão querer ver alguns documentos, e pode ser assumido
ter uma certa tolerância para ver alguns falsos positivos, desde que eles tenham
algumas informações úteis.
Pode obter um retorno de 1 (mas muita baixa precisão), recuperando todos os
documentos para todas as consultas! Retorno é uma função crescente do
número de documentos recuperados. Por outro lado, em um bom sistema, a
precisão geralmente diminui à medida que o número de documentos
recuperados é aumentado. Isto não é um teorema, mas um resultado com forte
confirmação empírica. Em geral, queremos obter uma certa quantidade de
retorno enquanto toleramos apenas uma certa percentagem de falsos positivos.
As dificuldades no uso da precisão/retorno são nomeadamente o facto de
precisar da decisão humana de relevância e pessoas não são assessores
confiáveis, o facto de a decisão ser binaria e ainda o facto de os resultados
poderem não traduzir de um domínio para outro.
Uma medida combinada única que avalia o intercâmbio precisão/retorno é a
medida F, que é a média harmônica ponderada de precisão e retorno:
1 ( 2
 1) PR
F  
 1
 (1   )
1  2
P  R
P R
Onde α ∈ [0, 1] e, portanto, β2 ∈ [0, ¥]. O padrão F padronizado também mede
a precisão e o retorno, o que significa fazer α = 1/2 ou β = 1. É comumente
escrito como F1, que é curto para Fβ = 1, mesmo que a formulação em termos
de α exiba mais transparentemente a medida F é uma média harmônica
ponderada. Ao usar β = 1, a fórmula simplifica:
Fβ=1 = 2PR / (P + R)
Exemplo:

Relevante Não-Relevante

# Recuperado 20 40 60

# Não Recuperado 60 1,000,000 1,000,060

80 1,000,040 1,000,120
Tabela 2

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 6


Universidade Aberta

P = 20/(20 + 40) = 1/3 = 0.33


R = 20/(20 + 60) = 1/4 = 0.25
F1 = 2PR / (P+R) = 2/7 = 0.28

Combined Measures

100

80 Minimum
Maximum
60
Arithmetic
40 Geometric
Harmonic
20

0
0 50 100
Precision (Recall fixed at 70%)

Figura 1 – Gráfico comparando a média harmônica com outros meios. O gráfico


mostra uma fatia através do cálculo de vários meios de precisão e retorno
para o valor de retorno fixo de 70%. A média harmônica é sempre menor que a
média aritmética ou geométrica, e muitas vezes bastante próxima do mínimo
dos dois números. Quando a precisão é também de 70%, todas as medidas
coincidem.

Avaliação dos resultados de recuperação classificados


Precisão/retorno/F são métricas para conjuntos desordenados (não
classificados). Pode-se tornar facilmente essas métricas sensíveis a listas
classificadas. Calcule a métrica para cada lista de top-k resultados com k = 1;
2; 3; : : : ; n: e.g., top-1, top-2, top-3, top-4, etc.
Fazendo isso para precisão e retorno gera uma curva precisão-retorno.

1,0
0,8
Precision

0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Recall

Figura 2 – Curva Precisão-Retorno

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 7


Universidade Aberta

Cada ponto corresponde a um resultado para os top-k resultados ordenados (k


= 1,2,3,4, …). Interpolação (em vermelho), assume o máximo de todos os pontos
futuros. O utilizador prefere olhar mais documentos se a precisão e o retorno
melhorarem. Um gráfico precisão-retorno para uma consulta não é uma coisa
muito sensata de olhar, é preciso fazer o cálculo da média de performance
sobre um grande grupo de consultas. Mas existe o problema técnico, cálculos
de precisão-retorno colocam alguns pontos no gráfico, mas como determinar
um valor (interpolado) entre os pontos.
Se aumenta localmente a precisão com retorno aumentando, então tem-se o
máximo de precisão para a direita dos valores.

Figura 3

Precisão média interpolada de 11 pontos


Para cada necessidade de informação, a precisão interpolada é medida nos 11
níveis de recuperação de 0,0, 0,1, 0,2,. . . , 1.0. Para a curva de recuperação
de precisão na Figura 2, esses 11 valores são mostrados na Tabela 3. Para cada
nível de recuperação, calculamos a média aritmética da precisão interpolada
nesse nível de recuperação para cada necessidade de informação na coleção de
teste. Uma curva compacta de precisão mostrando 11 pontos pode então ser
representada graficamente. A Figura 4 mostra um exemplo de gráfico de tais
resultados de um bom sistema representativo na TREC 8.

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 8


Universidade Aberta

Retorno Precision
Interpolado
0.0 1.00
0.1 0.67
0.2 0.63
0.3 0.55
0.4 0.45
0.5 0.41
0.6 0.36
0.7 0.29
0.8 0.13
0.9 0.10
1.0 0.08
Tabela 3 – Cálculo da Precisão Médica Interpolada de 11 pontos. Isto é para o Curva
de recuperação de precisão mostrada na Figura 2.

0,8

0,6
Precision

0,4

0,2

0
0 0,2 0,4 0,6 0,8 1
Recall

Figura 4 – Gráfico de precisão/retorno de 11 pontos em 50 consultas para um Sistema


TREC. A média de precisão média para este sistema é 0.2553.

Calcule a precisão interpolado para os níveis de retorno 0.0, 0.1, 0.2, . . .


Faça isso para cada consulta de avaliação. Tire a média dos resultados. Essa
métrica mede a precisão para todos os níveis de retorno.

Meio-termo da precisão média (MAP – Mean Average Precision)


Fornece uma medida única de qualidade em todos os níveis de retorno. Entre
as medidas de avaliação, o MAP demonstrou ter uma discriminação e
estabilidade especialmente boas. Para uma única necessidade de informação,
22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 9
Universidade Aberta

a Precisão Média é a média do valor de precisão obtido para o top k documentos,


cada vez que um documento relevante é recuperado.
Usando MAP, os níveis de recuperação fixa não são escolhidos, e não há
interpolação. O valor MAP para uma coleção de teste é a média aritmética de
valores de precisão média para necessidades de informações individuais. Para
cada consulta (seleciona os k documentos), calcula-se a precisão obtida. No
final calcula-se a media da precisão de todos as consultas.

Precisão no nível de recuperação fixo


Precisão-em-k: Precisão do top k resultados, apropriado para a maioria das
pesquisas web, o que todos querem são boas combinações na primeira ou
segunda páginas de resultados. Mas calcula mal a media e tem o parâmetro
arbitrário de k.

Precisão R
Exige ter um conjunto de documentos conhecidos Rel, a partir do qual
calculamos a precisão dos principais documentos Rel retornados. (O conjunto
Rel pode estar incompleto, como quando o Rel é formado criando julgamentos
de relevância para os resultados superiores agrupados de conjuntos de sistemas
específicos em um conjunto de experiências). A precisão R ajusta o tamanho
do conjunto de documentos relevantes: um sistema perfeito pode pontuar 1.0
nesta métrica para cada consulta.

22119_16_01 Pesquisa e Recuperação de Informação – Projeto Final 10

You might also like