Professional Documents
Culture Documents
Para usar o Lucene, um aplicativo deve criar documentos adicionando campos, criar um
IndexWriter e adicione documentos a ele com addDocument (), Chamar QueryParser.parse () para
criar uma consulta de uma sequncia de caracteres e criar um IndexSearcher e passar a consulta
para o mtodo search ().
O Lucene permite indexar quaisquer dados disponveis no formato textual. O Lucene pode ser
usado quase com qualquer origem de dados contanto que as informaes textuais possam ser
extradas dela. Lucene pode ser utilizado para indexar e procurar dados armazenados em
documentos HTML, Word, arquivos PDF e outros. A primeira etapa na indexao de dados
1
TCNICAS DE PESQUISA E RECUPERAO DE INFORMAO
Anlise a converso dos dados de texto em uma unidade de procura fundamental, chamada
de termo. Durante a anlise, os dados de texto passam por vrias operaes: extrao das
palavras, remoo de palavras comuns, ignorar pontuao, reduo de palavras para o formato de
raiz, alterao das palavras para minsculas, etc. A anlise acontece imediatamente antes de
analisar a indexao e a consulta. A anlise converte os dados de texto em tokens e esses tokens
so includos como termos no ndice do Lucene.
O Lucene fornecido com vrios analisadores integrados, como o SimpleAnalyzer, o
StandardAnalyzer, StopAnalyzer, SnowballAnalyzer, e outros. Eles diferem na maneira pela qual
tokenizam o texto e aplicam os filtros.
Uma classe abstrata que representa o local onde os arquivos de ndice so armazenados.
H duas subclasses principais normalmente usadas:
2
TCNICAS DE PESQUISA E RECUPERAO DE INFORMAO
IndexWriter
Uma classe que cria ou mantm um ndice. Seu construtor aceita um booleano que
determina se um novo ndice criado ou se um ndice existente aberto. Ele fornece
mtodos para incluir, excluir ou atualizar documentos no ndice.
Procurador uma classe base abstrata que possui vrios mtodos de procura
sobrecarregadas. IndexSearcher uma subclasse normalmente utilizada que permite procurar
ndices armazenados em um determinado diretrio. O mtodo Procurar retorna uma coleta
ordenada de documentos classificados pelas pontuaes computadas. O Lucene calcula uma
pontuao de cada documento que corresponde a uma determinada consulta. IndexSearcher
um thread-safe, ou seja, uma instncia nica que pode ser usada por vrios encadeamentos
simultaneamente.
Termo a unidade mais fundamental de procura. Ele composto de dois elementos: o texto da
palavra e o nome do campo no qual o texto ocorre. Os objetos do termo so envolvidos na
indexao, mas so criados pelos componentes internos do Lucene.
Consulta uma classe base abstrata para procuras. Procurar por uma palavra ou frase especificada
envolve agrup-la em um termo, incluir os termos em um objeto de consulta e transmitir esse
objeto de consulta para os mtodos de procura do IndexSearcher.
O Lucene fornecido com vrios tipos de implementaes de consulta concretas, como
TermQuery, BooleanQuery, PhraseQuery, PrefixQuery, RangeQuery, MultiTermQuery,
FilteredQuery, SpanQuery, etc.
3
TCNICAS DE PESQUISA E RECUPERAO DE INFORMAO
IndexSearcher retorna uma matriz de referncias nos resultados de procura classificados, como
documentos que correspondem a uma determinada consulta. As classes primrias envolvidas na
recuperao dos resultados de procura so ScoreDoc e TopDocs.
ScoreDoc
Um ponteiro simples para um documento contido nos resultados de procura. Isso engloba
a posio de um documento no ndice e a pontuao calculada pelo Lucene.
TopDocs
Bibliografia
Lucene https://lucene.apache.org/core/