You are on page 1of 21

ALCESTE

Software de Análise de Dados Textuais

Ferramenta de Apoio à Análise Automática,


Rápida e Eficiente

Página 1
OBJETIVOS

A Análise de Dados Textuais ou estatística textual é a metodologia que


visa descobrir a informação essencial de um texto. Esta metodologia, em
forte crescimento, encontra aplicações em todas as áreas onde se lida
com sequências de textos.

O ALCESTE é um software de Análise de Dados Textuais que surgiu no


CNRS (Centro Nacional Francês de Pesquisa Científica) com o apoio da
ANVAR (Agência Nacional Francesa de Valorização à Pesquisa). Ele foi
adaptado para o MACINTOSH e PC pela empresa IMAGE, empresa
especializada em matemática aplicada e desenvolvimento de software
científico.

O software ALCESTE permite realizar de maneira automática a análise


de entrevistas, perguntas abertas de pesquisas socioeconômicas,
compilações de textos diversos (obras literárias, artigos de revistas,
ensaios), etc.

O objetivo é quantificar um texto para extrair as estruturas mais


significativas. As pesquisas mostraram (J.P. BENZECRI, M. REINERT)
que essas estruturas estão estreitamente relacionadas com a distribuição
de palavras em um texto e que essa distribuição raramente é aleatória.
Descrever, classificar, assimilar, resumir automaticamente um texto, este
é o atual propósito do software ALCESTE.

MÉTODO UTILIZADO

Página 2
A Classificação Hierárquica Descendente é o método utilizado pelo
ALCESTE. Esse método se dá por sucessivas divisões do texto. Ele
identifica as oposições mais evidentes entre as palavras do texto e, em
seguida, extrai as classes de enunciados representativos. Ele tem a
vantagem de não exigir um conhecimento anterior sobre o texto a ser
analisado.

Página 3
FUNÇÕES

ANÁLISE DO VOCABULÁRIO

Este é o primeiro passo do processamento durante o qual são realizadas:


- a enumeração de palavras;
- a contagem de raízes do vocabulário após a redução;
- a criação de dicionários.

ANÁLISE PADRÃO

A análise padrão é uma análise "modelo" do software ALCESTE bastante


relevante. Esta análise possui duas classificações (dupla classificação),
para evitar qualquer influência devido à divisão do texto e garantir a
consistência.
Depois de analisar o vocabulário e realizar a divisão do texto, o
ALCESTE entra na fase de classificação para identificar as oposições
mais importantes entre as palavras e extrair as classes de enunciados.
Essa análise oferece para cada classe os seguintes resultados principais:
- palavras e frases mais significativas (cálculo de chi-quadrado medindo
a importância das ligações);
- segmentos repetidos;
- correspondências das palavras mais características.

ANÁLISE DE CLASSIFICAÇÃO CRUZADA

Esta análise consiste em cruzar o texto com variáveis descritivas. Pode


ser uma variável "capítulo" no caso de um livro ou uma variável "idade",
"sexo", "profissão" para uma série de entrevistas.

ANÁLISE DE UNIDADES NATURAIS

Um texto às vezes é composto de várias partes: por exemplo, um livro é


composto por capítulos, uma revista inclui artigos, o que chamamos de

Página 4
unidades naturais. Esta análise realiza uma única classificação sobre
essas unidades naturais, chamada "simples". A consistência é assegurada
pela divisão natural do texto.

Página 5
CARACTERÍSTICAS
O software ALCESTE processa todos os tipos de textos obtidos com a
ajuda de um processador de texto, de um scanner, ou por
reconhecimento de voz.
Ele opera em ambiente Windows 98, Win NT4 e Power-Macintosh.
O ALCESTE possui um módulo de consulta que permite visualizar e
imprimir os resultados mais importantes.
Seu relatório simplificado resume a parte mais importante da análise e
fornece uma excelente ajuda à interpretação.
Um módulo gráfico de Análise Fatorial de Correspondências (AFC), em
2D e 3D com animação, permite visualizar e interpretar os principais
resultados.
Sua representação gráfica na forma de setores reforça a compreensão dos
resultados estatísticos.
Os concordanciadores coloridos do ALCESTE tornam sua utilização
ainda mais agradável.
A gestão automatizada de dicionários (inglês, francês, espanhol,
português, italiano) atende às necessidades de qualquer usuário de um
software de Análise de Dados Textuais.
Esses dicionários são fornecidos e permanecem abertos a qualquer
personalização.

ÁREA DE APLICAÇÃO
O ALCESTE pode ser aplicado em Linguística, Análise do Discurso,
Processamento de Pesquisas, Consultoria em Marketing, Publicidade,
Jornalismo, História, Sociologia, Psicologia, Direito, Medicina, Pesquisa
Documental, Análise de Imprensa, etc.

EXEMPLOS DE PROCESSAMENTOS REALIZADOS


Pesquisas Qualitativas: análise de entrevistas, de perguntas abertas, de
artigos de revistas, de debates televisivos durante as eleições
presidenciais, etc.
Em Sociopsicologia: análise de conteúdos de entrevistas semi-
estruturadas, histórias de crianças, sonhos, relatos de pesadelos, etc.

Página 6
Em Ciências: Análise de documentos técnicos, registros, relatórios,
diagnósticos médicos, resolução de problemas e mensagens do sistema
em informática, etc.
Em Letras: análise e síntese de livros, poemas, peças de teatro, textos
filosóficos, etc.
Textos Multilíngues: análise de textos em francês, inglês, catalão,
espanhol, gascão, italiano, português, alemão, russo, etc.

Página 7
EXEMPLO

Para apreciar melhor os recursos do software ALCESTE, escolhemos


como exemplo a análise de uma pesquisa com adolescentes de um
conjunto habitacional de Toulouse.
A pergunta era: "Quais são seus planos para o futuro na vida
profissional, familiar ou outros?"
Aqui está um trecho dessa entrevista:

001 do sexo masculino pertencente a uma associação


No próximo ano gostaria de voltar à escola para continuar meus estudos,
fazer eletrônica; se eu conseguir passar nesses primeiros estudos,
pretendo continuar mais dois anos de informática e ser técnico superior.
...
008 do sexo masculino pertencente a uma associação
Em um ano, eu volto para casa, eu tiro minha carteira de motorista e eu
arrumo um emprego, eu alugo uma casa e vivo uma vida boa e depois
me caso.
...
037 do sexo masculino não pertencente a uma associação
Eu quero continuar meus estudos até a formatura e ter um trabalho que
eu goste; eu quero um belo carro esporte, uma mulher e um filho no
mínimo.
...
060 do sexo feminino pertencente a uma associação
Eu quero manter os laços com minha família para sempre; no meu
trabalho, quero fazer um trabalho social; eu quero me casar e começar
uma família e ter uma bela casa; eu espero poder viajar pelo mundo
todo.
...

Página 8
Desta forma, foram obtidas 61 entrevistas. Cada entrevista é precedida
por uma linha numerada que permite marcar as variáveis descritivas
importantes como referência.
Após o ALCESTE analisar o corpus, obtemos um conjunto de resultados
do qual apresentamos a seguir um resumo das principais características.

Página 9
ANÁLISE DO VOCABULÁRIO

Número total de palavras no texto : 4280


Número de palavras diferentes : 826
Contagem média de uma palavra : 5
Número de palavras com contagem igual a 1 (hapax) : 435
Contagem máxima de uma palavra : 221

Palavra Contagem Raíz Categoria

adultos 8 adulto+ Substantivo


idade 5 idade+ Substantivo
desenho 1 desenh+ Substantivo
desenhista 1 desenh+ Substantivo
informático 2 informát+ Substantivo
informática 2 informát+ Substantivo
fácil 7 facil+ Adjetivo
bonito 5 bonit+ Adjetivo
bonita 6 bonit+ Adjetivo
bonitas 1 bonit+ Adjetivo
bons 1 bons+ Adjetivo
grande 6 grand+ Adjetivo
grandes 1 grand+ Adjetivo
gorda 2 gord+ Adjetivo
feliz 2 feli+ Adjetivo
felicidade 1 feli+cidade Adjetivo
damos 6 d+ar Verbo
dar 3 d+ar Verbo
... ... ... ...
etc.

O sinal + é um indicador de redução. Por exemplo, as palavras


"desenho", "desenhista", "desenhar", são reduzidas a "desenh+".

Página 10
As variáveis da pesquisa:
Sexo: masculino; feminino.
Pertencente a uma associação: sim, não.
Cruzamento de variáveis: sexo; associação.

Página 11
PERFIL DAS CLASSES

Após analisar o vocabulário e definir a distribuição das palavras do


texto, o ALCESTE entra na fase de classificação.
Esta fase é essencial, pois é sobre estas classes, caracterizadas por seu
vocabulário dominante, que irá se basear a abordagem interpretativa.

Após a classificação, obtém-se o perfil das classes (as palavras mais


significativas de cada classe e o indicador chi-quadrado medindo o grau
de relevância das palavras na classe).

Perfil da classe nº 1

A classe nº 1 contém 21 enunciados dos 78 incluídos na análise. 42% dos


enunciados obtidos dos meninos e incluídos na análise são classificados
nesta categoria, enquanto que esta por sua vez representa apenas 27%
dos enunciados incluídos. Essa diferença é significativa no que diz
respeito ao chi-quadrado (chi2 = 5,89). Descobrimos que esta classe é
marcada por um discurso predominantemente masculino. Seu
vocabulário é baseado nas raízes das palavras: "bonita", "casa", "carro",
"mulher", "viajar", etc. As principais palavras gramaticais (pronomes,
conjunções, marcadores de intensidade, de espaço, de tempo, etc.) são:
"sem", "tudo", "e", etc. Aqui está um trecho dos enunciados significativos
dessa classe:

(As palavras em azul são as palavras características da classe.)

Quero viajar ao redor do mundo, ter muitos carros e mulheres; eu quero


ser rico e ter muitas mulheres.

Meus planos são me tornar um veterinário, ter uma bela casa na


montanha e à beira-mar, ter uma esposa, um filho, um carro esportivo
grande e uma motocicleta grande.

Página 12
Eu quero ser professor de física e por isso preciso continuar meus
estudos; depois espero me casar, ter um carro e uma casa.

Meus projetos, um dia me tornar um professor de francês ou história e


geografia; me casar, etc.

Página 13
PERFIL DAS CLASSES
Perfil da classe n° 2

Esta segunda classe é composta por 40 enunciados, sendo 51,28% deles


incluídos na análise.

Aqui está um trecho dos enunciados significativos da classe nº 2:

Eu acho que posso fazer tudo isso em relação ao meu casamento.

Eu estava no hospital e lá eu percebi que as profissões de saúde eram


importantes, essenciais para a sociedade porque eles salvam vidas e
previnem calamidades, é por isso que eu decidi ser enfermeiro.

O que deve ser melhorado em nossa sociedade para que os jovens


possam realizar seus projetos seria reduzir o desemprego, dar
oportunidades para os jovens nas universidades, iniciação para realizá-
los, mudar o ensino.

Pois não dá para imaginar tudo aquilo que a gente quer, mas para isso eu
preciso trabalhar muito. Em nossa sociedade, isso tem que melhorar para
que os jovens realizem seus projetos, é preciso mudar a pedagogia dos
professores.

Alguns dos meus projetos são realizáveis neste momento: não ficar
minha vida inteira preso em uma gaiola de coelho, não sendo uma
ovelhinha que se deixa apenas ser explorada pelos outros, ser livre
mesmo que eu não ganhe muito dinheiro.

Meus projetos de família: eu acho que não vou me casar, mas terei filhos,
etc.

Note-se que o vocabulário utilizado é mais socializado ("jovem",


"sociedade", "profissão"). A presença de verbos modais como "poder" e
"precisar", bem com a de palavras gramaticais como "muitos", "mais",

Página 14
"também" é característica de uma atitude mais ativa ou mesmo
reivindicativa do sujeito. Esse contexto é mais especificamente
caracterizado pela presença feminina, quando comparado com os das
outras duas classes.

Página 15
PERFIL DAS CLASSES
Perfil da classe nº 3

Esta terceira e última classe, que contém 17 enunciados, sendo 21,79%


dos enunciados incluídos na análise, é, como a primeira, originada de
um discurso predominantemente masculino, mas onde a participação em
uma associação é mais evidente:

Aqui estão alguns trechos:

No ano que vem, eu gostaria de entrar para secundário, e depois


continuar meus estudos, entrar para a faculdade, ou em uma formação
mais técnica; enfim, o mínimo é ter meu diploma, este é meu projeto
principal.

Eu gostaria de continuar meus estudos, mas não por muito tempo, eu


quero passar no exame do secundário, depois olhar pelo lado de uma
formação técnica, alguma coisa de mecânica, enfim, estudos não muito
longos.

Eu pretendo principalmente conseguir minha independência; para isso


não tem segredo, eu preciso trabalhar em relação aos estudos, passar no
exame do secundário, então ir até o final e preparar uma formação
técnica, eu estou pensando em informática.

No ano que vem gostaria de voltar para a escola para continuar meus
estudos, fazer eletrônica, aí se eu conseguir passar nesses primeiros
estudos, pretendo continuar mais dois anos no técnico de informática, e
ser técnico superior.

No ano que vem, eu pretendo voltar para a escola para preparar um


diploma técnico, então eu pretendo fazer uma formação técnica, mas eu
ainda não sei o que eu realmente quero fazer, eu sou muito bom em
mecânica.

Página 16
O vocabulário aqui é muito mais centrado em torno de noções de estudo
("formação", "técnica", "continuar", etc.) ou de exame ("diploma",
"exame", "passar", etc.). As palavras gramaticais que surgem então são
"muito tempo", "ainda", "principalmente", "depois".

Página 17
CONCORDANCIADORES

Um concordanciador inclui todos os contextos de uso de uma palavra. O


ALCESTE permite obter os concordanciadores em linhas ou colunas.

Aqui você encontra o concordanciador do verbo "poder" em linhas:

0049 do sexo feminino pertencente a uma associação


Eu quero me casar e ter filhos; eu pretendo me dedicar inteiramente à
minha família, meus filhos e meu marido; eu quero poder ajudá-lo em
seu trabalho, trabalhar com ele.

0079 do sexo masculino não pertencente a uma associação


Faz dez anos que eu penso em continuar meus estudos para poder ter
um bom lugar no meu país, um salário melhor. Este projeto vai levar uns
dez anos, porque eu quero fazer um ciclo longo, eu preciso de
perseverança, coragem e inteligência.

0086 do sexo feminino não pertencente a uma associação


Para a família o ideal é ter um marido e filhos, depois eu guardo dinheiro
para poder viajar. Fiz uma viagem recentemente e eu gostei; é por isso
que eu quero viajar. Bem, eu quero estudar por bastante tempo no ensino
superior, depois eu me caso, mas eu quero aproveitar a vida antes de me
casar.

0098 do sexo masculino pertencente a uma associação


No nível sentimental, eu acho que ainda tenho tempo para pensar, eu
gostaria de começar uma família, ter uma casa e poder sair de férias, é o
mínimo que podemos desejar, mais do que isso acaba sendo delírio.

Abaixo, o concordanciador em colunas do verbo "poder":

Página 18
eu quero poder ajudá-lo em seu trabalho
continuar meus estudos para poder ter um bom lugar
guardar dinheiro para poder viajar
ter uma casa e poder sair de férias

Página 19
RESULTADOS GRÁFICOS
O gráfico acima da Análise Fatorial de Correspondências permite
resumir todos os resultados obtidos, incluindo:

- A posição relativa das classes umas em relação às outras;


- Principais palavras específicas;
- Posição das modalidades de variáveis descritivas.

As formas geométricas permitem imaginar a maior ou menor


discriminação dos vocabulários específicos em relação a um plano
fatorial. Na verdade, observa-se uma forte oposição entre os discursos
das classes 1 e 3, porém, a classe 2 permanece pouco marcada.

O gráfico de setor abaixo mostra as respectivas partes das classes obtidas


a partir do número de enunciados incluídos na análise.

Página 20
REFERÊNCIAS
AFPA, CENTRES DE RECHERCHE INSERM DE PARIS, EDF-GRETS, FRANCE TELECOM, INRA
GRENOBLE, DIJON, PARIS, CORTE, CEVIPOF, CNAM PARIS, CNRS, CREDOC, CSTB, DASSAULT
AVIATION, E/O CONSULT, ECOLE NORMALE SUPERIEURE, ESC NANTES, ETUDES
LITTERAIRES ET LINGUISTIQUES BASQUES, FACULTE DE MEDECINE DE MARSEILLE & DE
TOULOUSE, FACULTE DES SCIENCES DU SPORT DE LILLE, IAE LILLE, IEP STRASBOURG, INED,
INSIGHT MARKETING, INSTITUT D'ADMINISTRATION DES ENTREPRISES, INSTITUT
GEOGRAPHIE ALPINE, INSTITUT NATIONAL DE RECHERCHE SUR LES TRANSPORTS, IPST,
IRED ROUEN, IUFM AIX-EN-PROVENCE, IUP LA ROCHELLE, L’OREAL, LABORATOIRE
D'ETHOLOGIE DE TOURS, MEDIASCORE, OBSERVATOIRE DES ETUDIANTS, SANOFI
RECHERCHE, SERVICE DE SANTE DES ARMEES, SUP DE CO, UFR STAPS TOULOUSE,
UNIVERSITE CATHOLIQUE DE LOUVAIN, UNIVERSITE D'UKRAINE, UNIVERSITE DE
BRUXELLES, UNIVERSITES DE CAEN, NANCY, METZ, PICARDIE, BOURGOGNE, VERSAILLES,
GRENOBLE, AIX-EN-PROVENCE, UNIVERSITE DE DROIT DE BARCELONE, UNIVERSITE DE
LAUSANNE, UNIVERSITE DE MONTREAL, UNIVERSITE DE ROME, UNIVERSITEs DE
TOULOUSE, UNIVERSITE DU BRESIL,DU VIETNAM, UNIVERSITE PAUL VALERY DE
MONTPELLIER, etc.

HISTÓRICO
A IMAGE foi criada em 1986 por iniciativa de uma equipe de
pesquisadores estatísticos, matemáticos e engenheiros informáticos,
ansiosos para estabelecer uma ligação entre a pesquisa acadêmica e as
empresas.
Com o apoio da ANVAR e em parceria com CNRS desde o seu início, a
IMAGE tem se dedicado ao desenvolvimento e ao enriquecimento de
métodos de análise e de apoio à decisão.
Dessa interação nasceu uma variedade de ferramentas especializadas no
campo da engenharia textual, em especial, o ALCESTE.

Targetware
Av. Francisco Matarazzo, 404

Tel. : (11) 3665 8550
E­mail : contato@software.com.br
www.software.com.br

Página 21

You might also like