You are on page 1of 14

LINGUAGEM NATURAL E LINGUAGENS DOCUMENTÁRIAS:

CONTRIBUIÇÕES DE ESTUDOS LINGUÍSTICOS PARA A ORGANIZAÇÃO DO


CONHECIMENTO NA WEB

Vânia Lisbôa da Silveira Guedes (UFRJ)


vanialisboa@facc.ufrj.br

Doutora em Linguística – Programa de Pós-Graduação em Linguística da UFRJ

METAS, QUESTÕES E DOMÍNIOS DO CONHECIMENTO

Este capítulo insere-se na interface entre a Linguística e a Ciência da Informação


(doravante CI) e tem como objetivo apontar algumas contribuições de estudos
linguísticos à análise e organização do conhecimento na web. Propõe algumas reflexões
sobre Linguagem Natural e Linguagens Documentárias no campo da Organização do
Conhecimento, como contribuição para a intensificação da aproximação de abordagens
teóricas da Análise Crítica do Discurso nas Ciências da Linguagem, em especial as
contribuições no âmbito da Linguística Textual, com as da Análise da Informação e
Organização do Conhecimento na CI.

A Linguística Textual surgiu na década de 1960, voltada para a descrição de fenômenos


sintáticos e semânticos e, sobretudo, para a análise de sequências de enunciados, com
foco no encadeamento entre eles, para verificação da coerência e coesão textuais; dentre
muitos aspectos, na busca incessante da constituição de uma Teoria do Texto (VILELA;
KOCH, 2002). Sob essa perspectiva, Matthews (1974) menciona que as palavras são
reunidas em textos para formar sentenças e se diferem umas das outras pela escrita, som
e significado, referindo-se a diferentes tipos de objetos.

Na década de 1970, o texto é visto como unidade linguística hierarquicamente elevada e


entidade do sistema linguístico cujas estruturas possíveis, em cada língua, devem ser
determinadas pelas regras de uma gramática textual. Chega-se assim à fase da
Linguística Textual em que se propõe a investigação da constituição, funcionamento,
produção e compreensão de textos. Nessa fase, a investigação se estende do texto ao
contexto, sendo o contexto entendido como o conjunto de condições de produção,
recepção e interpretação de textos.

A partir de 1980, os estudos passam finalmente a destacar a questão da coesão e


coerência textual, admitindo que a coerência é construída na interação entre texto e
usuários ao considerar fatores de ordem linguística, social, cognitiva e
interacional (VILELA; KOCH, 2002). Tendências recentes têm dedicado atenção à
questão, cada vez mais, na área da cognição, com ênfase no processamento do texto.
Nessa direção, alguns estudos voltam-se para a frequência do item lexical como um
vetor facilitador para o acesso a essas estruturas, diretamente relacionado ao grau de
força lexical e sua relação com os conteúdos centrais extraídos da tessitura textual. Os
estudos que controlam o léxico na área defendem ainda a noção de bloqueio da forma
regular correspondente, reconhecido como fenômeno psicológico baseado nos
princípios gerais de economia de expressão. As abordagens teóricas e práticas ao
fenômeno de bloqueio de formas morfologicamente regulares destacam a importância
da frequência de ocorrência das construções, da recorrência e dos processos referenciais
condutores, em geral, de mecanismos com função de bloquear outras entidades também
candidatas ao valor de matriz referencial na estrutura textual. (cf. ARONOFF &
ANSHEN, 2001; BYBEE, 2001).

Nos últimos anos, a tipologia textual volta à cena sob o enfoque dos gêneros discursivos
e tipos textuais, demonstrando-se relevante para as pesquisas no campo da Análise
Crítica do Discurso na Linguística Textual. Assim, o texto deixa de ser entendido como
estrutura acabada, um produto inalterável, passando a ser abordado como um processo
de planejamento, verbalização e construção. Nesse sentido, o conhecimento linguístico
compreende o conhecimento gramatical e o lexical1 (VILELA; KOCH, 2002).

Bazerman (1998) sustenta que a teoria do gênero auxilia a navegação por mundos
complexos da comunicação escrita e das atividades simbólicas. Bhatia (2004) menciona
que os gêneros são constructos convencionados e altamente estruturados, com restrições
sobre as contribuições, em termos de expressão, forma e recursos léxico-gramaticais
possíveis, para fins de agregação de valor discursivo aos textos. Bhatia acrescenta que,
nos últimos anos, a teoria do gênero tem contribuído definitivamente para a
compreensão de como o discurso é processado em ambiente acadêmico, profissional e
em outros contextos institucionais. Ao prefaciar o estudo de Swales (1990), voltado para
os gêneros discursivos, Long & Richard salientam que a análise de gêneros enriquece a
compreensão de como a linguagem é usada em contextos específicos. Eggins (2004, p.
93) postula, por seu turno, que o discurso formal escrito apresenta formas lexicais de
prestígio, alta densidade lexical e gramática simplificada.

A aproximação da teoria do gênero científico com a CI é evidenciada, por exemplo, em


estudos sobre abstracts (SWALES & FEAK, 2009), análise de citações (SWALES,
1986), escrita científica (HYLAND & SALAGER MEYER, 2008), teoria de gêneros
(ANDERSEN, 2008). Outros estudos relevantes no campo teórico e metodológico da
1
O léxico, segundo Basílio (2004, p. 50), constitui-se em “sistema dinâmico de produção e armazenagem de formas simbólicas,
isto é, formas que evocam significados”.
análise de gêneros devem ser lembrados como os de Bakhtin (2000), Bhatia
(2004), Bazerman (1998, 2006), Hyland (2004; 2009) e Eggins (2004).

Van Dijk (2012), sob a ótica sociocognitiva textual na Linguística, defende o conceito
de adequação do discurso ao contexto ou a comunidades discursivas. Van Dijk
conceitua contextos como constructos (inter)subjetivos construídos passo a passo e
atualizados na interação de membros de comunidades discursivas específicas. O autor
ressalta que o conceito de contexto dá conta da unicidade de cada texto, assim como da
base comum e de representações sociais compartilhadas. Gouveia (2012), ao abordar
questões ligadas à produção de significado, sustenta que ela resulta da confluência de
aspectos linguísticos e extralinguísticos, o que evidencia a motivação contextual da
produção linguística e o impacto do contexto no texto.

Tal linha de pesquisa é de importância crucial para o campo da análise da informação e


organização do conhecimento, na medida em que ratifica, sobretudo, as noções de
comunidade discursiva e de análise de domínio, introduzidas por Hjørland (1995) no
campo da organização do conhecimento na CI. As Linguagens Documentárias se valem
de noções de análise de domínio e de comunidade discursiva para o exame da relação
sistemática entre conceitos específicos a terminologias de campos científicos e de
produção de sistemas de organização do conhecimento. Ao aportar na interface da
Ciência da Informação com a Linguística, Andersen (2008) salienta que os indivíduos e
as sociedades humanas têm organizado e transmitido conhecimentos, significados e
experiências por meios particulares de comunicação. As formas de comunicação são
inerentes à organização de qualquer cultura porque estruturam e sustentam significados
linguísticos institucionalizados na sociedade. O autor infere que a variedade de formas
discursivas e de atividades de comunicação pode ser concebida como gênero. Nesse
sentido, a teoria dos gêneros revela como as atividades humanas e as produções
discursivas são importantes fatores de organização da comunicação e do conhecimento
no contexto de comunidades discursivas, ampliando a compreensão sobre como o
conhecimento é organizado e comunicado em discursos registrados. Enfatiza o autor
que as atividades humanas que envolvem o uso de textos se tornam tipificadas em
consequência da produção e uso de discursos linguísticos registrados em diferentes
comunidades. Também Hjørland (2002) advoga a ideia de que a análise de gêneros é um
componente natural da análise de domínio no âmbito da organização do conhecimento
na CI.
Note-se que Andersen (2008) também esclarece que, quanto mais sabemos acerca da
atividade comunicativa específica na qual estamos envolvidos, mais passamos a
compreender e a usar os textos produzidos por essa atividade. Em suma, textos e
contextos estão em interação dinâmica e as regras de produção e leitura assim como
modos de atuar discursivamente caracterizam uma comunidade discursiva. Na
perspectiva da teoria de gênero na Análise Crítica do Discurso, estudos têm
demonstrado atenção especial aos gêneros científicos. Nesse cenário, distingue-se a
escrita científica como explícita, lexicalmente densa, impessoal, nominalizada,
cautelosa, intertextual e referenciada (SWALES, 1990; HYLAND,
2009; EGGINS, 2004).

Tradicionalmente, na linguagem natural, consideram-se os substantivos e os verbos


palavras com conteúdo semântico, associadas a conceitos. Em virtude das relações que
se estabelecem, sentenças, como “gatos comem ratos”, são produzidas para transmissão
de informações, crenças e expectativas sobre o mundo. Essa visão não considera, na
transmissão de significados, as marcas categoriais denotadoras de função; entretanto, a
semântica de palavras que designam função é considerada por esquemas inferenciais
lógicos. Portanto, na linguagem natural, as palavras diferenciam-se em categorias tais
como: nomes, verbos, adjetivos, advérbios, pronomes ou mesmo morfemas e fonemas
marcadores de tempo, modo, aspecto, flexões, derivações. Câmara Jr. (1985) distingue
classes abertas de palavras, compostas, por exemplo, por nome, adjetivo e verbo, de
classes fechadas de palavras, como preposição, conjunção, determinativos e traços
morfêmicos. Rouault (1987) menciona nomes, verbos e adjetivos como representantes
das categorias morfológicas informativas. Para o autor, artigos, preposições,
conjunções, verbos auxiliares entre outros são palavras empregadas devido a razões de
sintaxe.

LINGUAGEM NATURAL E LINGUAGENS DOCUMENTÁRIAS

A Linguagem é um fenômeno natural reconhecido como sistema de sinais


convencionados com propósito comunicativo.

A linguagem pode ser categorizada de acordo com o sistema de sinais que se utiliza em
contexto linguístico específico. Há, portanto, inúmeras linguagens: a linguagem natural
e as linguagens formais ou artificiais. A linguagem natural é normalmente utilizada para
a comunicação em contextos verbais e é diferente das linguagens formais construídas,
tais como a linguagem computacional, a linguagem matemática, a linguagem da lógica,
a linguagem documentária. Pode-se distinguir ainda a linguagem verbal, aquela cujo
sistema de sinais é utilizado para comunicação e formado por palavras, da linguagem
não verbal que se constitui de outros sinais no processo de comunicação.
Chomsky (1976), sob a perspectiva linguístico-gerativa, concebe a linguagem como
inata aos seres humanos. Nesse sentido, a língua natural (língua humana) é
qualquer linguagem desenvolvida espontânea e involuntariamente como resultado da
capacidade inata dos seres humanos e específica à linguagem. Do ponto de vista das
teorias voltadas para os usos linguísticos, a linguagem natural constitui processamento
verbal, instrumento de comunicação social dependente necessariamente do contexto.

Linguagem Natural (LN), sob a perspectiva comunicativa na CI, é o conjunto de


palavras utilizadas por autores para expressão de ideias e produção de textos no
contexto de comunidades discursivas. O texto é, portanto, considerado unidade
fundamental de comunicação linguística, na medida em que constitui uma sequência
coerente de informações.

Méndez Rodríguez & Moreiro González (1999) mencionam que, nos domínios
especializados do conhecimento, a comunicação científica apresenta estrutura
linguística e se estabelece em linguagem natural. Os autores salientam que o discurso
científico, fragmento do discurso geral, é marcado por argumentações inerentes a um
domínio científico específico. Ressaltam ainda que a linguagem em discursos científicos
sintetiza investigações desenvolvidas por cientistas. Nesse sentido, cada texto se integra
em um sistema de textos, numa comunidade discursiva específica ou contexto
extralinguístico. Cabré (1993) destaca que as línguas de especialidade utilizam um
fundo lexical comum e um vocabulário restrito, formado por unidades lexicais próprias
de um domínio específico do conhecimento.

Na produção de índices, a Linguagem Natural caracterizava as principais iniciativas de


produção de catálogos bibliográficos, editados como livros, no século XVI. Tempos
depois, à época de Napoleão, a introdução de fichas em bibliotecas possibilitou a
atualização de catálogos, pela inserção e retirada de fichas de acordo com a dinâmica
de acervos. Na segunda metade do século XIX, nos Estados Unidos, surge o cabeçalho
de assunto como listagem de termos pré-coordenados selecionados da linguagem
natural dos textos. Nesses cabeçalhos, a ordenação alfabética em índices reunia palavras
pela grafia (blusa e bolsa) e não por tema (blusa e camisa). Assim, devido a
inconsistências semânticas, refletindo sobretudo no grau de precisão na recuperação da
informação, era necessário o conhecimento da palavra de entrada principal do cabeçalho
pré-coordenado. Em 1950, em oposição à lógica adotada inicialmente em cabeçalhos de
assunto, Mortimer Taube desenvolveu o sistema de unitermos em LN com a proposta
inovadora de pós-coordenação de termos na busca. Esse sistema propõe a representação
de conceitos por termos únicos e, portanto, a produção de pontos de acesso múltiplos na
busca. O sistema de unitermos, entretanto, não considera a sintaxe e a semântica
representadas na pré-coordenação em cabeçalhos de assunto. Com o propósito de evitar
falsas coordenações (False Drops), o sistema passa então a adotar recursos como, por
exemplo, elos para a ligação de documentos A e B, indicadores de função (ativo e
passivo) e remissivas.

Sob essa perspectiva, com o objetivo de representação e preservação da sintaxe e


semântica da linguagem natural de textos científicos, são criados os tesauros. A
utilização do termo para a designação de um tipo de linguagem documentária vem
do Thesaurus of English Words and Phrases de Peter Mark Roget, editado em 1852. Na
CI, os tesauros são linguagens documentárias voltadas para a representação de conceitos
e especificação da rede de relações entre conceitos em um domínio especializado do
conhecimento, com o propósito de utilização, sobretudo, em sistemas de indexação,
organização do conhecimento e recuperação da informação. Na web, os tesauros,
taxonomias, ontologias, mapas conceituais e folksonomias são sistemas de organização
do conhecimento e se valem da noção de comunidade discursiva e terminologia na
representação de sistemas de conceitos ligados aos domínios especializados do
conhecimento.

Em síntese, os processos de atribuição de códigos e termos para a indexação temática de


textos científicos se classificam em: (1) processos que se abstêm de orientações
normativas e (2) processos que se valem de Linguagens Documentárias (LD) para o
controle de funções sintáticas e semânticas da linguagem natural. A descrição de
conceitos e assuntos em linguagem natural sofre as restrições presentes em sistemas
naturais de comunicação; por outro lado, a descrição em linguagem documentária como
instrumentos normalizadores possibilita o controle de processos léxico-gramaticais das
terminologias científicas e a visão sistemática de termos e conceitos que integram o
campo semântico de uma comunidade discursiva específica. Ainda na literatura sobre
indexação, organização do conhecimento e recuperação da informação, encontram-se
propostas de desconstrução de corpus e desenvolvimento de algoritmos fundamentados,
principalmente, em teorias linguísticas e métodos estatísticos, com o propósito de
processamento da linguagem natural de textos. A evolução de Tecnologias de
Comunicação e Informação (TIC) intensificou o processamento de textos em sistemas
baseados em análise estatística de frequências de uso e de tipo de palavras, frequências
de coocorrência de palavras em frases e parágrafos, determinação de pesos a termos, de
acordo com índices de frequência associados aos graus relativos de importância do
termo. Outros estudos lançados por Hans Peter Luhn na década de 1950 são ainda
mencionados em Haliday & Webster (2009) como keyword-in-context (KWIC) como
estratégia fundamental em sistemas de busca que considera a concordance, i.e., recupera
um termo de busca elencando os contextos nos quais o termo aparece.

A linguagem documentária é, pois, uma linguagem artificial utilizada como


instrumento na representação temática, organização do conhecimento e recuperação da
informação. Ela é fundamentada em regras prescritivas e, no caso de tesauro,
considerada metarrepresentação e instrumento de controle terminológico na indexação e
busca da informação (TÁLAMO; LARA; KOBASHI, 1992; DODEBEI, 2002). Apesar
de ter sido criada no século XIX e voltada para a organização de acervos em bibliotecas,
na Web verifica-se a intensificação de questões de pesquisas ligadas à representação no
campo da organização do conhecimento, especificamente às questões ligadas à
semântica e a processos sociocognitivos particulares a comunidades de discurso
cientifico. A LD controla dispersões léxico-gramaticais, semânticas e sintáticas da
linguagem natural e possibilita a delimitação e a organização do campo conceitual de
um domínio do conhecimento científico.

Na Web, a organização do conhecimento versa sobre atividades tais como descrição,


classificação e indexação, operações realizadas especialmente por bibliotecários,
especialistas em informação e algoritmos computacionais. Sob a perspectiva de metas
estabelecidas no âmbito da sociedade da informação e do conhecimento, são temas
interessantes de pesquisa os processos de análise, síntese e codificação da informação
na web. Os produtos gerados por esses processos são organizados em catálogos, índices
e resumos e, evidentemente, em instrumentos de organização do conhecimento que
constituem as Linguagens Documentárias. Estas são categorizadas em (1) notacionais e
(2) verbais. As notacionais são representadas por classificações bibliográficas e as
verbais pelo tesauro e outros tipos de sistema de controle de vocabulário. Em suma, as
Linguagens Documentárias verbais são importantes na (1) orientação de indexadores
sobre a adequação de termos e conceitos na indexação temática e (2) orientação de
pesquisadores na escolha de termos para representação de suas questões de pesquisa.

Do ponto de vista da CI, com o propósito de refinamento de resultados de busca, as


abordagens teóricas e descritivas das Ciências da Linguagem ligadas, sobretudo à LN,
são de grande importância para a elaboração de linguagens documentárias, indexação,
organização do conhecimento e recuperação da informação, especialmente
na Web Semântica (Web 3.0) idealizada por Tim Berners-Lee, inventor da World Wide
Web ou Internet. Berners-Lee; Hendler; Lassila (2001) afirmam que a base semântica da
infraestrutura da Web3.0 é constituída por páginas em eXtensible Markup Language,
que utilizam metadados e facilitam o compartilhamento de informações na Web,
privilegiando pesquisas sobre vocabulários controlados e tesauros que estruturam
relações conceituais de termos e potencializam a criação de ontologias, para, por
exemplo, expressar a semântica de páginas na Web.

Desse modo, torna-se claro que os estudos na área de Organização do Conhecimento


revelam uma estreita relação entre a análise linguística e a indexação da informação,
que têm sido estudadas, por exemplo, à luz das reflexões de Saussure sobre signo
linguístico, composto de significante (plano da expressão, da sintaxe) e de significado
(plano do conteúdo, da semântica). De grande relevância para a análise conceitual são,
também, os estudos linguísticos sobre Morfologia, Morfosintaxe, Fonologia, Linguística
de Corpus, Modelo Baseado na Frequência de Tipo e de Uso, assim como os estudos
sobre Interfaces Discurso/Contexto, Fonologia/Morfologia e Sintaxe/Semântica, que
apresentam reflexões teóricas e práticas sobre os fenômenos que caracterizam a
produção de discursos. Ainda, a apropriação de conhecimentos em linhas de pesquisa
como as de Análise do Discurso, Linguística Textual, Teoria Lexical, Terminologia e
Linguística Gerativa têm sido consideradas na elaboração de propostas de modelos de
análise e indexação da informação em linguagem natural e em linguagem documentária.
Nesse cenário, as recorrências de processos morfológicos, como nominalizações,
estrangeirismos, truncamentos, siglagem na escrita científica, também evidenciam
estreita parceria com Linguística Textual e a Morfologia Lexical com a Organização do
Conhecimento na Ciência da Informação.

No Brasil, uma das primeiras contribuições teóricas da Linguística datada de 1973 é a


dissertação do de mestrado em Ciência da Informação de Manoel Adolpho Wanderley.
Nesse estudo, o autor discute a comunicação documentária do ponto de vista de relações
entre a linguagem e o universo da representação. Na década de 1970, Basílio ( 1979)
aponta a importância da Teoria Lexical para a identificação da informatividade de textos
científicos. A partir de 1980, Kobashi, Smit, Lara, Cintra, Tálamo e Cunha retomam a
discussão das relações entre a Linguística e a Documentação, sendo atualmente os
autores mais produtivos no assunto. Mendonça (2000) publica estudo bibliométrico
sobre a produção de trabalhos que relaciona a Linguística e a Ciência da
Informação. Basílio (2007) afirma que o uso de estruturas nominalizadas em
terminologias científicas é mais uma vertente da função denominadora das
nominalizações deverbais. Sob essa perspectiva, Guedes (2010) investiga a frequência
de tipo e de uso desse tipo de nominalizações na escrita de artigos científicos,
apontando sua importância para a indexação temática na CI. Na análise automática de
textos, verificam-se estudos estatísticos de análise sintática e interpretação lógica de
padrões léxico-morfológicos. Na sintaxe, à luz da Gramática Gerativa, são discutidos
princípios e parâmetros que governam a concordância dos elementos em uma frase,
como: os sintagmas verbais e nominais, entre outros fenômenos linguísticos que vêm
sendo considerados no processamento das linguagens naturais, voltados para a
representação e recuperação da informação. Mais recentemente alguns estudos vêm
apontando a importância da teoria de gêneros e da análise crítica do discurso, assim
como da Linguística Cognitiva para a identificação do conteúdo informativo de textos
científicos.

Ainda no contexto da análise automática, destacam-se pesquisas estatístico-morfológica


e linguístico-cognitiva que partem da ideia inicial de processamento da linguagem
natural proposta por Luhn (1959). O autor investiga o uso de títulos de documentos
para representação de assunto no sistema Keywords in Context (KWIC), mencionado
recentemente em Halliday & Webster (2009). Ainda hoje, serviços de informação
utilizam o KWIC para a indexação e busca em base de dados na Web. Com a evolução
da TIC, potencializam-se os sistemas baseados em análises estatísticas de frequência de
ocorrência de palavras em textos, de frequência com que palavras coocorrem em frases
ou parágrafos e em estudos sobre atribuição de pesos a termos, de acordo com sua
importância do ponto de vista semântico.

ESTADO DE ARTE DA PARCEIRA

Nessa discussão, sob a ótica da intermediação da CI, devem-se considerar as


representações que se colocam entre o texto, contexto e usuário, ou seja, os sistemas de
recuperação da informação com função de organização do conhecimento, objetivada por
processos de análise e representação da informação institucionalizada, em linguagem
documentária ou linguagem natural. Nesse ambiente, Kobashi (2008) defende que a
representação da informação consiste no processamento de uma cadeia de reduções
que se inicia com a concepção de informação e de conhecimento em linguagem natural
e vai até a (meta)representação, com o propósito em última análise de acesso à
informação relevante e à potencialização da comunicação em contextos específicos. A
autora admite a perda controlada de informação semântica, uma vez que as informações
consideradas essenciais contidas em gêneros discursivos são submetidas ao processo de
síntese, na produção de resenhas, resumos e palavras chave, possibilitando pontos de
acesso múltiplos à informação e ao conhecimento. Em suma, a representação da
informação e organização do conhecimento permitem a regularidade, precisão e
relevância na recuperação e fluxo de informações que circulam no sistema de
comunicação como também em seu ecossistema. Esse sistema deve ser norteado por
parâmetros explicitados em uma política de informação e comunicação desenvolvida em
nível de gestão institucional. (GUEDES, 2012).

Nesse sentido, são observados fenômenos linguísticos lexicográficos ligados à


linguagem natural em gêneros discursivos científicos como, por exemplo: relevância,
nominalizações, conotação X denotação, homonímia e polissemia, sinonímia. Exemplos
desses fenômenos: i) nominalização deverbal: indexação (verbo + sufixo);
ii) polissemia: vírus (medicina) ou vírus (informática); iii) sinônimos: palavras-chave:
descritor ou termo-índice; iv) homonímia: Xá / Chá. As linguagens e gêneros com
propósito comunicativo específico a contextos científicos devem ser objetivos, claros,
precisos. Para tanto, a terminologia adotada deve observar criteriosamente os
fenômenos acima mencionados, sobretudo, na elaboração de linguagens documentárias
a serem usadas para a representação e recuperação de informações relevantes.

Sob a perspectiva do funcionalismo na Linguística, Halliday (1994) defende que a


estrutura da língua emerge de sua função. Os funcionalistas fundamentam-se também
em fatores psicológicos e cognitivos, que sugerem natureza funcional/psicológica da
estrutura linguística.

Na análise crítica do discurso em gêneros acadêmicos, alguns estudos apontam a


regularidade na produtividade de padrões de estruturas linguísticas, evidenciadas
sobremaneira a partir das mudanças em curso ligadas à comunicação cientifica em meio
eletrônico como, por exemplo, em teleconferências e e-journals. Processos investigados
em pesquisas são também os ligados à impessoalização, distanciamento, do ponto de
vista gramatical, especificamente quanto ao uso de nominalizações deverbais, como
estratégia lexical de invisibilidade, por meio da qual os autores buscam atenuar a
apropriação autoral de informações mencionadas no texto (GUEDES; BARBOSA;
SANTOS, 2013).

Do ponto de vista da gramática sistêmico-funcional, proposta por Halliday (1967),


estudos têm demonstrado atenção à análise de gêneros discursivos. Halidday &
Webster (2009) mencionam que texto e discurso referem-se à mesma coisa, mas com
ênfases distintas. Discurso é um texto observado em seu contexto sociocultural,
enquanto que texto é o discurso visto como um processo de linguagem. Inseridos nessa
discussão, os gêneros textuais acadêmicos apresentam alguns aspectos que caracterizam
a sua escrita, que conforme mencionado anteriormente deve ser explícita, lexicalmente
densa, impessoal, nominalizada, cautelosa, intertextual e referenciada (SWALES, 1990;
HYLAND, 2009; EGGINS, 2004). Sob essa perspectiva, investigam-se a
sistematicidade e regularidade de padrões de estruturas linguísticas, especificamente
nominalizações deverbais, citações e marcadores de modalização, na fala em sala de
aula, de gêneros acadêmicos em áreas de especialidade, visando à demonstração da
importância da análise léxico-morfológica do grau de recorrência e alternância de
estruturas linguísticas no continuum fala/escrita científica para o desenvolvimento de
sistemas semiautomáticos precisos de indexação temática e recuperação da informação.
Nesse cenário, as questões referentes à análise linguística da sistematicidade das
estratégias léxico-morfológicas, recorrentes na fala e na escrita científica, apesar de
investigadas na linguística (cf. SWALES, 1990; HYLAND, 2008; EGGINS, 2004;
BYBEE, 2001), até o presente momento são pouco discutidas na CI, sobretudo no que
se refere à identificação de termos de indexação.

Estudo recente (FÓRIS, 2013) propõe a aproximação da teoria de redes com a


terminologia. O autor menciona que a teoria de redes possibilita a interpretação
estatístico-probabilística, como também a descrição matemática, de redes linguísticas
regidas por leis gerais de operação, nos sistemas terminológicos de domínios
especializados do conhecimento. A noção de linguagem estruturada em rede fundamenta
os métodos de classificação de sistemas e o desenvolvimento de bases de dados
terminológicos, com o propósito de prover acessibilidade fácil e versátil ao
conhecimento especializado. Fóris (2013) defende que estudos ligados a corpora em
diferentes línguas indicam a existência de uma rede semântica nessas terminologias.
Nesse sentido, ele sustenta que a validade da Lei de Zipf foi provada em relação a
corpus em línguas distintas, como no caso da língua chinesa estudada por Rousseau &
Zhang (1992). Em estudo prévio, citado em Fóris (2013), Fóris (2012) conclui que a
distribuição de frequências, produzida pela aplicação da Lei de Zipf, pode ser descrita
por lei de potência que é uma característica de distribuição estatística em redes de
escalas livres. Em suma, como foi apresentado acima, a linguística textual oferece
várias abordagens teóricas e descritivas de interesse para os estudos da linguagem
natural e das linguagens documentarias na CI.

CONSIDERAÇOES FINAIS

O propósito fundamental desta discussão foi apontar algumas contribuições de estudos


linguísticos para a representação da informação e do conhecimento em sistemas de
organização do conhecimento e em bases eletrônicas de dados na WEB.
O tema é de grande importância para a análise e a indexação temática da informação na
CI, na medida em que pode contribuir para o fortalecimento da interface entre a
Linguística e a Ciência da Informação, no que se refere à abordagem teórica e descritiva
do conteúdo informativo da escrita científica, e, assim, tornar os sistemas de busca da
informação mais inteligentes, econômicos e cientificamente constituídos.

A organização do conhecimento e a recuperação da informação científica são


fundamentais, uma vez que os pesquisadores necessitam acessar, sistematicamente,
informações relevantes na literatura, para adquirir conhecimentos sobre temas
relevantes em sua área de pesquisa.

Finalmente, vale ressaltar que, nesse contexto, as Ciências da Linguagem vêm


paulatinamente fortalecendo o campo teórico e metodológico da CI.

REFERÊNCIAS

ANDERSEN, J. The concept of genre in information studies. Annual Review of Information


Science and Technology. V. 42, p. 339–367, 2008. Disponível
em: http://onlinelibrary.wiley.com/doi/10.1002/aris.2008.1440420115/abstract;jsessionid=26158
69C6CC4667435FB8A3B88C5C565.d02t04?
deniedAccessCustomisedMessage=&userIsAuthenticated=false. Acessado em: 27 de novembro
de 2012.

ARONOFF, Mark; ANSHEN, Frank. Morphology and the lexicon: lexicalization and
productivity. In: SPENCER, Andrew; ZWICKY, Arnold M. (Ed.). The handbook of
morphology. Oxford: Wiley Blackwell, 2001.

BAKHTIN, Mikhail Mikhaĭlovich. Estética da criação verbal. Tradução do francês por Maria
Ermantina Galvão G. Pereira. São Paulo: Martins Fontes, 2000.

BASÍLIO, Margarida Maria de Paula. Interface Linguistica e Ciência da Informação:


potencialidade na análise de estruturas lexicais. In: REUNIÃO BRASILEIRA DE
CIÊNCIA DA INFORMAÇÃO, 2., 1979, Rio de Janeiro. Trabalhos apresentados...
Rio de Janeiro: IBICT, 1979.

BAZERMAN, Charles. Gêneros textuais, tipificação e interação. São Paulo: Editora Cortez,
2006.

__________. Shaping written Knowledge. The genre and activity of the experimental article in
science. Madison, Wisconsin: The University of Wisconsin Press, 1998. Disponível
em: http://wac.colostate.edu/books/bazerman_shaping/shaping.pdf Acesso em: 27/05/2013.

BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web: a new
form of Web content that is meaningful to computers will unleash a revolution of new
possibilities. Scientific American, New York, no. 5, May 2001. Disponível em:
http://www.ryerson.ca/~dgrimsha/courses/cps720_02/resources/Scientific%20American
%20The%20Semantic%20Web.htm Acesso em: 02 dezembro de 2009.

BHATIA, Vijay Kumar. Worlds of written discourse. London: Continuum International


Publishing Group, 2004. Disponível em: http://books.google.com.br/books?
id=_A8Hf5BHO_QC&pg=PA157&dq=BHATIA+(2004).+Words+of+Written+Discourse
Acesso em: 20/10/2011

BYBEE, Joan, HOPPER, Paul. Frequency and the emergence of language structure,
Amsterdam: John Benjamins, 2001.

CHOMSKY, Noam. Topics in the theory of generative grammar. 50. ed. Netherlands: Mouton
& Co, 1976.

EGGINS, Suzanne. An introduction to systemic functional linguistics. 2. ed. Nova York:


Continuum International Publishing Group, 2004. 365 p. Disponível em:
http://books.google.com.br/books?
id=sS7UXugIIg8C&printsec=frontcover&source=gbs_navlinks_s#v=onepage&q=&f=false
Acesso em: 21/02/2010.

FÓRIS, Ágota. Network theory and terminology. Knowledge Organization, v. 40, n. 6, p.422-
429, 2013.

GOUVEIA, Carlos A. M. Texto, registro e gênero: o modelo sistémico-funcional.


Conferência proferida pelo Professor Doutor Carlos A. M. Gouveia sobre Linguística
Sistémico-Funcional e Análise Crítica do Discurso, no Programa de Pós-graduação em
Linguística da UFRJ, 2012.

GUEDES, V. L. da S. Nominalizações deverbais em artigos científicos: uma


contribuição para a análise e a indexação temática da informação, 2010. Tese
(Doutorado em Linguística) – UFRJ, Rio de Janeiro, 2010.

GUEDES, Vânia Lisboa da Silveira; BARBOSA, Maria de Fátima de Oliveira ;


SANTOS, Maria José Veloso da Costa. Investigação da regularidade e produtividade
de nominalizações deverbais em cartas científicas em língua portuguesa. In: Fernanda
Ribeiro & Maria Elisa Cerveira (Org.). (Org.). Informação e/ou conhecimento: as duas
faces do Jano.. 1ed.Porto: Faculdade de Letras da Universidade do Porto -
CETAC.MEDIA ISKO, 2013, v. 1, p. 276-288.

HALLIDAY, Michael Alexander Kirkwood. An introduction to functional grammar. 2ª ed.


London: Edward Arnold, 1994. 434 p.

Hyland, Ken; Françoise Salager-Meyer. Scientific writing, Annual Review of Information


Science and Technology, v. 42, p. 297-338, 2008.

HYLAND, Ken. Academic discourse: english in a global context. New York: Continuum
International Publishing Group, 2009. 215p.
____________. Disciplinary discourses: social interactions in academic writing. Ann Arbor:
The University if Michigan Press, 2004. 211p.

HJØRLAND, Birger. Domain analysis in information science: eleven approaches - traditional as


well as innovative. Journal of Documentation, v. 58, n. 4, p. 422-462, 2002.

MATTHEWS, P. H. Morphology: an introduction to the theory of word-structure. Cambridge:


Cambridge University Press, 1974.

MÉNDEZ RODRÍGUEZ, E. M.; MOREIRO GONZÁLEZ, J. A. Lenguaje natural e indización


automatizada. Ciencias de la Información, v. 30, n.3, p. 11-24, Sept 1999.

ROUAULT , Jacques. Linguistique automatique: applications documentaries. Berne: PETER


LANG, 1987. 308 p.

SWALES, John M. Genre analysis: English in academic and research settings. Cambridge:
Cambridge University Press, 1990. 260 p. (The Cambridge Applied Linguistics Series).

__________. Citation analysis and discourse analysis. Applied Linguistics, v. 7, p. 39-56, 1986.

SWALES, John M.; FEAK, Christine B. Abstracts and the writing of abstracts. Michigan, USA:
University of Michigan Press, 2009. 104 p. (Series Michigan Series in English for Academic &
Professional Purposes).

VAN DIJK, Teun. Discurso e contexto: uma abordagem sociocognitiva. São Paulo: Contexto,
2012.

VILELA, M.; KOCH, I. Gramática da língua portuguesa: gramática da palavra, gramática da


frase, gramática do texto/discurso. Rio de Janeiro: Almedina, 2002.

You might also like