You are on page 1of 2

El Corpus elegido es el corpus del espaol, en la direccin web http://www.corpusdelespanol.org.

La definicin de corpus es la siguiente: almacn electrnico organizado de materiales lingsticos, normalmente textos. Es una
especie de archivo destinado a facilitar la consulta de datos lingsticos.
Caractersticas de este corpus, comunes a todos los corpus:

Representatividad: rico y variado para representar la lengua.


Tamao final, con un objetivo. Puede variar dependiendo de la necesidad de la investigacin.
Formato: escaneado (anlisis mediante OCR) para que sea ms fcil la bsqueda.

Este corpus es escrito monolinge.


El Corpus del Espaol fue creado por Mark Davies, Profesor de Lingstica de Corpus en la Universidad de Brigham Young. El
corpus due financiado mediante una considerable subvencin del fondo nacional estadounidense US National Endowment for the
Humanities (2001-02), y se ha beneficiado asimismo del generoso apoyo de la Universidad (Brigham Young University). El corpus
se public en Internet en el ao 2002. En el verano de 2007 se modific ligeramente el corpus de textos, y se hizo un gran
cambio en su interfaz y su estructura; la nueva versin fue puesta en lnea en diciembre del mismo ao. Contiene 100 millones
de palabras y data desde el siglo XIII.

Las principales fuentes de textos son las siguientes:

Hispanic Seminary of Medieval Studies: textos de 1200 a 1500.


Biblioteca Virtual Miguel de Cervantes: textos de 1500 a 1900.
ADMYTE: textos de 1200 a 1500.
COMEDIAS.ORG: Comedias de la Edad de Oro (teatro)
Encarta (Spanish): Enciclopedia (1900)

Se han incluido asimismo textos de otras fuentes, en menor cantidad.


Informacin tcnica
Tanto la arquitectura bsica como la interfaz se asemejan a las de otros grandes corpus que he publicado en lnea. La
funcionalidad del corpus se debe en buena medida a su estructura de base, integrada por bancos centrales de datos de tipo Ngrama con informacin relativa a cada palabra del corpus, que suma un total de 100 millones. Cada una de ellas est asociada a
cuadros con informacin de registro que permiten el anlisis de variantes estilsticas y de registro, adems de otras tablas de
sinnimos, variacin diacrnica de las formas, etc.
La velocidad de bsqueda se debe tanto a la estructura bsica como al soporte fsico de la base. El servidor Windows 2003
Server cuenta con procesadores duales de 2.8 GHz Xeon, con 4 GB de RAM, y el subsistema de disco se ha configurado
especficamente para esta aplicacin en particular. Los bancos de datos de SQL Server 2005 se alojan en cinco discos duros de
15.000 rpm SCSI, unidos entre s en una configuracin RAID 5; existen adems dos controladores ultrarrpidos SCSI RAID
alojados en unidades distintas SCSI de 15.000 rpm, junto con tablas temporales, el sistema operativo y las propias pginas web.
Las tablas principales cuentan con ndices realizados en todas las columnas relevantes, y tambin ndices agrupados para las
columnas ms significativas. Gracias a toda esta arquitectura, la bsqueda puede llegar a ser muy rpida; normalmente, se tarda
menos de un segundo en ejecutar bsquedas muy complejas, que combinan por ejemplo formas lxicas, categoras
gramaticales, frecuencia y registro.
El corpus en s proviene de archivos textuales en bruto enviados por las fuentes antedichas. Proced a la conversin de estos
textos en un solo archivo sin formato, de 100 millones de palabras; import este fichero al servidor SQL, cre las
correspondientes bases de datos de tipo N-grama, establec los comandos SQL necesarios para unir entre s todas las tablas y
extraer los datos deseados, y realic toda la codificacin HTML / ASP / ADO / Javascript para la interfaz de Internet.
FRECUENCIA BSICA Y DISTRIBUCIN
En cuanto a las bsquedas bsicas, puede buscar palabras exactas (misterioso), lemas [formas de cada palabra] (correr), frases
(libro abierto o noun + suave), comodines (*temp* o b?t?), o realizar bsquedas ms complejas, tales como los verbos que
comienzan con des* o formas de le/les + una forma de hacer + infinitivo. Tambin podr ver una visualizacin grfica que muestra
la frecuencia en cada perodo histrico y en cada dialecto y registro. Por ejemplo, busque las frecuencias y distribucin de

soldado, claro (en el sentido de 'claro, pero....') y de formas (en el superlativo) como *simo, o formas de estar + NDO (por
ejemplo: estaba cantando, estn pensando). Es posible tambin buscar colocaciones (palabras adyacentes a una palabra
determinada), lo cual a menudo nos permite comprender el significado de una palabra dada. Por ejemplo, puede buscar todos los
sustantivos que van con caballo, los verbos que van con papel, o los adjetivos que van con la palabra mujeres. Igualmente podr
comparar muy fcilmente las colocaciones de palabras diferentes (por ejemplo: adjetivos que van con mujeres y hombres, o
sustantivos que van con esquina y rincn), o las colocaciones de una misma palabra en distintas secciones (por ejemplo:
sustantivos que van con cadena en FICCIN y ACADMICO, o durante los aos 1900 en comparacin con los aos 1800).

VARIACIN (HISTRICA/REGISTRO/DIALECTO)
Podr limitar la bsqueda muy fcilmente y ordenar los resultados segn el registro (gnero). Esto le permitir ver de qu manera
las palabras y las frases varan en el lenguaje y en los diversos tipos de textos escritos. Por ejemplo, busque sustantivos
terminados en -miento en "acadmico", adjetivos que van con mujeres en "ficcin" pero no en "acadmico", verbos en el espacio
[yo * que] en "lenguaje hablado", o sinnimos de inteligente en "ficcin" comparados con "acadmico".

Finalmente, tambin podr comparar segn distintos perodos histricos. Por ejemplo, se puede buscar la frecuencia de
caballeros a travs del tiempo (tabla / grfico), la frecuencia total de palabras que tienen la estructura des*mento a travs de los
aos (haga clic en las barras del grfico para ver cules son las palabras ms frecuentes en cada siglo), los sustantivos que van
con duro en los aos 1900 comparados con los de los aos 1800, o adjetivos que van con mujeres en los aos 1800 comparados
con los de los aos 1900.

BSQUEDAS DE DISTRIBUCIN SEMNTICA


Una de las caractersticas ms importantes del corpus es la posibilidad de realizar bsquedas de distribucin semntica. Se
podr ver la frecuencia y distribucin de todos los sinnimos de una palabra dada (por ejemplo: limpio [todas sus formas] o fuego
[todas sus formas]), o de todas las palabras que ocurren con cada uno de estos sinnimos (por ejemplo: sustantivos con
sinnimos de sagrado o adjetivos con sinnimos de imagen). En lo que se refiere a las bsquedas con distribucin semntica,
tambin se puede comparar muy fcilmente las palabras (colocaciones) que ocurren con palabras de contraste, lo que con
frecuencia nos da una mejor comprensin de las diferencias de significado entre estas palabras. Por ejemplo, se puede comparar
los sustantivos ms frecuentes que aparecen con absoluto y completo, los sustantivos ms frecuentes que ocurren con limpio o
puro, o los sustantivos ms frecuentes que van con escuchar y or.
He realizado mi estudio a travs de la bsqueda de la palabra porqu en el siglo XX en el espaol oral.

He ledo en algn dato tambin que incluso dicen que cuelgan ustedes los colchones S - - para que no les muerdan
las ratas. - s, seor. Cmo es esto? Cuntenos, Porque - - cmo -? Cmo -? - pues - De dnde cuelgan los
colchones? - pues mire - hay mucho - mucho ratas, mucha miseria - pero inclusamente en ese sitio donde yo vivo
haca catorce o quince aos que haba agua, del - ayuntamiento, puesta por el ayuntamiento. Y entonces la cortaron,
no s porqu. Y no tenemos agua, ni luz, ni sirvicio, ni nada. Tengo - Y entonces qu hacen cuando tienen que
lavarse o -? Pues - all una seora nos presta - agua con un grifo y entonces los nios van all, traen el agua, se lavan
y van al colegio. Y otra veces cuando la seora, pues no est en casa - pues tienen que ir sin lavarse.

TRABAJO REALIZADO POR:


ROCO ROMERO HINOJOSA.

You might also like