Professional Documents
Culture Documents
Manuel dUtilisation
Equipe CLA2T
LEXICO 3
V- Astuces
Glossaire pour la statistique textuelle
Rfrences bibliographiques
LEXICO 3
I-Installation
1-Avertissement
Cette version de Lexico3 est en test. Nous vous demandons de
signaler les ventuelles anomalies :
Lexico2 / ILPGA
19, rue des Bernardins
75005 Paris
France
Joignez votre envoi : le corpus de texte sur lequel vous aurez
constat des dysfonctionnements ainsi que le fichier atrace.txt cr
au moment de l'exploitation (dans le rpertoire o se trouve le corpus
analys).
Configuration requise
Configuration minimale :
Windows 3.1
Processeur 386, 4Mo de mmoire vive
3 Mo libres sur le disque dur
Configuration conseille
Windows 3.1 ou 3.11 ou Windows 95
486 DX2, 8Mo de mmoire vive
3 Mo libres sur le disque dur
Lexico2 fonctionne sous Windows 95, et Windows NT 3.51 et 4.0.
Nous conseillons vivement de regrouper programme et corpus sur le
disque dur.
2-Installer le logiciel
Pour installer LEXICO3
a. Insrer le CD ROM dans votre lecteur.
LEXICO 3
b.
c.
d.
Segments rpts
Carte de paragraphes
Mosaque
Editeur
Aide
Quitter
Ajouter au rapport
Options
Groupe de formes
Concordances
Nouvelle base(segmentation)
II-Menu principal
LEXICO 3
LEXICO 3
III-Prparation du texte
1 Normes denregistrement
La norme basse
Lanalyse statistique dun texte se base sur lunit textuelle quest la
forme pour estimer ses occurrences, dlimiter les squences de mots
o elle apparat et comparer ses frquences dans une partie donne
du corpus par rapport une ou plusieurs autres. Pour rendre possible
et fiable cette segmentation il est ncessaire de dfinir des normes de
saisie qui assurent la cohrence du texte et de son codage.
Le texte doit tre enregistr sous la forme dun fichier de texte seul
(*.txt). On carte les fichiers de type document (*.doc) et autres
formats crs par traitement de texte car ceux-ci intgrent au dbut
de lenregistrement un en-tte renfermant diverses informations sur
la mise en forme notamment. Dans une tude lexicomtrique qui
sintresse principalement aux formes, aux phrases et leur
ventilation, ces donnes sur la mise en page sont superficielles et, qui
plus est, elles peuvent tre une source derreurs lors de la
segmentation.
Problmes de codage
Traitement des majuscules, apostrophes
On choisit de saisir le texte en minuscules pour permettre un
classement plus juste dans les listes paradigmatiques. En effet, si lon
maintient les majuscules le module de segmentation distinguera la
forme simple il et la forme Il en dbut de phrase, ce qui fausserait les
frquences dapparition.
Toutefois, ces conversions ne sont pas sans risque puisquelles
peuvent introduire des ambigits dans les listes qui associeront
alors certains noms propres et noms communs homographes (par
exemple : une barre et Raymond Barre). On peut dsambigiser ces
formes en accollant au nom propre un signe de distinction (par
LEXICO 3
LEXICO 3
2 Tutoriel : Text 1
Dans cet extrait du corpus Text1.txt, plusieurs types de codage, mis
en vidence pour notre exemple par une fonte plus grande :
- la clef Epg distingue 3 parties qui rendent compte de la pagination
de ldition originale du Pre Duchesne
- le caractre paragraphe distingue 4 paragraphes
- le caractre * permet didentifier des lettres ( lorigine) en
majuscules
Tableau 2.1 : Exemple de codage de corpus
<Sda=1793> <S01=220> <S03=0> <Epg=1> <Sat=0>
la grande colre du *pre *duchesne , de voir que les mouchards de
*la-*fayette et tous les fripons soudoys par la liste civile, veulent
rtablir les compagnies de grenadiers et de chasseurs, pour gorger
les *sans-culottes et les chasser des assembles de *section .ses bons
avis aux *lurons des *faubourgs pour qu' ils arrachent les
moustaches postiches ces grenadiers de la vierge *marie , qui
veulent rtablir la royaut.
<S03=1>
millions de tonnerre, nous ne mettrons donc jamais les fripons la
raison?ils <Epg=2>ont laiss tomber leurs masques et nous les
voyons nu. serons nous encore dupes des fripons? quand je voulais
faire la conduite de *grenoble tous les talons rouges quand je
disais, du soir au matin, que tous les ci-devant ne cesseraient de nous
trahir, n' avais je pas raison, foutre?
je me suis toujours plus dfi des nobles convertis que des
migrs.c' est pour nous frapper de plus prs que ces gredins sont
rests au milieu de nous.ils ont fait les chiens couchants pour mieux
nous tromper.jamais, foutre, ils n' ont cess de s' entendre avec les
ennemis du dehors. ce sont eux qui nous ont mis chien et chat,
qui ont brouill les cartes dans les trois assembles nationales, et
corrompu les reprsentants du peuple.si nous avions eu assez d' estoc
pour les envoyer tous *coblentz au commencement de la
LEXICO 3
rvolution, nous n' aurions pas achet notre libert par des flots de
sang;nous aurions depuis longtemps une constitution; la paix et le
bonheur rgneraient dans notre rpublique.
dans le fond de mon coeur j' ai toujours dtest *philippe d'
*orlans ; je le regardais comme un hypocrite qui tt ou tard nous
<Epg=3> tournerait casaque; mais comme cet infme sclrat servait
notre cause en prodigant son or pour donner des croc en jambes
*louis le tratre, je pensais, comme tous les patriotes, qu' il fallait s'
en servir comme d' une chemise que l' on quitte quand elle est sale. je
ne le redoutais pas, car il est trop vil et trop mprisable pour croire
que jamais les *sans-culottes pourraient se donner un pareil roi. je
me doutais bien, foutre, qu' au premier faux pas que le *capon ferait,
il se casserait le col.un vidase qui s' tait cach au fond de cale, au
combat d' *ouessant, ne pouvait jamais devenir un chef de parti.
LEXICO 3
Segmentation
1-La segmentation automatique
Le module segmentation cre une base de donnes textuelles partir
d'un corpus fourni par l'utilisateur sous forme de fichier texte.
2-Mise en oeuvre
Depuis la console, cliquez sur l'icne du module : Nouvelle base
(Segmentation).
Le programme vous propose de choisir un fichier texte dans un
rpertoire selon les procdures habituelles de Windows.
10
LEXICO 3
Une bote de dialogue apparat alors qui vous permet de rgler les
paramtres de la segmentation.
vrifie la conformit du
haut. Ce module signale
<S01=chirac
<S 01= chi rac>
La vie est > belle.
<S01balladur>
<S01=>
<=jospin>
11
LEXICO 3
12
LEXICO 3
3-Fichiers de sortie
Plusieurs fichiers sont crs et enregistrs sur disque dur dans le
mme rpertoire que le texte-source :
Le fichier corpus.par : contient les principaux dcomptes effectus
par le programme (formes, occurrences, etc...) ainsi que le rappel des
caractres dlimiteurs choisis lors de la segmentation.
13
LEXICO 3
28 2632
29 1 abandonnant
30 4 abandonne
31 10 abandonn
32 1 abandonnes
33 3 abandonnent
() () ()
14
LEXICO 3
15
LEXICO 3
Note:
Vous pouvez galement ouvrir un texte dj segment en le glissant
sur l'icne de Lexico3.
16
LEXICO 3
Figure 5: Graphique
17
LEXICO 3
Spcificit
Lanalyse des spcificits : Ce fichier (*.spf) indique la ventilation
des formes dans les parties et adjoint aux frquences remarquables
un indice de spcificit. Ce dernier sinterprte comme suit : dabord
le signe + ou qui indique un sur-emploi ou un sous-emploi.
18
LEXICO 3
Figure 7: Spcificits
A la suite de cet index par formes vient un index des spcificits,
duch.spf, par partie o lon retrouve classes les spcificits
positives et ngatives. Lindice doriginalit * (astrisque) indique
que la forme nest prsente que dans la partie courante.
Spcificits sur une partie donne (par rapport l'ensemble)
On slectionne une (ou plusieurs) partie(s) (clic gauche de la souris,
avec majuscule ou contrle activ suivant le nombre de parties
slectionn (comportement windows habituel)), et on lance les
19
LEXICO 3
AFC
CAH
Sp ch ev
20
LEXICO 3
Segments rpts
Les segments rpts sont des suites de formes dont la frquence est
suprieure 2 dans le corpus.
21
LEXICO 3
Concordances
Pour une forme-ple, la concordance est dfinie comme lensemble
des lignes de contextes se rapportant cette forme. La concordance
permet un retour au texte
qui dcrit
lenvironnement
Figure
9: Liste
des segments immdiat
rpts de la
forme, qui permet de mettre en vidence les formes que lon retrouve
frquemment autour du ple.
22
LEXICO 3
' occasion d ' tre utile un homme aussi intressant . quel est votre
nsi donc , au lieu d ' tre un homme sanguinaire , quand je faisais
ant de fois accus d ' tre un homme froce , tait le meilleur des
maladie de l ' adoration . un homme , tel qu ' il soit , n ' est plus
il soit , n ' est plus qu ' un homme nos yeux ; tant qu ' il va droit
s coups ; reois nos regrets , homme pur et courageux ; longtemps
nous
Tableau : Extrait dune concordance autour de la forme-ple
homme dans le corpus Duchesne.
Les tris
Les diffrents contextes relatifs une mme forme peuvent tre
ordonns de trois manires diffrentes. Le tri de ces contextes peut
tre effectu en fonction de :
- loccurrence qui prcde la forme-ple (tri avant)
- loccurrence qui suit la forme-ple (tri aprs)
- lordre dans lequel les occurrences de la forme-ple apparaissent
dans le texte.
Le module Contextes permet de lancer plusieurs requtes
documentaires conscutives partir dune base de donnes textuelles
cre par le module Segmentation.
1-Mise en oeuvre
Cliquer sur licne Concordance, une bote de dialogue apparat :
xzy){|~}<D}UO{1f
{1
}!{1#M{1|}OL}|UDU%{1
}}
D#
23
LEXICO 3
LH
LEXICO 3
25
LEXICO 3
26
LEXICO 3
27
LEXICO 3
Note
28
LEXICO 3
Groupe de formes
Il est possible d'effectuer des requtes sur plusieurs formes la fois,
en basant les requtes sur des prfixes, des suffixes, des expressions
rgulires (type egrep/grep), ou des suites des caractres graphiques.
1-Mise en uvre
Entrez le nom du groupe de formes.
Entrez la forme que vous dsirez rechercher.
Cliquez sur rechercher.
L"objet" rsultant peut ensuite tre manipul comme une forme
"normale", en cliquant sur la flche rouge du groupe (clic gauche
maintenu), on "glisse" le groupe sur la carte de la partition. cf image
Si vous effectuez une nouvelle recherche, vos rsultats se
concatnent aux prcdents.
29
LEXICO 3
Mosaque
En cliquant sur cette icne vous rorganisez plusieurs applications
(fentres) sur la mme feuille.
Ajouter au rapport
30
LEXICO 3
Options
Ce bouton permet de fixer des seuils lors du traitement
31
LEXICO 3
Aide
Laide en ligne
Aide gnrale
Le fichier daide de Lexico3 peut tre consult tout moment
partir de la console en cliquant sur licne Aide.
Aide contextuelle
Lors de lexcution des modules, lutilisateur peut faire apparatre
une aide contextuelle en rapport avec le traitement en cours en
cliquant sur le bouton Aide dans la bote de dialogue active.
Glossaire
La dfinition de quelques notions de base en statistique textuelle est
reprise dans laide en ligne.
Editeur
Pour visualiser un texte ou vos rsultats partir de Lexico 3, cliquez
sur l'icne "Editeur" et partir de l'icne "Ouvrir" slectionnez votre
document.
32
LEXICO 3
Quitter
Avant de quitter Lexico3, vrifiez que vous avez sauvegard vos
donnes dans le rapport.
Pour quitter Lexico3 cliquez sur l'icne.
33
LEXICO 3
V-Astuces
Navigation
Slectionner/Glisser
On slectionne une (ou plusieurs) forme(s) (clic gauche de la souris,
avec majuscule ou contrle activ suivant le nombre de parties
slectionn (comportement windows habituel)), et on glisse les mots.
On peut ensuite ritrer les oprations de "glissement de formes"
dans la fentre droite via la souris...
Plein cran
Pour visualise la fentre de droit en plein cran, cliquez sur la flche
rouge situe entre les fentres gauche et droite.
Dictionnaire
Pour la lecture du dictionnaire vous pouvez choisir entre lordre
lexicomtrique ou lordre lexicographique.
34
LEXICO 3
automatique
35
LEXICO 3
36
LEXICO 3
37
LEXICO 3
38
LEXICO 3
la
forme
sans
lision.
lexical - (ling) qui concerne le lexique* ou le vocabulaire*.
lexicomtrie ensemble de mthodes permettant d'oprer des
rorganisations formelles de la squence textuelle et des analyses
statistiques portant sur le vocabulaire* d'un corpus de textes.
lexique - (ling) ensemble virtuel des mots d'une langue.
longueur (sa) - ( d'un corpus, d'une partie de ce corpus, d'un
fragment de texte, d'une tranche, d'un segment, etc.) le nombre des
occurrences contenues dans ce corpus (resp. : partie, fragment, etc.).
Synonyme de taille.
On note: T la longueur du corpus; t j celle de la partie (ou tranche)
numro j du corpus.
longueur d'un segment (sr) - le nombre des occurrences entrant
dans la composition de ce segment.
occurrence (sa) - suite de caractres non-dlimiteurs borne ses
extrmits par deux caractres dlimiteurs* de forme.
ordre lexicographique _ pour les formes graphiques :
l'ordre selon lequel les formes sont classes dans un dictionnaire.
NB : Les lettres comportant des signes diacriss sont classes au
mme niveau que les mmes caractres non diacriss, le signe
diacritique n'intervenant que dans les cas d'homographie complte.
Dans les dictionnaires, on trouve par exemple, ranges dans cet
ordre, les formes : mais, mas, maison, matre .
_ pour les polyformes:
ordre rsultant d'un tri des polyformes par ordre lexicographique sur
la premire composante, les polyformes commenant par une mme
forme graphique sont dpartages par un tri lexicographique sur la
seconde, etc.
ordre lexicomtrique (sa) _ pour les formes graphiques :
39
LEXICO 3
ordre rsultant d'un tri des formes du corpus par ordre de frquences
dcroissantes; les formes de mme frquence sont classes par ordre
lexicographique.
_ pour les polyformes:
ordre rsultant d'un tri par ordre de longueur dcroissante des
segments, les segments de mme longueur sont dpartags par leur
frquence, les segments ayant mme longueur et mme frquence
par l'ordre lexicographique.
paradigme- (ling) ensemble des termes qui peuvent figurer en un
point de la chane parle.
paradigmatique- (sa) qui concerne le regroupement en srie des
units textuelles, indpendamment de leur ordre de succession dans
la chane crite.
partie - (d'un corpus de textes) fragment de texte correspondant aux
divisions naturelles de ce corpus ou un regroupement de ces
dernires.
partition - (d'un corpus de textes) division d'un corpus en parties
constitues par des fragments de texte conscutifs, n'ayant pas
d'intersection commune et dont la runion est gale au corpus.
(d'un ensemble, d'un chantillon) division d'un ensemble d'individus
ou d'observations en classes disjointes dont la runion est gale
l'ensemble tout entier.
partition longitudinale - (sa) partition d'un corpus en fonction d'une
variable qui dfinit un ordre sur l'ensemble des parties
priodisation (sa) - regroupement des parties naturelles du corpus
respectant l'ordre chronologique d'criture, d'dition ou de parution
des textes runis dans le corpus.
phrase - (sa) fragment de texte compris entre deux sparateurs* de
phrase.
polyforme (sr) - archtype des occurrences d'un segment; suite de
formes non spares par un sparateur de squence, qui n'est pas
obligatoirement atteste dans le corpus.
ponctuation - Systme de signes servant indiquer les divisions
d'un texte et noter certains rapports syntaxiques et/ou conditions
d'nonciation.
(sa ) caractre (ou suite de caractres) correspondant un signe de
ponctuation.
pourcentages d'inertie - (ac ou acm) quantits proportionnelles aux
valeurs propres* dont la somme est gale 100. Notes ta.
40
LEXICO 3
41
LEXICO 3
42
LEXICO 3
43
LEXICO 3
44
LEXICO 3
Rfrences bibliographiques
Bcue M. (1988) - Characteristic repeated segments and chains
in textual data analysis, COMPSTAT, 8th Symposium on
Computational Statistics, Physica Verlag, Vienna.
Becue M., Peiro R. (1993) - Les quasi-segments pour une
classification automatique des rponses ouvertes, in Actes des
2ndes Journes Internationales d'analyse des donnes textuelles,
(Montpellier), ENST, Paris, p 310-325.
Benzecri J.-P.(1977) - Analyse discriminante et analyse
factorielle, Les Cahiers de l'Analyse des Donnes, II, n 4, p
369-406.
Benzcri J.-P. & coll. (1973) - La taxinomie, Vol. I ; L'analyse
des correspondances, Vol. II, Dunod, Paris.
Benzcri J.-P. (1982) - Histoire et prhistoire de l'analyse des
donnes, Dunod, Paris.
Benzcri J.-P.& coll. (1981a) - Pratique de l'analyse des
donnes, tome 3, Linguistique & Lexicologie, Dunod , Paris.
Benzcri J.-P. (1991a) - Typologies de textes grecs d'aprs les
occurrences des formes des mots-outil, Les Cahiers de l'Analyse
des Donnes, XVI, n1, p 61-86.
Benzcri J.-P. (1992) - Correspondence Analysis Handbook,
(Transl : T.K. Gopalan) Marcel Dekker, New York.
Bernet C. (1983) - Le vocabulaire des tragdies de Jean Racine,
Analyse statistique, Slatkine-Champion, Genve 1983.
Bolasco S. (1992) - Sur diffrentes stratgie dans une analyse
des formes textuelles : Une exprimentation partir de donnes
d'enqute, Jornades Internacionals d'Analisi de Dades Textuals,
UPC, Barcelona, p 69-88.
Bonnafous S. (1991) - L'immigration prise aux mots. Les
immigrs dans la presse au tournant des annes quatre-vingt,
Kim, Paris.
Brunet E. (1981) - Le vocabulaire franais de 1789 nos jours,
d'aprs les donnes du Trsor de la langue franaise, SlatkineChampion, Genve-Paris.
Demonet M., Geffroy A., Gouaze J., Lafon P., Mouillaud M.,
Tournier M. (1975) - Des tracts en Mai 68. Mesures de
45
LEXICO 3
46
LEXICO 3
47
LEXICO 3
48
LEXICO 3
49