Professional Documents
Culture Documents
Le Sphinx
Manuel d'utilisation
Le Sphinx Dveloppement
Parc Altas
74650 Chavanod
Tlphone : 04 50 69 82 98
Fax : 04 50 69 82 78
e-mail : contact@lesphinx.eu
Web : www.lesphinx.eu
Avant propos
Ce manuel accompagne la nouvelle version du Sphinx que
vous venez d'acqurir : Le Sphinx V5. Nous vous en
flicitons.
Ce logiciel sappuie trs fortement sur les interfaces et les
protocoles de Windows. Vous retrouverez ainsi les
habitudes que vous avez dj acquises par lexprience de
ce systme (gestion des fichiers, menus, dialogues, listes
droulantes, raccourcis). Nous nous sommes efforcs de
toujours respecter ces conventions bien tablies. Cest
pour cela que vous parviendrez trs facilement lutiliser.
Vous serez galement guid par votre connaissance du
travail des enqutes, des tudes et de la statistique. Nous
utilisons le langage de ces mtiers et avons structur le
logiciel par rapport aux grandes tapes dune tude :
questionnaire, saisie, dpouillement, analyse Notre souci
constant est de faciliter votre comprhension devant
lcran. A cette fin, de nombreux commentaires sont
affichs pour vous aider vous situer et comprendre les
menus, boutons de commande, options Pour les
oprations les plus complexes, vous tes pris en charge
par un assistant. Enfin, lorsque le sens dun article ou dun
bouton vous chappe, il vous suffira dessayer pour
comprendre trs vite son utilit.
Pour toutes ces raisons, vous naurez aucune difficult
vous servir de votre logiciel et peut-tre pourrez-vous
mme vous passer du manuel. Mais vous risquez alors de
le sous-utiliser ou de vous compliquer inutilement la vie. En
effet, toutes les possibilits qu'il offre ne sont pas
galement visibles ni toujours trs comprhensibles au
premier abord et vous risquez de passer ct de
fonctions trs utiles.
Le premier objectif de ce manuel est de vous faire
dcouvrir tout ce que vous pourrez faire avec le logiciel. A
cette fin, il est organis en doubles pages dveloppant une
tche, une fonction, un rsultat que vous pourrez
entreprendre ou raliser.
La partie de droite vous montre le logiciel, ses crans, ses
menus, ses dialogues et les tats (tableaux, graphiques)
quil permet de produire.
Sommaire
Analyse des donnes qualitatives
avec le Sphinx : les fondements ........... 5
1. Les tudes quali .................................. 6
2. Lacquisition des donnes textuelles ........ 2
3. Produire des extraits ou faire du
verbatim .................................................... 3
4. Faire de lanalyse de contenu ................... 3
5. Analyse de donnes textuelles et
approximation lexicale............................... 2
6. Privilgier une approche ou les
combiner ? ................................................ 3
Sphinx V5
1. Caractres sparateurs et
environnement ......................................... 15
2. Rechercher et marquer des lments
dans le lexique ......................................... 17
3. Rduire les lexiques ................................ 19
4. Groupements automatiques .................... 21
5. La gestion des dictionnaires .................... 23
6. Les diffrents types de dictionnaires ....... 25
7. Analyse thmatique ................................. 27
8. Lexique des expressions** ........................ 2
9. Rechercher les segments rpts** .......... 4
Analyse syntaxique et
lemmatisation ....................................... 19
1.
2.
3.
4.
La lemmatisation...................................... 20
Lancer la lemmatisation ........................... 22
Analyser un texte lemmatis ................... 24
Modifier le corpus .................................... 26
Bibliographie .......................................... 5
Analyse des
donnes
qualitatives
avec le Sphinx :
les fondements
Sphinx V5
Les mthodes
Ceci nous conduit une autre caractristique des tudes
quali .
Le terme renvoie lapproche traditionnelle des textes par
lecture et annotation sans autres instruments que le stylo le
papier dans la tradition des tudes littraire et de la
critique. Le travail du chercheur consiste rendre compte
des textes tudis en citant des extraits et en produisant un
nouveau texte comprhensif et dmonstratif dont, pour
faire bref, la qualit ne tient quau talent de lecteur et
dcrivain du chercheur.
Avec lanalyse de contenu ou analyse thmatique, le
classeur et le stylo de couleur sajoutent la panoplie des
instruments de recherche. Le travail de lecture devient plus
systmatique, le systme de comprhension sexplicite en
une grille qui guide le classement des citations et le
reprage par couleurs ou annotations des passages du
texte. Cet effort de mthode dbouche naturellement sur le
dnombrement des thmes, si on admet que la rptition
ou la frquence peuvent galement faire sens et que
largument du dcompte renforce la dmonstration.
Lappellation quali voque ainsi le travail artisanal
prudemment dmarqu des mthodes scientifiques et de la
statistique, mais lapproche des textes a aussi de tout
temps t marque par la fascination pour le chiffre ou le
recours au comptage.
Dans la tradition de la kabbale, de l exgse et dans le
travail des moines copistes les chiffres et les nombres
guident vers les significations caches ou permettent de
contrler lexactitude des manuscrits. Des tudes sur la
bible aux concordances de Saint Augustin le texte analys
est mis en fragments puis en cartes perfores Les
premires analyses par ordinateurs ont t effectues en
Sphinx V5
2. Lacquisition
textuelles
des
donnes
Les questionnaires
Sil sagt dtudier les rponses aux questions ouvertes
dune enqute par questionnaire faite avec le logiciel, les
texte est acquis au moment de la saisie des questionnaires
pour le enqutes papier crayon ou directement entr par
le rpondant lorsquil rpond une enqute internet.
Sphinx V5
Sphinx V5
Le traitement
simple des
questions
textes
Sphinx V5
Verbatim
Cette fonction permet de slectionner des extraits en
fonction de leur contexte (selon les rponses une autre
variable) ou de leur contenu (vocabulaire de la rponse).
Ces extraits peuvent tre prsents sous forme de liste
organise par catgories de rponses.
Linclusion de ces extraits dans un rapport permet de
rendre compte de lenqute par une illustration
raisonne.
Tableaux de rponses
On peut prsenter les rponses dans des tableaux.
Cette prsentation est bien adapte dans le cas de
rponses trs rptitives quon pourra croiser avec
dautres variables caractrisant les rpondants.
On peut galement dresser le tableau des mots prsents
dans les rponses et ainsi oprer une recodification
automatique en fonction du vocabulaire.
6
Analyse de contenu
Dans cet environnement, on lit les rponses et on code
leur contenu dans une nouvelle variable dcrivant les
principaux thmes voqus dans les rponses.
Cette thmatique peut tre enrichie en cours de lecture
par lajout de nouvelles modalits. Ce travail est facilit
par la possibilit de voir les rponses selon les mots
quelles contiennent.
Analyse de contenu :
lire et interprter
Tableau de
rponses et de
mots :
dnombrer,
recoder, croiser
Sphinx V5
Verbatim : citer,
extraire, illustrer
2. Faire du verbatim
La manire la plus simple de traiter les questions
ouvertes consiste restituer les rponses dans leur
intgralit ou d'une manire raisonne en oprant des
slections par rapport au contexte ou au contenu.
On pourra produire des listes de rponses :
classes selon l'identit des rpondants ;
restreintes tel ou tel profil (les satisfaits, les
mcontents...) ;
contenant tel ou tel mot.
Les tapes consistent choisir la variable, dfinir les
conditions de l'extraction, et transfrer les citations
ainsi obtenues.
Faire du Verbatim
Imprimer ou inclure
dans le rapport
Sphinx V5
Ces mots sont dfinis par le dictionnaire des mots outils prsent dans
le rpertoire dictionnaires motoutils.dic .
10
Produire la liste
des rponses
Produire la liste
des mots
Croiser
Slectionner
Analyser
Recoder
Sphinx V5
11
La codification
12
Reprendre un travail en
cours
Crer une nouvelle
variable
Rponses en liste
Sphinx V5
13
14
Sphinx V5
15
L'analyse
lexicale en bref
1. Les interfaces
Pour aller plus loin dans lanalyse lexicale, Plus et
Lexica donnent accs un environnement spcifique :
latelier lexical (Etudier les textes / Atelier lexical /
Panneau de commandes). Celui-ci permet de :
Calculer diffrentes formes de lexiques (rduits,
regroups par racine, relatifs un dictionnaire.) ;
Slectionner des mots pour retrouver toutes les
rponses qui les contiennent, produire des extraits ou
des associations de termes ;
Reprer les expressions du texte et les segments
rpts ;
Produire des tableaux lexicaux, des listes de mots
spcifiques (relatifs aux modalits dune autre
variable), et des rponses caractristiques ;
Transformer une variable texte en produisant un
nouveau texte expurg, fragment ou lemmatis ;
Coder automatiquement le texte en fonction de son
contenu lexical.
Latelier lexical
Cet cran est compos de 4 grandes parties :
A droite : une fentre prsente diffrentes vues du
corpus ;
A gauche : on peut voir le lexique des mots ou des
expressions. En cliquant dans le lexique, on fait dfiler
les contenus correspondants dans la fentre de droite
(navigation lexicale).
Le bandeau du haut contient un ensemble de boutons
de commande contrlant le calcul et la prsentation du
lexique, la mise en forme du corpus, sa prsentation,
et sa codification dans de nouvelles variables.
Les indications du bas de lcran donnent des
statistiques gnrales sur le texte tudi.
Sphinx V5
2
chaque forme est ramene sa racine grammaticale (infinitif,
singulier)
3
chaque forme est ramene ses x premiers caractres
Corpus texte
Lapproximation lexicale
sommaire :
Rduire le texte au dbut du
lexique : lexamen des mots
les plus frquents donne une
ide du contenu.
Lexique
Calculer le lexique
Corpus texte
Interpreter
Lapproximation lexicale
contrle :
Rduire le texte son
lexique et contrler par la
navigation lexicale le bien
fond
des
interprtations
faites partir du lexique.
Navigation
lexicale
Verbatim
Lexique
Lapproximation lexicale
slective :
Travailler sur un lexique rduit
aprs avoir limin les mots
outils et solidaris
les
segments.
Concentrer
lattention sur lexamen des
noms,
verbes,
adjectifs
(utilisation de dictionnaires et
de la lemmatisation).
Corpus texte
Lemmatisation
Segments rpts
Corpus texte
lemmatis et solidaris
Dictionnaire
Lexique rduit et
structur
Slectionner
Navigation lexicale
Verbatim
Nouvelle vision
du texte
Sphinx V5
Corpus texte
Segments rpts
Lemmatisation
Variable
de contexte
Corpus texte
lemmatis et solidaris
Navigation lexicale
Dictionnaire
Lexique rduit et
structur
Mettre jour
les structures
linguistiques
Listes demots
spcifiques
Tableau
lexical
Structures
Stat.
Phrases
caractristiques
Corpus texte
Lemmatisation
Variable
de contexte
Corpus texte
lemmatis et solidaris
Dictionnaire
Intgrer les
mthodes
Segments rpts
Navigation lexicale
Verbatim
Lexique rduit et
structur
Variables
fermes sur
les mots du
lexique
Mesures
lexicales :
intensits
banalits
Structures
Stat.
Statistiques lexicales
Production de lexiques
Le lexique des mots ou liste des formes graphiques
saffiche dans la fentre de gauche.
Il dpend des caractres sparateurs retenus (bouton
Apparier). Son contenu et sa prsentation sont affects
par les boutons Supprimer, Rduire, Regrouper,
Compter et Classer. On peut ainsi liminer ou regrouper
des lments et choisir lordre de leur prsentation ainsi
que les indicateurs statistiques les caractrisant (nombre
doccurrences ou nombre de rponses / fragments
concerns).
Le lexique des expressions (Lexica uniquement) prend la
place du lexique des mots. On slectionne pour cela
Expressions dans le menu droulant Lexique. Dans la
fentre qui apparat, on peut chercher les locutions et les
segments rpts.
Navigation lexicale
La navigation lexicale permet de faire apparatre, dans la
fentre du corpus, les fragments de texte contenant les
mots marqus dans le lexique. On passe dun fragment
lautre avec les flches situes sous la fentre droite. Les
rgles de navigation peuvent tre modifies par le menu
droulant Aller .
Un double clic dans la fentre du lexique fait apparatre le
contexte du mot slectionn (concordances ou lexiques
relatifs). Ltendue du contexte est paramtrable avec le
bouton Apparier. On revient par la touche Esc.
Le bouton Marquer permet de slectionner des lments
du lexique selon leurs proprits, et les boutons 0 <> @
servent annuler la slection, linverser ou tout
slectionner. Grce au bouton Illustrer, on fait apparatre
une autre variable illustrative dans la fentre du corpus.
Sphinx V5
La barre d'outils
Toutes les fonctions qui viennent rapidement d'tre
voques se lancent partir de la barre d'outils. Les
fonctions suivantes ne sont disponibles que dans Lexica :
rechercher des expressions et des segments rpts,
analyser l'environnement d'un mot, construire des bilans,
des tableaux lexicaux ou des listes de mots spcifiques,
lemmatiser.
Latelier lexical
Corpus
Lexique
Statistiques lexicales
Calculer les
lexiques
Lexique rduit
Lexique lemmatis
Sphinx V5
Segments rpts
Lexiques relatifs et
concordances
10
Bilan lexical
Le bilan lexical rassemble les principaux indicateurs
caractristiques de lnonciation : nombre de mots,
longueur des fragments, richesse lexicale, spcialisation
lexicale Ces indicateurs sont calculs pour les modalits
dune variable et permettent ainsi de comparer diffrents
locuteurs. La production du bilan est automatique : vous
navez qu indiquer la variable selon laquelle vous voulez
ltablir.
Tableaux lexicaux
Un tableau lexical ventile lutilisation des mots selon les
modalits dune variable de contexte. Vous avez galement
la possibilit de limiter la liste aux mots exclusifs, aux mots
communs ou aux mots sur-reprsents ou sousreprsents dans chaque catgorie. A cet effet, choisissez
dans le dialogue les mots que vous souhaitez inclure dans
la liste : Inclure les mots exclusifs dune catgorie,
Inclure les mots communs plusieurs catgories
Rponses caractristiques
Cette fonction repose sur la slection de mots spcifiques
mais donne comme rsultat une liste de rponses
slectionnes en fonction du nombre de mots spcifiques
quelles contiennent et de leur indice de spcificit moyen.
Mots spcifiques
Un mot est spcifique dune catgorie sil est surreprsent dans cette catgorie. On utilise le rapport des
frquences (observes / thoriques) comme indicateur de
spcificit. Le mot est dautant plus sur-reprsent (resp.
sous-reprsent) que ce rapport est suprieur (resp.
infrieur) 1. Il est infini pour les mots exclusifs quon
repre avec une toile.
Sphinx V5
11
Variable de contexte
Bilan lexical
Conditions spcifiques
Tableau lexical
Mots spcifiques
Rponses
caractristiques
12
Sphinx V5
13
La construction
des lexiques
14
1. Caractres sparateurs et
environnement
Pour identifier les diffrents lments composant un champ
textuel, on dfinit des caractres sparateurs.
Les sparateurs de fragments ou dobservations sont
dfinis au moment de lintgration dun fichier de donnes
(Voir Ouvrir un fichier de donnes textuelles).
Les sparateurs de formes graphiques permettent
disoler les mots. Le blanc est le sparateur naturel mais on
peut en retenir dautres ( ()..).
Les sparateurs de phrases ou de tout autre groupe
permettant de dfinir un sous-ensemble signifiant
(proposition, unit de signification...).
Apparier
La dfinition de ces sparateurs conditionne la construction
du lexique et la recherche de lenvironnement dun mot
(concordances, lexiques relatifs). On peut modifier ces
paramtres dans un dialogue ouvert par le bouton
Apparier.
Celui-ci permet de modifier les sparateurs de mots
(formes graphiques), groupes ou phrases, de fixer les
rgles suivre pour traiter les accents et majuscules et
grer les expressions formes de mots composs.
Sphinx V5
15
Lexique
Concordances
Lexiques relatifs
Verbatim
16
17
En cliquant dans le
corpus
Rgles de recherche
Au clavier
Selon la frquence
Par dictionnaire
18
Supprimer
On peut passer en revue tout le lexique et marquer les
mots liminer. Le bouton Supprimer permettra de les
faire disparatre.
Lemmatiser
La lemmatisation (Lemmatiser) permet doprer des
regroupements intelligents en utilisant les rgles de la
syntaxe (singulier, pluriel, formes verbales ramenes
linfinitif). Elle prsente lavantage de rduire certaines
ambiguts en distinguant par exemple le nom du verbe
(voyage peut correspondre au nom voyage ou au verbe
voyager). Il est donc conseill doprer le travail de
rduction sur la base du texte lemmatis.
Regrouper
Le bouton Regrouper offre plusieurs choix pour remplacer
plusieurs lments par un seul :
Grouper les mots marqus dans le lexique :
slectionnez et donnez un nom au regroupement.
Rechercher tous les mots rpondant un modle et
les grouper. Entrez le modle : les lments qui y
rpondent seront automatiquement regroups, par
exemple, *isme pour les mots se terminant par isme.
Grouper les mots commenant par les mmes lettres
: groupement par racine ou stemmatisation. Indiquez le
nombre de caractres retenir pour la racine. Vous
pourrez contrler la validit de chaque groupe (Voir
Stemmatisation).
Grouper avec un dictionnaire. Choisissez un
dictionnaire. En utilisant un dictionnaire de groupement
ou thsaurus, vous pourrez oprer en une seule fois
plusieurs groupements (Voir Gestion de dictionnaires).
Sphinx V5
19
20
Regrouper
4. Groupements automatiques
On gagne beaucoup de temps en procdant ainsi :
Stemmatisation
Ce terme indique le regroupement des mots ayant la mme
racine. Slectionner la case Grouper automatiquement,
puis de mme racine et indiquer le nombre de lettres
minimum que doit contenir la racine commune.
Dictionnaires
#faire*=faire=faire_la_cuisine=faire_plaisir=
faire_envie=faire_attention
#gote*=goter=goteux
#gastronomi*=gastronomie=gastronomique
#avoir_*=avoir_envie=avoir_faim
#quelque*=quelque_chose=quelquechose
#enfant*=enfant=enfants
#nature*=naturel=nature
#prendre*=prendre_son_temps=prendre
#vouloir*=vouloir=vouloir_dire
#nourri*=nourrir=nourriture
#cuisine*=cuisiner=cuisine
#lger*=lger=LEGERE
#restau*=restaurant=restau
Sphinx V5
21
22
Ouvrir un dictionnaire
Les dictionnaires sont enregistrs comme des fichiers
textes. Le bouton Ouvrir donne accs au dialogue
Windows de gestion des fichiers. Lextension propose par
dfaut est .dic. Elle nest pas obligatoire mais permet de
retrouver facilement les dictionnaires.
Crer un dictionnaire
Utiliser le bouton Nouveau, donner le nom au fichier (en
remplacement du nom donn par dfaut "DICO.DIC").
Cette procdure ouvre un dictionnaire vide. Vous pouvez :
Y ajouter les mots marqus dans le lexique : bouton
Ajouter.
Entrer au clavier les mots que vous dsirez. Placez le
curseur l'endroit o vous voulez insrer un nouveau mot
et entrez-le au clavier.
23
Ouvrir ou crer un
dictionnaire
Mettre dans le
dictionnaire les mots
marqus du lexique
Entrer des lments
nouveaux au clavier
Marquer les mots
correspondants dans le
lexique
Ouvrir ou crer un
dictionnaire
24
Sphinx V5
25
Diffrents
dictionnaires
de mots
Lexique de rfrence
26
dexpressions
de groupements
Dictionnaire de codes
7. Analyse thmatique
Dans lenvironnement de latelier lexical, une analyse
thmatique peut tre actionne en cliquant sur licne
Dictionnaire Une thmatique est une liste de
dictionnaires, chacun tant compos de mots ou de
regroupements relevant dun mme thme. Les
dictionnaires ont t prpars par ailleurs en format texte.
Cette opration autorise la prsence dun mme mot dans
plusieurs thmes. La gestion des dictionnaires est
prsente dans le chapitre 5 p. 312 (Plus) ou 316 (Lexica)
du manuel de rfrence.
Une nouvelle thmatique est cre en ajoutant autant de
dictionnaires que souhait dans la liste, grce au bouton
Ajouter Au moment du recodage, le logiciel propose la
sauvegarde de la thmatique, qui sera dnomme avec
une terminaison .the et qui pourra tre rappele tout
moment depuis le bouton Ouvrir une thmatique .
En cliquant sur Recoder , on va pouvoir crer de
nouvelles variables afin didentifier les thmes pour chaque
observation
:
lintensit
lexicale
de
chaque
thme,
- le nombre doccurrences de chaque thme,
- des variables fermes sur les thmes, avec deux options
de limitation : les n thmes les plus frquents dans la
rponse et les thmes dont lintensit dans la rponse est
au moins gale x.
Sphinx V5
27
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Navigation
lexicale et
recherche de
contexte
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
1. Du lexique au corpus : la
navigation lexicale
La navigation lexicale sapparente la fonction dun
hyper-texte dont chaque mot serait lobjet dun
renvoi possible. On peut en effet, partir dun ou
plusieurs mots marqus dans le lexique ou dans le
texte lui-mme :
retrouver toutes les rponses ou fragments de
texte contenant ce mot ou ces mots ;
afficher la valeur quelconque de lune des autres
variables pour situer le contexte de la rponse ;
dtailler toutes les donnes relatives la
rponse ;
caractriser lemploi dun mot par la rpartition de
telle ou telle variable dans la strate des
observations qui le contiennent.
On a ainsi la possibilit d'oprer des slections pour
restituer des fragments de texte ou contrler
l'interprtation des termes mis en vidence dans le
lexique. On peut le faire en ne voyant qu'une
rponse la fois ou en se plaant dans une fentre
dans laquelle tout le corpus s'affiche la suite.
Donnes de contexte
Variable illustrative
Indicateurs statistiques
Navigation
Rgles de navigation
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
pour
voir
le
On tudie ainsi :
la concordance du mot tudi, cest--dire
lensemble des lments du texte contenant le
mot. Ce procd sapparente la production de
verbatim ou de liste de citations centres sur un
mot particulier (Voir Consulter/Modifier et Listes
structures) ;
les lexiques relatifs droite et gauche du mot
tudi.
Deux boutons permettent de passer dune analyse
lautre. Il convient de fixer ltendue du contexte
quon souhaite analyser en agissant sur le bouton
Apparier.
10
Concordance
Mot pivot
Lexiques relatifs
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
12
Nombre
Indicateurs statistiques
Lexique de l'environnement -2 +2
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
4. Production d'extraits
Dans Plus et Lexica, la production d'extraits offre de plus
grandes possibilits que dans Primo. En la lanant depuis
l'atelier lexical, on peut slectionner beaucoup plus
finement les extraits selon leur contenu.
Le dialogue abrg
Celui-ci est directement disponible sans accder
forcment latelier lexical, on peut gnrer du verbatim
depuis une fonction spcifique. Choisir pour cela Etudier
les textes dans le panneau de commandes ou dans la
fonction Recoder puis Verbatim Dans ce menu, il
est possible de dfinir des mots cls sur lesquels portera
uniquement le verbatim. On peut aussi rduire cette
opration un profil dobservations donn et trier les
extraits selon les modalits dune variable choisie.Aprs
avoir slectionn les lments du lexique, dont la
pertinence peut tre vrifie grce la navigation lexicale,
une action sur le bouton Verbatim ouvre un dialogue
abrg dans lequel on fixe les lments diter (Mots ou
Textes). Mots pour les lments du lexique, Textes pour
les rponses ou extraits correspondants. On peut
complter ventuellement les critres de slection en
prcisant les options de prsentation. Les extraits ainsi
slectionns apparaissent dans une fentre dont le
contenu peut tre imprim grce au bouton Transfrer.
Une version plus complexe du dialogue est accessible
avec depuis lAtelier lexical. Elle offre les possibilits
suivantes :
Le dialogue complet
Le dialogue tendu offre de nombreuses possibilits :
restreindre aux observations contenant des mots
marqus dans le lexique : cochez lun des boutons Les
lments concerns ou Tous les lments. La
slection des extraits se fait en fonction de la rgle de
navigation lexicale retenue ;
fixer le contenu des extraits (cadre Contenu) : afficher le
texte de la variable tudie et ou celui d'une autre
variable ;
afficher la valeur des mesures lexicales relatives
lobservation : nombre de mots de lobservation (M),
nombre de mots marqus (MM), banalit de
lobservation (frquence moyenne des mots de la
rponse), intensit des mots marqus (MM/M) ;
14
Dialogue abrg
Dialogue complet
Nb de rponses similaires
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
16
Tableaux : Caractriser
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
18
Analyse
syntaxique et
lemmatisation
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement 2005
1. La lemmatisation
Principes de la lemmatisation
Lapproximation du contenu d'un texte par ses
seules formes graphiques lmentaires peut
conduire des contresens ou laisser planer une
grande ambigut.
Lanalyse
syntaxique
permet
de
rsoudre
correctement les ambiguts lies la syntaxe. En
appliquant les rgles de la grammaire, on peut,
dans la plupart des cas, distinguer verbes,
substantifs, adjectifs, et leur substituer leur forme
racine (singulier dun substantif, infinitif dun verbe
par exemple), mais aussi identifier les mots
composs et les locutions.
Voici un exemple illustrant ce procd :
Corpus et lexique originaux
Jai aperu les grands avions que
nous avions vus hier avec grand
pre
avions (2), aperu, avec, grand,
grands, hier, j, pre que, les, nous,
vus
20
Corpus lemmatis
Corpus lemmatis avec
indication des catgories
syntaxiques
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Lancer la lemmatisation
Lanalyseur syntaxique
Le lemmatiseur intgr au Sphinx est l'analyseur
syntaxique SYLEX, dvelopp par la socit
Ingnia Langage Naturel. Il est constitu dun
analyseur syntaxique et dun dictionnaire. Le
dictionnaire franais contient 61 400 entres,
521 400 formes lexicales et 25 600 locutions. Une
version anglaise de lanalyseur syntaxique et un
dictionnaire danglais sont galement disponibles
sur demande.
La lemmatisation consiste faire lanalyse
syntaxique de la variable. Une nouvelle variable
contenant la version lemmatise du corpus sera
ajoute la base de donnes. Cette variable pourra
tre ouverte et analyse comme nimporte quelle
autre variable texte.
On accde au
Lemmatiser.
lemmatiseur
par
le
bouton
Options de lemmatisation
Lanalyseur syntaxique procde par tape. Il
dtermine le statut du mot, recherche sa forme
racine et tablit une nouvelle phrase compose des
formes racines. Ces nouvelles phrases forment le
corpus lemmatis. Les options disponibles sont les
suivantes :
Filtrer des mots grammaticaux : les mots
grammaticaux napparatront pas dans le texte
lemmatis. A la diffrence de la rduction du
lexique par les mots outils, cette option a pour
effet de faire disparatre du nouveau corpus les
mots grammaticaux ;
Reprer les locutions usuelles : elles figureront
dans le nouveau corpus relis par un tiret :
pomme_de_terre ;
22
Faire un essai
Lanalyse syntaxique met en uvre des techniques
de lintelligence artificielle, elle peut prendre
quelques minutes pour un texte trs long, surtout si
votre machine nest pas trs rapide. Vous pouvez
vous faire une ide en ne lemmatisant quune partie
du texte. Placez-vous sur lobservation de votre
choix et cliquer sur le bouton Aperu pour
lemmatiser le fragment correspondant.
Corpus dorigine
Contrler, corriger
Corpus lemmatis
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
24
Corpus
lemmatis
Corpus
dorigine
Raccourcis du
panneau lexical
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Remplacer
4. Modifier le corpus
On peut directement apporter des modifications
dans le corpus. Le plus souvent, on le fera pour
corriger des fautes de frappe ou des fautes
d'orthographe. A cet gard, lorsqu'on travaille sur
des textes imports, on a tout intrt les
soumettre
au
pralable
au
correcteur
orthographique.
26
Reconstruire le lexique
Tant que vous n'avez pas revenir sur le lexique
des fins d'interprtation, vous n'avez pas intrt
cocher le bouton Reconstruire immdiatement le
lexique car cela peut ralentir inutilement le travail.
Modifier le corpus
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
28
La statistique
lexicale
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
30
Statistiques relatives
l'observation
Pour chaque observation, on lit dans le cadran situ
en bas de la fentre :
La taille de l'observation, en nombre de
caractres et de mots (r) et le nombre de mots
marqus (m) qu'elle contient.
La banalit : c'est le nombre moyen
d'occurrences dans le corpus, des mots prsents
dans la rponse : b = (
r) / r avec (r) indice des
mots de la rponse et r taille de l'observation. Elle
mesure aussi la rptition moyenne des mots
utiliss. Plus elle est leve, plus la rponse est
banale. La banalit est comprise entre 1 pour une
observation ne contenant que des hapax et le
nombre d'occurrences du mot le plus frquent
(pour le cas d'une observation qui ne contiendrait
que ce mot).
L'intensit des mots marqus : c'est le rapport
entre le nombre de mots marqus et le nombre de
mots de la rponse ou du fragment (100* m/r).
Cet indicateur permet d'apprcier l'intensit avec
laquelle il fait rfrence au thme correspondant
aux mots marqus dans le lexique.
Nb. occurrences
Nb. observations
Stat. globales
Stat. de l observation
pourcentage de
lecture des mots
marqus
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Bilan lexical
Au stade du traitement, le tableau rcapitulatif des
variables textes donne, pour chaque variable, la
taille du corpus (nombre de mots), celle du lexique
(nombre de mots diffrents), et la longueur
moyenne d'une observation (nombre de mots
moyens...). Ce tableau est trs utile pour comparer
la manire dont ces variables sont documentes.
Dans l'atelier lexical, on peut aller plus loin en
comparant les caractristiques lexicales de la
variable tudie selon les catgories dfinies par
une autre variable (variable de contexte).
32
Bilan lexical
Analyser les
zones de langage
employs
employs
3. Construire un tableau
lexical
Pour mettre en vidence les diffrences d'usage du
vocabulaire selon l'identit des locuteurs, selon les
parties d'un document, ou selon toute autre variable
de contexte, on construit un tableau lexical. Ce
tableau dispose en ligne les lments lexicaux et en
colonne les catgories dfinies par les modalits
dune variable nominale. On peut ainsi dnombrer la
frquence de chaque terme pour chaque catgorie.
Dfinition du tableau
Pour dfinir les lignes du tableau, il faut marquer
dans le lexique les mots qui figureront en ligne dans
le tableau puis slectionner Tableau lexical dans le
menu Vue.
Le dialogue qui apparat permet de choisir la
variable selon laquelle ventiler le lexique en cours
d'analyse. On peut se limiter certaines catgories
en slectionnant celles qui nous intressent dans la
liste des modalits. Le bouton Croiser permet de
slectionner une autre variable.
34
Tableau lexical
4/ Analyser
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
36
Indice de spcificit
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
38
Indice de spcificit
Mot sur-reprsent
Mot sous-reprsent
Mots exclusifs
6. L'indice de spcificit
Dans le Sphinx, les calculs de spcificit sont
utiliss en diffrentes circonstances : rechercher
des caractristiques (Caractriser, Tableau de
caractristiques), tablir des listes de modalits
spcifiques (Tableau de modalits spcifiques).
Ils obissent toujours au mme principe.
Comparer la distribution
observe une distribution de
rfrence
Ces calculs s'apparentent aux calculs effectus
2
pour le test du Chi . Il s'agit de mettre en vidence
des carts une rpartition de rfrence. On
procde en calculant un effectif thorique rpondant
une hypothse de rpartition proportionnelle des
lments tudis. L'cart la rfrence est mis en
vidence par le rapport entre l'effectif thorique et
celui qu'on observe :
si les 2 effectifs sont identiques, le rapport est gal
1, la rpartition est proportionnelle ;
si l'effectif rel est suprieur l'effectif thorique,
l'lment considr est sur-reprsent et le
rapport est suprieur 1 ;
si l'effectif rel est infrieur l'effectif thorique,
l'lment considr est sous-reprsent et le
rapport est infrieur 1.
La mthode de calcul
Si on note N le nombre total de mots dans le
corpus, m le mot utilis, c la catgorie considre,
Nm le nombre de fois o le mot m est utilis par
toutes les catgories confondues, Nc le nombre
total de mots dans la catgorie c et Ncm le nombre
de fois o le mot m est utilis dans la catgorie c,
lindicateur de spcificit est gal :
Ncm / (Nc * Nm / N)
40
Indicateur de spcificit
Tableau lexical
Effectif thorique
(hypothse de rpartition
proportionnelle)
Indicateur de
spcificit
Nb d occurrence du mot
toutes catgories (Nm)
Effectif
thorique
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
7. Comparer un lexique de
rfrence
La fonction Comparer, accessible par un des boutons de
commande de latelier lexical, permet deffectuer une
comparaison du lexique avec un dictionnaire de rfrence.
Le dictionnaire de rfrence est un ensemble de mots
assortis dune frquence.
Comparer le lexique du corpus tudi avec un dictionnaire
de rfrence, cest retrouver les mots qui sont surreprsents ou sous-reprsents dans le texte par rapport
cette rfrence.
Quelle rfrence ?
Un dictionnaire de rfrence peut tre gnral, par
exemple le lexique de tous les mots utiliss dans tous les
articles du journal Les Echos . On comparera une
coupure de presse cette rfrence pour mesurer si elle
est dans le ton.
Un dictionnaire de rfrence peut tre thmatique, par
exemple les verbes modaux dans lensemble des discours
dune personnalit politique. On comparera lutilisation de
ces verbes entre sa dernire prestation et lensemble de
ses discours.
42
Rsultats de la comparaison
Chacun des mots pourra tre :
dans le corpus mais pas dans la rfrence ;
dans la rfrence mais pas dans le corpus ;
sous-reprsent dans le corpus ;
sur-reprsent dans le corpus.
On cochera les lments souhaits dans le dialogue des
options.
Options de calcul
Le calcul qui permet de fonder la sur-reprsentation ou la
sous-reprsentation est le Rapport des frquences ou la
Comparaison de frquences.
Les frquences servant de base au calcul peuvent aussi
tre calcules de deux manires :
le pourcentage dapparition du mot par rapport
lensemble des mots concerns (corpus ou rfrence) ;
le pourcentage dapparition du mot par rapport
lensemble des mots communs au corpus et la
rfrence.
Ces diffrents modes de calcul ont dj t dcrits dans le
cadre des listes de mots spcifiques.
Limiter la comparaison
Comme dans les listes de mots spcifiques, le rsultat de
cette comparaison est trop volumineux et il faut limiter
cette comparaison pour nen restituer que lessentiel.
On limitera ainsi la comparaison aux seuls mots ayant une
frquence minimale n dans le corpus tudi.
On appliquera un seuil la comparaison pour ne restituer
que les lments vraiment sur-reprsents ou sousreprsents. On ne restituera que les n mots les plus
caractristiques.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
44
Codification
automatique
des textes
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
46
des expressions, on
suppressions
ou
on slectionne les
seront cres les
Dnomination et enregistrement
de la nouvelle variable
Le dialogue habituel de cration d'une nouvelle
variable s'affiche. La premire tape consiste
donner un nom cette variable. Pour la suite des
analyses, il est utile de noter toutes les indications
ncessaires afin de retrouver lorigine des nouvelles
variables ainsi cres. A cet effet, utiliser le cadre
prvu pour la description de la variable en notant les
principales tapes qui la dfinissent.
Transformer le texte
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Codification lexicale
Il s'agit de codifier le texte en reprant
automatiquement la prsence, dans les rponses,
des mots marqus dans le lexique. Cette mthode
est trs efficace si le lexique a t au pralable
correctement mis en forme : lemmatisation ou
regroupement des diffrentes formes dun mme
mot, regroupement des synonymes ou quivalents,
usage de dictionnaires thmatiques pour regrouper
entre eux tous les termes porteurs dune mme
signification.
Sous ces conditions, on peut faire lconomie de la
mthode classique danalyse de contenu (Voir
Coder des textes) dont les inconvnients sont
largement compenss par le caractre automatique
et objectif de la procdure qui suit.
La dmarche gnrale est la suivante :
prparer le lexique : analyser de prfrence un
corpus lemmatis et effectuer les groupements
ncessaires ;
marquer dans le lexique les lments que lon
souhaite reprer dans la rponse. Sil sagit de
termes regroups (lments commenant par un
#), la prsence dun au moins des lments du
groupe suffit pour identifier la prsence du thme
correspondant ;
agir sur le bouton Recoder et choisir Variable
ferme pour dfinir le type de variable crer.
48
Elments lexicaux
pris en compte
Plaisir de manger 12
Oui
Non
TOTAL OBS.
Plaisir de manger_R2
Non- rponse
manger
bon
repas
ami
got
plaisir
plat
faim
aliment
#famille
restaurant
table
Dveloppement
2005
TOTAL-OBS.
Nb. cit.
Frq.
236
74
310
76,1%
23,9%
100%
Nb. cit.
74
107
95
50
38
24
23
19
15
14
26
13
10
310
Frq.
23,9%
34,5%
30,6%
16,1%
12,3%
7,7%
7,4%
6,1%
4,8%
4,5%
8,4%
4,2%
3,2%
3. Mesures lexicales
Caractristiques des
observations
On prend en compte le lexique courant sans tenir compte
des mots marqus :
Longueur de l'observation : compter le nombre de
mots utiliss ;
Banalit de l'observation : calculer le nombre moyen
de fois o les mots de la rponse sont rpts dans tout
le corpus ;
Richesse de l'observation : calculer le nombre de mots
diffrents.
Pour construire ces indicateurs, on slectionne l'une des
mesure lexicales proposes.
50
Banalit de l'observation
Cet indicateur est gal au nombre de fois o les mots de
l'observation apparaissent en moyenne dans tout le
corpus. Cette variable permet ensuite de slectionner les
rponses les plus banales, les moins banales et de les
lister... Il est prfrable de calculer la banalit en ignorant
les mots outils.
Richesse de l'observation
Elle est gale au nombre de mots diffrents. Ce calcul ne
tient pas compte des mots marqus et se fait sur la base
des lments du lexique courant.
Mesures lexicales
Groupe
des variables de
chaque mot
Valeur
moyenne
Somme
0,37
0,34
0,17
0,09
0,08
0,08
0,08
0,06
0,05
0,05
0,04
0,03
0,12
115
105
53
29
26
24
24
20
15
14
13
10
448
manger_O
bon_O
repas_O
chose_O
#en_famille_O
got_O
plaisir_O
plat_O
faim_O
aliment_O
restaurant_O
table_O
Ensemble
Plaisir de manger__R
Frq.
Non- rponse
1
0,3%
Moins de 1,00
73 23,5%
De 1,00 2,00
104 33,5%
De 2,00 3,00
71 22,9%
De 3,00 4,00
38 12,3%
De 4,00 5,00
18
5,8%
Plus de 5,00
5
1,6%
TOTAL OBS.
310 100%
Minimum = 0, Maximum = 6
Somme = 458
Moyenne = 1,48 Ecart-type = 1,24
Intensit
Nb. cit.
Banalit
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Richesse
4. Modification du contenu
d'une variable texte
Comme on le fait quand on lemmatise un texte, il
sagit l de crer une nouvelle variable texte
contenant un texte modifi. Cette possibilit permet
:
denregistrer un nouveau texte en tenant compte
des rductions, suppressions et regroupements
oprs dans le lexique des mots ou des
expressions. Ceci est utile pour travailler ensuite
sur des textes rectifis ou expurgs ;
de changer le niveau danalyse dun texte en
fractionnant chaque observation en fragment de
texte plus fin.
52
Modifier le texte
Transformer en fonction des
mots
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
54
Texte initial
E
c
lTexte fractionn
a
t
e
r
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
56
Ouvrir un
fichier de
donnes
textuelles
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
58
Du texte
Variables de
contexte
Variables
textes
Questions
Rponses
Questions
Rponses
Identit de linterview
Statut du texte (question/rponse)
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
3 entretiens
24 rpliques
12 changes question/rponse
Ouvrir le fichier
Avec le dialogue habituel de Windows, cherchez
votre fichier et ouvrez-le. Une nouvelle fentre
apparat et vous montre le contenu du fichier. Si
vous ne reconnaissez pas vos donnes, vous vous
tes tromp de fichier ou ce n'est pas un fichier au
format texte.
L'ouverture ne se passera correctement que si le
fichier n'est pas utilis en mme temps dans un
autre logiciel.
60
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
3. Texte balis
On obtient par exemple un texte balis en extrayant des
lments d'une base de donnes ou en compilant un
ensemble de messages lectroniques. Ces donnes sont
en effet structures par les balises qui indiquent les
diffrentes rubriques. Toutes ne sont pas forcment
prsentes, mais chaque information est rattache l'une
d'elles.
A partir des balises, le logiciel peut organiser la nouvelle
base de donnes : il repre les balises dans le texte et les
soumet pour validation l'utilisateur. Puis il cre une
variable par balise, et parcourt le texte en affectant ce qui
suit chaque balise la variable correspondante. Lorsqu'il
rencontre nouveau une balise, il cre une nouvelle
observation.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Signaltique
Variables de
contexte
Parties de
linterview
Questions
Rponses
Variables
textes
5. Texte annot
On utilise cette approche lorsque le ou les textes
analyser sont faiblement structurs ou pas du tout. Se pose
alors la question du dcoupage en fragments lmentaires.
La dmarche la plus simple consiste s'appuyer sur la
structuration naturelle du texte. Enfin, la possibilit
d'interprter des annotations apportes dans le texte
permet d'en reprer les lments et/ou de les commenter.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
1/ Dcouper
2/ Structurer
Sparateur
Analyse de discours
On peut ramener ce cas celui de tout texte mono bloc
dans lequel aucune structuration particulire n'est mise en
vidence hors mis celle de la syntaxe.
La solution la mieux approprie consiste :
fragmenter le texte en phrases et dnombrer les
paragraphes. Chaque phrase se trouve ainsi affecte
un paragraphe repr par son numro. Pour cela,
slectionner Niveaux et entrer les caractres de
ponctuation forte dans la case de gauche et le retour
chariot dans la case de droite ;
dcouper le texte en 5 parties conscutives et de
longueur gale (en nombre de fragments). On peut ainsi
identifier des parties de dbut, de milieu et de fin du texte.
Pour cela, dans le dialogue Numrotation cocher
Numrotation des parties et Indicateur de partie : 5.
La base de donnes obtenue comporte la variable texte et
3 variables de contexte contenant le numro de fragment le
numro de paragraphe et de partie.
Pice de thtre
Ce cas peut se ramener au cas prcdent : on fait prcder
chaque
rplique
d'une
marque
Personnage
:
[M=Harpagon], [M=Elise]. En dbut de chaque Scne, on
pose un Jalon [J=Acte I Scne 1]..... Pour identifier les
Actes indpendamment les uns des autres, on peut utiliser
un sparateur de niveau en posant par exemple des $ au
dbut de chaque Acte.
La fragmentation peut se faire par phrases ou par
rpliques. Dans ce dernier cas, faire concider la rplique et
le paragraphe ou introduisez un niveau rplique.
Annotations
Jalons
acte et scne
liste des
personnages
prsents
Marques
nom du personnage
didascalies
O(texte)
O(texte)
F(unique)
F(unique)
O(numrique)
O(numrique)
F(multiples;11)
Mthodologie
Microsoft Word
propose des options de
recherche gnriques
ou par attributs
10
Etudes de cas
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
12
produits
Non rponse
281 46,9%
ptes
Knackis
157 26,2%
76 12,7%
jambon
32 5,3%
lardon
26 4,3%
5,3%
4,3%
pte_feuillete
pte_pizza
23 3,8%
21 3,5%
3,5%
pte_brise
18 3,0%
cervelas
Total
8 1,3%
46,9%
26,2%
12,7%
3,8%
3,0%
1,3%
599
conservation
DLC
jambon
pte_pizza
Knackis
allergies
ptes
pte_brise
pte_feuillete
lardon
recettes
cervelas
Exemples :
n 110 Ce consommateur trouve notre Poitrine Fume par 3 ou 4
trop paisse pour barder une volaille ou mme pour manger avec
des oeufs. Nous suggre de faire des tranches de 4mm et en
mettre 5 par paquet et est certain que l'on ratisserait de la
clientle
n 379 Bravo pour votre kit pizza. Cette exprienc e me permet de
faire une suggestion. Pourquoi ne pas faire de pte feuillete
comme les kit pizza , cela serait plus conforme la plaque du four,
faciliterait la dcoupe soit avec des ciseaux soit la roulette
n 431 "sur l'emballage, il y a marqu ""pensez sortir votre pte
du rfrigrateur 20 min avant utilisation"" mais c'est l'intrieur de
l'emballage et on ne peut pas le lire avant d'avoir ouvert
l'emballage elle suggre de le marquer l'extrieur"
n 439 Il est marqu 4 recettes l'intrieur, pou rquoi ne pas les
faire figurer l'extrieur, c'est bien plus simple lorsque l'on fait ses
courses pour connatre les ingrdients acheter. Moi, je viens de
rentrer de mes courses, j'ouvre la pte, et je m'aperois que je n'ai
pas tous les ingrdients, et qu'il faut que je ressorte acheter ce qu'il
me manque ! Cela m'agace et c'est pourquoi, je vous fais cette
suggestion.
n 489 je suggre que soit not sur les emballages de pte quel
moule cela correspond
Mthodologies
rsultats :
utilises
pour
le
traitement
des
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Identification du territoire de
communication dune marque
Contexte gnral et objectifs du projet :
- trouver un territoire de communication pour un
transporteur (nouvelle gamme de produits) face aux
concurrents
- peu dinformation interne chez notre client et budget limit
- donner une allure spectaculaire aux rsultats, pour
dynamiser une prsentation aux forces de vente
=> do mthodologie par analyse textuelle des
concurrents : leurs plaquettes papiers et leurs sites Internet
Description de l'tude ou de l'application :
Objectif : trouver un territoire de communication pour un
transporteur (nouvelle gamme de produits) face aux
concurrents
Mthodologie :
Premire tape : saisie complte du contenu des
plaquettes (scan + OCR) + Capture des textes des pages
web (automatique ou copier-coller)
Deuxime tape : analyse lexicale
Univers analys :
Plaquettes : ABX Logistics - Darfeuille - Exapaq - Gefco Geodis Calberson - Jet Services - Joyau - Mory - Norbert
Dentressangle
Web : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis
Calberson - Jet Services - Joyau - Mory - Norbert
Dentressangle - Extand - Graveleau
Un grand thme absent = le positionnement que le
consultant va recommander son client
14
3. Cas Ovale
Analyse comparative des sites concurrents
En janvier 2004, nous avons rcupr le contenu complet
des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale
et Onvista. Nous constatons des structures trs similaires,
comme nous le voyons dans le tableau ci-dessous ; avec
pour toutes les entreprises tudies, des espaces
consacrs la philosophie/culture de lentreprise, aux
produits, aux actionnaires/investisseurs, aux fournisseurs
et parfois au sponsoring sportif. Une revue de presse est
systmatiquement disponible. Pour les cinq entreprises, il
sagit trs nettement de sites dits institutionnels .
Site
www.meyer.com
www.fidel.com
www.odense.com
www.ovale.com
www.onvista.com
Nombre total
de mots
Mot le plus
frquent
Frquence de
ce mot
Nombre de
mots
diffrents
Rptition
moyenne
Ovale
37 874
Fidel
31 064
Odense
31 313
Meyer
10 053
Onvista
39 306
ovale
fidel
odense
meyer
onvista
1 390
968
849
349
1 415
5 820
5 236
4 969
(2 652)
5 809
(15,4%) (16,9%) (15,9%) (26,3%) (14,8%)
6,51
5,93
6,30
Poids des
51.1%
48.4%
55.3%
1083 mots
communs
Nombre de
2 170
1 490
1 464
mots exclusifs (14.6%) (11.5%) (13.0%)
Fidel Odense
Recouvrement Ovale
des corpus
Ovale
*
72.5%
76.9%
Fidel
70.5%
*
75.7%
Odense
71.2%
70.3%
*
Meyer
58.3%
54.4%
62.8%
Onvista
77.3%
81.1%
77.7%
(3,79)
6,77
63.4%
51.8%
514
(9.7%)
Meyer
1 842
(9.5%)
Onvista
77.5%
74.7%
76.2%
*
80.7%
79.7%
79.1%
73.0%
58.1%
*
1. Ovale
2. Onvista
3. Meyer
4. Fidel
5. Odense
Total
Nb citations
marque
1 202
1 168
270
724
625
Corpus
37 874
39 306
10 053
31 064
31 313
149 610
Frquence
marque
3,17%
2,97%
2,68%
2,33%
1,99%
Ovale.com
Fidel.com
Odense.com
Meyer.com
Onvista.com
Fidel
Odense
Meyer
Onvista
product
23.9%
25.0%
27.2%
4.7%
19.1%
development
26.6%
9.4%
29.4%
9.1%
25.4%
environment
19.5%
13.3%
50.0%
3.2%
14.0%
technology
20.4%
21.3%
22.4%
4.5%
31.4%
new
21.3%
15.0%
23.2%
11.7%
28.8%
customer
15.3%
20.3%
10.4%
8.1%
46.0%
services
44.8%
9.5%
8.9%
4.9%
31.9%
performance
19.1%
29.9%
9.6%
4.2%
37.3%
suppliers
33.6%
8.8%
13.4%
8.5%
35.7%
quality
34.8%
12.0%
10.1%
8.0%
35.1%
power
20.8%
38.9%
14.0%
3.0%
23.4%
design
18.7%
22.3%
11.7%
3.9%
43.5%
technical
67.3%
9.9%
4.9%
5.3%
12.7%
employees
21.3%
14.5%
25.5%
4.3%
34.5%
safety
29.3%
29.8%
19.2%
5.8%
15.9%
efficiency
22.2%
16.3%
24.6%
6.9%
30.0%
consumer
7.9%
18.0%
4.5%
0.0%
69.7%
35.2%
shareholders
42.8%
2.5%
19.5%
0.0%
international
31.2%
14.2%
22.7%
13.5%
18.4%
aftermarket
50.8%
5.1%
1.7%
0.8%
41.5%
investment
11.5%
4.9%
37.7%
6.6%
39.3%
cockpit
19.3%
40.1%
4.4%
9.4%
26.8%
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
cockpit
power
performance
customer
design
technology
Onvista
investment
product
employees
new
Axe 1 (41.1%)
Meyer
development
international
quality
services
Ovale
shareholders
aftermarket
technical
environment
efficiency
safety
suppliers
Odense
0,07%
0,06%
Innovation
0,15%
0,05%
0,05%
0,01%
0,01%
New tech.
0,00%
0,00%
0,03%
0,05%
0,02%
Advanced tech.
0,01%
0,00%
0,01%
0,05%
0,00%
Total
0,47%
0,32%
0,22%
0,22%
0,22%
0,06%
0,02%
0,01%
0,31%
Parmi ces 6 termes identifis, comme on peut le voir sur la carte factorielle ci-aprs, chaque firme a ses particularits ou
ses prfrences :
Odense se distingue trs nettement par lemploi de new technologies ou advanced technologies ,
Onvista se concentre trs nettement sur innovations au pluriel,
Ovale et Fidel privilgient innovation et innovative ,
Meyer utilise plus volontiers research .
Innovation x Firm (nb. Citations)
Ovale
Onvista
Fidel
Odense
Meyer
Total
107
Innovation
55
20
14
3
1
96
93
New tech.
1
1
9
15
2
Advanced tech.
2
1
2
17
0
28
22
465
Advanced tech.
Research
Odense
Onvista
Innovation
Innovations
Ovale
Meyer
Fidel
New tech.
Total
179
127
69
68
22
tools
10
9
7
7
6
5
4
4
4
4
3
3
3
pivot -2 -1
64 mots-117 occ
onvista
corporate
office
audio
feature
story
concepts
deliver
develop
digital
electronics
19
5
5
4
4
4
3
3
3
3
3
pivot +1 +2
115 mots-198 occ
home
solutions
vehicle
center
driving
fuel
high
products
wireless
application
continues
deliver
electronics
enjoyment
find
help
kerpen
quickly
systems
technologies
6
6
6
5
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3
Axe 2 (28.2%)
fields
efforts
automakers
communications
energy
costs
new_technologies
growth
sales
research
car
markets important new_ways
year
capabilities
environmental
components
cabin engine
Behrintegrated
meet
further create
continues
moresafety
products
four
future
air_conditioning
Delphi
module
consumer
company
high
production
manufacturing
air
help
automotive
comfort only
applications
developed
working
ford audio
visteon_innovations
market
performance
experience
today
fuel
offer
deliver
manufacturers
cost right
employees
group
concept
voice
excellence
best
engineering
consumers
engineers
while
bass
features Visteon
said
tm
satellite_radio
service
teams
innovations
vehicle
design
range
Valeo
Axe 1 (36.7%)
international
technical latest
electrical
project
light approach
engine_cooling
category equip_auto
prize
discover
billion
Denso
area
wiper
aftermarket
Les lexiques
Lexique brut
Lemmatis
Les substantifs
Les verbes
je
1182
maison
355
maison
354
maison
354
acheter
350
653
enfants
286
acheter
350
voyage
310
faire
296
de
613
voiture
198
voyage
310
enfant
259
placer
195
une
566
voyage
192
faire
297
voiture
194
donner
187
en
464
ferais
182
enfant
264
argent
118
voyager
148
412
voyages
158
placer
230
famille
117
aider
122
le
385
achterais
150
voiture
194
monde
81
partir
91
des
362
famille
122
donner
187
don
75
travailler
91
un
362
argent
118
voyager
148
placement
71
profiter
81
maison
355
acheter
115
aider
122
appartement
65
investir
76
enfants
286
donnerais
113
argent
118
reste
65
mettre
71
la
286
placerais
111
famille
117
association
57
changer
63
pour
280
faire
107
partir
91
immobilier
55
aller
59
257
reste
97
travailler
91
partie
54
arrter
58
mes
244
monde
95
monde
81
oeuvre
51
amliorer
48
les
240
placer
84
profiter
81
vie
49
prendre
38
et
208
travailler
79
investir
76
tour
45
vivre
37
voiture
198
vacances
79
don
75
vacance
43
partager
36
dans
194
achte
69
immobilier
74
achat
41
payer
33
voyage
192
voyagerais
68
beau
72
loisir
39
rester
33
ferais
182
immobilier
67
mettre
71
besoin
36
pargner
32
voyages
158
partie
64
placement
71
placer
35
avoir_besoin 30
ma
156
vie
64
appartement
65
gens
34
pouvoir
28
achterais
150
dons
62
reste
65
ami
33
dpenser
27
aux
137
aider
61
changer
63
cadeau
33
distribuer
26
famille
122
ct
61
aller
59
plaisir
33
faire_plaisir
26
pas
120
appartement
58
arrter
58
cancer
27
garder
26
argent
118
profiter
58
association
57
enfants
24
faire_le_tour
25
5
Substantifs selon le sexe
Homme
Femme
Homme
Femme
maison
126
211
37.4%
62.6%
acheter
135
191
41.4%
58.6%
voyage
104
205
33.7%
66.3%
faire
116
141
45.1%
54.9%
enfant
84
162
34.1%
65.9%
placer
91
101
47.4%
voiture
82
111
42.5%
57.5%
donner
57
114
argent
43
73
37.1%
62.9%
voyager
70
77
famille
48
68
41.4%
58.6%
aider
40
71
36.0%
64.0%
partir
34
56
37.8%
62.2%
travailler
53
37
58.9%
41.1%
profiter
43
36
54.4%
45.6%
monde
41
39
don
30
40
placement
38
31
51.3%
42.9%
55.1%
48.8%
57.1%
44.9%
33.3%
47.6%
52.6%
66.7%
52.4%
appartement
23
40
36.5%
63.5%
investir
46
30
association
21
35
37.5%
62.5%
mettre
26
45
immobilier
31
24
changer
29
32
oeuvre
18
33
aller
30
24
55.6%
vie
25
23
52.1%
47.9%
arrter
33
25
56.9%
tour
27
18
60%
40%
amliorer
19
29
vacance
22
21
prendre
20
17
achat
14
23
vivre
17
19
loisir
19
20
partager
10
26
besoin
13
23
36.1%
63.9%
payer
11
21
gens
14
20
41.2%
58.8%
rester
19
13
ami
11
22
pargner
13
18
cadeau
13
20
avoir_besoin
10
20
33.3%
66.7%
plaisir
10
23
30.3%
69.7%
pouvoir
17
34.6%
65.4%
cancer
20
25.9%
74.1%
dpenser
15
12
enfants
15
37.5%
62.5%
distribuer
17
34.6%
65.4%
33.3%
66.7%
faire_plaisir
18
30.8%
69.2%
garder
16
36%
64%
16
pauvre
15
banque
11
11
pays
13
logement
56.4%
35.3%
51.2%
37.8%
48.7%
33.3%
39.4%
65.2%
43.6%
64.7%
48.8%
62.2%
51.3%
66.7%
60.6%
34.8%
50%
50%
faire_le_tour
13
12
59.1%
40.9%
essayer
14
60.5%
36.6%
47.5%
39.6%
54.1%
47.2%
27.8%
34.4%
59.4%
41.9%
55.6%
39.5%
63.4%
52.5%
44.4%
43.1%
60.4%
45.9%
52.8%
72.2%
65.6%
40.6%
58.1%
44.4%
52%
48%
60.9%
39.1%
6
p = <0.1% ; chi2 = 741.32 ; ddl = 196 (TS)
Axe 2 (13.7%)
prendre
vacance
vie
travailler
changer
vivre
amliorer
gens
payer
humanitaire
famille
arrter
placement
achat
35-49
aller
autour_de
don
immobilier
profiter
50-64
aider
voyager
enfant
maison
oeuvre
reste
ami
donner
association
partager
investir
25-34
faire
partie
voyage
monde
65+
loisir
acheter
tour
argent
Axe 1 (72.2%)
placer
voiture
en_vacances
de_ct
beau
cadeau
besoin
partir
mettre
petit
18-24
un_peu
appartement
Longuer X Richesse
Longueur x Banalit
Moyenne
Moyenne
LONGUEUR
8.47
LONGUEUR
RICHESSE
8.22
BANALITE
Total
8.34
Total
Banalit x Richesse
Moyenne
8.47
BANALITE
109.53
RICHESSE
Total
58.92
r = + 0.99 (TS)
r = - 0.25 (NS)
r = - 0.26 (NS)
RICHESSE
BANALITE
RICHESSE
109.53
8.22
58.80
LONGUEUR
Moyenne = 8.47
Mdiane = 8.00
Min = 0.00 Max = 19.00
- NS
Axe 2 (29.4%)
BANALITE
Moyenne = 109.53
Mdiane = 103.30
Min = 2.50 Max = 354.00
LONGUEUR RICHESSE
+ TS
BANALITE
- NS
LONGUEUR
RICHESSE
Moyenne = 8.22
Mdiane = 8.00
Min = 0.00 Max = 19.00
BANALITE
LONGUEUR
RICHESSE
Axe 1 (70.3%)
BANALITE
Commerant, artisan
9.32
9.15
98.85
Employs
8.91
8.64
113.40
Cadre.Prof.Intell. Sup.
8.55
8.33
103.05
Prof.Intermdiares
8.38
8.18
104.76
Retraits
8.34
8.07
101.51
Inactifs, Autre
8.27
8.07
110.42
Ouvriers
7.86
7.60
125.10
Agriculteurs
7.34
7.13
110.70
Total
8.47
8.22
109.53
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Analyse de contenu
Le code-book prpar dans Sphinx permet dindustrialiser le travail de lecture . Cette une approche alternative
lanalyse lexicale. Elle a le mrite de reposer sur une lecture intelligente (mais peut tre biaise) et de reposer sur une
rflexion modlisatrice pralable.
TUBES
Effectif de la catgorie
100
AUTRES
100
24704
23965
Longueur moyenne
247.04
239.65
Nb de mots diffrents
3557
3980
Nombre d'hapax
1484
1788
Rptition corpus
6.95
6.02
Frquence maximum
655
696
TUBES
de
2411
50.8%
49.2%
Rptition de la chanson
2.33
2.15
AUTRES
Total
de
1988
2.24
5 premiers segments
rpts
des_petits_trous
Ne_me_quitte_pas
30
23
0
0
30
23
Y_a_pas_de_honte
23
23
tout_le_monde
2
18
0
16
Unis_vers_l_uni
TOTAL des segments
cits au moins 10 fois
220
18
18
100
320
TUBES
AUTRES
Intensit de JE Intensit de TU
2.70
0.86
1.83
0.69
Total
2.26
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
0.78
aimer
parler
chanter
pleurer
regarder
connatre
danser
tomber
TUBES AUTRES
43
32
25
22
19
17
8
15
5
12
12
12
11
15
7
15
(extrait)
Rimes en a
Rimes en i
TUBES
284
AUTRES TOTAL
198
122
201
482
Rimes en in
79
114
70
184
Rimes en an
104
43
147
Rimes en our
86
39
125
Rimes en o
40
35
75
Rime en ar
38
70
Rimes en ou
32
45
23
68
Rimes en re
Rime en me
32
52
33
10
65
62
Bibliographie
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
smiotique
du
discours
VIARD V. : Statistiques
(ECONOMICA 1985)
appliques
la
gestion
analysis
(SAGE