Professional Documents
Culture Documents
Rpublique Tunisienne
Ministre de lEnseignement Suprieur
NTSID
Universit de Sfax
cole Nationale dIngnieurs de Sfax
Mmoire de MASTERE
N dordre:
MEMOIRE
prsent
MASTERE
Dans la discipline Gnie lectrique et Informatique
Nouvelles Technologies des Systmes Informatiques Ddis
par
Hla FEHRI
(Matrise en Informatique Appliqu la Gestion)
Mohamed JMAIEL
M.
Bilel GARGOURI
M.
Kais HADDAR
Prsident
Membre
Encadreur
Ddicaces
REMERCIEMENTS
qui m a tmoign sa
Table de figures
Figure 1.1. Echantillon du Morphalou ... 11
Figure 1.2. Ajout dun nouveau lexique .
12
13
15
17
18
20
24
27
28
29
29
30
32
33
33
34
34
35
36
Hla Fehri
41
43
44
45
46
48
50
58
59
65
Figure 4.7. Extraction dun fragment xml dune entre lexicale ...
66
68
Figure 4.9. Extraction du fichier reprsentant les schmes des formes drives ... 70
Figure 4.10. Exemple des verbes dune mme entre lexicale ...
71
72
73
78
81
82
II
Hla Fehri
89
90
91
92
93
94
95
98
III
99
Introduction gnrale
Un langage donn ne peut pas exister sans lexique riche. Pour cela, l'analyse descriptive de ce
lexique, discern comme matire structure ou structurable, devient un facteur prioritaire et
basique pour toutes les applications qui ont pour objet le langage naturel. En effet, le lexique
n'est pas une matire inerte mais dynamique, qui change sans cesse. En plus, il est le premier
"rcipient" de la grammaire d'une langue vu que les mots peuvent tre subdiviss et flchis.
La communaut du traitement automatique des langues (TAL) a propos un ensemble de
lexiques. Selon leur usage, nous pouvons distinguer diffrents types [14], [35]. Parmi
lesquels, nous pouvons citer : les lexiques morphologiques qui servent entre autre
ltiquetage (puis la dsambigusation), la lemmatisation et la correction. Nous trouvons
aussi les lexiques grammaires qui se basent sur la sous catgorisation syntaxique (i.e.,
constituants, dpendances) et les thsaurus qui sont utiliss pour la rsolution automatique
danaphores nominales, pour la recherche dinformations et lextraction des termes et des
concepts.
Du fait de la diversit des lexiques, lchange des donnes nest pas une tche trs facile,
surtout entre des lexiques de familles diffrentes. La fusion des dictionnaires reste une
opration trs complexe. Un autre problme rside lors de la construction du lexique luimme. En effet, pour construire une entre du dictionnaire, le lexicographe doit rechercher les
diffrents
usages
de
lentre
donne.
Il
ne
peut
pas
se
contenter
de
son
intuition linguistique. De plus, la construction doutil pour le lexique pose des problmes
informatiques forts du fait de la masse des informations construire. En outre, la modification
de la structure du dictionnaire, afin de mieux prendre en compte certains phnomnes qui ont
t mal valus ou sous-estims, peut se traduire par un changement des interfaces dont
dispose le lexicographe et par une modification des ventuels outils de vrifications
automatiques de cohrence.
Plusieurs chercheurs dans le domaine de linformatique linguistique ont propos des
lexiques grammaires HPSG dans le cadre de diffrentes applications telles que lanalyse
syntaxique dune langue naturelle et la construction dun dictionnaire lectronique [3], [6],
[8], [31]. Lvaluation et la rcupration des rsultats fournis par ces applications ne sont pas
des tches faciles car celles-ci nutilisent pas gnralement des ressources lexicales
normalises telles que le lexique. En outre, les ressources utilises peuvent contenir des
catgories de donnes diffrentes. De ce fait, des langages pivots sont ncessaires afin de
faciliter la cration de telles ressources utilisant des mcanismes de fusion ou
dinteroprabilit. Il sagira donc ventuellement de choisir une norme de reprsentation et
Hla Fehri
Hla Fehri
dans LMF. Nous prsentons aussi dans ce chapitre lalgorithme de base de la projection
proprement dite qui inclut plusieurs cas discuter. Enfin, nous donnons un exemple illustrant
les diffrentes tapes de la dmarche propose.
Le cinquime chapitre est consacr la ralisation informatique tout en suivant la
dmarche dcrite dans la partie prcdente. Nous prsentons dans un premier temps
larchitecture gnrale du prototype ralis. Nous passons par la suite la conception et
limplmentation de ce dernier. Nous choisissons pour ce faire le langage UML pour la
conception et la modlisation objet du prototype et le langage JAVA pour limplmentation
qui va permettre de valider les ides proposes.
Ce travail sera cltur par une conclusion et des perspectives qui sont actuellement en
cours et dautres qui peuvent tre raliss ultrieurement.
Chapitre 1
Chapitre 3 :
Etat de lart
Hla Fehri
Le prsent chapitre est ddi la prsentation de quelques travaux en faveur de lchange des
rsultats, des lexiques et des ressources linguistiques faites par diffrentes communauts de
recherche adoptant des formalismes linguistiques diffrents. Ces travaux sont intresss par
la proposition des normes concernant la reprsentation des lexiques ou bien par le traitement
de la traduction dun formalisme linguistique vers un autre.
Nous dbutons ce chapitre en donnant un aperu sur les lexiques HPSG arabes existants.
Ensuite, nous dtaillons le concept de la normalisation en prsentant quelques normes
existantes et des travaux qui en dcoulent. Enfin, nous donnons une ide sur quelques travaux
qui sintressent la traduction dun formalisme vers un autre.
Hla Fehri
certain nombre de traits dans un lexique mais non dans un autre. De plus, ces lexiques
peuvent exister sous diffrents formats (i.e., xml, binaire) ce qui fait de leur rcupration une
tche plus dlicate.
En consquence et afin de raliser la rutilisation de telles ressources ainsi que leur fusion
et davoir des catgories de donnes standardises, le besoin de la normalisation devient de
plus en plus ncessaire.
2. Normalisation
La normalisation est une activit collective visant trouver des solutions pour des situations
rptitives par le biais de normes. Toute norme est conue comme un ensemble de
spcifications techniques qui doivent tre respectes afin de garantir le plus haut niveau de
qualit des activits et des produits. Elle est labore en collaboration et avec le consensus de
tous les intresss et elle est approuve par un organisme (i.e., ISO, OMG) qualifi sur le plan
national, rgional ou international.
Hla Fehri
la varit des approches : Ces approches diffrent dans le nombre et la nature des
descripteurs utiliss ou encore dans lorganisation mme des donnes correspondantes
(ex. annotation syntaxique hirarchique ou base de relations de dpendances) ;
Ces diffrents aspects poussent dfendre la normalisation qui nimpose pas de format
particulier de reprsentation, mais mne au contraire la dfinition des plate-formes de
spcification de tels formats.
Hla Fehri
Hla Fehri
catgories de donnes. Ce sont soit des noms d'attribut comme /grammatical gender/
soit des valeurs comme /feminine/. Chaque constante possde un identifiant unique,
des noms d'affichage plurilingues et des dfinitions plurilingues. Ce registre est
soumis un ensemble de rgles dcrites dans la rvision de l'ISO-12620. Le logiciel
qui gre la base de donnes a t dvelopp par l'quipe Syntax du Loria. Le DCR est
actuellement hberg par l'INIST-CNRS.
des normes de haut niveau qui se fondent sur les normes de bas niveau et qui
spcifient les structures. Il s'agit de spcifier les meilleures pratiques du domaine et de
couvrir la majorit des situations relles. Ces structures (quelque fois appeles mtamodles) sont constitues des lments importants et des liens d'association qui les
relient. Mais la liste des attributs de chaque lment n'est pas dcrite. Le document
normatif spcifie que tel lment est destin tel usage et non tel autre. Chaque
lment doit tre dcor par des couples attributs-valeur prendre obligatoirement
dans le registre de catgorie de donnes. Ces normes sont TMF [36], [37], LMF et
MAF. La premire (i.e. TMF pour Terminological Markup Framework ISO-16642)
traite des terminologies dentreprise quelles soient monolingues ou multilingues. La
seconde (i.e. LMF pour Lexical Markup Framework ISO-24613) couvre les
dictionnaires dans une large mesure, que ce soient les lexiques destins au traitement
automatique du langage ou bien les bases de donnes ditoriales servant de support de
traduction aux grandes administrations. La troisime norme (i.e. MAF pour Morphosyntactic Annotation Framework ISO-24611) traite de lannotation des corpus que
celle-ci soit effectue par un tre humain ou bien par un programme. Dans la mesure
o ces trois normes de haut niveau changent les mmes constantes et quelles sont
dfinies en XML, linteroprabilit entre elles est trs forte.
Les normes de haut niveau sont proches des utilisateurs puisquelles enregistrent les pratiques
des experts, alors que les normes de bas niveau sont plus du domaine de la "tuyauterie". Mais
les unes ne vont pas sans les autres.
Hla Fehri
2.3.1. Morphalou
Les enjeux derrire le dveloppement dune telle ressource [30] et [40] sont de deux
ordres : garantir une large couverture et validit linguistique rendant crdible le projet vis-vis des communauts intresses et proposer une structure cohrente et bien documente afin
dassurer la prennit des donnes correspondantes. Le projet sorganise autour de deux sites
complmentaires : lATILF qui apporte les donnes et la comptence linguistique, et le
LORIA qui apporte son exprience en matire de manipulation de documents semi-structurs
et de normalisation des ressources linguistiques.
Lobjectif initial la cration dun lexique morphologique normalis, cest--dire document
et sintgrant aux travaux de normalisation en cours au niveau national (RNIL) et
international (ISO/TC 34/SC 4) a t ralis courant 2004. Morphalou sert, entre autre, dans
un projet de dictionnaire franais-estonien (INALCO, Paris), dans le dveloppement dun
analyseur syntaxique (Loria, Nancy) et dans la description des proprits flexionnelles des
entres dun dictionnaire de franais qubcois (projet Franqus, Sherbrooke, Canada).
Morphalou traite la variation morphologique, orthographique et flexionnelle au niveau du
lemme ainsi que la variation (accidentelle) pour une forme flchie. Il traite aussi la
fminisation bien que la porte dune telle information dpasse le cadre strict dun lexique
morphologique flexionnel. Pour l'instant, Morphalou ne contient aucune forme compose,
qu'elle soit graphiquement marque ou non (pomme de terre, parce que, fait-tout). Par
ailleurs, le lexique ne comprend ni noms propres (Paris, Matignon), ni abrviations (ONU,
C.R.S.). La figure 1.1 reprsente un chantillon du Morphalou.
<lexicalEntry
lemma="lexique"
grammaticalCategory="commonNoun"
grammaticalGender="masculine" >
<inflectionGroup>
<inflection
orthography="lexique"
grammaticalNumber="singular" />
<inflection
orthography="lexiques"
grammaticalNumber="plural" />
</inflectionGroup>
</lexicalEntry>
<lexicalEntry
lemma="morphologique"
grammaticalCategory="adjective" >
<inflectionGroup>
<inflection
orthography="morphologique"
grammaticalGender="masculine"
grammaticalNumber="singular" />
10
Hla Fehri
<inflection
orthography="morphologique"
grammaticalGender="feminine"
grammaticalNumber="singular" />
<inflection
orthography="morphologiques"
grammaticalGender="masculine"
grammaticalNumber="plural" />
<inflection
orthography="morphologiques"
grammaticalGender="feminine"
grammaticalNumber="plural" />
</inflectionGroup>
</lexicalEntry>
Lchantillon illustr dans la figure 1.1 dcrit le squelette structurel du lexique Morphalou
qui comprend comme lments /LexicalEntry/, /InlectionGroup/ et /Inflection/. Le premier
reprsente un lemme catgorie grammaticale unique. Ce choix implique la cration de deux
entres pour des formes identiques catgorie distincte. Le deuxime regroupe toutes les
informations flexionnelles relatives un et un seul paradigme flexionnel. Le troisime
correspond une forme d'occurrence du lemme. Il existe au moins une forme flchie par
entre. Cela implique en particulier de considrer la forme d'occurrence des invariables
(adverbe, interjection, etc.) comme une forme flexionnelle. Les catgories de donnes
reprsentes dans la figure 1.1 relatives une entre lexicale sont /lemma/,
/grammaticalCategory/ et /grammaticalGender/ et celles qui sont associes une forme
flchie sont /orthography/, /grammaticalGender/ et /grammaticalNumber/.
2.3.2. LEXUS
Dans ce paragraphe, nous allons prsenter un systme qui se base sur la future norme LMF
baptise LEXUS [26].
LEXUS est un outil de cration de bases de donnes lexicales. Il est utilis surtout par les
psycholinguistes de Nimgue Hollande. En effet, il aide les linguistes travailler avec un
corpus dune langue donne. LEXUS qui est bas sur la plate-forme LMF est compatible avec
plusieurs autres logiciels ; il peut servir comme administrateur de logiciel de lexiques et
permet de convertir et dunifier des lexiques.
Parmi les fonctions fournies par LEXUS, nous pouvons citer celles permettant la cration
dun nouveau lexique ou dune nouvelle catgorie de donnes, permettant lajout dune
11
Hla Fehri
Comme lillustre la figure 1.2, lutilisateur de ce systme doit tout dabord, choisir le menu
Lexical Resource et activer la commande New afin dajouter un nouveau lexique.
Ensuite, il doit entrer le nom du lexique accompagn dune description courte. Enfin, il
enregistre les nouvelles informations saisies en cliquant sur le bouton Save.
En conclusion, bien que le systme LEXUS permette la cration des bases de donnes
lexicales standardises, il nintgre pas un vrificateur de contraintes lexicales de la langue
traite.
2.3.3. ArabicLDB
Le systme ArabicLDB [27] comporte essentiellement une base de donnes lexicale qui a t
effectue dans le cadre dun projet de coopration entre le laboratoire MIRACL, lunit de
recherche LSCA et le laboratoire Loria / INRIA. Cette base est conforme la future norme
LMF dans sa version actuelle (rvision de Mars 2006). Quant sa ralisation, elle est
effectue en XML avec un gestionnaire conu en JAVA. En outre, ArabicLDB est dote dun
conjugueur des verbes sur un processus de calcul des formes flchies. En effet, elle comporte
tous les paradigmes de flexion verbales (259) formes qui couvrent plus de 16000 entres
lexicales verbales. La figure 1.3 illustre la conjugaison du verbe " "suivant ArabicLDB.
12
Hla Fehri
En conclusion, bien quArabicLDB soit conforme la future norme ISO 24613, son travail
sest limit au niveau morphologique. Ainsi, il manque les autres niveaux : syntaxique, et
smantique. En outre, il na trait que les verbes conjugables : il reste traiter les verbes semi
conjugables et non conjugables.
Hla Fehri
formalisme LTAG, vers la grammaire HPSG. Vu que LTAG est bas sur un ensemble fini
darbres lmentaires et sur deux oprations : ladjonction et la substitution, lalgorithme de
conversion utilis est bas sur deux grandes parties : la conversion des arbres lmentaires
vers des entres lexicales en HPSG et la ralisation de la substitution et de ladjonction par
des rgles grammaticales pr-dtermines.
Ainsi, la premire partie de cet algorithme consiste dfinir les arbres lmentaires
canoniques et trouver pour chacun lentre lexicale correspondante en HPSG sachant quun
arbre lmentaire canonique doit satisfaire les deux conditions suivantes :
Condition 1 : Un arbre a seulement une ancre.
Condition 2 : Chaque structure du branchement dans un arbre contient des nuds du tronc.
Notons que les arbres lmentaires non canoniques doivent tre tout dabord transforms
en arbres lmentaires canoniques avant dtre convertis en des entres lexicales en HPSG en
utilisant lalgorithme correspondant. La figure 1.4 donne une ide sur les arbres lmentaires
canoniques et ceux qui ne sont pas canoniques.
Le premier arbre 1) de la figure 1.4 est un arbre lmentaire canonique. Les deux autres ne
le sont pas ; en effet, le deuxime 2) ne vrifie pas la condition 1 puisquil admet plus dun
nud ancr (look et for) par contre, le troisime 3) ne satisfait pas la condition 2 vu quil
admet un sous-arbre ne possdant aucun nud ancr. Dans ce qui suit, on va dtailler la
conversion des arbres lmentaires canoniques vers des entres HPSG.
3.1.1. Conversion des arbres lmentaires canoniques
La conversion des arbres lmentaires canoniques se fait directement en utilisant la procdure
convert_tree_into_lexical_entry illustre dans la figure 1.5 et dtaille dans [41].
14
Hla Fehri
procedure convert_tree_into_lexical_entry(T)
begin
arg:= []
for i := 1 to depth(T) 1
ni-1:= trunk(T, i -1)
li := leaf(T, i)
di := direct (T, i)
ti := type (T, i)
bi := (ni-1, li, di, ti)
arg := [bi] arg
end for
L := (n depth(T) - 1, arg)
return L;
end
depth: returns the depth of the anchor.
trunk: returns the symbol of the trunk node.
leaf: returns the side of the leaf node at depth i.
direct: returns the side of the trunk node for the node at depth i.
type: returns the type of the leaf node at depth i.
Figure 1.5. Conversion des arbres lmentaires canoniques vers des entres en HPSG
Dans cette procdure, Arg reprsente un tas de branchements bi dcrit par le quadruplet <ni-1,
li, di, ti> le long du tronc. Le paramtre ni-1 reprsente le noeud mre ni du noeud tronc. Les
paramtres li, di et ti reprsentent respectivement le noeud feuille une profondeur i, sa
direction relative au tronc ni et son type (sil est un nud pied ou un noeud de substitution).
Une fois la conversion des arbres lmentaires canoniques faite, on passe lapplication des
rgles dadjonction et de substitution illustres respectivement dans les figures 1.6 et 1.7 pour
obtenir lquivalent de LTAG en HPSG.
15
Hla Fehri
celle du nud feuille du nud tronc. Cette rgle permet lunification des valeurs du trait Arg
du nud tronc avec les valeurs du trait Arg du nud mre afin de poursuivre la construction
de larbre.
Dans la rgle dadjonction, la valeur du trait Sym du nud pied doit tre identique celle
du nud feuille du nud tronc. La concatnation des valeurs des traits Arg du nud pied et
des lments de la queue du tronc constitue la valeur de Arg du nud mre. Dans les deux
rgles, la valeur de Foot? dtermine quelle est la prochaine rgle appliquer : celle de
substitution (Foot ? = -) ou dadjonction (Foot ? = +). La figure 1.8 reprsente un exemple
dapplication de ces rgles.
Figure 1.8. Application des rgles grammaticales larbre de drivation LTAG pour
lexemple what you think he loves
16
Hla Fehri
Dans la figure 1.8, les lignes paisses indiquent larbre avoisin 1 et les lignes pointilles
indiquent larbre contigu 1.
3.1.2. Conversion des arbres lmentaires non canoniques
Pour les arbres lmentaires non canoniques, la conversion se fait de la mme faon mais
aprs les avoir convertis en arbres lmentaires canoniques. Dans le cas o larbre est multiancr (MT), il doit tre divis en un ensemble de sous arbres (ST) dont chacun doit avoir un
seul nud ancr en utilisant la procdure divide_tree_into_subtrees dtaille dans larticle
[41]. La figure 1.9 est propose comme exemple dapplication de cette procdure.
qui
existent
dj
et
ceux
qui
sont
obtenus
par
lalgorithme
17
Hla Fehri
Remarquons que le formalisme HPSG peut tre considr comme tant un formalisme
intermdiaire pour la conversion des arbres lmentaires canoniques vers LMF.
3.2. Projection de HPSG vers TAG
Dans [25], lauteur a propos un algorithme permettant la projection de HPSG vers TAG et
obissant certaines contraintes du TAG. Cet algorithme explore le rapport entre les deux
concepts employs dans ces deux thories. Lalgorithme propos a commenc, tout dabord,
par prendre un type lexical et crer un nud avec ce type. Le nud cr reprsente un
schma HPSG. Ensuite, il a ajout un nud n qui le domine. Puis, il est pass la slection et
la rduction des informations spcifies par le type lexical correspondant en utilisant le
schma de dominance appropri (voir figure 1.10). Le rsultat obtenu est alors un autre nud
m qui domine n. Enfin, lalgorithme refait cette dernire tape jusqu ce quaucune rduction
supplmentaire ne soit possible.
Notons que les schmas de dominance prsents dans la figure 1.10 sont trs importants
pour lapplication de cet algorithme. En effet, tous ces schmas satisferont le principe de
slection et de rduction. Rappelons que la slection veut dire la slection du nud fille
18
Hla Fehri
Larbre T1 illustr dans la figure 1.11 est un arbre auxiliaire vu que les valeurs de SUBJ et de
SLASH du nud pied (marqu par *) qui sont non vides sont les mmes que celles du nud
racine. Ces traits peuvent tre rduits plus loin en les combinant avec un autre arbre.
Exemple 1 :
Soit la phrase en Anglais what Kim gives to Sandy. Le type lexical pris dans cette phrase
est celui du verbe gives qui sous catgorise un sujet et deux complments. De cette entre
lexicale, on peut obtenir larbre initial T2 illustr dans la figure 1.12.
19
Hla Fehri
Larbre prsent dans la figure 1.12 est obtenu en utilisant respectivement les schmas de
domination suivants : le schma Lexical Slash-Termination-Rule, le schma Head-Comps,
Head-Subj et le schma Head-Filler. La substitution des nuds de la frontire constitue la
phrase what Kim gives to Sandy.
Ainsi, lalgorithme propos dcrit comment les spcifications de HPSG peuvent tre
compiles dans TAG dune manire fidle aux deux structures. Notons que lalgorithme a t
implment avec Lisp et a t utilis pour compiler un fragment considrable en HPSG
allemand. Il faut noter que les rsultats de la compilation ne sont pas toujours conformes avec
les suppositions conventionnelles adoptes dans TAG. Il faut noter aussi quil y a plusieurs
techniques attendues pour amliorer lanalyse grammaticale rsultant du TAG. Par exemple,
20
Hla Fehri
cest possible de dclarer les non SFs qui peuvent tre levs en rduisant de cette faon le
nombre darbres inutiles produits pendant la compilation phase multiple. La possibilit de
compiler HPSG dans une extension du TAG reste explorer.
Les algorithmes tudis prcdemment qui convertissent une grammaire vers une autre
permettent lchange, la comparaison et le partage des ressources lexicales.
Conclusion
Dans ce chapitre, nous avons prsent quelques travaux en faveur de la fusion et de lchange
des ressources lexicales pour le traitement automatique du langage naturel. De ce fait, nous
avons commenc tout dabord par prsenter quelques lexiques HPSG spcifiques la langue
arabe et le rapport qui existe entre eux afin de mettre en vidence le besoin de la
normalisation. Ensuite, nous avons mis en valeur le concept de normalisation puisque la
proposition des normes facilite la cration de telles ressources. Enfin, nous avons prsent
quelques travaux qui partagent le mme objectif mais par la traduction dun formalisme vers
un autre.
La ralisation des ces travaux ncessite quelquun qui matrise les deux grammaires
concernes par la projection et permet de comparer et dvaluer des recherches bases sur des
formalismes diffrents. Dans le mme but, sinscrit notre travail qui permet la projection des
lexiques grammaires sources vers un langage pivot cible, le LMF.
21
Chapitre 2
22
Hla Fehri
Le prsent chapitre est ddi ltude de la grammaire syntagmatique guide par les ttes,
mieux connue sous le nom HPSG puisque cest le formalisme concern par la projection dans
notre travail. Cette tude nous permet didentifier, dune part, les phnomnes linguistiques
qui sont traits par le HPSG et dautre part, les adaptations qui peuvent tre faites ce
formalisme pour atteindre notre objectif.
Dans ce chapitre, nous allons donner, dans un premier temps, une vue gnrale sur le
formalisme HPSG. Ensuite, nous dcrirons larabisation de ce formalisme en donnant une
ide sur les diffrents traits que nous avons ajouts afin de projeter HPSG vers LMF. Enfin,
nous achevons par quelques exemples des structures attribut/valeur (SAVs) en nous basant sur
les changement faits pour cette grammaire.
23
Hla Fehri
le trait tte : les traits de tte permettent de donner les caractristiques concernant la
partie de discours elle-mme : son type, sa forme, ventuellement les constituants
slectionnes en dehors du cadre de la valence, etc.
le trait index : il a pour valeur les traits daccord. Ce trait est utilis pour indexer un
constituant et donc pour s'y rfrer.
le trait nonloc : il dcrit les relations quentretient le constituant avec dautres objets
nappartenant pas ncessairement la mme sous-structure syntaxique.
La figure 2.1 reprsente la SAV dun nom utilisant la majorit des traits dcrits
prcdemment.
Lexemple de la figure 2.1 montre que Livre est un nom rfrenc. Ces informations sont
exprimes respectivement par les traits MAJ et NFORM. Le trait SPR qui est un trait
syntaxique indique que Livre peut tre prcd par un dterminant. Les traits daccord en
HPSG sont classs parmi les traits smantiques. Quant au trait INDEX, il montre que Livre
est un nom masculin singulier.
HPSG possde un certain nombre de schmas de combinaison qui sont exprims dans le
mme formalisme que les descriptions des mots. Ces schmas dcrivent la combinaison dune
tte et dun argument (head-complement-phrase, head-subject-phrase, ), dune tte et dun
modifieur (head-modifier-phrase), dune tte et dun lment extrait (head-filler-phrase) ou
de deux conjoints (coordinate-phrase). La combinaison de deux mots est en fait la
combinaison de leurs descriptions avec un schma de construction. La rpartition de
24
Hla Fehri
linformation linguistique entre descriptions de mots et schmas est formellement libre. Dans
ce qui suit, nous allons dtailler les diffrentes catgories lexicales caractrisant un lexique
HPSG Arabe.
MOJARAD : ce trait est utilis pour les verbes et peut prendre comme valeurs (+) ou
() indiquant respectivement sil sagit dun verbe trilitre ( ) ou augment
(). Il est utile pour le mme but que TRILITERE.
TASGUIR : ce trait est utilis pour les noms et peut prendre comme valeurs (+) ou ()
pour indiquer respectivement sil sagit dun nom diminutif ( )ou non diminutif
() . Ce trait permet de distinguer sil sagit dune forme canonique ou bien
dune forme flchie.
25
Hla Fehri
NASAB : ce trait a le mme rle que le trait TASGUIR. Il peut prendre les valeurs (+)
ou () pour indiquer respectivement sil sagit dun nom relatif ( )ou non relatif
() .
NAT : ce trait est utilis afin de donner la nature dun nom. Parmi les valeurs qui
peuvent tre prises par ce trait, nous pouvons citer : .
Chaque valeur prise par ce trait reprsente une entre lexicale et exactement une forme
drive ou flchie.
RADICAL : Ce trait est ajout pour les noms afin de savoir quelle forme drive
appartient une forme flchie.
Nous avons aussi modifi la valeur du trait NFORM pour les noms. En effet, ce trait va
avoir comme valeurs : ( flexionnel driv) ( flexionnel inerte) et
( non flexionnel). Le trait NFORM nous permet de savoir si une forme canonique peut
avoir des formes flchies (ou mme drives) ou non.
En sinspirant de [5], la langue arabe dfinit un mot comme tant un genre qui catgorise
trois ensembles de base (particule, verbe et nom). La figure 2.2 illustre cette rpartition qui
sera dtaille dans les paragraphes qui suivent.
A partir de la figure 2.2, nous identifions quun mot arabe peut tre un nom (), une
particule ( )ou un verbe ( ; )mais il existe dautres rpartitions pour ce mot par
exemple en considrant ladjectif comme une quatrime catgorie de base. Dans ce qui suit,
nous allons dtailler ces diffrentes catgories de mots.
26
Hla Fehri
type contenu savoir INDEX et RESTR. Un des aspects fondamentaux de HPSG rside dans
la reprsentation au niveau lexical de certaines relations syntaxiques. Il s'agit en particulier
des relations de valence qui sont videmment reprsentes par le trait VALENCE. Ce trait est
compos dans la plupart des cas de notre exemple d'un seul lment SPR indiquant que ce
nom attend un spcificateur tout en identifiant son type. Le principe de valence permettra
d'tablir un lien entre la valeur du trait SPEC et le constituant effectivement ralis (i.e., le
dterminant utilis dans l'nonc). Les traits prsents seront dcrits par les matrices
attribut/valeur de la figure 2.4.
Hla Fehri
Ce qui distingue la langue arabe est le fait que la catgorie nom se dcompose son tour en
plusieurs sous-ensembles savoir les noms flchis comme les noms figs (les noms propres
"" , noms de lieu "" ,) et ceux non figs (les adjectifs "" , nomagent "" ,) et les noms flchis (les pronoms dmonstratifs "" , les pronoms
"",...) Ces sous-ensembles sont dtaills dans la figure 2.3.
Tous les noms partagent le mme contenu de la SAV reprsente dans la figure 2.4 et ne
sont que les valeurs des traits qui changent avec lajout du trait MOD dans TETE pour les
adjectifs.
Rappelons que dans la SAV dun nom, tous les traits morphologiques sont regroups dans
le trait TETE. Le seul trait syntaxique est SPR. Bien que les traits daccord en HPSG soient
classs parmi les traits smantiques en LMF, ils sont classs en LMF dans la partie
morphologique car ils concernent lentre lexicale elle-mme.
Puisque la catgorie nom est subdivise en plusieurs sous-catgories, nous devons prciser
leurs SAVs appropries.
-
28
Hla Fehri
La figure 2.5 montre que le nom " "est un nom fig non dfini, non et non .
Ces informations sont donnes respectivement par les traits NFORM, DEFN, TASGUIR et
NASAB. Les traits NAT, RACINE et SPR montrent que ce nom reprsente un ""
ayant comme racine " "et qui peut tre prcd par un verbe " "ou un pronom
dmonstratif "" . Notons que le nom " "est un nom masculin " "singulier"".
Dans la figure 2.6, nous remarquons que les traits qui ont chang de valeur sont les traits
NAT, MASDAR, DEFN et GENR puisque " "est un nom propre ""
dfini" "et fminin"".Ce nom peut tre prcd par un verbe comme "
" ou par un pronom dmonstratif " " comme "" . Cette
29
Hla Fehri
information syntaxique est exprime par le trait SPR qui appartient VALENCE. Un nom
propre peut tre employ comme tant un adjectif et dans ce cas il faut apporter des
modifications dans la SAV approprie.
-
Nom flchi driv : un nom flchi est dit driv sil est obtenu partir dun verbe. La
figure 2.7 est un exemple dune SAV qui reprsente un adjectif.
Le trait NAT de la SAV de la figure 2.7 montre que le nom " "est un adjectif "" .
Gnralement ladjectif reprsente lui-mme une catgorie indpendante comme le nom et le
verbe au contraire de la langue arabe.
Nous remarquons que dans la SAV des adjectifs, existe la plupart des traits dcrivant les
noms. Il y a cependant deux diffrences essentielles. Tout dabord, la valence est une liste
vide. En dautres termes, il sagit dun signe satur, ne construisant aucun complment. Par
ailleurs, nous remarquons parmi les traits de tte, le trait MOD qui a pour valeur le constituant
modifi par ladjectif. Le trait MOD jouera essentiellement le mme rle que SPEC pour les
spcificateurs.
-
Nom non flchi ( ) : le nom non flchi est celui qui garde le mme
tat. Ce nom peut tre un pronom, un pronom dmonstratif, un nom interrogatif etc.
La figure 2.8 illustre un exemple dune SAV dun pronom.
30
Hla Fehri
La SAV de la figure 2.8 est un autre exemple reprsentant une catgorie diffrente
appartenant au nom. Cest la catgorie des noms non flchis. Le trait NAT indique le sousensemble dans lequel figure lentre lexicale et dans notre cas, il sagit dun pronom "".
Nous remarquons que la SAV du pronom " "contient la plupart des traits existants dans les
deux SAVs prcdentes vu que ces trois entres lexicales appartiennent la mme catgorie
principale nom.
31
Hla Fehri
Pour les particules, nous avons propos deux modles de SAVs diffrents, lun est utilis
pour les prpositions et lautre pour les outils. Ces deux modles de SAVs sont illustrs
respectivement dans les figures 2.10 et 2.11.
32
Hla Fehri
Les traits morphologiques dune prposition sont regroups dans le trait TETE. Notons que
les traits daccord sont relatifs au complment admis par cette prposition.
Remarquons quil existe une grande diffrence entre la SAV dune prposition et celle
dun outil. Cette diffrence rside dans les traits TETE, VALENCE et CONT. En effet, dans
la SAV dune prposition, nous remarquons lexistence du trait PFORM comme trait
morphologique. Par contre, dans la SAV dun outil, le trait SPEC prend sa place. De plus, le
trait VALENCE et les traits daccord existent pour une prposition mais non pour un outil.
De mme, pour le trait INDEX. Dans ce qui suit, nous donnons quelques exemples de SAVs
qui correspondent des catgories diffrentes de particules.
33
Hla Fehri
La figure 2.13 reprsente un exemple dune SAV dune prposition. Dans cette SAV, nous
remarquons lutilisation du trait VALENCE. En effet, la particule " "admet un complment
qui doit tre un syntagme nominal datif "". Le trait INDEX exprime les caractristiques
de ce complment.
34
Hla Fehri
La plupart des mots en arabe, drivent d'un verbe de trois lettres. Chaque verbe est donc la
racine d'une famille de mots. Comme en Franais, le mot en arabe se dduit de la racine en
rajoutant des suffixes ou des prfixes.
Rappelons que les traits qui doivent tre contenus dans la SAV dun verbe sont
TRILITERE, MOJARAD, ASPECT, NAT, MAJ, VFORM, RADICAL, SCHEME, VOIX,
SUJ, COMPS, S_ARG, QUANTS et NUCLEUS. Le modle de la SAV utilise pour les
verbes est illustr dans la figure 2.15.
35
Hla Fehri
Les traits morphologiques sont toujours classs dans le trait TETE, ceux syntaxiques dans le
trait VALENCE et ceux smantiques dans le trait CONT. Dans ce qui suit, nous allons donner
un exemple dune SAV du verbe "".
Lexemple de la figure 2.16 montre que le verbe" "est conjugu laccompli en voix
active et ayant comme racine "" . Ce verbe sous catgorise un sujet 1 et un complment
dobjet direct 2. Ces valeurs se retrouvent dans le trait S-ARG dcrivant la structure
argumentale par ordre doblicit croissant. Ce dernier trait est en fait la concatnation des
36
Hla Fehri
traits de valence. Par ailleurs, nous remarquons que le sujet porte une spcification sur son
index : la catgorie nominale devra tre masculine et nominative.
Conclusion
Dans ce chapitre nous avons donn un aperu sur le formalisme HPSG qui a t choisi pour
tre projet vers la norme LMF. Nous avons propos par la suite un lexique syntaxique en
HPSG selon la spcificit de la langue arabe. En effet, nous avons adapt le formalisme
HPSG par lajout et la modification de quelques traits en tenant compte de la partie
flexionnelle qui est trs importante dans la plate-forme LMF. Le lexique propos comporte de
diffrentes catgories lexicales classifies selon [5]. Chaque catgorie comporte sa propre
SAV et sous catgorise un sous ensemble dont chacun est illustr par un exemple. Noublions
pas que nous avons propos deux modles de SAVs pour les particules de la langue arabe. La
classification des catgories lexicales admise dans notre travail est originale que ce soit par la
source adopte ou par les traits ajouts.
37
Chapitre 3
Lexical Markup
Framework (LMF)
38
Hla Fehri
Aprs avoir effectu une tude sur le formalisme HPSG arabis et dgag la SAV approprie
pour chaque catgorie lexicale, nous consacrons ce chapitre la prsentation de la plate-forme
LMF qui est concerne par la projection. Cela va nous permettre de comprendre les
spcificits de LMF et de dgager ultrieurement les points communs qui sont traits par les
deux concepts afin de pouvoir laborer une dmarche assurant la projection des lexiques
HPSG vers la future norme ISO 24613.
Dans le prsent chapitre, nous commenons tout dabord, par donner une prsentation
gnrale sur LMF. Ensuite, nous dcrivons son processus. Enfin, nous achevons par le dtail
des diffrentes extensions dont nous avons besoin dans notre travail travers des exemples.
39
Hla Fehri
La figure 3.1 montre que le modle noyau contient neuf classes en relation. Ces classes sont
dcrites ci-dessous.
-
La classe Lexicon : est le rcipient pour toutes les entres lexicales d'une langue
source dans la base de donnes. Un lexique doit contenir au moins une entre lexicale
et n'autorise pas de sous-classes.
40
Hla Fehri
La classe Entry Relation : est une classe de rfrence qui peut lier deux plusieurs
entres lexicales en LMF appartenant au mme lexique. Elle peut contenir des attributs
qui dcrivent la relation entre ces entres lexicales.
Comme lindique la figure 3.2, Le modle noyau de LMF inclut deux sous-classes de
Form: LemmatisedForm et InflectedForm. La premire peut contenir seulement des
formes des mots qui sont du type lemme (
) alors que la deuxime peut contenir
seulement des formes des mots qui sont du type flchi (... ) .
-
41
Hla Fehri
La classe Sense : contient les attributs qui dcrivent le sens du mot. Cette classe peut
tre partage par plusieurs entres lexicales. Elle a une relation rflexive et elle est
compose par zro ou plusieurs relations smantiques.
La classe Sense Relation : est une classe de rfrence qui peut lier deux plusieurs
sens LMF pour une langue dans ou travers des lexiques. Elle peut aussi contenir des
attributs qui dcrivent le type de rapport smantique.
Le modle noyau LMF peut tre tendu pour satisfaire certaines exigences lies au
traitement de certains problmes linguistiques. En effet, les fondateurs de LMF ont fait
reposer le TALN sur cinq extensions : lextension morphologique, lextension syntaxique,
lextension smantique, lextension des modes de flexion et lextension des annotations
multilingues.
1.2. Extensions
Les extensions appliques au modle noyau de LMF traitent la morphologie, le paradigme de
flexion, la syntaxe, la smantique et des notations multilingues. Le mcanisme de l'extension
consiste :
-
attribuer des contraintes sur les cardinalits, les types et les diffrents points d'ancre
pour les associations et
Toutes les extensions doivent dpendre du package noyau de LMF. En effet, une extension ne
peut pas tre utilise pour reprsenter les donnes lexicales indpendamment du package
noyau. Selon le genre de donnes linguistiques, une extension peut dpendre dune autre
extension. Du point de vue UML, une extension est un package UML. Le diagramme
reprsent dans la figure 3.3 dcrit les dpendances entre les diffrentes extensions.
42
Hla Fehri
Daprs la figure 3.3, nous distinguons trois cas de relation de dpendances pour les
extensions. Dans le premier cas, lextension dpend uniquement du package noyau ; tel est le
cas de lextension morphologique (NLP Morphology extension). Dans le deuxime cas,
lextension dpend dune autre extension existante qui importe elle-mme le package noyau
comme lextension du paradigme flexionnel (NLP Inflectional paradigm extension). Dans le
troisime cas, lextension dpend dune ou plusieurs extensions existantes et le package noyau
lui-mme telle lextension smantique (NLP Semantic extension).
En LMF, il faut distinguer entre la structure et la dcoration. En effet, la structure traite des
niveaux de description. Ainsi, le package LMF de la morphologie traite des descriptions
morphologiques. Le package LMF de la syntaxe traite des descriptions syntaxiques.
Cependant, la dcoration permet lassociation entre les packages LMF travers des traits vu
que tous les niveaux de description sont dpendants.
43
Hla Fehri
Daprs la description de lISO 1179, il existe deux genres de catgorie de donnes (CD) :
complexes comme /grammatical gender/ et simple comme /masculine/. Une CD complexe
utilise un ensemble de CD simples comme des valeurs possibles. Tous les attributs de LMF
sont des catgories de donnes complexes. Chaque valeur dun attribut correspond une
catgorie de donnes simple ou une chane de caractres (string) Unicode. La figure 3.4
donne un exemple de reprsentation dune catgorie de donnes complexe selon la norme
LMF [33].
LMF utilise la notion de DCS (Data Category Selection) qui dcrit l'ensemble des
catgories de donnes qui peuvent tre utilises dans un lexique LMF donn. Il dcrit aussi les
contraintes sur la manire avec laquelle les catgories de donnes sont dresses dans les
classes spcifies.
Le DCR [33] est un ensemble de spcifications des catgories de donnes qui sont dfinies
par lISO 12620. Les crateurs de tout lexique LMF se basent sur le DCR lors de la cration
de leur propre DCS.
Les crateurs du lexique peuvent dfinir un ensemble de nouvelles catgories de donnes
pour couvrir des concepts qui en ont besoin et qui ne sont pas disponibles dans le DCR. Ces
catgories de donnes supplmentaires seront enregistres et diriges conformment avec
lISO 12620.
44
Hla Fehri
2. Processus LMF
Le processus LMF consiste dterminer les tapes essentielles pour la construction dun
lexique conforme LMF. En effet, un lexique conforme LMF est dfini par la combinaison
du package noyau LMF, de zro plusieurs extensions et dun ensemble de catgories de
donnes. De ce fait, le crateur du lexique peut dune part slectionner, part le package
noyau, les extensions qui sont appropries son travail. Dautre part, il peut dfinir de
nouvelles catgories de donnes qui doivent tre enregistres dans le DCR. Ainsi, il arrive
construire son propre DCS. La combinaison de tous ces lments est illustre dans le
diagramme dactivits UML reprsent dans la figure 3.5.
Rappelons que les extensions doivent tre slectionnes selon le besoin du crateur du
lexique. Celles qui sont pertinentes pour notre travail, sont les extensions morphologique,
syntaxique et smantique que nous allons dtailler dans les sections suivantes.
45
Hla Fehri
3. Extension morphologique
Le but de cette extension est de fournir des mcanismes qui supportent le dveloppement des
lexiques NLP (Natural Language Processing) dcrivant la morphologie des entres lexicales.
Le diagramme de classes relatif cette extension est illustr dans la figure 3.6.
(Par convention, les classes de lextension courante sont prsentes avec un fond orange.)
Dans la figure 3.6, les classes de lextension morphologique sont Stem, ListOfComponents et
InflectionalParadigm. Stem reprsente la partie principale de la forme du mot. Ainsi, cette
classe tient une partie de LemmatisedForm qui peut avoir zro, un ou plusieurs Stem.
writtenForm, spokenForm et transliteration sont des exemples dattributs qui peuvent dcorer
la classe Stem. La classe ListOfComponents permet de ranger et dagrger les composants
autonomes ou non-autonomes entre lesquels une expression compose est comprise.
InflectionalParadigm est une classe qui spcifie comment associer un certain type
LemmatisedForm au sein de ses formes flchies. Id et example sont des exemples dattributs
qui peuvent dcorer la classe InflectionalParadigm.
Exemple 3.1 (Le mot Arabe " )":
Les diagrammes dobjets reprsents dans les figures 3.7 et 3.8 reprsentent deux manires
diffrentes de dcrire la partie flexionnelle du mot arabe "".
46
Hla Fehri
Dans la figure 3.7, les deux formes flchies " "au singulier et " "au pluriel sont
reprsentes sans passer par un paradigme flexionnel. Dans ce cas, chaque forme flchie doit
tre dcrite dans un objet de type InflectedForm.
Dans la figure 3.8, les deux formes flchies de " "doivent tre gnres automatiquement
par lintermdiaire du paradigme flexionnel portant le nom "as ". Ce paradigme doit tre
identifi dans un objet de type InflectionalParadigm et peut tre partag par dautres entres
lexicales dont la partie flexionnelle sobtiendra de la mme faon que "( "exemple :
")".
4. Extension syntaxique
Le but de lextension syntaxique est de dcrire les proprits du mot pour tre combin avec
les autres mots dans une phrase. Le modle syntaxique dcrit des proprits syntaxiques
spcifiques des mots et n'exprime pas la grammaire gnrale d'une langue.
47
Hla Fehri
Dans la figure 3.9, les classes de lextension syntaxique sont SyntacticBehavior, Construction,
ConstructionSet, Self et SyntacticArgument. SyntacticBehavior est une classe qui reprsente
un des comportements possibles d'un ou plusieurs sens. La prsence d'un comportement
syntaxique pour un mot veut dire que ce mot peut avoir ce comportement dans la langue
donne. La description dtaille du comportement syntaxique est dfinie dans Construction.
Id et Label sont des exemples dattributs qui peuvent dcorer la classe SyntacticBehavior.
Ainsi, Construction est la classe qui dcrit une construction syntaxique. Cest une classe
qui est partage par tous les mots qui ont le mme comportement syntaxique dans la mme
langue. Une construction peut hriter des relations et des attributs d'une autre construction
plus gnrique par un lien rflchi. Donc il est possible d'intgrer une ontologie hirarchique
de constructions. id, label et comment sont des exemples dattributs qui peuvent dcorer la
classe Construction.
La classe Self dcrit le noeud central de Construction. Lorsqu'il est connect
Construction, il est partag par tous les mots qui ont le mme comportement syntaxique. Self
fait rfrence l'entre lexicale courante. Les attributs partOfSpeech, mood, voice et auxiliary
peuvent dcorer la classe Self.
48
Hla Fehri
La figure 3.10 montre que chaque comportement syntaxique doit tre reprsent dans un objet
de type Construction. Ce dernier comporte tant dobjets de type SyntacticArgument que le
nombre de constituants du verbe "".
5. Extension smantique
Le but de lextension smantique est de dcrire un sens et ses relations avec dautres sens qui
appartiennent la mme langue. En raison des complexits de la syntaxe et de la smantique
dans la plupart des langues, la partie smantique comprend aussi le rapport avec la syntaxe.
Lextension smantique est dcrite par le diagramme de classes reprsent dans la figure 3.11.
49
Hla Fehri
Proposition,
SynsetRelation,
PredicativeRepresentation,
50
Hla Fehri
51
Hla Fehri
Dans la figure 3.12, le sujet est tiquet par X et le complment dobjet par Y. Si nous
supposons que X reprsente " "et Y " "alors lassociation de ces constituants avec
le verbe " "donne la signification de " " exprime dans lobjet
SemanticPredicate.
Conclusion
Dans ce chapitre, nous avons tudi les diffrents points qui caractrisent la plate-forme LMF.
En effet, nous avons commenc par prsenter la structure de la norme LMF. Ensuite, nous
avons expliqu le processus utilis par cette norme. Enfin, nous avons tudi essentiellement
les extensions dont nous avons besoin dans notre travail travers des exemples. Ainsi, cette
tude nous a permis de constater que la sous-catgorisation ainsi que dautres mcanismes qui
sont traits par le HPSG sont traits aussi par LMF. La diffrence rside essentiellement dans
la manire de reprsentation des entres lexicales. En effet, une forme canonique (ou drive)
avec toutes ses formes flchies constitue une seule entre lexicale en LMF. Cependant, en
HPSG, chaque forme, que ce soit drive, canonique ou flchie constitue une entre lexicale
52
Hla Fehri
part. Nous pouvons remarquer encore lexistence de plusieurs traits en HPSG et spcifiques
la langue arabe qui nont pas leur quivalent en LMF donc il faut les ajouter au DCS.
53
Chapitre 4
Chapitre 3 :
Dmarche propose
54
Hla Fehri
Ce chapitre est ddi la prsentation de la dmarche suivie pour la projection dun lexique
syntaxique HPSG vers une reprsentation LMF. Cette dmarche est labore en se basant sur
le mta modle de LMF et sur les extensions appliques ce modle, dune part, et sur la
notion dintgration des connaissances de HPSG, dautre part. La mthode que nous
proposons ncessite le passage par deux phases essentielles : lidentification dun systme de
rgles de projection et le processus de projection lui-mme.
Dans le prsent chapitre, nous commenons, tout dabord, par prsenter le systme de
rgles tabli. Les rgles sont introduites dune faon formelle. Ensuite, nous dtaillons
lalgorithme et les phases du processus de projection. Enfin, nous clturons le chapitre par
une conclusion.
55
Hla Fehri
projeter. Dans le paragraphe suivant, nous commenons par prsenter les rgles identifies
pour les traits morphologiques.
HPSG
56
Hla Fehri
InflectedForm et dans ce cas, nous appliquons la rgle R2m qui est dfinie formellement
comme suit :
R2m : (Trait
HPSG
57
R4m :
(Trait
HPSG
PHON)
Hla Fehri
(Valeur
(NOMBRE)
in InflectedForm :
Trait
HPSG
attributLMF
attributLMF
traitHPSG
58
Hla Fehri
Remarquons que dans la figure 4.1, la valeur du trait MAJ reste inchangeable pour le verbe
et pour toutes ses formes flchies. Dans ce cas, nous devons appliquer la rgle R5m vu
que le trait MAJ a son quivalent en LMF qui est gal lattribut PartOfSpeech.
Quant la rgle R6m, elle est applique dans le cas o un trait nadmet pas un quivalent en
LMF. Cette rgle est dfinie formellement comme suit :
R6m : Trait
HPSG
Dans la figure 4.2, le trait SCHEME change de valeur chaque fois que nous passons dune
forme flchie une autre. Et puisque le trait SCHEME na pas dquivalent en LMF, nous
appliquons la rgle R7m.
R7m :
TraitHPSG
attributLMF
attributLMF
traitHPSG
59
Hla Fehri
Quant la rgle R8m, elle est applique dans le cas o un trait admet un quivalent en
LMF. Cette rgle est dfinie formellement comme suit :
R8m : Trait HPSG attributLMF : attributLMF traitHPSG : Variable (Valeur (TraitHPSG))
Trait
HPSG
MAJ
Trait
HPSG
PHON
in
LexicalEntry :
60
Hla Fehri
val = valeur ()
La mme rgle R1sem est applique pour le trait . Lattribut sera mis dans la classe
SemanticArgument.
Notons bien que la projection dune entre lexicale doit tre faite dans lemplacement
convenable du fichier LMF. En effet, ce fichier contient dj dautres entres lexicales qui ont
t projetes. Si nous prenons le cas de et , nous pouvons remarquer quen HPSG,
61
Hla Fehri
ces deux entres lexicales sont indpendantes lune de lautre par contre lors de la projection,
les deux reprsentent une seule entre lexicale dont est une forme canonique et sa
forme flchie.
La figure 4.3 indique que le verbe est un verbe totalement tens , conjugu
laccompli et en voix active . Ces informations sont donnes
respectivement par les traits VFORM, ASPECT et VOIX. Ce verbe sous-catgorise un sujet
masculin et un complment qui peut tre un syntagme nominal (SN) ou un
syntagme prpositionnel (SP). La SAV du verbe est stocke dans un lexique crit en
XML. Rappelons que cest la nature du trait et linformation porte par lui, qui nous aide
choisir la rgle de projection correspondante. Dans cet exemple, les traits morphologiques
sont MAJ, VFORM, RADICAL, SCHEME, ASPECT, TRILITERE et MOJARAD. Ainsi, la
projection du trait PHON se fait en utilisant la rgle R1m. En effet, Valeur (SCHEME) =
et FDC.
MAJ sera projet en utilisant la rgle R5m vu que ce trait a son quivalent en LMF et sa valeur
reste invariable quelque soit la forme de lentre . VFORM et RADICAL seront projets
en utilisant la rgle R6m vu que ces deux traits nadmettent pas dquivalent en LMF mais
62
Hla Fehri
63
Hla Fehri
Le diagramme dobjets dune entre lexicale peut nous donner une ide sur le fichier LMF
obtenu lors de la projection. Ce fichier est reprsent dans la figure 4.5 et respecte la DTD
donne dans [24] (Annexe A).
64
Hla Fehri
Le fichier reprsent dans la figure 4.5 dcrit une partie du fichier LMF relatif lentre
lexicale . De ce fragment, nous remarquons que chaque trait avec sa valeur est
reprsent par la balise <DC>.
Dans le reste de ce chapitre, nous utilisons Ec pour lentre lexicale en cours de projection,
Fp pour le fichier LMF contenant les entres lexicales projetes et Ep pour les entres lexicales
dj projetes.
2. Processus de projection
La phase de projection, qui a pour but dappliquer les rgles de projection correspondantes
pour chaque trait caractrisant une entre lexicale, ncessite le passage par trois tapes
essentielles. Ces trois tapes se rptent autant de fois quil y a dentres lexicales dans les
lexiques destins la projection. Ces tapes sont illustres dans la figure 4.6.
Lentre pour notre processus est une base de lexiques qui peuvent reprsenter des verbes,
des noms, des particules ou une combinaison de ces catgories. La projection se fait en
commenant par le premier lexique ouvert. Les tapes de la dmarche, qui seront dtailles
65
Hla Fehri
dans les paragraphes suivants, consistent extraire pour chaque entre lexicale son fragment
en xml, identifier sa position de projection et le projeter en utilisant les rgles adquates.
Hla Fehri
Lexemple pris dans la figure 4.7 est celui du verbe . La description des diffrents traits
caractrisant ce verbe a t ralise en se rfrant [23]. Lalgorithme permettant lextraction
dun fragment xml de lentre lexicale projeter est le suivant :
Algorithme : Extraction dun fragment xml
Entre : lexique L, fichier xml contenant les entres lexicales projeter
Ec, nom de lentre lexicale projeter
P, position de Ec dans L
Sortie : F, fichier xml dcrivant Ec ; une partie de L
Dbut
verif , variable locale boolenne
p1, variable locale indiquant la position dune entre lexicale dans L
lecture de L
pour chaque nud ni <bi, Ai, ti> L faire
verif 0
p1 p1 + 1
soit nj <bj, Aj, tj> L {nj est le nud fille de ni}
pour chaque nj de ni faire
tant que (verif = 0) faire
si ((aj = PHON) et (tj = Ec) et (p1 = p)) alors
verif 1
sinon
supprimer_noeud (ni)
fin si
fin tant que
fin pour
fin pour
enregistrer (F)
Fin
Notons que dans cet algorithme, un nud XML n est un triplet < b, A, t > o
b est le nom du nud (de la balise),
A est un ensemble de couples (a, v) o a est un attribut, v est la valeur de cet attribut et
t est le texte associ la balise
Un arbre XML T est dfini par un triplet < E, r,R > o
E est un ensemble de noeuds,
r E est la racine de larbre,
R est une relation non symtrique, non transitive et non rflexive.
Hla Fehri
Comme lindique la figure 4.8, le processus consiste tout dabord vrifier si lentre lexicale
en cours de projection peut admettre des formes flchies ou non. Cette vrification est
essentielle car dans le cas o il peut exister des formes flchies, il faut savoir dans quelle
position la projection doit tre faite ; Noublions pas que dans LMF, une entre lexicale est
compose de la forme canonique ou drive et de toutes ses formes flchies alors que notre
point de dpart est un lexique contenant diffrentes entres lexicales qui peuvent tre des
formes canoniques, drives ou flchies reprsentes selon le formalisme HPSG et organises
dune manire arbitraire selon le choix du concepteur du lexique. Par consquent, le fichier
LMF rsultat va contenir un nombre dentres lexicales qui doit tre infrieure ou gal au
68
Hla Fehri
nombre dentres lexicales existantes dans le lexique HPSG. Notons que les traits qui nous
permettent de savoir si une entre lexicale admet des formes flchies ou non sont NFORM et
VFORM respectivement pour les noms et les verbes. Pour les particules, il nexiste pas des
formes flchies.
Ensuite, le processus passe la vrification de la position de la projection. En effet, si
lentre lexicale en cours de projection peut admettre des formes flchies, il faut parcourir
dans ce cas le fichier LMF contenant les entres lexicales projetes afin de savoir si une
entre lexicale de la mme classe a t projete. Cette recherche est base:
sur les valeurs des traits RADICAL, TRILITERE et MOJARAD dans le cas dun
verbe reprsentant une forme canonique ou une forme flchie dune forme canonique
sur les valeurs des traits RADICAL et SCHEME pour le reste des verbes et
sur les valeurs des traits NAT et RADICAL pour les noms.
Les diffrents cas discuts pour la recherche de la position de la projection sont dtaills dans
les points suivants.
- Cas des verbes canoniques
Dans le cas dun verbe ayant une forme canonique, la valeur des traits TRILITERE et
MOJARAD impliquent que le verbe est " " ou "" . Il suffit alors de trouver,
dans Fp, une entre lexicale Ep ayant la mme valeur des traits TRILITERE, MOJARAD et le
mme radical pour dire que Ep est de la mme classe que Ec ; prenons le cas des verbes ""
et " "qui appartiennent deux entres en HPSG : ces deux formes ayant comme valeurs
" " pour les traits TRILITERE et MOJARAD et " " pour le trait RADICAL ; donc
ces deux formes appartiennent une seule entre lexicale en LMF.
- Cas des verbes drivs
Dans le cas dun verbe ayant une forme drive, o la valeur de TRILITERE et MOJARAD
est diffrente de " " ou "" , il faut voir la valeur du trait SCHEME. En effet,
il peut exister deux formes drives ayant un trait RADICAL de mme valeur ainsi que des
traits TRILITERE et MOJARAD de mme valeur mais chacun reprsente, lors de la
projection, une entre lexicale indpendante de lautre. Les verbes " "et " "en sont
un exemple puisquils ont tous les deux pour valeurs " " et " " respectivement
pour les traits RADICAL, TRILITERE et MOJARAD mais chacune doit figurer dans une
entre lexicale indpendante de lautre.
69
Hla Fehri
Pour ce faire, nous avons stock tous les schmes reprsentant les formes drives avec
leurs formes flchies dans un fichier de telle faon que si deux entres lexicales appartiennent
la mme classe, il faut alors quelles aient la mme valeur du schme de la forme drive.
La figure 4.9 reprsente un extrait de ce fichier et la figure 4.10 donne quelques exemples
illustrant ce cas.
Figure 4.9. Extrait du fichier reprsentant les schmes des formes drives
Dans la figure 4.9, les exemples choisis reprsentent les schmes " "et "".
Remarquons que chacun de ces schmes est conjugu laccompli, linaccompli et
limpratif. Le fichier o est pris cet extrait nous aide savoir, dune part, quelle forme
drive les formes flchies appartiennent si un verbe ayant une forme drive est projete
avant sa (ou ses) forme(s) flchie(s) et, dautre part, quelles sont les formes flchies relatives
la forme drive si un (ou des) verbe(s) ayant une forme flchie est (sont) projet(s) avant sa
(leur) forme drive.
70
Hla Fehri
Dans la figure 4.10, nous avons pris le cas des verbes " "et " "afin de montrer que
cest le schme de la forme drive de ces verbes qui va regrouper " "avec ses formes
flchies et de mme pour " "bien que ces deux verbes aient le mme radical.
- Cas des noms
Dans le cas dun nom, pour dire quil existe une Ep de la mme classe que Ec, il faut que Ep et
Ec aient la mme valeur des traits NAT te RADICAL. Nous pouvons prendre comme exemple
le cas des noms " "et " ;"ces deux noms ont les mmes valeurs " " et "
" respectivement pour les traits RADICAL et NAT. Nous pouvons dire alors que ces
deux noms appartiennent la mme entre lexicale. Par contre, si nous prenons le cas des
noms " "et "". Nous trouvons que le premier a pour valeur " " pour le trait
NAT alors que le deuxime a pour valeur "" .
Dans le cas de lexistence dune entre lexicale dj projete de la mme classe que
lentre lexicale en cours de projection, celle-ci doit tre faite dans la mme position que
lentre dj projete de telle faon que le nombre dentres lexicales en LMF reste le mme.
Reprenons lexemple 4 du verbe . Sil existe des formes flchies relatives lentre
lexicale qui ont dj t projetes, il faut les prendre en compte et dans ce cas, nous
devons connatre leur position de projection afin que soit projet dans la mme
position de faon que le nombre dentres lexicales projetes reste le mme.
La figure 4.11 peut illustrer ce point. Dans cette figure, nous supposons que les formes
flchies et ont dj t projetes et par consquent nous devons connatre leur
position de projection dans le fichier LMF.
71
Hla Fehri
1
2
3
4
5
6
7
8
10
11
12
Figure 4.11. Formes flchies de projetes dans LMF
Daprs lexemple donn dans la figure 4.11, les formes flchies de existent dans la
position 9. De ce fait, lentre lexicale doit tre projete dans la mme position. Nous
obtenons alors aprs avoir fait la projection, le fichier reprsent dans la figure 4.12.
72
Hla Fehri
Ltape suivante est la projection dune autre entre lexicale qui vient juste aprs lentre
dans le lexique HPSG si elle existe.
Hla Fehri
sur ltude des diffrentes SAVs dj effectue dans ltape 1, nous pouvons connatre les
diffrents traits formant chaque catgorie lexicale et par consquent, nous pouvons appliquer
la rgle de projection correspondante. La figure 4.13 illustre cette tape.
Lexemple pris dans la figure 4.13 est celui du verbe "". A partir de cet exemple, nous
allons extraire chaque fois un trait et sa valeur et les projeter en utilisant la rgle de
projection adquate. Lalgorithme de lextraction dune valeur dun trait est le suivant :
Algorithme : Extraction de la valeur dun trait
Entre : nom_trait, nom du trait chercher
F, fragment en xml reprsentant lentre lexicale projeter
Sortie : val_trait, valeur de nom_trait
Dbut
verif 0
lecture de F
val_trait rechercher (E, nom_trait, val_trait, verif) //rechercher un trait dans F
Fin
74
Hla Fehri
La mthode rechercher() utilise par lalgorithme prcdent est une fonction rcursive
permettant de parcourir larborescence dun fichier xml, de rechercher un trait et de retourner
sa valeur. Lalgorithme de cette mthode est le suivant :
Algorithme : recherche dun trait et de sa valeur dans un fichier xml
Entre : E, liste des nuds dans un fichier xml
nom_trait, nom du trait chercher
val_trait, valeur du trait retourner
verif, trait trouv si verif = 1
Sortie : val_trait
Dbut
Pour chaque ni <bi, Ai, ti> E faire
Tant que (verif = 0) faire
Si (ai = nom_trait) alors
verif 1
val_trait vi
Fin si
Si (verif = 0) alors
pour chaque ni E faire
E nuds filles de ni
val_trait rechercher (E, nom_trait, val_trait, verif)
fin pour
fin pour
Fin
Dans cet algorithme, nous remarquons que la fonction rechercher() est une fonction rcursive
qui sarrte quand le trait cherch est trouv ; c'est--dire quand la variable locale verif a pour
valeur 1.
Conclusion
Dans ce chapitre, nous avons prsent et dtaill les tapes de la dmarche que nous avons
propose pour la projection de HPSG vers LMF. Ltude effectue sur les traits des SAVs
nous a permis dlaborer le systme des rgles de projection. Les rgles tablies sont
spcifies formellement laide de la logique des prdicats ce qui a facilit la tche de la
construction de lalgorithme de la projection.
La dmarche, que nous avons propose dans ce chapitre, est indpendante de lorganisation
du lexique HPSG projeter. En effet, lordre des entres lexicales dans ce dernier, na pas
dinfluence sur la projection. Nous pouvons trouver, par exemple, dans le lexique HPSG, une
forme canonique avant ses formes flchies ou linverse.
Lajout ou lenlvement dun (ou des) trait(s) HPSG ninflue pas sur le rsultat obtenu
lors de la projection vu que la premire tape qui consiste tudier les SAVs est capable de
75
Hla Fehri
rsoudre ce problme. De plus, notre systme de rgles de projection tabli traite tous les cas
possibles que nous pouvons rencontrer dans la langue arabe.
Si nous allons plus loin, et que nous pensons la projection dun autre lexique en HPSG
utilisant une autre langue, nous pouvons dire que notre dmarche reste toujours valable et que
la modification ne touche que les rgles de projection en ajoutant ou enlevant par exemple une
(des) rgle(s) lies des particularits de la langue concerne.
Le seul point qui peut avoir dinfluence sur notre dmarche et exactement sur ltape de
lidentification dun systme de rgles de projection est le fait de changer le modle LMF vue
que ce modle nest pas encore stable. Les changements concernent, dans ce cas, la
modification du nom de la classe laquelle la projection doit tre faite.
Ainsi, cette dmarche nous aide traiter la partie de la conception et celle de
limplmentation qui vont tre lobjet du chapitre suivant.
76
Chapitre 5
Chapitre 3 :
La ralisation
informatique
77
Hla Fehri
Aprs avoir dtaill la dmarche propose pour la projection du HPSG vers LMF dans le
chapitre prcdent, nous prsentons dans ce chapitre le prototype ralis afin de valider cette
dmarche. En effet, nous avons choisi le langage unifi UML pour la modlisation de ce
prototype et le langage de programmation objet JAVA pour limplmenter.
Dans ce chapitre, nous commenons par donner larchitecture gnrale du prototype. Par la
suite, nous passons la conception et la modlisation de ce dernier. Enfin, nous dcrivons la
ralisation tout en utilisant un exemple illustratif.
Hla Fehri
2. Conception du prototype
Avant dentamer la phase de limplmentation de notre prototype, il est ncessaire de le
concevoir afin de mieux comprendre son fonctionnement, matriser sa complexit et assurer
sa cohrence et sa maintenance. En effet, nous avons choisi dutiliser la mthodologie UML.
Ce choix est bas sur le fait quUML est un langage semi-formel normalis qui reprsente un
support de communication performant. UML comprend 9 diagrammes qui sont autant de
visions particulires du systme. Ils sont regroups suivant deux axes : un axe statique et un
axe dynamique. Dans ce qui suit, nous nous limitons au diagramme des cas dutilisation, au
diagramme de squences et au diagramme des classes de notre systme.
79
Hla Fehri
Comme lindique la figure 5.2, le diagramme des cas dutilisation comporte trois cas
essentiels. Le premier Mise jour des lexiques existants consiste mettre jour les
lexiques existants. Cette opration est ralise par lajout des lexiques HPSG dans le
rpertoire convenable ou par la suppression des lexiques non rutiliss. Le deuxime cas
dutilisation ouverture dun ou plusieurs lexiques permet de lancer les lexiques destins
la projection. Louverture de ces lexiques inclut leur choix. Le troisime cas dutilisation
projection vers LMF ne peut tre ralis que lorsque le deuxime cas dutilisation est
dclench. Ce dernier cas inclut lutilisation dun systme de rgles de projection et la
gnration du fichier LMF rsultat de la projection. En outre, il peut tre tendu soit par la
visualisation ou par limpression du fichier obtenu. De ce diagramme de cas dutilisation,
80
Hla Fehri
nous pouvons tudier certains scnarios travers les diagrammes de squence. Nous nous
contentons dun seul scnario : Projection vers LMF.
Suite une demande douverture dun lexique HPSG par lutilisateur, le systme consulte le
lexique HPSG dsign afin de raliser cette demande et terminer par laffichage du lexique
concern. Aprs avoir ouvert un ou plusieurs lexiques HPSG, lutilisateur peut demander leur
projection vers LMF. Le systme lancera alors cette opration en utilisant les rgles de
81
Hla Fehri
projection ncessaires afin de crer le lexique LMF qui sera affich par la suite. Maintenant,
nous pouvons donner le diagramme de classes de notre systme.
Hla Fehri
Le diagramme de classes de la figure 5.4 dcrit les classes avec leurs attributs et leurs
mthodes, ainsi que leurs visibilits et portes. Il dcrit aussi les diffrentes associations entre
les classes et les proprits et contraintes sur ces associations. Notons que la classe
Projection constitue la classe la plus importante de notre prototype. En effet, cette classe
contient toutes les mthodes permettant de raliser la projection des diffrentes catgories
lexicales en HPSG comme projeter_verbes(), projeter_noms() et projeter_particules(). Les
diffrentes caractristiques de ces diffrentes catgories lexicales font lobjet respectivement
des classes Lexique_verbes, Lexique_noms et Lexique_particules. La classe
Projection se rfre la classe Rgles de projection qui contient toutes les rgles de
projection dcrites dans la dmarche propose. Rappelons que ces rgles peuvent tre
morphologiques, syntaxiques ou smantiques. Le lexique HPSG projeter est compos dune
ou plusieurs SAVs. Une SAV est compose elle-mme des traits et des valeurs. La valeur
dun trait peut tre une valeur simple ou bien une valeur compose (liste ou SAV). Quant au
lexique LMF, rsultat de la projection, il est compos dun ensemble dlments. Chaque
lment peut tre compos dautres lments et/ou des catgories de donnes (DC). Chaque
catgorie de donnes est constitue dun attribut ayant une valeur.
3. Implmentation
Notre but consiste construire un outil dvelopp en JAVA sous lenvironnement Borland
JBuilder X permettant la projection dun lexique syntaxique en HPSG vers la plate-forme
LMF tout en suivant la dmarche propose dans le chapitre prcdent. Dans ce qui suit, nous
allons tout dabord, donner la reprsentation interne des lexiques syntaxiques HPSG. Ensuite,
nous allons dtailler limplmentation des mthodes pour chaque module de notre systme en
nous rfrant des pseudo-codes java.
83
Hla Fehri
de sa reprsentation XML. La figure 5.5 est un exemple qui dcrit lorganisation dun fichier
nomm Verbes.xml contenant uniquement des verbes.
84
Hla Fehri
Le fichier de la figure 5.5 dcrit les diffrents traits caractrisant un verbe selon le formalisme
HPSG et en se rfrant [23]. En effet, la balise <fs> indique quil sagit dune structure
attribut/valeur et la balise <f> indique quil sagit dun trait. La balise <f> est suivie toujours
de lattribut name qui est suivie son tour par le nom dun trait correspondant.
85
Hla Fehri
La mthode extraire (entree, fichier, n) prsente dans la figure 5.6 va tre applique pour
chaque lexique ouvert et pour chaque entre existant dans ce dernier. Lextraction du
fragment XML relatif une entre lexicale est faite afin dextraire les traits qui vont tre
projets : objet du sous-module suivant.
86
Hla Fehri
Figure 5.7. Position de la projection dun verbe (forme canonique ou une forme flchie dune
forme canonique)
Comme lindique la mthode la figure 5.7, pour un verbe ayant une forme canonique ou une
forme flchie dune forme canonique, le fait de savoir sil y a dans le fichier XML une entre
lexicale dj projete Ep de la mme classe que celle en cours de projection Ec, se base sur le
fait que Ec et Ep ont la mme valeur du radical et le mme nombre de lettres (mmes valeurs
des traits TRILITERE et MOJARAD). Dans ce cas, la mthode rechercher_mojarad() retourne
la position de projection de Ec qui reprsente la position de Ep sinon elle va retourner -1. La
valeur -1 implique la cration dune nouvelle entre lexicale lors de la projection.
87
Hla Fehri
Figure 5.8. Position de la projection dun verbe (forme drive ou une forme flchie dune
forme drive)
Dans le cas dun verbe ayant une forme drive ou une forme flchie dune forme drive, sil
existe dj une entre lexicale Ep de la mme classe que Ec (mme radical et mme schme de
la forme drive) dans le fichier LMF.xml, la mthode rechercher() de la figure 5.8 va
retourner la position dans laquelle Ec doit tre projete. Dans le cas inverse, cette mthode va
retourner -1.
La fonction rechercher() fait appel la fonction verif_forme() qui a pour rle de retourner la
valeur du schme de la forme drive de Ec et celui de la forme drive de chaque Ep ayant le
mme radical que Ec. La dfinition de verif_forme() est illustre dan la figure 5.9.
88
Hla Fehri
La mthode verif_forme() dfinie dans la figure 5.9 fait un parcours du fichier Schemes.xml si
lente correspondante est la voix active et du fichier Schmes_p.xml sinon. Ces deux
fichiers contiennent tous les schmes de toutes les formes drives ainsi que leur conjugaison.
Le paramtre aspect est utilis afin de minimiser laccs au fichier correspondant. Cette
fonction reoit chaque fois la valeur du schme de Ec et de chaque Ep existante dans
LMF.xml et retourne la valeur du schme de leur forme drive. Lappel cette fonction par
89
Hla Fehri
la mthode rechercher() sarrte quand le rsultat fourni pour Ec et le mme que Ep. En effet,
dans ce cas, il sagit de deux entres qui ont la mme classe.
3.2.3. Projection proprement dite
Une fois que le fragment XML est extrait et la position de projection est identifie, nous
passons lextraction des valeurs des traits afin de les projeter. Pour les traits, nous pouvons
les connatre partir de la catgorie lexicale vu que nous sommes passs dans le chapitre
prcdent par une phase qui permet ltude des diffrentes SAVs des diffrentes catgories
lexicales. La mthode permettant lextraction des valeurs dun trait donn est dfinie dans la
figure 5.10.
static String []val(String att, String val)
{ int verif=0;
String[] res;
res=new String [100]; // res va contenir la valeur du trait cherch.
SAXBuilder sxb=new SAXBuilder();
try
{//Ouverture du frgment.xml
document = sxb.build(new File("fragment.xml"));
}
catch (Exception e1) {}
racine = document.getRootElement();
List L = racine.getChildren("fs");
//chercher un trait et retourner sa valeur
res=rechercher (L,att,val,verif,res);
return res;
}
La mthode val (att, val) va tre appele autant de fois quil y a des traits dans le fragment
extrait. Le paramtre att prend gnralement la valeur du name qui existe dans lorganisation
du fichier XML reprsentant le lexique. La syntaxe du trait est la suivante : f name = nom du
trait. Le deuxime paramtre reprsente le nom du trait.
Vu quil existe plusieurs lexiques qui peuvent reprsenter diffrentes catgories lexicales, et
vu que chaque catgorie lexicale peut avoir ses propres traits et ses propres rgles de
projection, le trait MAJ nous permet de savoir quelle mthode de projection appliquer. La
figure 5.11 illustre ce point.
90
Hla Fehri
et
lappel
des
mthodes
projeter_verbes(),
projeter_noms()
ou
projeter_particules() sera dtermin par cette valeur. La figure 5.12 est un exemple pour la
mthode projeter_verbes().
91
Hla Fehri
92
Hla Fehri
Comme lindique la mthode de la figure 5.12, la projection dun verbe passe par lutilisation
des rgles de projection. Ces rgles sont appliques selon les traits qui peuvent exister dans
une catgorie lexicale. R1, R2, R3, R4, R5 et R8 sont les rgles appeler dans le cas dun
verbe. La figure 5.13 est un exemple pour une rgle de projection.
static void R1(int ind)
{ LexicalEntry LE;
r=LV.val("name","PHON");
DC DC1=crer_DC("Lemma",r[0]); // crer une catgorie de donnes
DC DC2=crer_DC("orthography",r[0]);
p.vi=1;
if(ind!=-1) // il existe Ep de la mme classe que Ec
{ LE=p.Lexicon.getLexicalEntry(ind);
set_LED(DC1,LE); //Attribuer une catgorie de donnes LemmatisedForm
// relative une entre lexicale (LE)
crer_IF(DC2,LE);// crer llment InflectedForm
}
else
if(p.vle==0)// cest le premier trait projeter pour Ec
{LE=crer_LE(); // crer une nouvelle entre lexicale
set_LED(DC1,LE);//crer LemmatisedForm
crer_IF(DC2,LE);//crer InflectedForm
p.vle=1; // indiquer quil y a un trait de Ec qui a t projet
}
else
{LE=p.Lexicon.getLexicalEntry(p.Lexicon.getLexicalEntryCount()-1);
set_LED(DC1,LE);
crer_IF(DC2,LE);
}
// enregistrement des modifications dans le fichier concern
try {
p.Database.marshal(p.filename," ","windows-1256");
}
catch (Exception exx) {
exx.printStackTrace();
}
}
Remarquons que la rgle R1 illustre dans la figure 5.13 ncessite un paramtre de type
entier. Ce paramtre reprsente la position de projection.
Comme cest dj indiqu dans le chapitre prcdent, la projection dune forme canonique
(ou drive) ncessite lappel de R1 par contre celle dune forme flchie ncessite lappel de
R2. Cest pourquoi, lors de la projection dune entre lexicale qui peut admettre des formes
flchies, comme dans le cas des verbes, nous devons connatre la forme de lentre Ec et cest
dj le rle de la fonction forme() appele par projeter_verbes() et dfinie dans la figure 5.14.
93
Hla Fehri
La mthode forme() illustre dans la figure 5.14 permet de retourner 1 si Ec reprsente une
forme canonique ou mme drive et -1 sinon. Pour connatre les formes canoniques, il suffit
que Ec soit la voix active et ait pour valeur de schme " "ou "". Pour connatre
les formes drives, il faut faire un accs au fichier Schemes.xml qui contient tous les schmes
des formes drives ainsi que leurs conjugaison.
4. Interfaces ralises
Le prototype ralis contient une interface principale interactive, intuitive et conviviale
dveloppe dans lenvironnement JBuilderX. En effet, lexcution du programme provoquera
lapparition de cette interface qui est dcrite dans la figure 5.15.
Dans ce qui suit, nous allons dtailler le fonctionnement de notre systme via la description
des interfaces tablies.
94
Hla Fehri
Linterface principale, dcrite dans la figure 5.15, contient une barre de menus qui permet
laccs toutes les fonctionnalits de notre systme. Dans ce qui suit, nous allons dtailler le
rle de chaque menu.
Le menu Fichier permet louverture des fichiers XML que lutilisateur dsire projeter ou
mme consulter. Ainsi, lactivation de la commande Ouvrir de ce menu provoquera
lapparition dune boite de dialogue. Lutilisateur doit alors choisir le lexique dsir en
prcisant son chemin daccs.
Notons que le choix du lexique est suivi par laffichage de son contenu. La figure 5.16 en
est un exemple douverture du fichier Verbes.xml. Ce fichier a t conu lors de la
ralisation de ce travail. En outre, la description des verbes contenus dans ce fichier est
effectue en se rfrant [2].
95
Hla Fehri
Nous pouvons remarquer partir de la figure 5.16 que le fichier ouvert dcrit tous les traits
qui peuvent exister dans une SAV respectant le formalisme HPSG.
Le menu Projection permet la projection de tous les fichiers XML ouverts quelle que
soient leurs structures cest--dire sils respectent le format standard de reprsentation des
SAVs [23] ou non. La figure 5.17 illustre lopration de la projection.
96
Hla Fehri
Le fichier affich dans la figure 5.17 correspond au fichier rsultat de la projection. Il reflte
lapplication des rgles relatives un verbe que nous avons dtailles dans le chapitre
prcdent. Ce fichier respecte aussi le DTD reprsent dans [24].
Le menu Ajout permet lajout des entres lexicales. La figure 5.18 reprsente un exemple
dajout du verbe .
97
Hla Fehri
Lajout dune entre lexicale implique celui de toutes les valeurs des traits qui identifient sa
catgorie. Cette opration est effectue juste pour pouvoir tester le prototype ralis.
Le menu Affichage permet laffichage des entres lexicales des fichiers construits. La
figure 5.19 est un exemple daffichage des verbes qui se trouvent dans le fichier
Verbes.xml.
Hla Fehri
Laffichage dun verbe implique celui de toutes les valeurs des traits caractrisant ce verbe.
Les boutons et de la figure 5.19 permettent dafficher respectivement le
verbe qui vient aprs le verbe dans le fichier Verbes.xml et le verbe qui vient juste
avant.
5. Evaluation
Dans le but dvaluer et de tester notre systme, nous avons projet dix lexiques HPSG qui
varient du point de vue structure et contenu. Ces critres de variation ont des influences sur
les rsultats obtenus. Le tableau reprsent dans la figure 5.20 illustre les diffrents rsultats
obtenus.
Nombre de lexiques HPSG
Structure du lexique
obtenu
obtenu
conforme LMF
conforme LMF
perte dinformations
perte dinformations
Les rsultats obtenus dans le tableau de la figure 5.20 dpendent du contenu du lexique HPSG
projeter. Notons que le lexique obtenu suite la projection ne dpend pas de la structure du
lexique HPSG choisie (standard ou non).
Daprs le tableau de la figure 5.20, il y a trois types de lexiques qui donnent trois rsultats
diffrents. En effet, les lexiques HPSG qui contribuent avoir un lexique conforme LMF
sans aucune perte dinformations doivent, ou bien contenir les diffrents traits, que nous
avons ajouts dans le chapitre 2, afin de lier chaque forme canonique ou drive ses formes
flchies, ou bien se limiter contenir des formes canoniques et/ou drives sans aucune forme
flchie. Cest le cas des six premiers lexiques. Nous pouvons trouver dans ces lexiques HPSG
des entres lexicales de diffrentes catgories lexicales ou linverse.
Quant aux deux lexiques HPSG qui ont entran aprs leur projection des lexiques
conformes LMF mais avec perte dinformations, sont ceux qui possdent les mmes
caractristiques que le cas prcdent mais qui contiennent des traits non existants dans la base
de traits choisie. En effet, les catgories de donnes en HPSG ne sont pas standardises et
chaque utilisateur peut dfinir ses propres donnes afin de raliser son objectif. Par
99
Hla Fehri
consquent, le mme trait peut exister dans plusieurs lexiques HPSG sous diffrents formats
dcriture.
Les deux derniers lexiques HPSG dans le tableau de la figure 5.19, qui gnrent des
lexiques non conformes LMF avec perte dinformations, sont ceux qui contiennent des
formes flchies sans utiliser les traits que nous avons ajouts.
Ainsi, nous pouvons remarquer que pour obtenir un lexique conforme LMF sans aucune
perte dinformations, trois conditions ncessaires doivent tre satisfaites dans le lexique
HPSG source de la projection : La premire consiste ajouter les traits qui lient les formes
canoniques ou drives leurs formes flchies dans le cas o le lexique HPSG projeter
contient des formes flchies. La deuxime consiste ajouter tous les traits HPSG dans la base
des traits. La troisime consiste la voyellation de tous les schmes des verbes trilitres afin
dviter le conflit entre deux verbes qui scrivent de la mme faon (
et
) .
En outre, notre systme peut tre qualifi dextensible puisque dune part, nous avons opt
pour une conception simple assurant lautonomie des modules et dautre part, nous avons
implment un prototype de projection du HPSG vers LMF laide dun langage orient objet
favorisant lobtention des logiciels extensibles. Ainsi, nous pouvons tendre notre tche par
lajout des rgles de projection qui permettent de traiter des lexiques HPSG appartenant
dautres langues naturelles ou des lexiques pour les noms composs.
Par contre, la portabilit de ce prototype nest pas assure du fait quil est cens manipuler
la langue arabe et seuls les systmes dexploitation Windows qui supportent la langue arabe
peuvent rpondre nos exigences.
Notre prototype ralis permet dune part la rcupration et la fusion des lexiques HPSG
sans redondance des donnes. Dautre part, il permet le traitement de plusieurs variations,
entre autres, la variation orthographique. En effet, au niveau du lemme, pour deux formes
tymologiquement lies, prononciation identique et appartenant des paradigmes
flexionnels diffrents, notre systme contient deux entres lexicales distinctes, sans renvoi de
lune lautre ( et ) .
Notre systme permet encore la projection des entres lexicales catgorises en tant que
mots grammaticaux. En effet, nous trouvons dans la catgorie des noms les pronoms (i.e.,
personnels, dmonstratifs), les noms propres, les noms abstraits, etc. Dans la catgorie des
particules, nous trouvons les lettres de signification (i.e., conjonction, prposition) et les
lettres de construction. Pour les verbes, il y a les verbes flexionnels, les verbes structurs,.
Certes le prototype traite plusieurs niveaux linguistiques. Mais, il ne traite pas les formes
composes telles que le nom propre () .
100
Hla Fehri
Conclusion
Dans ce chapitre, nous avons commenc tout dabord par donner larchitecture gnrale du
prototype ralis afin de projeter un lexique syntaxique HPSG vers LMF. Ensuite, nous avons
prsent la conception de ce prototype base sur le langage UML. Puis, nous avons dtaill
limplmentation qui a t faite avec le langage de programmation orient objet JAVA sous
lenvironnement JbuilderX. Aprs, nous avons dcrit quelques interfaces ralises partir
dun exemple illustratif. Enfin, nous avons valu notre travail en nous basant sur la
projection de dix lexiques HPSG de diffrentes structures et de diffrents contenus ce qui
nous a permis de prouver la faisabilit de notre prototype et de discerner ses limites.
101
Conclusion gnrale
102
Hla Fehri
Dans le prsent travail, nous avons dvelopp un systme permettant la projection dun
lexique syntaxique HPSG vers la plate-forme LMF. Ainsi, ce systme nous permet de projeter
des entres lexicales de diffrentes catgories lexicales partir de nimporte quel lexique
HPSG. Cette projection va nous aider soit rcuprer des lexiques HPSG existants, soit les
fusionner et les intgrer avec dautres lexiques afin dobtenir des ressources plus riches et
plus larges.
Pour la ralisation du systme de projection, nous avons commenc, tout dabord, par
effectuer une tude sur ltat de lart de quelques travaux qui visent dune faon ou dautre
lchange des lexiques, des ressources et des rsultats fournis par des communauts
diffrentes.
Ensuite, nous avons prsent le formalisme HPSG arabis et ajout quelques traits qui sont
ncessaires la ralisation de la projection. Ces modifications se focalisent sur la partie
flexionnelle. Puis, nous avons tudi la plate-forme LMF afin de dgager les points communs
et les diffrences entre LMF et HPSG.
Ltude de HPSG dune part, et de la norme LMF dautre part nous a conduit proposer
une dmarche compose de deux tapes et qui utilise 14 rgles de projection susceptibles de
couvrir les diffrents traits qui caractrisent les entres lexicales relatives la langue arabe.
Lexprimentation de ce travail qui a t faite avec le langage orient objet JAVA et
conformment la mthodologie de conception UML, nous a permis dune part, de tester la
faisabilit du systme ralis et dautre part, de discerner les limites rencontres. Lvaluation
de notre prototype a t base sur la projection de dix lexiques HPSG qui diffrent du point de
vue structure et contenu ce qui nous a aids dgager les conditions ncessaires pour la
russite de la projection vers LMF.
Comme perspectives, nous voulons dfinir des critres permettant de vrifier formellement
la russite de la projection. Nous voulons aussi essayer dalimenter des applications conues
dans des grammaires dunification partir des bases de donnes lexicales en LMF. Ceci va
favoriser la rutilisation et lenrichissement des lexiques existants. Noublions pas enfin que
nous pouvons exploiter la projection des grammaires LTAG vers HPSG en profitant de la
phase qui permet la conversion des arbres lmentaires canoniques vers des entres lexicales
en HPSG. En effet, cette phase peut tre considre comme une phase intermdiaire pour le
passage vers LMF : de LTAG vers HPSG et de HPSG vers LMF.
103
Bibliographie
104
[1] Abdelkader A. (2006), Etude et analyse de la phrase nominale arabe en HPSG, mmoire
de mastre, SNIT, FSEGS, Sfax.
105
[15] Fehri H. et Haddar K. (2006), Elaboration dun systme de rgles en vue de projeter
HPSG en LMF, dans les actes de confrence des siximes journes scientifiques des jeunes
chercheurs en Gnie Electrique et en Informatique (GEI'2006), papier long, Hammamet,
Tunisie, 24-26 mars.
[16] Fehri H., Loukil N., Haddar K., Romary L. et Ben Hamadou A. (2006), Un systme de
projection du HPSG arabis vers la plate-forme LMF, dans les actes du colloque JETALA,
Institut dEtudes et de Recherches pour larabisation (IERA), Rabat du 05-07 juin.
[17] Fehri H. et Haddar K. (2007), Un prototype de projection HPSG en LMF, Actes de
confrence des septimes journes scientifiques des jeunes chercheurs en Gnie Electrique et
en Informatique (GEI'2007), Monastir, Tunisie, 26-28 mars.
[18] Francopoulo G. (2005), Bilan au sein de laction nationale de recherche et de
dveloppement SYNTAX, INRIA Loria.
[19] Francopoulo G. (2005), Lexical Markup Framework (LMF = ISO 24-613), INRIALoria.
[20] Francopoulo G. (2003), Proposition de norme des lexiques pour le traitement
automatique du langage, inria/loria-action syntaxe.
[21] Genelex (1994), Projet Eureka GENELEX, Rapport sur LE MULTILINGUISME,
version 2.0, France.
[22] Gomez C., Pinto M. (2001), La normalisation au service du traducteur, Meta, XLVI.
[23] ISO/TC37/SC 4 (2004), Language Resource Management Feature Sructures- Part 1 :
Feature Structure Representation.
[24] ISO/TC37/SC 4 N130 Rev.9 (2006) Language Resource Management Lexical
Markup Framework (LMF).
[25] Kasper R., Kiefer B., Netter K. ET K. Vijay-Shanker (1995), Compilation of HPSG to
TAG proceeding of the 33rd ACL, p 92-99.
[26] Kemps-Snijders M., Wittenburg P.(2005), LEXUS a flexible web based lexicon tool,
www.mpi.nl/lexus, lexus@mpi.nl.
106
[27] Khemakem A.(2006), ArabicLDB : une base lexicale normalise pour la langue arabe,
mmoire de mastre, SNIT, FSEGS, Sfax.
[28] Loukil N., (2006), Une proposition de reprsentation normalise des lexiques des
grammaires d'unification in Actes de TALN, Presse Universitaire de Louvain, 10 13 Avril
2006, Belgique.
[29] Maaloul H., (2005), la coordination dans la langue arabe : tude et analyse en HPSG,
mmoire de mastre, SNIT, FSEGS, Sfax.
[30] Pierrel J., Pole de recherche scientifique et technologique : Intelligence logicielle,
ATILF UMR 7118 CNRS Nancy 2 UHP, Nancy Cedex.
[31] Pollard C., Sag., I.A. (1994), Head-Driven Phrase Structure Grammar, publi par la
presse dans luniversit de Chicago, Edition Golgoldmittu, Chicago, LSLI.
[32] Pollard C. & I. Sag (1987), Information-Based Syntax and Semantics, Voume I:
Fundamentals. CSLI Lecture Notes N.13. Stanford., Center for the Study of Language and
Information.
[33] Romary L. Action nationale INRIA SYNTAX, dcembre 2003 dcembre 2003.
[34] Romary L. Mtadonnes et Normalisation des ressources linguistiques, Laboratoire
Loria-Inria, CNRS Direction de lInformation Scientifique.
[35] Romary L., (2004), Corpus et Normalisation, Laboratoire Loria - Inria.
[36] Romary L.., Un modle abstrait pour la reprsentation de terminologies multilingues
informatises : TMF Terminolological Markup Framework, Loria Campus Scientifique.
[37] Romary L.,
107
108
Annexe A: Le DTD
de la norme LMF
109
Hla Fehri
Lexicon
(LexiconInformation,
LexicalEntry+,
InflectionalParadigm*,
LexicalEntry
(DC*,
LemmatisedForm+,
Sense*,
EntryRelation*,
SyntacticBehavior*)>
<!ATTLIST LexicalEntry
id ID #IMPLIED>
<!ELEMENT Sense (DC*, SenseRelation*, PredicativeRepresentation*, SenseExample*,
SemanticDefinition*)>
<!ATTLIST Sense
id ID #IMPLIED
inherit IDREFS #IMPLIED>
<!ELEMENT EntryRelation (DC*)>
<!ATTLIST EntryRelation
targets IDREFS #REQUIRED>
<!ELEMENT SenseRelation (DC*)>
<!ATTLIST SenseRelation
targets IDREFS #REQUIRED>
<!-- Package for Morphology -->
<!ELEMENT LemmatisedForm (DC*, ListOfComponents?, InflectedForm*, Stem*)>
<!ATTLIST LemmatisedForm
id ID #IMPLIED
paradigm IDREF #IMPLIED
pattern IDREF #IMPLIED>
110
Hla Fehri
111
Hla Fehri
112
Hla Fehri
113
Hla Fehri
114
Hla Fehri
Rsum. Lvaluation des lexiques grammaires HPSG existants nest pas une tche facile car
elle ncessite une tude profonde de leurs couvertures linguistiques. Nanmoins, ces lexiques
nutilisent pas les mmes ressources linguistiques et ventuellement des catgories de
donnes diffrentes. Dans ce contexte, nous prsentons la dmarche et le prototype ralis
pour la projection du HPSG arabis vers un langage pivot normalis le LMF en se basant sur
un systme de rgles. Llaboration dun tel systme est base sur une tude effectue sur le
HPSG adapt pour la langue arabe. Cette tude nous a permis didentifier des structures
attributs valeurs pour chaque catgorie lexicale et leurs correspondances en LMF.
Mots cls. HPSG, LMF, projection, systme de rgles
Abstract. An evaluation of existent HPSG lexicon grammar is not an easy task because it
requires an underlying study of their linguistic coverage. Nevertheless, these lexicons dont
use the same linguistic resources and eventually different data categories. In this context, we
present a method and a prototype realized for the projection from Arabic HPSG to a
normalised pivot language, the LMF based on a system of rules. The elaboration of such a
system is based upon a study of the HPSG adapted to Arabic. This study permits us to identify
the attribute value structures for each lexical category and their correspondences in the LMF.
Key-words. HPSG, LMF, projection, system of rules.
HPSG :
. .
. LMF HPSG
.HPSG
.LMF
. LMF HPSG :
115