Professional Documents
Culture Documents
Ahmed HAMDI
3
Abstract
4
Table des matires
Rsum 3
Abstract 4
Introduction 20
5
2.1.2 Analyse flexionnelle 50
2.1.3 Analyse drivationnelle 52
2.1.4 Analyse et gnration morphologique 53
2.2 Morphologie deux-niveaux 55
2.2.1 Modle deux niveaux 64
2.2.2 Modle multi-bande 67
2.2.3 Analyse de verbes 68
2.2.4 Analyse des noms 70
2.3 Principaux analyseurs morphologiques de larabe 73
2.3.1 Buckwalter Arabic Morphological Analyzer (bama) 73
2.3.2 Arabic Lexeme-based Morphological Generation and Ana-
lysis (almor) 74
2.3.3 Xerox Finite State Machine (xfsm) 75
2.3.4 Lanalyseur (elixirfm) 75
3 Outils et ressources 77
3.1 Systme danalyse et gnration morphologique du msa et de ses
dialectes 77
3.1.1 Analyse et gnration morphologique 78
3.1.2 Architecture de magead 84
3.1.3 Adaptaion de magead au tun 86
3.2 Lexiques de transferts tunmsa 88
3.2.1 Lexique des verbes 88
3.2.2 Lexique des noms dverbaux 94
3.2.3 Lexique des particules 100
3.3 tiqueteur en parties de discours 101
3.4 Corpus dvaluation tunisien 102
3.4.1 Conventions de transcription 104
3.4.2 Conventions de segmentation 104
3.4.3 Conventions dannotation 106
6
4.4.3 tiquetage en parties de discours sans dsambigusation 124
Bibliographie 129
ANNEXES 137
A Rgles morphologiques du tunisien 137
B Liste des verbes issus de racines tun 153
C Table de dverbaux tun-msa 156
7
Liste des figures
8
4.5 Processus de conversion dun verbe source vers un verbe cible
laide du lexique de racines et de la matrice de correspondance de
MBCs 115
4.6 Conversion dun verbe source vers une forme cible par le lexique de
racines et MBCs 116
4.7 Processus de conversion dun verbe source vers une forme cible en
utilisant un lexique de racines et MBCs avec repli 118
4.8 tiquetage en parties de discours du tun avant la conversion 123
4.9 tiquetage en parties de discours des lemmes et des LMMs en pseudo-
MSA 124
9
Liste des tableaux
10
3.12 Rsultats sur lensemble de dveloppement aprs lenrichissement
du lexique des verbes 99
3.13 Rsultats sur lensemble de test aprs lenrichissement du lexique
des verbes 99
3.14 Exemples de particules TUN et MSA 100
3.15 Ambigut du lexique de particules TUN-MSA 101
3.16 Performances de ltiquetage en parties de discours du MSA 102
3.17 Statistiques sur le corpus dvaluation tunisien 103
3.18 chantillon du corpus dvaluation tunisien 105
11
Introduction
12
tunisien vers le MSA. Le traitement automatique de la morphologie de larabe du
fait de sa richesse et de sa complexit est un dfi pour TAL. Les outils standard
de traitement automatique de la morphologie, dvelopps gnralement pour le
traitement automatique des langues indo-europennes ne sont souvent pas ad-
quats pour traiter les langues smitiques. Nous avons collabor, dans le cadre de
cette thse, avec des spcialistes du traitement automatique de la morphologie
de larabe pour dvelopper notamment un analyseur morphologique du tunisien,
qui constitue une brique importante du systme que nous proposons.
Dans le but de valider notre approche, nous avons choisi un outil de TAL stan-
dard : un tiqueteur morphosyntaxique. Lide est dutiliser un tiqueteur mor-
phosyntaxique pour le MSA sur la sortie de notre outil de conversion et den
tudier les performances. Dautres outils auraient pu tre utiliss dans ce but,
notamment un analyseur syntaxique. Nous avons prfr avoir recours un ti-
queteur morphosyntaxique car il sagit la fois dun outil simple et trs utilis en
TAL .
Lvaluation dun tiqueteur morphosyntaxique du tunisien est confront
labsence de corpus tiquet en parties de discours pour le tunisien. Nous nous
sommes donc attels au dveloppement dun tel corpus, dans un but dvalua-
tion. Ce dveloppement est lui mme confront au problme de labsence de
conventions orthographiques pour les dialectes de larabe en gnral et le tuni-
sien en particulier (Habash, 2010), contrairement au MSA pour lequel un systme
orthographique standard a t tabli. Habash et al. (2012) fait partie des rares
travaux qui se sont intresss ltablissement des conventions orthographiques
pour les dialectes arabes. Il propose des conventions a communes qui peuvent
tre partages pour tous les dialectes du monde arabe.
La mthodologie que nous proposons dans ce travail pour traiter le tunisien
laide doutil dvelopps pour le MSA peut tre appliqu tous les dialectes de
larabe et mme dautres dialectes qui se trouvent dans la mme situation,
savoir lexistence dune variante pour laquelle de nombreuses ressources ont t
dveloppes.
Ce document est compos de cinq chapitres regroups en deux parties prin-
cipales : une premire partie compos de trois chapitres (incluant cette intro-
duction) constitue ltat de lart de notre travail. Cette partie se focalise sur la
description des caractristiques morphosyntaxiques de larabe ainsi que les dif-
frentes mthodes et techniques informatiques pour raliser le traitement auto-
matique de la morphologie complexe de larabe. Dans la deuxime partie, qui
se compose de deux chapitres, nous dcrivons en dtail notre mthode et nous
lvaluons sur ltiquetage en partie de discours du TUN.
Le chapitre 1 aborde quelques notions lies la langue arabe. Dans ce chapitre,
nous mettons en relief les phnomnes dagglutination, de flexion et de driva-
tion en arabe et nous illustrons les problmes qui y sont lis. Nous donnons,
a. Ce travail rentre dans le cadre du projet coda (Conventional Orthography for Dialectal
Arabic (Habash et al., 2012)).
13
galement, un aperu sur les deux variantes de larabe qui nous intressent dans
ce travail savoir le MSA et larabe dialectal et plus particulirement le dialecte
tunisien. Nous effectuons une tude profonde pour distinguer les diffrences et
les similarits morphosyntaxiques du MSA et du TUN.
Le chapitre 2 porte sur le traitement automatique de la morphologie en gnral
en insistant sur les outils spcifiques au traitement des langues gabaritiques. Ce
chapitre prsente galement les analyseurs morphosyntaxiques les plus connus
pour le traitement de larabe.
Le chapitre 3 est consacr la description des outils et des ressources auxquels
nous avons eu recours pour la ralisation de la mthode que nous proposons pour
rpondre notre problmatique.
Enfin, le chapitre 4 porte sur lvaluation. Nous donnons dans ce chapitre tous
les rsultats obtenus lissue des diffrentes expriences que nous avons effec-
tues.
Le reste de ce chapitre est compos de deux sections. La premire propose un
rapide survol des variantes de la langue arabe et la seconde aborde la problma-
tique du traitement automatique des langues peu dotes.
14
Figure 0.1.: Monde arabe : rpartition des arabophones
15
morphologique, grammatical et syntaxique de larabe classique.
Le MSA est employ dans les domaines administratifs et ducatifs ainsi que
dans la communication formelle crite et orale des pays arabes. Bien que le MSA
reprsente la langue commune de toute la population arabe du golfe locan, il
ne constitue la langue maternelle daucun arabophone. En effet, les arabophones
acquirent ds leur petite enfance un dialecte arabe en fonction de leur lieu de
naissance.
Les dialectes arabes reprsentent ainsi les langues vernaculaires. Ils sont uti-
liss dans les conversations quotidiennes des arabophones. Ces dialectes sont
le rsultat de linterfrence linguistique entre la langue arabe et les langues lo-
cales ou voisines, lissue dune influence culturelle due principalement la
colonisation, aux mouvements migratoires, et rcemment aux mdias (Bassiou-
ney, 2009). Ils sont en perptuelle volution, incluant constamment de nouveaux
mots emprunts la plupart du temps des langues occidentales gographique-
ment proches comme le franais, lespagnol, litalien ou langlais. Ce sont les
dialectes qui sont utiliss pour la communication de tous les jours dans les pays
concerns. Rcemment, depuis quelques annes, lemploi des dialectes nest plus
restreint loral, ils commencent tre utiliss pour la communication crite
informelle dans le web (forums, blogs, rseaux sociaux. . . ).
Les arabophones ne considrent pas que le MSA et larabe dialectal sont deux
langues spares. Cette perception conduit une situation particulire de co-
existence de deux formes dune mme langue. Cette situation est appele diglos-
sie (Ferguson, 1959) : "Diglossia is likely to come into being when the following
three conditions hold in a given speech community : (1) There is a sizable body of
litterature in a language closely related to the natural language of the community,
and this litterature embodies, whether as source or reinforcement, some of the fon-
damental values of the community. (2) Literacy in the community is limited to a
small elite. (3) A suitabe period of time, of the order of several centuries, passes
from the establishment of (1) and (2)".
Bien que ces deux variantes sont clairement prdominantes dans deux do-
maines diffrents, lcrit formel (MSA) et loral informel (dialectes), il existe ga-
lement une forme qui combine les deux variantes (Bassiouney, 2009) utilise
dans les rseaux sociaux, les forums et les dbats tlviss. En effet, cette forme
assemble, dans une mme phrase, des termes de larabe standard et dautres
termes de larabe dialectal. Les termes eux-mmes peuvent tre drivs dun mot
dune variante et subissent lagglutination ou la flexion de lautre variante.
La classification des dialectes arabes dpend principalement de deux facteurs
distincts : un facteur gographique et un autre sociologique.
16
les habitants des cits et considr comme tant plus prestigieux et un dialecte
bdouin qui est moins bien considr. La diffrence entre ces variantes concerne
gnralement les aspects phonologiques et lexicaux, les systmes morphologique
et syntaxique restant globalement invariables.
Le dialecte arabe qui nous intresse dans ce travail est le dialecte tunisien. Ce
dernier est parl par 12 millions de personnes habitant gnralement en Tunisie.
Cette variante de larabe est sous linfluence constante dautres langues. Ceci est
lie gnralement lhistoire du pays. En effet, toutes les nations qui ont transit
par la Tunisie ont laiss des traces dans le dialecte des tunisiens linstar des
phniciens, des grecs, des romains, des vandales, des byzantins, des arabes, des
turcs et des franais, pour ne citer que les plus marquants. Cette diversit a fourni
au dialecte tunisien de nouveaux termes et la rendu riche et varie.
b. Cette classification est une parmi plusieurs et ne signifie pas que chaque dialecte est enti-
rement homogne dun point de vue linguistique.
17
La premire mthode consiste adapter un outil existant pour L2 . Cette adap-
tation peut prendre plusieurs formes. Bernhard et al. (2013), par exemple, ont
adopot une telle approche pour adapter un tiqueteur de lallemand lalsacien.
Ils montrent que lannotation manuelle dune petite liste de mots provoque une
amlioration significative de la prcision de ltiquetage. Dans le mme esprit,
Feldman et al. (2006) ont adapt un un tiqueteur morphosyntaxique de les-
pagnol au portuguais et au catalan. Selon une mthode lgrement diffrente,
Garrette et Baldridge (2013) ont montr lefficacit de cette approche en adap-
tant des outils de traitement automatique de L2 grce lannotation de corpus
de taille limite pour L1 .
Une deuxime mthode consiste traduire des corpus annots de L2 vers L1
et de se servir de cette traduction comme corpus dapprentissage pour des ou-
tils de L1 . Scherrer et al. (2009) par exemple, sest intress la traduction
depuis lallemand vers diffrents dialectes suisses allemands. Ce systme repose
sur une analyse syntaxique de lallemand et cest lissue de lanalyse syntaxique
quun mcanisme de transfert permet de gnrer une traduction en dialecte. Plus
proche de nou dun point de vue linguistique, Shaalan et al. (2007) ont dcrit
un systme de transfert de lgyptien vers le MSA. Dans ce cas, le transfert est
effectu au niveau des lemmes.
Une troisime mthode consiste rapprocher L1 de L2 afin de pouvoir y appli-
quer des outils dvelopps pour L2 . Le cas extrme consiste traduire automa-
tiquement L1 en L2 , comme le proposent Yarowsky et al. (2001), Das et Petrov
(2011) et Duong et al. (2013). Une telle approche nest, bien entendu possible
que sil existe des corpus parallles L1 , L2 . Certains travaux se sont servis de dic-
tionnaires au lieu des corpus parallles (Li et al., 2012) et dautres ont combin
les deux ressources (Tckstrm et al., 2013). Vergez-Couret (2013) ont montr
que de bons rsultats peuvent tre atteints en se limitant la traduction des 300
mots les plus frquents. Ce travail a t test sur loccitan avec le franais dune
part, et loccitan avec le castillan dautre part.
Nos travaux se situent dans la troisime approche. Lide que nous explorons
consiste convertir le TUN vers le MSA afin de pouvoir y appliquer des outils
conus pour le MSA. Nous avons utilis dessein le verbe convertir et non le verbe
traduire. La raison est que nous ne cherchons pas une traduction de notre entre
en TUN vers une version en MSA qui soit intelligible pour un lecteur humain. Nous
souhaitons nous approcher suffisamment du MSA afin que des outils dvelopps
pour ce dernier puissent donner de bons rsultats sur cette approximation, que
nous appellerons dornavant pseudo-MSA. Nous verrons dans le chapitre 4 des
sorties du systme de conversion qui ne constituent pas des formes acceptables
du MSA, mais sur lesquelles un tiqueteur morphosyntaxique permet de prdire
la squence dtiquettes correcte.
De faon plus prcise, la conversion que nous proposons repose largement sur
la morphologie et le lexique. Cest en effet ces deux niveaux que se manifestent
la majorit des diffrences entre les varits de larabe. Le systme propos relve
18
dune architecture transfert. Un mot en TUN est analys sous la forme dune
racine, dun schme et de traits morphologiques. Un lexique bilingue permet
alors de convertir la racine et le schme source vers une racine et un schme
cible (MSA). La racine et le schme cible, ainsi que les traits morphologiques
vont alors permettre de gnrer un ou plusieurs mots cibles. Un tiqueteur en
parties de discours entran sur des corpus MSA existant sera ainsi appliqu sur
les mots cibles pour assigner les parties de discours adquates aux mots MSA
cibles. Ces tiquettes seront enfin projetes sur le texte tunisien.
Notre systme ralise une analyse morphologique profonde, de manire
identifier la racine du mot cible plutt, et non une analyse surfacique, qui aurait
gnr son lemme. La raison de ce choix est double : dune part, la morphologie
drivationnelle de larabe est trs rgulire, lidentification de la racine peut tre
ralise, de manire fiable et conomique, laide de rgles. Dautre part, le fait
de raliser le transfert au niveau des racines permet de minimiser la taille du
dictionnaire bilingue. On estime en effet 7502 le nombre total de racines de
larabe et 2900 celui des racines frquemment utilises (Altabbaa et al., 2010),
ce qui permet de dfinir une borne suprieure de notre dictionnaire.
Le systme que nous proposons est bi-directionnel : tous les modules qui le
composent sont rversibles, ce qui permet de raliser la traduction depuis le TUN
vers le MSA et vice-versa. Notre systme de conversion peut donc tre utilis dans
le cadre de la deuxime approche que nous avons voqu ci-dessus.
c
c. La traduction du msa vers le tun peut tre intressante dans une application de trans-
cription automatique de la parole : on traduit en dialecte un corpus msa afin de construire un
modle de langage pour le dialecte.
19
sur les lemmes.
20
1. Systmes phonologique et
morphosyntaxique de larabe
a. (Al-Dahdah, 1996) expose les paradigmes verbaux et nominaux de larabe dans des ta-
bleaux. Il dcrit dune manire simple les systmes de conjugaison verbale et de dclinaison
nominale de cette langue riche par ses termes et complexe dans sa grammaire.
b. (Al-Ghulayaini, 2006) prsente les diffrentes catgories grammaticales de larabe et donne
les caractristiques morphologiques et syntaxiques de chaque catgorie.
21
appele translittration c . Dans tout ce document, nous suivons la translittration
propose par Habash et al. (2007).
1.1.1. Alphabet
Lalphabet arabe est compos de 28 consonnes (lettres). Ces dernires pos-
sdent plusieurs formes qui dpendent principalement de leurs positions dans le
mot. Le tableau 1.1.1 fournit la liste des consonnes, leurs noms, leurs formes et
leurs translittrations.
Hormis les cinq consonnes ( X d, X , P r, P z, w) qui ne se lient pas avec
les consonnes qui les suivent dans le sens de lcriture ( gauche), toutes les
consonnes arabes sattachent avec les consonnes voisines. Les consonnes w et
y sont dites des semi-consonnes tant donn quelles peuvent tre utilises
comme des voyelles (cf. section 1.1.2).
La premire lettre de lalphabet arabe (hamza) est particulire, elle scrit sou-
vent laide dun support. Ce dernier peut tre un alif ( @), un waw () ou un ya
( ), sa forme dpend des voyelles qui lentourent. Bien que la hamza possde
plusieurs formes @,
,
, elle se prononce toujours de la mme faon //. Dans
les crits arabes la hamza @ crite laide du support alif est optionnelle. On
retrouve gnralement un alif simple @ la place de @. La translittration de la
hamza voque la forme de son support. Par exemple, un accent circonflexe est
ajout aux @ A, w, y pour marquer leurs formes respectives avec la hamza @ ,
w,
y.
Dautres particularits existent dans le systme dcriture arabe telles que :
le symbole ta marbuTa ~ qui marque gnralement le genre fminin des
noms. Il apparait uniquement la fin des noms et ne peut tre suivi que dune
voyelle courte. Ce symbole est prononc comme /t/ dans larabe moderne stan-
dard et reste souvent muet dans les dialectes arabes. galement, le symbole alif
maqSura apparait uniquement la fin des mots et nest prcd que de la
voyelle courte /a/. Ce symbole marque des verbes dfectifs (cf. section 1.3.2) et
des noms fminins (cf. section 1.3.3).
Les lettres de lalphabet sont classes en lettres lunaires et lettres solaires.
Lidentification du type de lettre est ralise laide de larticle dfini @ Al, qui est
invariant en genre et en nombre. En effet, la lettre initiale dun mot dtermin est
dite lunaire si la lettre l du dterminant est prononce. Cette lettre est muette
quand le mot commence par une lettre solaire. La lettre q, par exemple, est
c. contrairement lcriture arabe, la translittration est lue de gauche droite.
22
lettre nom forme translittration
(forme isole) initiale mdiale finale
Z hamza @
@ @ A J @ Z
H. ba K. J. I. b
H ta K J
I t
H ta K J
I
h. gm k. j. i. j
h h.a k j i H
p ha k j q x
X dal X Y Y d
X dal
X Y Y
P ra P Q Q r
P zay P Q Q z
sin s
n
s.ad S
d.ad D
t.a T
z.a
ayn
gayn
fa f
qaf q
kaf k
lam l
lm m
nun K J n
ha h
waw w
ya K
J
y
23
lunaire car la lettre de larticle dfini du mot Q@ Alqamar /alqamar/ "la lune"
est prononce. En revanche, la lettre l est muette dans le mot /aams/
@
Alms "le soleil". Par consquent, la lettre est dite solaire. Les mots cits
comme exemples "la lune" et "le soleil" expliquent la classification des lettres en
lunaires et solaires.
1.1.2. Voyelles
Toutes les consonnes prsentes dans la section 1.1.1 saccompagnent de voyelles.
Deux types de voyelles existent en arabe : voyelles courtes et voyelles longues.
Voyelles courtes
Les voyelles courtes ou diacritiques sont des symboles situs au-dessus ou au-
dessous des consonnes auxquelles ils sont affects. Les diacritiques se regroupent
en trois catgories :
(i) Diacritiques simples : ce sont des petits sons que lon ajoute aux consonnes.
On distingue quatre diacritiques simples : a, u, i et
qui indique
labsence de tout son.
(ii) Diacritiques doubles : ce sont des diacritiques situs la fin des noms arabes
indfinis d . Ces diacritiques se prononcent de la mme manire que leurs
homologues simples, sauf quon y ajoute le son /n/.
(iii) Chadda : elle se situe au dessus dune consonne et a pour effet le double-
ment de cette dernire. Le symbole "chadda" est toujours accompagn
dun diacritique simple.
(iv) Alif madda : cest un diacritique qui permet de prononcer plus longuement
la hamza @ . La madda @ A est utilise toujours avec le support alif @ A.
Le tableau 1.2 donne la liste des diacritiques arabes, leurs translittrations et
les sons quils produisent.
d. Contrairement au franais, le caractre dfini ou indfini des noms arabes est distingu par
deux moyens diffrents : un article marque le dfini et un diacritique marque lindfini.
24
type diacritique nom translittration transcription
J
j a /a/
fatHa~
u /u/
Diacritique am~
simple Q i /i/
kasra~
. pas
sukuwn de son
iJ K
J K /an/
tanwiyn fatH
Diacritique K
J K u /un/
double tanwiyn am
Q K
J K /in/
tanwiyn kasr
Chadda Y doublement
ada~ de la consonne
Y
madda @ A long //
mada~
Voyelles longues
Les voyelles longues sont au nombre de trois. Elles permettent de prononcer
plus longuement la vocalisation utilise. La voyelle longue est compose dune
voyelle courte a, u ou i suivie respectivement dun support @ A, w ou y.
Le tableau 1.3 prsente la liste des voyelles longues de larabe, leurs translittra-
tions et leurs transcriptions.
Tandis que les lettres prsentes dans la section 1.1.1 sont obligatoires dans
lcriture, les diacritiques sont optionnels e . En effet, les textes arabes peuvent
e. Hormis les textes religieux qui sont entirement diacrits, les textes arabes sont gnrale-
ment non-diacrits.
25
tre non-diacrits, partiellement diacrits ou entirement diacrits. Labsence des
diacritiques dans les crits arabes pose des problmes dambiguts pour le lec-
teur. La proportion des mots ambigus dans le lexique arabe (qui possdent plus
quune diacritisation potentielle) est estime 90.5% (Debili et Achour, 1998).
Les diacritiques jouent un rle important dans la morphologie et la syntaxe de
larabe (Hamdi, 2012). En morphologie, par exemple, la voix dun verbe arabe
est parfois rendue par des diacritiques. Les verbes I
. J katab "il a crit" et I.J
kutib "il a t crit" reprsentent respectivement la voix active et passive du verbe
I.J ktb "crire" et possdent la mme forme non-diacrite. En syntaxe, dautre
part, les diacritiques peuvent dterminer la fonction syntaxique dun mot. Pre-
nons comme exemple la phrase extraite du coran ZA@ <@ m
' f yx Allh
AllmA. Au niveau syntaxique, cette phrase non-diacrite est ambige, elle pos-
sde deux interprtations diffrentes :
ZA@ <@ m '
yx Allha AllmAu
Les savants craignent Dieu
ZA@ <@ m '
yx Allhu AllmAa
Dieu craint les savants
Bien que lordre des mots dans ces deux interprtations soit le mme, la phrase
peut tre lue de deux faons diffrentes. Seules les voyelles (mises en gras dans
lexemple) situes la fin des mots <@ All h et ZA@ AllmA permettent de distin-
guer le sujet de lobjet dans cette phrase g . Ces voyelles sont appeles voyelles ca-
suelles. Dautres voyelles situes en dbut et en milieu de mot sont dites voyelles
lexicales, leur apport se situe au niveau morphologique et lexical.
La diacritisation, dite aussi voyellation, est lopration qui consiste placer
automatiquement des diacritiques dans un mot arabe nen contenant pas. Le
nombre de diacritiques dun mot est gal au nombre de ses consonnes. Plusieurs
travaux tels que (Vergyri et Kirchhoff, 2004), (Nelken et Shieber, 2005) et (Zi-
touni et al., 2006) ont propos des systmes de diacritisation automatique des
textes arabes. Cette opration est troitement lie la dsambigusation mor-
phosyntaxique. En effet, Hamdi (2012) a montr que, en restituant les diacri-
tiques, les performances dun analyseur morphosyntaxique passent de 84.91%
95.59%. Nous revenons sur les diffrents processus de traitement morphosyn-
taxique de larabe dans le chapitre suivant.
@
X AJ.
f. cette phrase est extraite du verset coranique ZA <@ m'
wayaxa Allha
min ibAdihi AlulamAu
g. Linterprtation correcte de cette phrase prsente dans le coran est bien entendu la pre-
mire.
26
Pour mieux illustrer lambigut lie labsence des diacritiques dans les textes
arabes et leur impact sur les applications de traitement automatique, nous don-
K. bkyn mn Al.hzn "elles
nons lexemple de traduction de la phrase Qm '@
ont pleur de tristesse". Labsence des diacritiques dans cette phrase a conduit
la fausse traduction propose par Google "Beijing de tristesse". En effet, la forme
non-diacrite du mot
K. bkyn est ambige, elle peut correspondre aux mots
K. bikiyn "Beijing" ou
K. bakayna "elles ont pleur".
h. linstar de la majorit des crits arabes, tous les mots arabes donns dans ce manuscrit
sont non-diacrits. Par contre, nous remettons les diacritiques dans la translittration.
27
classe catgorie proclitique glossaire
QST particule interrogative + @ + est-ce que
CNJ conjonction + wa+ et
+ fa+ puis, alors
PRP prposition + K. bi+ par, avec
+ ka+ comme
+ li+ pour,
PRT particule de futur + sa+ "particule de futur"
particule de ngation + B lA+ ne ... pas
+ A mA+
DET dterminant + @ Al+ le, la, les
Le mot arabe connait un seul enclitique, le pronom, qui peut tre soit un com-
plment dobjet pour le cas des verbes et des particules, soit un pronom possessif
pour les noms. Lenclitique varie en genre et en nombre. Nous prsentons les
diffrents enclitiques arabes selon la personne, le genre et le nombre dans le
tableau 1.5.
Les clitiques ne sont pas toujours compatibles avec un mot donn, leur com-
patibilit dpend de la catgorie grammaticale du mot. Prenons comme exemple
trois catgories grammaticales nom, verbe et particule, leurs structures peuvent
tre dcrites respectivement par les expressions rgulires suivantes :
Le symbole ? dans ces expressions indique que les clitiques sont optionnels
contrairement la forme simple qui constitue le cur dun mot arabe.
28
personne genre nombre enclitique
1 masculin singulier + +iy / + +niy
Almhm commence par @ Al qui peut tre larticle dfini. Elle se termine par
hm qui peut tre galement un clitique leur. Par consquent, deux dcoupages
sont possibles pour cette forme :
+@ Al+ mhm "limportant"
+ @ Alm +hm "leur douleur"
Le dcoupage + +@ Al+ m +hm nest pas possible car le morphme m
nexiste pas dans le lexique de larabe.
Le mot @ wAly qui peut tre reconnu comme un mot simple "gouverneur"
commence et se termine par des lettres qui peuvent tre des clitiques. La lettre
w reprsente la conjonction "et" alors que est le pronom possessif "mon".
+ @ + w+ Al +y "et mon clan" autres que la forme simple
Lambigut est plus importante lorsque les diacritiques ne sont pas reprsen-
ts. Labsence de diacritiques et lagglutination prsentent deux problmes mu-
tuels. En effet, la restitution des diacritiques permet de rduire le nombre de
29
dcoupages possibles dun mot. De la mme faon, le dcoupage dun mot peut
contribuer lever lambigut vocalique du mot.
mADy) dit aussi le perfectif, utilis quand laction est accomplie. Cest las-
pect le plus simple dun point de vue morphologique. Utilis avec la troi-
sime personne du singulier, il reprsente la forme canonique dun verbe,
@ AlmDAr) appel
linstar de linfinitif en franais. Linaccompli ( PA
aussi limperfectif indique que laction est en train de se raliser, sans tre
acheve. Il exprime le prsent, et permet dexprimer le pass et le futur
laide de particules. Limpratif (Q B@ Almr) indique linjonction. Il ne peut
tre conjugu qu la deuxime personne.
le mode : trois modes sont dfinis en arabe. Lindicatif ( Q @ Almrfw)
employ dans une proposition principale. Le subjonctif ( H
. J @ AlmnSwb)
. @ Almjzwm)
employ dans une proposition subordonne. Lapocop ( Qj
dit aussi le jussif exprime la ngation, linterdiction ou le conditionnel. Le
mode sapplique uniquement laspect imperfectif.
la personne, le genre et le nombre du sujet : comme le franais, larabe dis-
tingue trois personnes et deux genres, le masculin (QY @ Almkr) et le
K
@ Almwn). En revanche, larabe distingue trois valeurs pour
fminin ( I
le nombre le singulier ( XQ @ Almfrd), le duel ( J @ Almn) et le pluriel
( m. '@ Aljm).
Le tableau 1.6 donne la liste des diffrents affixes des verbes dans laspect ac-
compli selon les valeurs des traits morphologiques : personne, nombre et genre.
Nous illustrons la flexion verbale sur le verbe aTam "nourrir".
30
personne nombre genre affixe Exemple [aTam]
1 singulier - +tu aTamtu
pluriel - +nA aTamnA
2 singulier masculin +ta aTamta
fminin +ti aTamti
duel masculin +tumA aTamtumA
fminin +tumA aTamtumA
pluriel masculin +tum aTamtum
fminin +tunna aTamtunna
3 singulier masculin +a aTama
fminin +at aTamat
duel masculin +A aTamA
fminin +tA aTamtA
pluriel masculin +uwA aTamuwA
fminin +na aTamna
31
seur". Nous donnons entre parenthses les affixes des noms dfinis.
32
1.2.3. Morphologie drivationnelle
Le processus de drivation est base sur la combinaison dune racine (P Yg. jr)
et dun schme ( P
wzn) pour former un radical. La racine est une squence de
trois, quatre ou cinq lettres qui dfinit une notion abstraite. La racine H. H k
t b, par exemple, est associe la notion dcriture alors que la racine P X d r
s et lie la notion dtude. Le schme, appel aussi gabarit ou patron, dfinit le
format du radical. Un schme peut tre reprsente par une squence compose
de chiffres et de lettres tel que 1A2a3, ma12a3 i . Le processus de drivation
(cf. figure 1.1) consiste remplacer chaque chiffre du schme par les lettres
de la racine dans lordre. Reprenons lexemple de la racine H . H k t b, en
remplaant les chiffres 1,2 et 3 des schmes 1A2a3 et ma12a3 par les lettres
correspondantes de la racine, donne naissance aux mots I
. KA kAtab "correspondre
avec" et I.J maktab "bureau" respectivement.
racine k t b
schme 1 A 2 a 3
radical k A t a b
racine kt b
schme m a 1 2 a 3
radical m a k t a b
Un schme est porteur dun sens gnral, tel que le factitif, le nom prototypique
de la personne qui effectue laction, le rsultat de laction. . . Le sens dun mot
driv dune racine et un schme est gnralement la combinaison de la notion
dfinie par la racine et le sens vhicul par le schme.
Les schmes verbaux marquent laspect et la voix (on distingue lactif et le
passif sans agent). Le schme prend des formes diffrentes selon les valeurs de
laspect et de la voix du verbe. Larabe dfinit dix schmes (I j , II, X) pour les
verbes trilitres k et deux schmes (QI, QII) pour les verbes quadrilitres (Ha-
i. Il existe dautres manires pour reprsenter les schmes dans la littrature. La lettre C peut
tre utilises la place des chiffres pour indiquer la position des lettres de la racine. laide de
cette reprsentation, nos exemples deviennent CACaC et maCCaC respectivement.
j. Pour reprsenter les schmes verbaux, les linguistes ont eu recours aux chiffres romains au
lieu dcrire explicitement la forme de schme. Le schme 1a2a3, par exemple, est reprsente
par I alors que 1a22a3 est reprsent par II. . . Nous prsentons cette correspondance dans le
tableau 1.8
k. les verbes trilitres sont les verbes dont la racine est composs de trois lettres alors que les
33
bash, 2010).
Le tableau 1.8 prsente les schmes des verbes arabes pour laspect accompli
et linaccompli ainsi que leurs significations. Nous indiquons entre parenthse
les schmes de la voix passive. Nous donnons galement les verbes trilitres
rsultant de la combinaison des schmes avec la racine H . H k t b et les verbes
quadrilatres rsultant de la combinaison des schmes avec la racine P H H.
b r.
accompli inaccompli signification verbe
I 1a2a3 a12a3 sens katab
(1u2i3) (u12a3) de base crire
II 1a22a3 u1a22i3 intensification kattab
(1u22i3) (u1a22a3) faire crire
III 1A2a3 u1A2i3 interaction kAtab
(1uw2i3) (u1A2a3) correspondre avec
IV a12a3 u12i3 causalit ktab
(u12i3) (u12a3)
V ta1a22a3 ata1a22a3 forme takattab
(tu1u22i3) (uta1a22a3) rflexive de II
VI ta1A2a3 ata1A2a3 forme takAtab
(tu1uw2i3) (uta1A2a3) rflexive de III
VII Ain1a2a3 an1a2i3 forme Ainkatab
(un1u2i3) (un1a2a3) passive de I
VIII Ai1ta2a3 a1ta2i3 exagration Aiktatab
(u1tu2i3) (u1ta2a3)
IX Ai12a33 a12a33 transformation Aiktabb
(u12u33) (u12a33)
X Aista12a3 asta12a3 exigence Aistaktab
(ustu12i3) (usta12a3)
QI 1a23a4 u1a23i4 sens baar
(1u23i4) (u1a23a4) de base
QII ta1a23a4 ata1a23a4 forme tabaar
(tu1u23i4) (uta1a23a4) rflexive de Q
Comme les schmes verbaux, les schmes nominaux vhiculent un sens gn-
ral li laction, tel que le nom de la personne qui effectue laction (participe
actif), la personne qui subit laction (participe passif) ou le nom du lieu o lac-
. H k t b, dans cet ordre, peut se croiser avec
tion est ralise . . . La racine H
divers schmes. Les diffrents mots gnrs suite la combinaison dune racine
verbes quadrilatres possdent quatre lettres dans la racine. Dans certains ouvrages, les termes
tri-consonantiques et quadri-consonantiques sont utiliss
34
avec des diffrents schmes constituent une famille smantique. Le tableau 1.9
prsente quelques noms drivs de la racine H. H k t b. Comme nous lavons
voqu prcdemment, dans certains cas le passage du singulier au pluriel ne
repose pas sur les affixes mais sur les schmes. Le pluriel bti sur un schme est
appel pluriel bris ( Q
J@ g. jm Altksyr).
35
proprits. Ladjectif par exemple est considr comme nom dans cette classifi-
cation. En effet, ladjectif possde les mmes traits morphologiques que le nom
Y@ Alwld AlSyr "le petit enfant", ladjec-
tel que ltat. Dans lexpression Q
@
AlSyr est dfini "le petit" laide de larticle @ Al. Nous nous focalisons
tif Q
@
dans cette section sur la description de ces trois catgories.
1.3.1. Particules
Les particules sont des mots (parfois des clitiques) qui nont pas de sens auto-
nome (Al-Ghulayaini, 2006). Elles ne possdent pas de formes flchies et sont en
nombre limit. La classification des particules arabes est une tche complexe. En
effet, il nexiste pas une classification commune tous les grammairiens arabi-
sants. Dans ce mmoire, nous citons les principales catgories proposes par (Al-
Dahdah, 1996) :
adverbes : certains adverbes (pas tous) sont considrs comme des parti-
cules tels que faqaT "seulement", A
@ ayA "aussi", @YK.
@ abadA "ja-
mais". . .
conjonctions : wa et, fa "alors", ' um "puis". . .
prpositions : an " propos", ala "sur",
min "de", @
Aila "",
fiy "dans". . .
particules de conditions : law "si", @
Ain "si". . .
particules dinterrogation : hal "est-ce que", A mA "quest ce que". . .
particules de ngation : A mA, B lA "ne .. pas".
particules de futur : sawfa.
proclitiques : K. bi "avec", ka "comme", sa. . .
1.3.2. Verbes
Le systme verbal de larabe est la fois simple et complexe : il est simple dans
le sens o sa flexion est rgulire (Larcher, 2012). Il est complexe du fait que les
variations entre ses groupes sont multiples, ce qui rend sa classification difficile.
Les verbes arabes peuvent tre regroups selon la racine ou selon le schme.
36
A B@ AlfAl AlrbAy~) qui contiennent
(ii) les verbes quadrilitres ( J
AK. Q@
quatre lettres dans leurs racines, linstar des verbes h. QkX dHrj "rouler" et
rql "entraver".
Q
En outre, les verbes arabes peuvent tre regroups selon la nature des lettres
de leurs racines. On distingue les verbes sains ( jJ
j@ A B@ AlfAl AlSHyH~)
A B@ AlfAl Almtl~). Ces derniers contiennent
et les verbes malsains ( J @
une lettre dfective ( w ou y) dans leurs racines.
(i) verbes sains : ces verbes peuvent tre "hamzs", redoubls ou parfaitement
sains. Le verbe parfaitement sain na aucune particularit, il suit la d-
rivation et la flexion rgulires utilises dans larabe. Le verbe "hamz"
Alfl Almhmwz) est un verbe qui contient la lettre hamza dans
@ @
(P
sa racine. Cette lettre peut figurer dans la premire, la deuxime ou la
troisime position de la racine tels que Yg @ x "prendre", A saal "ques-
tionner", @YK. bada "commencer" respectivement. Leur particularit rside
dans la forme de la hamza qui dpend de la position et les voyelles voi-
@ @
sines. Le verbe redoubl ( A
Alfl AlmDAf ) se caractrise par
une racine dont la deuxime et la troisime lettres sont identiques, lins-
tar de XP rad "rendre" et mal "sennuyer". Sa spcificit provient de sa
drivation qui consiste liminer la deuxime voyelle du schme partir
duquel le verbe se drive.
(ii) verbes malsains : ces verbes contiennent une lettre dfective dans leur ra-
cine. On distingue trois groupes de verbes malsains selon la position de la
lettre dfective dans la racine. Cette lettre est situe en premire position
de la racine pour le verbe assimil ( AJ @ @ Alfl AlmAl). La lettre d-
fectueuse occupe respectivement la deuxime lettre de la racine du verbe
creux ( k. B@ @ Alfl Aljwf ) et la troisime lettre du verbe dfectueux
( AJ@
Alfl AlnAqS).
@
Morphologiquement, les verbes malsains se distinguent des verbes sains au
niveau de la drivation. En effet, leurs schmes subissent des transformations
radicales selon la valeur de laspect auquel le verbe est conjugu. Nous reve-
nons en dtail sur les transformations subies par les schmes suivant le type du
verbe dans lannexe. Nous donnons quelques exemples de verbes malsains dans
le tableau 1.10.
37
position de la type racine verbe
lettre dfectueuse
AJ
1 miAl wSl wSl
assimil arriver
@
k A
.
2 jwaf qwl qAl
creux dire
A K
3 nAqiS m y maa
dfectueux marcher
Deux autres classes se rajoutent ces six catgories, les verbes possdant deux
lettres dfectueuses dans les lettres de la racine. Le verbe li Q
maqruwn
comptant deux gildes successifs et le verbe spar
mafruwq. Un rcapitu-
Q
latif des catgories des verbes arabes qui dpendent de la racine est donn dans
la figure 1.2.
38
1a2u3 sont des verbes dtats et les verbes 1a2i3 sont lun ou lautre (Lar-
cher, 2012). Quant aux quadrilitres, ils possdent une seule forme 1a23a4.
(ii) verbes augments : ils sont au nombre de neuf pour les schmes trilitres.
Les schmes possdant quatre radicaux ont une seule forme augmente.
Le tableau 1.11 rsume la classification des verbes arabes selon leurs schmes :
1.3.3. Noms
Les noms arabes sont regroups en deux catgories principales : les noms so-
lides ( YAm. '@ ZA B@ AlsmA AljAmd~) qui chappent gnralement toute d-
rivation et les noms dverbaux ( J
@ ZA B@ AlsmA Almtq~) qui drivent
dune racine verbale (Al-Dahdah, 1996; Al-Ghulayaini, 2006).
Noms solides
La morphologie nominale arabe classe les noms solides en plusieurs sous-
catgories, parmi lesquelles les pronoms, les nombres, les noms interrogatifs,
les adverbes, les noms propres et les noms communs.
noms interrogatifs : utiliss dans les phrases interrogatives tels que J
kyf
"comment", mt "quand", K
@ yn "o". . .
39
noms numratifs et quantitatifs : les numratifs concernent les nombres
simples tels que les units de zro (Q Sfr) neuf ( ts~), les dizaines
tswn), les centaines etc, et
de dix ( Q r~) quatre-vingt-dix (
les nombres composs comme Yg@ wAHd wrwn "vingt-et-un" et
Q
KCK Yg@ wAHd wlAwn "trente-et-un". . . les quantitatifs comme
kl
"tout", kl "tout". . .
pronoms (QKA
DamAyr) : ce sont les pronoms personnels (
J QKA
DamAyr mnfSl~), titre dexemple pour la premire personne il y a AK @
nA "je" et m ' nHn "nous", les pronoms dmonstratifs ( PAB
@ ZA
@ s-
mA AlAAr~) tels que @ Y hA "ce", ZB hwlA "ces". . . Les pronoms rela-
tifs comme Y@ Aly "celui" et @ Alty "celle". . . Cette sous-catgorie
regroupe galement les clitiques pronoms dobjets pour les verbes et les pro-
noms possessifs pour les noms.
noms propres : cest un nom qui rfre une entit unique de personne
comme Ym Mohammed, de lieux tels que
PAK. Paris, etc.
noms communs : ce sont des noms employs pour dsigner tous les l-
ments dun mme ensemble, il dispose dune dfinition et dune significa-
tion (Goosse et Grevisse, 1993). Parmi ceux-ci il y a des noms bilitres fm
"bouche", trilitres comme K @ nf nez, I. klb chien, quadrilitres, etc.
Les trois premires sous-catgories sont non-drivationnelles. En revanche,
contrairement aux pronoms qui sont conjugables, les noms interrogatifs, num-
ratifs et quantitatifs nadmettent pas de formes flchies, morphologiquement ils
sont similares aux particules. Les noms communs sont galement non-drivationnels
mais conjugables. Leur flexion est gnralement irrgulire et ne dpend pas des
affixes. Des schmes sont utiliss pour distinguer le singulier et le pluriel. Bien
que les noms communs soient drivs de schmes arabes, ils sont considrs
comme non-drivationnels puisque les racines que lon en dduit ne dfinissent
pas une notion. Prenons comme exemple les noms I
@ rnb"lapin" et XCK. blAd
KP
.
"pays" qui possdent respectivement les schmes a12a3 et 1i2A3. Les racines
dduites de lquation racineschmes = nom_commun, sont H
. P r n b et
X H. b l d, elles nexistent pas dans le lexique arabe. Concernant les noms
propres, hormis les noms de personnes, ils sont la fois non-conjugables et non-
drivationnels. En effet, les noms de personnes sont drivs dune racine et dun
schme et admettent gnralement une signification lie la notion dfinie par
la racine comme '
Q krym "gnreux" et A sAlm "sain". Cette particularit rend
40
le nom propre arabe ambigu, le mot Hsn par exemple peut tre un nom
k
propre "Hasan", un adjectif "bon" ou un verbe "bonifier".
Dverbaux
Contrairement aux noms solides, les dverbaux connaissent une flexion et une
drivation rgulires. Ils sont drivs de verbes ; en effet, chaque verbe fournit
neuf catgories de dverbaux (Al-Ghulayaini, 2006). Chacun deux correspond
une relation smantique entre le verbe et le dverbal (cf. table 1.12).
1 A@ @ participe actif
2 @ @ participe passif
3 PY forme infinitive
4 A @ @ nom du lieu
5 A Q@ @ nom du temps
6 B@ @ nom de linstrument
7 D.
adjectif analogue
8 J
J@ @ adjectif comparatif
@ J forme exagre
9 AJ .
41
schme verbal dverbal schme nominal msa exemple
1a2a3 1 1A2i3 kAtib "crivain"
2 ma12uw3 maktuwb "crit"
3 1i2A3a~ kitAba~ "criture"
4 ma12a3 maktab "bureau"
1a22a3 1 mu1a22i3 mudarris "instituteur"
2 mu1a22a3 mudarras "tudi"
3 1i2A3a~ dirAsa~ "tude"
4 ma12a3a~ madrasa~ "institut"
La table 1.13 reprsente un chantillon dune grande table des dverbaux qui
dfinit pour chaque schme verbal tous les dverbaux qui drivent deux. G-
nralement, un schme nominal unique est dfini pour chaque dverbal. En re-
vanche, dans quelques cas, tels que les noms des lieux et des instruments, on
peut retrouver plusieurs schmes nominaux.
42
MRC (dialecte marocain), TUN , EGY , LEV et IRQ (dialecte irakien) :
Deux traits principaux marquent les variations lexicales entre le MSA et les
dialectes. Premirement, les dialectes maintiennent parfois la mme racine. Le
changement, dans ce cas, est restreint sur le schme. Deuximement, les varia-
tions proviennent de lemprunt de nouveaux termes langues voisines.
43
1.4.4. Variations syntaxiques
Les diffrences syntaxiques entre les dialectes arabes et le MSA sont gnrale-
ment rparties : les mmes phnomnes existent dans des conditions diffrentes
la fois en MSA et dans les dialectes. Au niveau de lordre des mots de la phrase,
on retrouve les deux modles SVO et VSO dans les deux variantes avec relative-
ment plus de frquence de lordre VSO en MSA. Lordre de mots en MSA possde
plus de flexibilit par rapport aux dialectes puisquil utilise des marqueurs de cas
qui sont absents dans les dialectes.
1.5.1. Agglutination
Au niveau de lagglutination, deux phnomnes distinguent le tunisien du
MSA . Dune part, certains clitiques MSA sont raliss sous la forme de particules
indpendantes en tunisien et vice-versa. La prposition + li+ pour et le pro-
clitique de futur ne sont plus rattachs aux verbes. Tous deux se traduisent par
44
la particule indpendante . bA qui se situe avant le verbe : les formes I.JJ
AK
litaktuba "pour que tu crives" et I
. JJ sataktubu "tu criras" sont exprimes en
tunisien par I . bA tiktib. Inversement, des particules indpendantes en
. JK AK
MSA telles que ala "sur" et min "de" sont ralises respectivement comme
des clitiques + + et + m+ quand elles sont suivies par des noms dfinis par
larticle @ Al. Dautre part, la forme de certains clitiques change. Le proclitique
dinterrogation MSA + @ + "est-ce que", par exemple, devient en tunisien lencli-
tique + +. La forme verbale MSA I . J
@ katabta "est-ce que tu as crit" se
traduit en tunisien par J.J ktibti.
1.5.2. Flexion
De manire gnrale, la flexion en TUN est plus pauvre que celle du MSA. Au
niveau des verbes, le mode nest plus marqu alors que le cas nest plus distingu
pour les noms. Les valeurs du nombre qui taient trois en MSA (singulier, duel et
pluriel) sont rduites deux (singulier et pluriel). Quant au genre, il nest spcifi
que lorsquil sagit de la troisime personne du singulier. La liste des affixes sujet
des verbes tunisiens dans laspect accompli est donne dans le tableau 1.15. Ce
dernier peut tre mis en regard du tableau 1.6.
Dautre part, contrairement au MSA qui marque la voix dans le schme verbal,
le tunisien marque la voix passive sous la forme du prfixe K t l . La forme MSA
passive I.J kutiba "il est crit" devient en tunisien I.JK tiktib.
l. le passif dans le dialecte tunisien peut tre aussi exprim avec les schmes, en ajoutant un
/t/ au dbut de chaque schme de la voix active.
45
1.5.3. Drivation
Hormis les emprunts, les radicaux tunisiens drivent dune racine arabe et dun
schme, comme pour le MSA. Il y a en gnral correspondance bi-univoque entre
un schme MSA et un schme TUN sauf dans certains cas o un schme MSA peut
correspondre deux schmes TUN ou bien aucun schme TUN. Les schmes TUN
se caractrisent gnralement par la chute de la voyelle affecte la premire
lettre de la racine. On retrouve, en effet, les schmes TUN 12A3, 12iy3 et 12a3
qui correspondent respectivement aux schmes MSA 1i2A3, 1a2iy3 et 1a2a3. Un
chantillon de la correspondance entre les schmes MSA (cf. section 1) et les
schmes TUN est donn dans le tableau 1.16.
accompli inaccompli
schme_MSA schme_TUN schme_MSA schme_TUN
1a2a3 12a3 a12a3 a12a3
1a22a3 1a22a3 u1a22i3 1a22a3
1A2a3 1A2a3 u1A2i3 1A2a3
ta1A2a3 t1A2a3 ata1A2a3 it1A2a3
1a23a4 1a23i4 u1a23i4 1a23i4
ta1a23a4 ta1a23i4 ata1a23i4 ta1a23i4
racineschme = radical.
Conclusion
La structure interne des mots arabes dcrite dans ce chapitre, nous conduit
considrer la morphologie arabe comme tant la fois concatnative et ga-
baritique. Elle est concatnative dans le sens o les clitiques et les affixes sont
rattachs aux radicaux par une simple opration de concatnation et gabaritique
puis que le radical est le rsultat de la combinaison dune racine et un schme.
lissue de ce premier chapitre dcrivant les phnomnes morphologiques de
larabe, nous sommes en mesure de prsenter les diffrents travaux et approches
concernant le traitement automatique de la morphologie arabe.
46
2. Traitement automatique de la
morphologie arabe
47
Un systme de traitement automatique de la morphologie est compos prin-
cipalement dun lexique et dun ensemble de rgles. Le lexique permet de sto-
cker les connaissances lexicales spcifiques, tel que les clitiques, les affixes, les
radicaux, les racines et les schmes. Les rgles, elles, dfinissent lordre des mor-
phmes dans le mot et permettent de raliser les ajustements phonologiques et
orthographiques ncessaires suite une opration de concatnation ou de croi-
sement de morphmes.
Plusieurs choix sont possibles pour rpartir la connaissance entre le lexique et
les rgles. Un choix extrme, que lon appellera choix de niveau 0, consiste tout
reprsenter dans le lexique. Dans ce cas, le lexique est compos de formes ag-
glutines et associe chacune dentre elles son analyse morphologique. Dans ce
cas le processus danalyse morphologique se limite un accs au lexique. Dans
la pratique, une telle approche nest pas viable pour la famille des langues smi-
tiques, elle conduit des lexiques de taille draisonnable et dont la maintenance
est quasiment impossible.
Trois autres choix sont possibles selon que lon stocke dans le lexique des cli-
tiques et des formes flchies (niveau 1) ou bien des clitiques, des affixes et des ra-
dicaux (niveau 2) ou encore des clitiques, des affixes, des racines et des schmes
(niveau 3).
Bien entendu, plus le niveau augmente plus le systme de rgles associ au
lexique est complexe. Aux niveaux 1 et 2, seules des rgles de concatnation
sont ncessaires. Dans le premier cas, elles vrifient la compatibilit entre formes
flchies et clitiques, dans le second, elles vrifient aussi la compatibilit entre
radicaux et affixes. La concatnation de morphmes ncessite, dans certains cas,
des ajustements orthographiques qui sont aussi modliss laide de rgles.
Au niveau 3, des rgles de croisement assurent la compatibilit dune racine
avec un schme et permettent de les combiner et de raliser les ajustements mor-
phologiques, phonologiques et orthographiques ncessaires la suite du croise-
ment.
La figure 2.1 dcrit lanalyse de la forme agglutine J
wasayuTimuwkum
"et ils vous nourriront" selon les diffrents niveaux.
48
Les systmes de traitement morphologiques de larabe peuvent tre classs
selon le niveau de reprsentation des morphmes dans le lexique. La taille du
lexique dpend fortement du choix du niveau de reprsentation. Afin de quan-
tifier son influence sur la taille du lexique, nous avons identifi dans lATB le
nombre de formes agglutines, de formes flchies, de radicaux et de racines dif-
frentes :
niveau 0, formes agglutines : 2M
niveau 1, formes flchies : 300K
niveau 2, radicaux : 25K
niveau 3, racines : 2517
Comme on peut lobserver, linfluence du niveau de reprsentation sur la taille
du lexique est trs importante, le rapport est de lordre de 800 entre les niveaux
extrmes.
Dans le reste de cette section, nous dcrivons les processus de base qui doivent
tre raliss pour passer dun niveau un autre.
2.1.1. Segmentation
La segmentation est lopration qui consiste dcomposer une forme agglu-
tine (dlimit par des espaces dans le texte) en clitiques et forme flchie (cf.
section 1.2.1). Une forme agglutine est compose gnralement dun nombre
variable de proclitiques, dune forme flchie et ventuellement dun enclitique.
La sparation des clitiques de la forme flchie est importante dans une pers-
pective de TAL puisquelle permet, comme nous lavons vu ci-dessus, de rduire
considrablement la taille du lexique. En outre, la segmentation est ncessaire
avant les oprations dtiquetages grammatical et danalyse syntaxique car les
clitiques possdent leurs propres parties de discours et fonctions syntaxiques.
Cette opration nest pas toujours dterministe puisquun mot peut avoir plu-
sieurs segmentations possibles comme nous lavons illustr dans le chapitre 1.
De plus, la concatnation des morphmes peut conduire des changements or-
thographiques. Une tape de normalisation orthographique peut ainsi simposer
suite la segmentation. Les principaux changements orthographiques en arabe
dus lagglutination sont au nombre de quatre :
1. larticle dfini @ Al subit des changements orthographiques qui consistent
omettre sa premire lettre quand il suit la prposition l "". Le mot
@
PY
Almdrs~ "lcole" prcd par cette prposition devient
PY llmdrs~ "
lcole"
2. la lettre
~ la fin dun mot devient J t quand elle est suivie par un encli-
et est perdue. Le mot PY
tique. Ainsi, la distinction entre les lettres H
mdrs~ "cole", aprs sa concatnation lenclitique hm "leur"devient
49
DPY mdrsthm "leur cole".
3. de la mme manire, la lettre devient @ A.
mstf "hpital" avec
un enclitique se transforme en A mstfAhm "leur hpital".
4. La lettre @ A du suffixe verbal @ wA disparait quand un clitique est li au
verbe. De cette manire, @J.J ktbwA "ils ont crit" change J.J ktbwh "ils
lont crit".
La normalisation pose galement des problmes dambigut. Le mot
Dk
Hkmthm, par exemple, ne possde quune seule segmentation +Jk Hkmt+hm.
En dehors de tout contexte, ce mot peut tre normalis de deux faons diff-
rentes. En effet, la dernire lettre du premier segment Jk peut tre normalise
enH t ou bien en ~. Deux interprtations diffrentes sont donc produites :
+ Ik
Hkmt+hm "elle les a gouverns" et + k Hkm~+hm "leur sagesse".
Un systme de segmentation permet, tant donn une forme agglutine, de
gnrer tous ses dcoupages possibles et deffectuer la normalisation de la forme
simple aprs sa sparation avec les clitiques. Pour cela, un lexique de formes
flchies et une matrice de compatibilit des clitiques avec chaque forme flchie
sont ncessaires.
50
Figure 2.1.: Reprsentation de la morphologie concatnative laide dune machine
tats finis
uTimu je nourris
nuTimu nous nourrissons
tuTimu tu nourris
tuTimiyna
tuTimA vous nourrissez
tuTimuwna
tuTimna
yuTimu il nourrit
tuTimu elle nourrit
yuTimAni ils nourrissent
yuTimuwna
yuTimna elles nourrissent
51
Toutes les formes flchies du lemme verbal aTam acceptent des clitiques.
Ces derniers peuvent tre traduits simplement par des transitions dans la ma-
chine de la figure 2.2. La gnration des formes agglutines ncessite des tran-
sitions au dbut du mot qui correspondent aux proclitiques ordonns alors que
les enclitiques se rajoutent aprs les suffixes.
La machine prsente dans la figure 2.2 conduit une surgnration de formes,
elle produit des formes incorrectes telles que nuTimuwna et nuTimAni. Des
rgles morphologiques savrent, ainsi, ncessaires pour bloquer la gnration
des formes incorrectes rsultant de lincompatibilit entre les affixes. Ces rgles
peuvent tre elles-mmes reprsentes par des machines tats finis.
52
R1 R2 R3 R4 R5 . . . Rn
S1
S2
S3
S4
S5
...
Sk
53
trait morph. valeurs possibles
conjonction wa, fa, 0
prposition bi, ka, li, 0
Segmentation particule sa, li, la, 0
dtermination Al, 0
enclitique 1S, 1P, 2MS, 2FS, 2D, 2MP, 2FP
3MS, 3FS, 3D, 3MP, 3FP, 0
mode indicatif, subjonctif, apocop, 0
personne 1, 2, 3, 0
Analyse flexionnelle genre masculin, fminin, 0
cas nominatif, accusatif, gnitif, 0
tat dfini, indfini, 0
nombre singulier, duel, pluriel, 0
nombre singulier, duel, pluriel, 0
Analyse drivationnelle aspect perfectif, imperfectif, impratif, 0
voix active, passive, 0
54
La gnration morphologique est le processus inverse de lanalyse morpholo-
gique. Cette opration consiste produire la forme surfacique dun mot partir
de sa reprsentation morphologique, compose par des paires (traits morpholo-
giques, valeurs). Cette opration nest pas ambige, une reprsentation mor-
phologique entirement spcifie correspond une forme surfacique au plus.
55
Les machines tats finis se sont rvles particulirement adaptes au traite-
ment de la morphologie et de la phonologie. En effet, comme la montr (Karttu-
nen, 1995) les rgles morphologiques et phonologiques peuvent tre reprsen-
tes dune manire simple et directe sous la forme de machines tats finis.
De plus, comme nous le verrons ci-dessous, les machines tats finis per-
mettent dimplmenter des modles de la morphologie concatnative ainsi que
gabaritique.
tant donn le rle important que jouent les machines tats finis dans notre
travail, nous commenons par donner une brve description de ces dernires
et de leur utilisation pour la modlisation linguistique. Nous dcrivons ensuite
deux modles standard utiliss dans le traitement de la morphologie arabe qui
peuvent tre implments laide de machines tats finis : le modle deux
niveaux et le modle multibande. Ces deux modles permettent dimplmenter
respectivement les aspects concatnatifs et gabaritiques de la morphologie arabe.
56
est un alphabet, appel alphabet dentre
est une fonction de transition dfinie comme suit :
: Q {} P(Q)
o P(Q) est lensemble des parties de Q.
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
Les automates sont souvent reprsents sous la forme de graphes orients dont
les sommets et les arcs sont tiquets. Les sommets du graphe correspondent aux
tats, et chaque transition est reprsente par un arc. Ltat initial est identifi
laide dune flche entrante et les tats dacceptation laide dun double cercle.
On trouvera, figure 2.4, une reprsentation graphique de A.
Le processus de reconnaissance dun mot par un automate fait appel aux no-
tions de configuration et de mouvement.
Une configuration dcrit compltement ltat dun automate lors du processus
de reconnaissance dun mot. tant donne un automate A = (Q, , , q0 , F ), une
configuration est un couple (q, m) Q .
q reprsente ltat courant de A
m est la partie du mot reconnatre non encore lue. Le premier symbole
de m (le plus gauche) est le prochain symbole qui doit tre reconnu par
lautomate. Si m = alors tout le mot a t lu.
57
Un mouvement, not `, permet de passer dune configuration une autre. Un
mouvement entre une configuration (q, aw) et une configuration (q 0 , w) est valide
si la fonction de transition de lautomate permet de passer de (q, aw) (q 0 , w) :
58
Q est un ensemble fini dtats
est un alphabet, appel alphabet dentre
est une fonction de transition dfinie comme suit :
:QQ
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
La diffrence entre les automates dterministes et les automates non dter-
ministes rside dans la fonction de transition. Dans un automate dterministe,
celle-ci associe un couple compos dun tat et dun symbole, au plus un tat.
Ainsi, partir dune configuration, il existe au plus un mouvement possible. Par
consquent, le processus de reconnaissance dun mot sera compos au plus dau-
tant de mouvements que le mot possde de symboles. Le processus de reconnais-
sance est donc linaire en fonction de la longueur du mot reconnatre.
Les automates dterministes et non dterministes reconnaissent la mme fa-
mille de langage, les langages reconnaissable. Pour tout langage reconnaissable,
il existe un automate dterministe qui reconnat le mme langage. Le thorme
de Rabin-Scott permet de construire, tant donn un automate non dterministe,
un automate dterministe reconnaissant le mme langage.
A titre dexemple, la figure 2.5 reprsente un automate dterministe recon-
naissant le mme langage que lautomate dterministe de la figure 2.4
Le dterminisme des automates est une proprit importante pour les aspects
applicatifs en gnral et pour le traitement automatique de la langue en particu-
lier car il garantit un temps de reconnaissance linaire.
59
Figure 2.6.: Reprsentation du mot slym laide dun automate fini
Le lexique de tous les noms masculins peut tre obtenu laide dun automate
noms-masculins, obtenu par union des automates correspondant aux diffrents
noms masculins.
Lobtention des noms fminins est ralise laide de la concatnation de ~
la fin des noms masculins. Dans certains cas, le passage du masculin au fminin
est irrgulier. Tous les noms fminins irrguliers peuvent tre reprsents par un
automate exceptions. La liste des noms fminins peuvent ainsi tre reprsente
par lopration suivante :
(noms-masculins.~) exceptions
Figure 2.7.: Lexique des noms fminins reprsent sous la forme dun automate
60
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
La reprsentation graphique des tranducteurs ressemble celle des automates
la diffrence que les transitions sont tiquets par des paires de symboles.
61
Le troisime aspect que nous aborderons ici est celui de lambigut. Un trans-
ducteur est dit ambigu si pour certaines entres, il associe plus dune sortie.
Le transducteur qui reconnat par exemple la relation {(ab, cd), (ab, de)} est un
transducteur ambigu car pour lentre ab il produira deux sorties. Lambigut a
un lien avec le dterminisme dans la mesure o un transducteur ambigu ne peut
tre rendu dterministe. Dans la pratique, les transducteurs utiliss pour mod-
liser la morphologie sont souvent ambigus car lanalyse morphologique est dans
certains cas ambige.
62
n bandes lit un n 1-symbole dont les n 1 symboles se trouvent sur n 1
bandes de lecture et crit un mot sur la bande dcriture.
Un automate n bandes est un 6-uplet (Q, , n , , q0 , F ) o
Q est lensemble fini dtats
= 1 , 2 . . . n1 est le n 1 alphabet dentre
n est lalphabet de sortie
est la fonction de transition dfinie comme suit :
: Q n Q
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
Cet automate gnre les radicaux katab et daras partir du schme 1a2a3 et
des racines k t b et d r s respectivement. La gnration de ces radicaux est dcrite
dans la figure 2.11.
schme (entre) 1 a 2 a 3
racine (entre) r1 r2 r3
radical (sortie) r1 a r2 a r3
63
sur la deuxime bande et crit r1 sur la troisime bande. La deuxime transition
consiste reproduire la voyelle de la premire bande la forme de surface. De
cette manire, le radical est gnr sur la bande dcriture horizontalement de
droite gauche.
L:S OPERATEUR CG _ CD
a:b c: _ e:
64
La premire rgle est indpendante du contexte, elle reprsente lidentit o
tout caractre lexical est reproduit sur la forme de surface (X est ici une variable).
La deuxime rgle permet de remplacer le caractre par le caractre y sil est
suivi par le suffixe /+At/. La troisime rgle, qui est indpendante du contexte,
ralise la suppression du caractre +. Lobtention de la forme surfacique est ra-
lise aprs la suppression du symbole nul 0.
Une rgle deux niveaux peut tre compile sous la forme dun transduc-
teur (Karttunen, 1995). Un ensemble de rgles peut aussi tre compil sous la
forme dun transducteur unique qui ralise la correspondance entre forme lexi-
cale et forme de surface comme lillustre la figure 2.12.
65
laide de ces rgles, la flexion du mot fminin singulier
mustafa
"hpital" au pluriel
HAJ mustafayAt "hpitaux" est ralise comme suit :
(1) * _ X _ * * _ X _ *
(2) * _ _ +At * y _ +At
(3) * _ + _ * * _ 0 _ *
Le symbole * indique un contexte vide qui reprsente une condition toujours
satisfaite. La premire et la troisime rgles sont indpendantes du contexte.
La deuxime rgle permet de remplacer le caractre par le caractre y sil est
suivi par le suffixe /At/ marqu par le signe +. Le symbole indique que si la
forme lexicale apparait alors la forme surfacique est gnre et inversement. Le
symbole autorise un seul sens.
Dans le modle deux niveaux, la forme surfacique dun mot est dcrite
comme une concatnation de morphmes. Le mot wasayutimuwkum "ils vous
nourriront" est le rsultat de la concatnation de utim "nourrir" avec les procli-
tiques wa+ "et", sa+ "futur", le circonfixe y+ +uwA qui correspond la troisime
personne du masculin pluriel et lenclitique kum "vous". La gnration de la forme
wasayutimuwkum est dcrite comme suit :
w a + s a + y + u T i m + u w A + k u m forme lexicale
1 1 3 11 3 1 3 1 1 11 1 3 1 1 2 3 1 1 1
w a 0 s a 0 y 0 u T i m 0 u w 0 0 k u m forme surfacique
66
2.2.2. Modle multi-bande
Lutilisation de multiples bandes pour reprsenter des morphmes lmen-
taires apparait dans (Kay, 1987). Afin de prendre en compte les aspects conca-
tnatifs et gabaritiques de la morphologie arabe, Kiraz (1994) a fusionn le mo-
dle multibande et le modle deux niveaux. Le formalisme de Kiraz (1994) est
conu pour reprsenter tous les phnomnes morphologiques de larabe. Ce for-
malisme adopte exactement le modle deux niveaux dcrit ci-dessus et ltend
plusieurs bandes.
La forme lexicale est reprsente par un (n 1)-uplet de symboles alors que
la forme surfacique est reprsente par une squence unique de symboles. Pour
mieux expliquer ce formalisme, prenons comme exemple une forme lexicale re-
prsente sur trois bandes contenant respectivement des consonnes, des voyelles
et des chiffres. Soient (a), (b) deux rgles :
(a) * - CV - * * - (D,C,V) - *
(b) * - C - * * - (D,C,) - *
1 2 3 1re bande
d r s 2me bande
a a 3me bande
(a) (a) (b)
da ra s 4me bande
67
2.2.3. Analyse de verbes
Pour dcrire la morphologie verbale de larabe, McCarthy (1981) a propos
un modle dans lequel un radical est reprsent par trois types de morphmes,
un schme sous sa forme non diacrite reprsent par des symboles C V qui
indiquent, respectivement, une consonne et une voyelle quelconques, une ra-
cine compose de trois consonnes et un vocalisme compos de voyelles. Chaque
morphme occupe une bande indpendante. Le radical uTim, par exemple, est
gnr partir des trois morphmes VCCVC, Tm et "ui".
V C C V C bande de schme
T m bande de racine
u i bande de vocalisme
Lexique Une forme flchie (ff) selon McCarthy (1981) est obtenue laide de
la formule :
ff = affixe + racineschmevocalisme + affixe
Le lexique utilis est compos de 4 lexiques :
(a) lexique de schmes : la forme du schme dpend des valeurs de laspect et
de la voix.
68
(b) lexique de racines : chaque racine est associe la liste de schmes.
1 ktb
2 drs
(d) lexique daffixes : les affixes sont dtermins laide des traits morpholo-
giques.
Rgles Comme nous lavons voqu la forme lexicale selon McCarthy (1981)
est regroupe sur trois bandes. Les affixes sont crits sur la premire bande avec
le schme. McCarthy (1981) propose trois rgles principales pour le traitement
de verbes :
69
a- rgles de base
R1 * - X - * * - (X) - * o X
/ C, V
R2 * - X - * * - (C,X,) - *
R3 * - X - * * - (V, ,X) - *
b- rgle de borne
R4 * - - * * - + - *
c- rgle de propagation
R5 * - X - * (C,X,) ... - (C) - * o X 6= +
R5 * - X - * (VX) ... - (V) - * o X 6= +
Les rgles de base (a) sont indpendantes du contexte. R1 concerne les affixes,
elle permet de projeter tous les caractres des affixes sur la forme de surface.
Ces caractres sont prsents sur la premire bande et sont obligatoirement dif-
frents de C ou V. R2 et R3 permet de produire les consonnes de la racine et les
voyelles du vocalisme sur la forme de surface. La rgle de borne R4, indpen-
dante du contexte, permet de supprimer le dlimiteur + qui spare les affixes du
schme sur la premire bande.
Le nombre de symboles C dans le schme correspond gnralement au nombre
de consonnes de la racine. En revanche, dans certains cas, les schmes trilitres
gminatifs contiennent quatre symboles C. La rgle R5 assure la propagation
des consonnes sur la forme de surface. Pour mieux illustrer lapplication de ces
rgles, prenons comme exemple la gnration de la forme surfacique darrasnA
"nous avons enseign" :
C V C C V C + n A bande de schme
d r s bande de racine
a a bande de vocalisme
R2 R3 R2 R5 R3 R2 R4 R1 R1
d a r r a s n A forme surfacique
Dans cet exemple, tout symbole de schme qui nappartient pas lensemble
{C, V, +} est projet sur la forme de surface grce la rgle R1. Les symboles
C et V du schme sont traduits par la consonne et la voyelle de la deuxime
et la troisime bande respectivement laide de R2 et R3. La rgle R5 met en
correspondance la forme lexicale (C, , ) la dernire consonne de la racine
crite sur la forme surfacique. Enfin, R5 remplace le signe +, dlimitant le radical
du suffixe, par un caractre vide.
70
de syllabes. McCarthy (1993) a eu recours trois syllabes gnriques pour re-
prsenter les schmes nominaux :
s1 : CV o C et V reprsentent respectivement une consonne et une voyelle
simple.
s2 : CVV o VV est une voyelle longue c .
s3 : CVC
McCarthy (1993) admet que tous les schmes nominaux peuvent tre obte-
nus laide de la combinaison dau plus deux syllabes lexception de s2 s1 et
s3 s1 . Il considre galement que les noms arabes se terminent toujours par une
consonne. Il a dfini une syllabe additionnelle, note s0 pour reprsenter la der-
nire consonne.
lissu de cette terminologie, lensemble de schmes nominaux est rduit
sept schmes syllabiques :
(1) s3 s0 : CVCC (ilm, "savoir")
(2) s1 s1 s0 : CVCVC (alam, "drapeau")
(3) s1 s2 s0 : CVCVVC (uluwm, "savoirs")
(4) s2 s1 s0 : CVVCVC (Amil, "exhaustif ")
(5) s2 s2 s0 : CVVCVVC (jAmuws, "taureau")
(6) s3 s1 s0 : CVCCVC (maSna, "usine")
(7) s3 s2 s0 : CVCCVVC (jumhuwr, "public")
1 s3 s0 : CVCC
2 s1 s1 s0 : [CVCVC nombre=s]
3 s1 s2 s0 : [CVCVVC nombre=s]
4 s2 s1 s0 : [CVVCVC nombre=s]
5 s2 s2 s0 : [CVVCVVC nombre=s]
6 s3 s1 s0 : [CVCCVC nombre=s]
7 s3 s2 s0 : [CVCCVVC nombre=s]
c. McCarthy (1993) prsente les voyelles longues aA, uw et iy (cf. section 1.1.2) comme une
suite de deux voyelles courtes aa, uu et iy.
71
(b) lexique de racines
1 a : [sing_voyelle=ai]
2 ai : [sing_voyelle=ai]
3 au : [sing_voyelle=au]
Rgles limage de verbes, chaque forme lexicale dans une rgle est repr-
sente sur trois bandes.
R1 * - X - * * - X - *
R2 * - C - * * - (s0 ,C,) - (+)
R3 * - CV - * * - (s1 ,C,V) - *
R4 * - C1 V C2 - * * - (s3 ,C1 C2 ,V) - (s3 ,*,*)
R5 * - CVV - * * - (s2 ,C,V) - (s2 ,*,*)
R6 * - C1 V C2 - * * - (s3 ,C1 C2 ,V) - (s0 ,*,)
R7 * - CVV - * (S,*,*) - (s2 ,C,V) - (s0 ,*,) o S{s1 , s2 , s3 }
R8 * - - * * - (+) - *
R9 * - CV - * (S,*,V) - (s1 ,*,V) - * o S{s1 , s2 , s3 }
R10 * - CVV - * (S,*,V) - (s2 ,*,V) - * o S{s1 , s2 , s3 }
72
s3 s3 + s1 s1 s0 + s3 s2 s0 +
l m l m jm h r
i a u h r
R4 R2 R8 R3 R9 R2 R8 R4 R10 R2 R8
il m a la m jum huu r
73
PREF
/wa Pref-Wa and
H./bi NPref-Bi by/with
H. /wabi NPref-Bi and + with/by
@/Al Pref-Al the
AK./biAl Pref-BiAl with/by + Al
AK. /wabiAl Pref-WabiAl and + with/by + Al
Radicaux
I.J/katab PV wrote
I.J/kotub IV write
I.J/kutib PV_Pass be written
I.J/ktab IV_PASS be written
PREF
/ap NSuff-ap [fem.sg]
/At
HA NSuff-At [fem.pl]
A J/atAni NSuff-atAni two
Au total, le lexique de BAMA contient 82158 radicaux, 299 PREF et 618 SUFF.
74
reprsentation surfacique partir de son analyse morphologique compose dun
lexme et des traits morphologiques. Par consquent, ALMOR tend les tiquettes
morphologiques de BAMA avec les traits morphologiques qui sont utiliss dans
lanalyse et la gnration.
Lanalyse dans le systme ALMOR est similaire BAMA, le mot est dcompos
des triplets (PREF, lexme, SUFF). En revanche ALMOR rajoute une reprsentation
intermdiaire en morphmes abstraits qui relie la forme de surface ses traits
morphologiques.
ALMOR est utilis dans lanalyseur morphosyntaxique MADA (Roth et al., 2008;
Habash et al., 2009). Ce dernier ralise la segmentation, ltiquetage grammati-
cal, la diacritisation, la lemmatisation et lanalyse morphologique dans le mme
processus (Habash et Rambow, 2005). tant donn un mot MADA se sert de AL -
MOR pour gnrer toutes les analyses potentielles dun mot. Il associe ensuite des
scores ces analyses afin deffectuer la dsambigusation.
75
est bas sur les substitutions des chiffres 1 et 3 du schme par la premire et la
troisime consonnes de la racine repectivement.
De la mme manire, les dverbaux qui drivent des verbes creux sont drivs
laide du schme artificiel. Le dverbal mustaqiyl, par exemple est driv du
schme musta1iy3.
Conclusion
Dans ce chapitre, nous avons prsent deux approches pour analyser la mor-
phologie non-linaire de larabe, lapproche concatnative qui se base sur la
concatnation des clitiques et des affixes au radicaux. Un grand lexique de radi-
caux est ainsi utilis avec moins de rgles. Lapproche gabritique se focalise sur
le croisement des racines et des schmes pour la gnration des radicaux. Cette
approche permet dutiliser un lexique rduit base sur les racines et une table
de schmes. Linconvnient de cette approche rside dans le nombre norme de
rgles qui devraient tre dfinies. Ensuite, nous avons dcrit les mthodes utili-
ses dans le traitement de la morphologie arabe plus particulirement au niveau
de la drivation savoir le formalisme de deux-niveau et le modle bas sur les
transducteurs multi-bande. Enfin, nous avons expos quelques analyseurs mor-
phologiques de larabe qui adoptent les diffrentes approches dcrites.
76
3. Outils et ressources
Comme nous lavons voqu dans lintroduction, la stratgie que nous suivons
pour raliser le traitement automatique du TUN consiste convertir ce dernier en
une forme approximative du MSA (que lon appelle pseudo-MSA). Le pseudo-MSA
na pas pour vocation dtre compris par un tre humain mais son traitement
laide dun outil de TAL destin au MSA fournit des rsultats satisfaisants.
Notre systme de conversion repose principalement sur les deux niveaux mor-
phologique et lexical. En effet, nous avons eu recours un analyseur morpholo-
gique du TUN, un lexique bilingue TUN-MSA et un gnrateur morphologique de
MSA . Ces ressources sont dcrites dans les sections 3.1 et 3.2.
Suite la conversion, nous avons utilis un tiqueteur en parties de discours
entran sur le MSA pour ltiquetage du pseudo-MSA. Cet outil est dcrit dans la
section 3.3. Enfin, le corpus TUN utilis dans lvaluation de notre mthode est
dcrit dans la section 3.4.
a. magead est lacronyme de Morphological Analyzer and Disambiguator for Arabic and its
Dialects.
77
3.1.1. Analyse et gnration morphologique
MAGEAD utilise un modle deux niveaux (cf section 2.2.1) qui relie une
forme lexicale compose dune racine, dun schme et dun ensemble de traits
morphologiques une forme surfacique travers un srie de transformations.
Ces transformations sont assures par un transducteur (cf. figure 3.1). La forme
Q
surfacique
yaDTaruwna "ils sobligent", par exemple, est associe la
reprsentation profonde :
[ROOT:Drr][MBC:verb-VIII][ASP:i][MOD:i][VOX:a][PER:3][GEN:m][NUM:p]
[ROOT:Drr][MBC:verb-VIII][ASP:i][MOD:i][VOX:a][PER:3][GEN:m][NUM:p]
78
Les traits morphologiques utiliss dans cet exemple indiquent dans lordre
les valeurs morphologiques de laspect (ASP), du mode (MOD), de la voix (VOX),
de la personne (PER), du genre (GEN) et du nombre (NUM). MAGEAD utilise en
outre quatre traits QST, CNJ, PRT et PRN pour la dtermination des clitiques. Ils
concernent respectivement les clitiques dinterrogation et de conjonction, les par-
ticules et les pronoms dobjet direct. Ils sont valeurs boolennes et indiquent la
prsence ou labsence dun clitique dans le verbe.
Pour lanalyse des noms, MAGEAD utilise 8 traits morphologiques : GEN, NUM,
STT, CAS, QST, CNJ, PRP et PRN. Les quatre premiers traits dfinissent respecti-
vement les valeurs du genre, du nombre, dtat et du cas (accusatif, nominatif,
gnitif). Alors que les quatre derniers traits dterminent les clitiques rattachs
une forme nominale (interrogation, conjonction, prposition et pronom posses-
sif).
MAGEAD dfinit 66 MBC s pour les verbes MSA parmi lesquelles 25 sont abs-
traites, utilises uniquement pour des raisons dorganisation de la hirarchie.
Contrairement lanalyse des verbes qui utilisent des systmes de flexion et de
drivation rguliers, lanalyse des noms prsentent de nombreuses irrgularits
parmi lesquelles le pluriel bris et les multiples pluriels. Le pluriel du mot hAJ
miftAH "clef ", par exemple, repose sur le schme ma1A2iy3 ( iJ
KA mafAtiyH). Le
mot I.KA kAtib "crivain" possde trois formes diffrentes au pluriel : une forme
. KA kAtibuwn "crivains" base sur le rattachement du suffixe uwn
rgulire J
la forme au singulier, deux pluriels briss J.J kataba~ "scribes" et H. AJ kutAb
"auteurs". MAGEAD dfinit 962 MBC s pour les noms.
[SUBJPREF_IV:3MP] [ROOT:Drr][PAT_IV:VIII][VOC_IV:VIII-act]
[SUBJSUF_IV:3MP_ind]
79
traits morphologiques des morphmes abstraits. On trouve, en partie gauche
de telles rgles un ou plusieurs traits et, en partie droite, un morphme abstrait.
titre dexemple, les traits morphologiques [MOD:i] [ASP:i] [PER:3] [GEN:m]
[NUM:p] donnent naissance aux deux morphmes abstraits [SUBJPREF_IV:3MP]
et [SUBJSUF_IV:3MP_ind] (le circonfixe de la troisime personne du masculin
pluriel) grce aux rgles suivantes :
[ASP:i][PER:3][GEN:m][NUM:p] [SUBJPREF_IV:3MP]
[MOD:i][ASP:i][PER:3][GEN:m][NUM:p] [SUBJSUF_IV:3MP_ind]
Le nud de plus haut niveau de la hirarchie est appel mot. Cest ce niveau
que sont reprsentes les rgles qui sont partages par tous les mots arabes.
On y trouve, par exemple, la rgle associe au trait morphologique [CONJ:w]. Ce
dernier correspond la conjonction + w+ "et". Ainsi, tous les mots des variantes
de larabe acceptent ce clitique.
Dune faon analogue, tous les verbes transitifs qui correspondent la MBC
Verbe-tr et quels que soient leurs schmes partagent les mmes enclitiques pro-
nominaux.
Dans notre cas, les 4 rgles dfinies au niveau de la MBC MBC:Verb-VIII sont :
80
[MBC:verb-VIII][ASP:i] [PAT_IV:VIII]
[MBC:verb-VIII][ASP:p] [PAT_PV:VIII]
[MBC:verb-VIII][ASP:i][VOX:a] [VOC_IV:VIII-act]
[MBC:verb-VIII][ASP:p][VOX:p] [VOC_PV:VIII-pas]
81
[SUBJPREF_IV:3MP] y+
[SUBJSUF_IV:3MP_IND] +uwna
MAGEAD dfinit 92 rgles de correspondance pour les verbes MSA . Elles concernent
les clitiques et les affixes. Parmi ces rgles, 3 sont utilises pour les conjonctions,
6 pour les particules, 18 pour les suffixes sujet, 52 pour les prfixes sujet et 13
pour les pronoms objet. Concernant les noms, MAGEAD dfinit 359 rgles.
yaDTaruwna
schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme 00000000000000
morpho-phonmique
forme 00000000000000
orthographique
Table 3.1.: tat des bandes de lautomate avant application des rgles
82
(1) [X, , ,0] X, X
/ {C,V} ;
(2) [C,X, ,0] X ;
(3) [V, ,X,0] X ;
(4) [V, ,V,V] 0 / [2,%, ,X] _ [3+S,%, ,X+S] , S=[VOWEL] ;
(5) [t, , ,t] T / [1,M, ,M] _ , M
/ {STDZ} ;
La premire rgle consiste placer tous les symboles composant les affixes de
la bande du schme sur la bande de la forme morpho-phonmique. La deuxime
et la troisime rgles permettent de remplacer les symboles C et V du schme
par les consonnes de la racine et les voyelles du vocalisme. La quatrime rgle
est une rgle gminative b . Elle permet de supprimer la voyelle situe entre le
deuxime et le troisime radical si le suffixe commence par une voyelle. Enfin,
la cinquime rgle provoque le voisement du son /t/ en /T/. Cette rgle est
applique uniquement lorsque la premire lettre de la racine correspond /S/,
/D/, /Z/ ou /T/.
lissue de cette tape, les bandes de lautomate sont dans ltat reprsent
dans la table 3.2.
schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme
morpho-phonmique y +a DT a r 0 r +u w n a
forme 00000000000000
orthographique
Table 3.2.: Etat des bandes de lautomate aprs application des rgles morpho-
phonmiques
83
limage des rgles morpho-phonmiques, les trois premires rgles permettent
de projeter les caractres des quatre premires bandes sur la bande orthogra-
phiques. Les deux dernires permettent respectivement de supprimer le signe +
et de remplacer le symbole 0 entre deux consonnes identiques par le caractre .
Ainsi la forme la forme yaDTaruwna est finalement gnre. Ltat des bandes
de lautomate ce stade apparat dans la figure 3.3.
schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme
morpho-phonmique y +a DT a r 0 r +u w n a
forme
orthographique y 0 a DT a r 0 0 u w n a
Table 3.3.: Etat des bandes de lautomate aprs application des rgles orthogra-
phiques
84
Figure 3.3.: Architecture de magead
85
Compilation de magead : La compilation dune instance spcifique de MA -
GEAD se droule en trois tapes successives. Premirement, la grammaire, les
MBC s et les rgles sont reprsentes dans le format morphtools Deuximement,
le format morphtools est compil pour gnrer un format lextools qui reprsente
une extension des outils AT&T (Mohri et al., 2000) pour les machines tats
finis (Sproat, 1995). Le format lextools est par la suite compil pour produire les
transducteurs dsirs.
86
de la premire colonne du ct TUN. Les morphmes abstraits qui nexistent pas
en TUN sont mis en correspondance avec des symboles nuls.
La majorit des changements ont t raliss sur la deuxime colonne. En effet,
la plupart des morphmes concrets se ralisent diffremment de ceux du MSA.
Le prfixe sujet de la premire personne du singulier, par exemple, se ralise
comme + @ a+ en MSA et +K na+ en TUN.
Ainsi, 16 morphmes concrets ont t dits. Au total, une table de 28 rgles
est dfinie pour le TUN (cf. annexe A).
commence par la voyelle ferme /u/ ou /i/ (ce qui est le cas pour la troisime
personne du singulier fminin et la troisime personne du pluriel). Le verbe
ma conjugu la troisime personne du singulier fminin donne
HA mAt
alors qu la troisime personne du pluriel il donne mAwA.
@ A
Dautres rgles dfinies en MSA sont dites. La rgle de gmination, par exemple,
permet dlaguer la voyelle entre la premire et la deuxime lettres dune racine
verbale du ct MSA sil est suivi par un suffixe qui commence par une voyelle. En
revanche, du ct TUN, la gmination est applique toujours indpendamment
mad+iyt "jai tendu" et H Y
Y
du suffixe : IK
mad+it "elle a tendu".
Une particularit qui caractrise les verbes sains TUN de la forme CVCVC consiste
laguer toujours une des deux voyelles du verbe. La voyelle lague dpend
du suffixe sujet du verbe. Dans le cas o le suffixe commence par une consonne
(premire et deuxime personne), la forme du schme devient CCVC. Ce der-
nier prend la forme CVCC dans le cas o le suffixe commence par une voyelle
(troisime personne). titre dillustration, la conjugaison du verbe TUN I
. J ktib
"crire" est donn dans la table 3.4. Nous indiquons entre parenthses la forme
du schme.
87
singulier pluriel
masculin fminin masculin fminin
re
1 personne ktibt ktibnA
CCVC+t CCVC+nA
2me personne ktibt(iy) ktibtuwA
CCVC+t(iy) CCVC+tuwA
3me personne ktib kitbit kitbuwA
CCVC+0 CVCC+it CVCC+uwA
Table 3.4.: Conjugaison dun verbe sain tun dans laspect accompli
Des diverses autres rgles sont implmentes pour le TUN. Par exemple, le
premier radical est remplac par la voyelle longue @ A dans laspect inaccompli
quand il correspond Z (hamza). Ainsi, la forme ( AK
ykl devient AK
yAkl
"il mange". Dune manire similaire, les verbes qui terminent par la lettre Z se
comporte de la mme faon que les verbes pour lesquels le lettre finale de la
racine est y dans laspect accompli. Les racines des verbes TUN AJK
YK. bdynA
88
et 920 lemmes diffrents TUN . Le tableau 3.5 donne deux exemples dentres
extraites du lexique.
89
Dans certains cas, lquation admet plusieurs solutions. Cest notamment le cas
du verbe TUN J@ Aistanna "attendre" auquel correspondent le quatre solutions
suivantes :
1. la racine
s n y et le schme Ai1ta2a3
2. la racine
n n y et le schme Aista12a3
3. la racine @ n y et le schme Aista12a3
4. la racine @ n n et le schme Aista12a3
Dans ces cas ambigus, la stratgie que nous avons suivie consiste privil-
gier la paire contenant une racine de MSA. Ainsi, la troisime alternative, dans
lexemple prcdent, est choisie. En effet, parmi les quatre racines s n y, n n y,
n y et n n, seule la racine n y existe en MSA, elle correspond la notion de
"circonspection".
Un chantillon du lexique apparat dans la table 3.6. Les exemples donns
illustrent les variations lexicales (racines) et celles morphologiques (schmes et
MBC ) entre le TUN et le MSA .
90
Comme le montre la table 3.6, les verbes TUN et MSA du lexique peuvent tre
compltement diffrents comme le verbe MSA J@ Aistawfa "complter" et le
verbe TUN
kamil. Ils peuvent partager une mme racine, une mme MBC
ou le couple entier comme le verbe YJ@ Aistada "inviter". La table montre,
en outre, quune MBC du ct MSA peut correspondre plusieurs MBC du ct
TUN et vice-versa. Les entres du lexique ont une racine identique du ct MSA
et du ct TUN dans plus de 300 cas. Elles partagent, dans 193 cas le mme LMM.
Ce dernier reprsente la forme non diacrite du lemme. En dautres termes, ces
entres possdent la mme racine et la forme non diacrite du schme. Enfin, 16
partagent le mme lemme cest dire la racine et le schme sont identiques des
deux cts.
Les taux dambigut donns dans la table 3.7 confirment que le passage du
TUN vers le MSA est plus ambigu que le passage inverse. Environ 702 (66.9%)
verbes MSA correspondent un seul verbe du ct TUN. Dans le sens inverse, 31
(3.4%) verbes TUN admettent plus de cinq verbes cibles du ct MSA. Ce nombre
est gal 0 dans le sens MSA TUN.
Lambigut maximale est gale 16 dans le sens TUN MSA et 4 dans le sens
oppos. Comme le montre la figure 3.7, le lemme TUN mal, par exemple,
peut se traduire par 16 formes cibles du ct MSA . Le verbe MSA g. jama de
lautre ct correspond quatre lemmes TUN distincts.
91
Figure 3.4.: Ambigut maximale entre verbes TUN et MSA
Lexique de racines
Ce lexique est constitu de couples de la forme (rM SA , rT U N ), o rM SA est
une racine MSA et rT U N une racine TUN. Cette ressource contient 1329 entres
correspondant 1050 racines distinctes ct MSA et 646 ct TUN. Le lexique
comporte 519 entres composes dune racine identique des deux cts TUN et
MSA .
92
Ce lexique montre deux points importants : dune part, comme dans le lexique
des verbes, lambigut est plus leve dans le sens TUN MSA. Dautre part,
lambigut des racines est plus leve que celle des lemmes verbaux. En moyenne,
une racine TUN est relie 2, 1 racines MSA. Dans le sens oppos, le nombre est
gal 1, 3.
titre dexemple, les verbes TUN XQK. brid "se refroidir" et XQ.J@ Aistabrad "prendre
froid" partagent la mme racine X P H. b r d. Les verbes MSA qui correspondent
ces verbes sont respectivement XQK. barad et Q mari. Ces verbes possdent
deux racines diffrentes X P H
. b r d et P m r . Par consquent, les deux
racines MSA sont associes la seule racine TUN X P H . b r d.
Matrice de correspondance de mbcs
La matrice de correspondance de MBC indique, pour chaque MBC MSA ou TUN,
la liste des MBCs qui peuvent lui correspondre du ct oppos. La matrice indique
galement la frquence dapparition de la correspondance entre une MBC TUN et
une MBC MSA dans le lexique des verbes. La matrice de correspondance de MBC
est reprsente dans la table 3.8. Chaque ligne de la matrice correspond une
MBC MSA et chaque colonne une MBC TUN . La matrice indique, par exemple,
que la MBC MSA I correspond la MBC TUN I dans 434 cas et il correspond la
MBC TUN II dans 98 cas.
TUN
I II III IV V VI VII VIII IX X
I 434 98 10 15 2
II 39 298 2 2 2 2
III 24 19 56 2
M IV 69 118 4 6
S V 26 16 2 88 3
A VI 18 14 2 7 26
VII 13 7 2
VIII 41 24 5 16 4 18
IX
X 17 24 2 3 31
93
dans le sens MSATUN et la correspondance (V IIIMSA , V IIITUN ) est la plus pro-
bable dans le sens oppos.
La matrice prsente plusieurs caractristiques intressantes. Premirement, les
MBC s de deux cts MSA ou TUN ne sont pas tous prsentes dans notre lexique. Les
MBC s IV et V II, par exemple, sont absentes du ct TUN . En effet, les verbes TUN
qui suivent ces MBCs sont rares. Pour la mme raison, la MBC IX est absente des
deux cts. Deuximement, le lexique rvle une tendance gnrale maintenir
la mme MBC des deux cts source et cible dune entre lexicale. Ceci est traduit
par le fait que les cellules en gras sont souvent situes sur la diagonale. La cellules
qui prsentent la frquence la plus leve sur sa ligne et sa colonne la fois est
reprsente par X . Mis part la MBC V III, quand les MBCs sont prsentes des
deux cts lintersection des lignes et des colonnes contient la frquence la plus
leve. Troisimement, lorsquune MBC MSA ne correspond pas une MBC TUN
identique dans le lexique, elle est gnralement associe la MBC I.
Globalement, la matrice montre que la slection de la racine cible et celle
de la MBC cible ne sont pas deux processus indpendants. La dcomposition du
lexique de verbes en lexique de racines et en table de correspondance de MBCs
provoque une perte dinformations. Lapport quantitatif de la division du lexique
des verbes en deux ressources spares sera tudi dans le chapitre 4.
Lextraction dune table de correspondance de MBCs partir de la matrice est
simple : elle consiste slectionner pour chaque MBC de la langue source la
MBC la plus frquente dans la langue cible. Dans certains cas, la MBC la plus
frquente domine clairement les autres MBCs, comme le cas pour la MBC II MSA.
Dans dautres cas, la tendance nest pas aussi claire, linstar de la MBC MSA IV .
94
paires de dverbaux TUN et MSA dune faon simultane en nous servant du
lexique des verbes dcrit dans la section 3.2 et dune table de correspondance
de schmes nominaux TUN, MSA, dans le but de gnrer des paires de dverbaux
(N OU NM SA , N OU NT U N ).
Cette mthode sur-gnre et peut produire des erreurs du ct MSA ou du
ct TUN. Une tape de filtrage savre ainsi ncessaire pour liminer les paires
candidates errones. Nous utilisons pour cela une ressource du MSA existante.
La table 3.9 indique que les verbes correspondant au schme verbal IX (qui
correspond aux formes Ai12a33 en MSA et 12A3 en TUN) construisent leur forme
infinitive avec le shcme Ai12i3A3 du ct MSA et 12uw3iyy du ct TUN. Nous
avons dfini ainsi, pour tous les schmes verbaux, les schmes nominaux TUN
et MSA leur correspondant pour les neuf types de dverbaux. Au total, nous
avons obtenu 54 schmes nominaux pour MSA et 52 schmes pour le TUN.
laide du lexique des verbes, nous avons combin la racine, de chaque paire ver-
bale, avec tous les schmes nominaux correspondant au schme verbal du ct
TUN et MSA . Ce processus produit des paires de la forme (((racM SA , schemeM SA ),
(racT U N , schemeT U N ))). Le principe de la gnration des paires nominales est
dcrit dans la figure 3.5.
A ce niveau, environ 20 rgles morphologiques et orthographiques dvelop-
pes manuellement sont appliques sur les formes gnres pour produire fi-
c. Ces dverbaux sont : participe actif, participe passif, forme infinitive, adjectif qualificatif,
adjectif superlatif, nom doutil, nom du lieu, nom du temps, forme exagre (cf. section 1.3.3.)
95
ENTREE: SCH. VRB NOM DEV. SCH. MSA SCH. TUN SORTIE:
LEXIQUE DES VERBES LEXIQUE DE NOMS DEVERBAUX
nalement des paires de lemmes. Citons comme exemple, la rgle qui permet
de changer le deuxime radical de la racine /y/ ou /w/ en /y/ pour les parti-
cipes actifs du ct MSA. De la mme manire, une rgle permet de changer la
deuxime radicale /w/ en /y/ dans le ct TUN. Nous pouvons citer galement
une deuxime rgle commune pour le MSA et le TUN qui ncessite de transformer
les /t/ du schme verbal Ai1ta2a3 (VIII) et tous les schmes nominaux qui en
drivent en /T/ si la premire lettre de la racine correspond /S/, /T/, /D/ ou
@ AiDTirAb "trouble".
. @Q@ AiDtirAb devient H. @Q
/Z/ : e.g. la forme infinitive H
lissue de ltape de gnration, un lexique de 137199 entres nominales
(N omM SA , N omT U N ) est cr.
Le processus de drivation, mme sil est gnralement rgulier, admet des ex-
ceptions. Le processus que nous avons suivi gnre, par consquent, des formes
incorrectes. En effet, une racine ne peut pas se combiner tous les schmes no-
minaux ce qui engendre la cration dentres contenant des paires nominales qui
nexiste pas dans le lexique MSA ou dans le lexique TUN.
Filtrage du lexique
La mthode de gnration dcrite ci-dessus sur-gnre : elle produire des
paires correctes mais aussi des paires incorrectes. Quatre cas sont possibles :
1. les deux noms TUN et MSA sont corrects
2. le nom TUN est incorrect et le nom MSA est correct
3. le nom MSA est incorrect et le nom TUN est correct
4. les deux formes gnres sont incorrectes
g
Ainsi, la paire verbale du lexique ( iJ, ) (f ataHM SA , HallT U N ) "ouvrir", par
exemple, peut gnrer ces quatre situations :
1. participe passif : ( hJ, m) (maf tuwHM SA , maHluwlT U N ) "ouvert". Dans
ce cas, les deux mots gnrs sont corrects.
2. forme exagre : ( hAJ, Cg) (f attAHM SA, HallAlT U N ). Le nom TUN est
incorrect dans cette figure alors que le nom MSA est correct "conqurant".
96
3. nom du lieux : ( iJ,
m ) (maf taHM SA, mHallT U N ), dans ce cas le nom
TUN est correct "boutique" mais le dverbal MSA nexiste pas. Le mot tunisien
est obtenu aprs lapplication de la rgle de gmination.
Cm) (f tiyHM SA, miHlAlT U N ), les deux mots g-
4. adjectif analogue : ( iJ
J,
nrs dans ce cas sont incorrects.
Dans notre cas, les situations (2) et (4) ne sont pas prjudiciables dans la
mesure o nous nanalysons jamais une forme TUN incorrecte d . Les situations
(3) et (4) peuvent tre partiellement traites en filtrant la partie MSA laide
dune ressource existante. Pour cela, nous avons eu recours trois ressources
diffrentes :
un grand corpus compos de dpches de presse de lAFP (Agence franaise
de presse), qui contient environ 1, 5 million doccurrences. partir de ce
corpus, nous avons extraits 10595 types de lemmes nominaux laide de
lanalyseur morphologique de larabe standard MADA. Seules les paires dont
le nom MSA est attest dans le corpus ont t maintenues. Suite cette
opration, un lexique de 20130 entres a t obtenu. Ce lexique est compos
de 8441 noms MSA associs 2636 noms TUN.
le lexique du MSA large couverture SAMA (Graff et al., 2009) contenant
36935 lemmes nominaux. Le filtrage laide de ce lexique a donn naissance
un lexique de 26486 entres : 10647 dverbaux ct MSA et 4712 ct TUN.
lunion des deux ressources compose de 40172 lemmes nominaux. En utili-
sant cette ressource, le filtrage a gnr un lexique compos de 39793 paires
a t obtenu. Ce lexique comporte 14804 lemmes MSA et 5017 lemmes TUN.
Afin dvaluer ce lexique nous avons eu recours un corpus dvaluation TUN
(voir section 3.4) contenant environ six mille occurrences parmi lesquels 1295
sont des dverbaux. Ce corpus a t divis en deux parties gales, un corpus de
test et un corpus de dveloppement.
Deux mtriques ont t utilises pour lvaluation du lexique des dverbaux
gnr. La premire mtrique est la couverture (qui correspond au rappel) qui
mesure la portion des dverbaux du corpus prsents dans le lexique gnr.
La deuxime mtrique est lambigut qui constitue le nombre de dverbaux
cibles en moyenne pour un dverbal source. Nous navons pas utilis la prci-
sion comme mesure dvaluation car le corpus dvaluation est de petite taille.
Un mot figurant dans le lexique mais pas dans le corpus ne peut tre considr
comme incorrect.
Cette mthode prsente deux sources dambigut :
le lexique de verbes peut associer
un verbe source plusieurs verbes cibles
linstar du verbe TUN m qui est associ aux deux verbes du MSA
I. X hb "aller" et m "marcher".
d. Nous supposons ici que notre entre tun ne comporte pas derreurs !
97
la table de correspondance de schmes nominaux TUN-MSA peut dfinir plu-
sieurs schmes cibles pour un schme source.
Lvaluation du lexique de dverbaux sur le corpus de test est donne dans la
table 3.10.
ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 173407 67, 2% 7, 7 12, 6
afp 17896 60, 1% 2, 4 6, 9
sama 33271 63, 9% 3, 5 7, 2
afp sama 35792 65, 8% 2, 6 7, 4
La table 3.10 montre que sans aucun filtrage la couverture du lexique at-
teint 67, 2%. Lambigut dans le sens TUNMSA est gale 12, 6, cest--dire,
en moyenne, pour un dverbal TUN, 12, 6 dverbaux MSA sont gnrs. Aprs le
filtrage, la couverture du lexique baisse lgrement. Cela est d au fait que la
mthode du filtrage limine dans certain cas des entres TUN correctes corres-
pondant des noms MSA incorrects, ce qui correspond au cas 3 de la classification
propose ci-dessus. laide du corpus AFP et du lexique SAMA, la couverture di-
minue 60, 1% et 62, 7% respectivement. Enfin, la mthode qui consiste filtrer
le lexique par la ressource AFP SAMA, offre une meilleure couverture qui atteint
65, 7% et une ambigut gale 7, 4.
La table 3.11 prsente les valeurs de la couverture du lexique sur le corpus
de dveloppement. On observe une situation trs proche de celle observe sur le
corpus de test.
ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 173407 66, 1% 7, 6 12, 6
afp 17896 59, 2% 2, 4 6, 9
sama 33271 62, 7% 3, 5 7, 2
afp sama 3579 64, 6% 2, 6 7, 4
98
2. absence de correspondances dans la table de correspondance de schmes
nominaux TUN-MSA
3. absence de rgles morphologiques et orthographiques.
Dans le but destimer linfluence de la situation 1 sur la couverture, nous avons
enrichi le lexique des verbes de sorte couvrir tous les dverbaux du corpus de
dveloppement. lissue de ce processus, 92 entres verbales ont t rajoutes.
La table 3.12 montre la couverture du lexique sur lensemble de dveloppe-
ment. Bien quartificiel, ce rsultat permet destimer la borne suprieure que la
couverture peut atteindre dans le cas o le lexique des verbes est complet.
ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 195917 87, 3% 7, 9 12, 9
afp 20130 81, 5% 2, 2 7, 2
sama 36935 82, 9% 3, 7 8, 1
afp sama 39763 84, 2% 2, 9 8, 2
Comme lindique la table 3.12, aprs avoir garni le lexique des verbes, la cou-
verture du lexique est pass de 66, 2% 87, 3% avant ltape de filtrage et de
64, 6% 84, 2% aprs le filtrage par la ressource AFP SAMA, pour une lgre
augmentation du taux dambigut.
La table 3.13 prsente les rsultats obtenus sur le corpus de test.
ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 195917 72, 9% 7, 9 12, 9
afp 20130 65, 9% 2, 2 7, 2
sama 36935 68, 4% 3, 7 8, 1
afp sama 39763 71, 2% 2, 9 8, 2
Table 3.13.: Rsultats sur lensemble de test aprs lenrichissement du lexique des
verbes
99
entres, la racine tait absente dans 28 cas. Dans les 64 autres cas, la racine tait
prsente, cest le couple (racine, schme) qui tait absent.
Dans sa version actuelle, le lexique relie 187 particules TUN 143 particules
MSA . Contrairement aux verbes et aux noms, lambigut est moins leve dans
le sens TUN MSA. En effet, une particules TUN correspond en moyenne 1, 2
particules du ct MSA. En revanche, une particule MSA correspond, en moyenne,
1, 7 particules TUN. Nous donnons dans la table 3.15, lambigut moyenne pour
chaque catgorie de particules dans les deux sens TUN MSA et MSA TUN.
100
catgorie tun msa msa tun
conjonctions 1,1 1,2
prpositions 1,1 1,3
adverbes 1,2 2,8
particules 1,2 1,6
pronoms 1,5 1,1
clitiques 1,1 1,1
101
Lentre de ltiqueteur se prsente sous la forme dun automate acyclique M
qui reprsente la sortie de notre systme de conversion. Lautomate M peut tre
linaire, il correspond alors une squence unique de mots MSA. Il peut aussi
se prsenter sous la forme dune succession de faisceaux de transitions o les
transitions de chaque faisceau correspondent tous les mots MSA possibles pour
un mot TUN.
Ltiquetage en parties de discours de M est ralis par composition de ce der-
nier avec ltiqueteur P . Cette opration est suivie dune opration de recherche
du chemin de moindre cot dans le transducteur issu de la composition. Lti-
quetage correspond donc la squence doprations suivante :
BP (M E T )
o BP (A) est lopration de recherche du meilleur chemin dans lautomate
acyclique A.
Lorsque lautomate M correspond plusieurs hypothses de conversions, lti-
queteur P ralise simultanment ltiquetage morphosyntaxique et la dsambi-
gusation. Nous tudierons plus en dtails ce phnomne dans le chapitre 4.
Ltiqueteur est entran sur le corpus catib (Habash et Roth, 2009) qui cor-
respond la partie III de lATB. Le corpus est form de 24K phrases composes
de 330K occurrences et 30K types de mots en MSA. catib utilise un jeu dti-
quettes compos six catgories diffrentes : nom, nom propre, verbe, verbe pas-
sif, particule et ponctuation. Les tiquettes correspondantes ces catgories sont
respectivement : noun, prop, verb, verb-pass, part, pnx.
La table 3.16 montre les rsultats de ltiquetage en parties de discours du MSA
par un tiqueteur 2-gram et 3-gram fond sur le modle dcrit ci-dessus. Ces r-
sultats sont lgrement infrieurs aux rsultats obtenus par dautres tiqueteurs
du MSA existants. Pasha et al. (2014) arrive, par exemple, des rsultats lgre-
ment suprieur ( 96%) en utilisant le systme MADAMIRA sur les mmes donnes.
Nous navons pas utilis cet tiqueteur car il ne permet pas de traiter des entres
ambiges contrairement notre tiqueteur HMM.
2-gram 3-gram
94.52% 94.72%
102
corpus TUN compos denviron 800 phrases et de 11K mots. Il a t, par suite,
segment et annot manuellement. chaque mot du corpus, nous avons assign
son lemme et sa partie de discours.
Le corpus est compos de phrases extraites de quatre sources diffrentes :
des sries tlvises
des dbats politiques
une pice de thtre transcrite (Dhouib, 2007)
un corpus transcrit partir des enregistrements de discussions entre des
clients et un agent de la socit nationale des chemins de fer tunisiens. Ce
corpus a t enregistr pour entraner un systme TUN de reconnaissance de
la parole (Masmoudi et al., 2014).
Ces sous-corpus se distinguent sur diffrents points. Le premier est la varit
lexicale. Ces sous-corpus correspondent en effet des lexiques diffrents. Le
second est le niveau de spontanit.
La varit de ce corpus va permettre de tester notre modle sur des donnes
que nous pensons ralistes dun point de vue linguistique. En revanche, elles ne
sont pas ralistes par le fait que nous prenons en entre du tunisien transcrit
manuellement. Dans lidal il aurait t souhaitable dutiliser les sorties dun
systme de transcription automatique du tunisien.
La table 3.17 prsente quelques statistiques du corpus dvaluation.
103
3.4.1. Conventions de transcription
La transcription du corpus repose sur les conventions CODA. Ces conventions
visent dfinir un cadre commun de transcription pour tous les dialectes de
larabe. Contrairement dautres conventions et pour des raisons computation-
nelles, CODA dfinit une seule interprtation orthographique pour chaque mot.
Les conventions orthographiques sont fondes sur la similarit entre le MSA et
ses dialectes. Ce choix a pour objectif de dfinir une seule convention qui runit
tous les dialectes arabes.
Au niveau phontique, nous avons utilis les lettres et les diacritiques arabes
dans la transcription. Le TUN dfinit trois sons /g/, /p/ et /v/ qui ne sont pas
reprsents dans lalphabet arabe. Dans ce cas, nous avons eu recours aux lettres
du MSA qui produisent des sons proches phontiquement. Les sons /g/, /p/ et
/v/, sont transcrits ainsi par les lettres /q/, H
. /b/ et /f / respectivement.
Les mots /mung :ala/, /pArtiy/ et /viysta/ par exemple sont transcrits, respec-
munqAla~ "horloge"/"montre", GPAK bArtiy "match" et J
tivement, par AJ .
fiysta~ "veste".
Contrairement larabe standard o la lettre
~ est toujours prononce, le
dialecte tunisien, linstar des autres dialectes arabes, ne la prononce pas. Cette
lettre marque les noms du genre fminin et elle est toujours prcde par le dia-
critique /a/ en MSA et en TUN. En tunisien, de nombreux mots se terminent par le
son /a/ tels que /bara/ beaucoup, /famma/ "il y a". Parmi ces mots, nous avons
rajout la lettre ~ aux mots de valeur nominale et de genre fminin. Suivant
cette convention, les transcriptions des mots /bara/ et /famma/ sont respecti-
bara~ et fama~. Cette convention est tablie pour maintenir
vement QK .
la similarit entre le MSA et ses dialectes.
Un chantillon du corpus TUN est donn dans la table 3.18. Ce texte est accom-
pagn par sa translittration, sa traduction en MSA et en franais. Cet exemple
illustre les variations et les similarits entre le TUN et le MSA.
104
J
AJ @K K A
@ QAK
@ m B
@
... B@ J
A JKB '@ H@YK . J
J.@ YK
A
k. AJ.@
l
Q X@P l'
QJAK. QY K AK @ B
'
K
@YJ.A
m' J
m ' AK @ YK. m
'@ KP
AD
.
j. J K XCJ.@ AK . BA
J Q QK
AD A
tun
mqwl mqwl yAsr mmA nkwnwA hnA mwDwyyiyn
wwlA wqtly bdAt AlHkwm~ AlAntqAlyy~ Alwl. . .
lA nA nkrk bAltSryH zAd~ fmm~ tSryH lsy AlbAjy qAyd Alsbsy
wqthA hw ryys AlHkwm~ wbd nA nxlyk tHky AlbdAy~
qAl wqthA ylzm r~ snyn Alqll bA AlblAd tnjjm tmy.
J
AJ
J
@ Yg
.
... B@ J
A JKB@ m
'@ H @YK. A B @
J.@ YK
A
k. AJ.@ YJ
B l'
Q AJ A
@ l'
QJAK. QX @ AK @ B
K
@ YJ . @
m' Q K @ A K @ AYK '@ KP
@ Y K
@
m
.
AYJ A
. YK @ J
YJ.B B@ H@J Q QK
msa
mqwl mqwl jddA lkn lnkn hnA mwDwyyiyn
wwlA lmmA bdt AlHkwm~ AlAntqAlyy~ Alwl. . .
lA nA krk bAltSryH yD~ hnAk tSryH lAlsyd AlbAjy qAyd Alsbsy
nAk hw ryys AlHkwm~ wbdhA nA trkk tHky n AlbdAy~
qAl ndhA ylzm r snwAt l Alql lAlblAd ltstTy n ttqdm.
cest logique cest trs logique mais restons ici objectifs
premirement lorsque le premier gouvernement transitoire a entam. . .
Non, Moi je te rappelle aussi de la dclaration, il y a une dclaration
franais de M. El-bAji Qayid El-sibsi, cette poque, il tait chef du gouvernement
ensuite je te laisse parler du dbut, il disait lpoque
il faut au moins dix ans pour que ce pays puisse progresser.
105
standard. En effet le mot /ktibt :u/ en tunisien est exprim en /ktibtuh/ "je lai
crit".
En revanche, le TUN se distingue du MSA, en terme dagglutination, sur deux
points. Dune part, certains clitiques MSA sont raliss sous la forme de particules
indpendantes en tunisien et vice-versa. En particulier, la prposition + li+
pour et le proclitique du futur ne sont plus rattachs aux verbes. Tous les deux
. bA qui se situe avant le verbe :
se traduisent par la particule indpendante AK
les formes I.JJ litaktuba "pour que tu crives" et I.JJ sataktubu "tu criras"
sont exprims en tunisien par I . JK A K. bA tiktib. Nous sparons cette particule
du mot suivant tant donn que nous pouvons insrer un mot entre eux. Les
min "de" et ala "sur" ainsi que le pronom dmonstratif quels
prpositions
que soient son genre et son nombre sont raliss sous la forme de clitiques en
TUN . En effet, ils sont exprims respectivement en + mi+, + a+ et + ha+
en tunisien.
Dautre part, la forme de certains clitiques change. Le proclitique dinterroga-
tion MSA + @ + "est-ce que", par exemple, devient en tunisien lenclitique +
+. La forme verbale MSA . J
@ katabta "est-ce que tu as crit" se traduit en
I
tunisien par J . J ktibti.
106
drs comme des noms. Tous ces mots peuvent tre dtermins avec larticle
dfini @ Al.
PROP dsigne les noms propres. Contrairement au franais qui marque les
noms propres par une majuscule au dbut des mots, cette distinction nexiste
pas en arabe. Le mot
slym, par exemple, est tiquet nom sil se traduit
par "sain" et comme nom propre sil se traduit par "Salim".
PRT est utilis pour toutes les particules. Cet ensemble inclut les prposi-
tions, les conjonctions, les particules de futures, de ngation, interrogatifs et
les pseudo-verbes.
PNX inclut tous les marqueurs de ponctuation.
Conclusion
Dans ce chapitre, nous avons prsent les diffrents outils et ressources dve-
lopps pour la mise en uvre de ltiquetage morphosyntaxique du TUN. Dans
le chapitre suivant, nous dcrirons les expriences qui permettent lapplication
de ces outils dans le but de raliser les pr-traitements ncessaires pour raliser
ltiquetage.
107
4. Exprimentation et valuation
Nous avons dcrit dans le chapitre prcdent les moyens ncessaires la mise
en uvre du dispositif que nous proposons pour raliser ltiquetage en parties
de discours du TUN. Nous prsentons dans ce chapitre larchitecture gnrale
de notre systme ainsi que son fonctionnement en dtaillant les trois processus
impliqus : la conversion, la dsambigusation et ltiquetage.
Dans la section 4.1, nous revenons sur lorganisation du processus entier
travers un exemple illustratif. La section 4.2 concerne la description du proces-
sus de conversion. La dsambigusation est dcrite dans la section 4.3. Enfin, la
section 4.4 dcrit les expriences dtiquetage.
108
Figure 4.1.: Reprsentation de la sortie de la conversion laide dun automate
acyclique
109
Figure 4.2.: tiquetage en partie de discours dune phrase en tun : architecture
gnrale
110
jet dune section.
111
SEQUENCE TUN
ANALYSE
MORPHOLOGIQUE
MAGEAD_V MAGEAD_N
TRANSFERT
racine source LEXICAL
racine source
MBC source MBC source
traits morpho. traits morpho.
112
transcrite en TUN (Dhouib, 2007). Environ 1500 occurrences de formes verbales
ont t identifies et traduites en contexte vers le MSA. lissue de ce processus,
un corpus contenant 1500 couples (verbeTUN , verbeMSA ). Les verbes TUN et MSA
du corpus sont prsents sous leurs formes flchies. Cet ensemble dvaluation
a t divis en deux parties gales. La premire constituant un ensemble de
dveloppement et la seconde un ensemble de test.
Deux mtriques ont t utilises pour valuer le processus : le rappel, qui
indique la proportion de cas pour lesquels la forme cible correcte a t produite,
lambigut, qui indique le nombre de formes cibles produites en moyenne.
Comme dans le chapitre prcdent, nous navons pas utilis le rappel et la
prcision pour lvaluation car la rfrence ne contient quun seul verbe MSA. De
plus, lobjectif de la conversion est plus de maximiser le rappel que de trouver
un compromis raisonnable entre rappel et prcision. En effet, la disponibilit de
nombreuses ressources pour la dsambigusation peut permettre de retrouver
une forme correcte parmi plusieurs formes proposes. En revanche, labsence de
la forme TUN correcte dans les sorties du processus de conversion est irrparable.
Les expriences ont t ralises dans le sens TUNMSA et dans le sens MSATUN.
Nous avons distingu les rsultats sur les occurrences et sur les types. Lensemble
de dveloppement a permis de combler quelques lacunes de lanalyseur et du g-
nrateur morphologique et denrichir le lexique de verbes.
Lvaluation a t ralise sur les formes non diacrites bien que nous dispo-
sions des diacritiques des formes verbales aussi bien pour le TUN que le MSA. La
raison pour cela est que les verbes dans la majorti des crits arabes ne sont pas
diacrits.
La premire valuation que nous avons faite consiste ne pas raliser de
conversion. Le rappel est gal, dans ce cas, 30, 93% sur les occurrences et
29, 44% sur les types pour une ambigut de 1, 0. Cette rfrence indique le taux
de formes flchies verbales non diacrites TUN qui sont identiques aux formes du
MSA dans lensemble de test.
Dans ce qui suit, nous prsentons une srie dexpriences avec des faons dif-
frentes de ralisation de transfert comme voque prcdemment.
113
racine source
verbe source MAGEAD MBC source
traits
matrice de
corresp. MBC
traits
verbe cible MAGEAD MBC cible
racine cible
Figure 4.4.: processus de conversion dune forme verbale source vers une forme
verbale cible en utilisant une table de correspondance de MBCs
rappel ambigut
occurrences types occurrences types
tun msa 47, 74% 43, 40% 39, 41 37, 61
msa tun 52, 55% 48, 05% 5, 89 7, 12
Les rsultats prsents dans la table 4.1 soulignent deux points importants.
Premirement, le rappel est assez bas, infrieur 50%. En dautre termes, en
gardant la racine source pour produire la forme cible, nous obtenons uniquement
une approximation grossire de cette dernire. Deuximement, lambigut dans
le sens TUNMSA est plus leve que dans le sens MSATUN. Cela provient
essentiellement du fait que le TUN ne distingue pas certains traits MSA comme le
nombre duel ainsi que les genres au pluriel. titre dexemple, une forme verbale
TUN flchie au pluriel correspond quatre formes verbales distinctes MSA flchies
duel masculin, duel fminin, pluriel masculin et pluriel fminin. Labsence de
marquage du mode et du cas en TUN provoque une multiplication des formes
cibles gnres en MSA.
La mme exprience a t ralise en slectionnant les deux MBCs cibles les
plus probables tant donn la MBC source. La table 4.2 montre une lgre aug-
mentation du rappel. En effet, il slve 51.65% sur les occurrences dans le sens
TUN MSA et 53, 96% dans le sens inverse. En revanche, lambigut augmente
considrablement, le processus produit en moyenne environ 65 verbes MSA pour
une occurrence en TUN.
114
rappel ambigut
occurrences types occurrences types
tun msa 51, 65% 48, 23% 66, 98 64, 69
msa tun 53, 96% 50, 87% 9, 81 10, 68
Table 4.2.: Rsultats sur lensemble de test en utilisant les deux MBCs cibles les
plus frquentes dans la matrice de correspondance de MBCs
racine source
verbe source MAGEAD MBC source
traits
matrice de lexique de
corresp. MBC racine
traits
verbe cible MAGEAD MBC cible
racine cible
Figure 4.5.: Processus de conversion dun verbe source vers un verbe cible laide
du lexique de racines et de la matrice de correspondance de MBCs
Le processus est dcrit dans la figure 4.5. Les rsultats sur lensemble de test
sont donns dans les tables 4.3 et 4.4.
rappel ambigut
occurrences types occurrences types
tun msa 68, 98% 66, 56% 74, 37 72, 89
msa tun 72, 37% 71, 60% 13, 70 14, 52
Table 4.3.: Rappel et ambigut sur le corpus de test pour la conversion par le
lexique de racines et la matrice de correspondance de mbcs
115
En utilisant les deux MBCs cibles les plus frquentes de la matrice de corres-
pondance de MBCs, le processus de conversion provoque une augmentation du
rappel et de lambigut, comme le montre la table 4.4.
rappel ambigut
occurrences types occurrences types
tun msa 81,77% 80,66% 126,44 122,45
msa tun 86,12% 84,97% 21,92 22,56
Le rappel slve 86, 12% pour les occurrences dans le sens MSATUN et
atteint 81, 77% dans le sens inverse. En revanche, lambigut dpasse plus de
100 formes cibles dans le sens TUNMSA.
racine source
verbe source MAGEAD MBC source
traits
lexique de
racine, MBC
traits
verbe cible MAGEAD MBC cible
racine cible
Figure 4.6.: Conversion dun verbe source vers une forme cible par le lexique de
racines et MBCs
La prise en compte simultane dune racine et dune MBC lors dune conversion
a un effet positif sur la qualit du processus de conversion. La diffrence entre les
rsultats de cette exprience et de lexprience prcdente permet de quantifier
ce que lon perd en convertissant indpendamment la racine et la MBC.
116
rappel ambigut
occurrences types occurrences types
tun msa 76,43% 74,52% 26,82 25,57
msa tun 79,24% 75,10% 1,47 3,10
117
racine source
verbe source MAGEAD MBC source
traits lexique de
lexique de
racine, MBC
matrice de
traits corresp. MBC
verbe cible MAGEAD MBC cible
racine cible
Figure 4.7.: Processus de conversion dun verbe source vers une forme cible en
utilisant un lexique de racines et MBCs avec repli
4.3. Dsambigusation
Pour raliser la dsambigusation des solutions proposes lissue de la conver-
sion, nous avons eu recours deux moyens.
Le premier consiste fournir en entre ltiqueteur en parties de discours
lensemble des solutions proposes par le processus de conversion. En effet,
comme nous lavons voqu dans la section 3.3, ltiqueteur peut prendre en en-
tre un ensemble ambigu de squences dobservables reprsentes sous la forme
dun automate acyclique. Dans ce cas, la dsambigusation est ralise par lti-
queteur.
Le deuxime moyen consiste dsambiguser dune manire indpendante de
ltiquetage. Elle repose sur des modles de langage entrans sur des corpus
MSA . Ces derniers permettent dassocier des probabilits chacune des solutions
proposes par le processus de conversion.
118
Les modles de langage peuvent tre reprsents sous la forme dautomates
pondrs. Ainsi, le processus de dsambigusation est ralis par la composition
de lautomate issu de la conversion suivi par une recherche de meilleur chemin.
Plusieurs modles de langage ont t construits partir de trois corpus :
le premier (C1 ) est form de dpches de presse de lAgence France Presse
(AFP). Le deuxime (C2 ) est une collection de transcriptions de dbats politiques
dAljazeera. Enfin, le troisime (C3 ) constitue lunion des deux corpus. Ce dernier
couvre, par consquent, les deux variantes orale et crite du MSA. Chaque cor-
pus est dcompos en deux parties : un ensemble dentranement et un ensemble
dvaluation.
La table 4.7 donne les tailles des corpus.
entranement valuation
C1 occurrences 1 550 713 9 077
types 39 877 2 636
C2 occurrences 900 109 21 658
types 32 959 2 073
C3 occurrences 2 450 822 30 735
types 54 721 4 146
119
lensemble de test (nous donnons entre parenthses le pourcentage de oovs dans
le corpus dvaluation).
perplexit oovs
1-gram 1290, 47
C1 2-gram 282, 26 128 (1,4%)
3-gram 284, 50
1-gram 1054, 81
C2 2-gram 177, 00 349 (1,6%)
3-gram 169, 29
1-gram 1262, 49
C3 2-gram 245, 64 295 (0,5%)
3-gram 241, 25
Les rsultats prsents dans la table 4.8 montrent que quel que soit le corpus
dapprentissage, la perplexit est lgrement variable entre les modles. Nous
nous sommes donc bass sur la couverture pour effectuer le choix des modles.
Nous ralisons ainsi la dsambigusation laide des modles entrans sur le
corpus C3 .
Suite la dsambigusation laide des modles de langage entrans sur c3 ,
trois sorties peuvent tre fournies ltiquetage : la meilleure squence prdite
par chacun des modles 2-gram et 3-gram et lautomate pondr laide du
modle 1-gram.
120
cun traitement pralable. Cette exprience constitue la borne infrieure de notre
valuation et permettra par la suite de calculer la contribution de la conversion
sur la qualit dtiquetage.
Les performances dtiquetage sur le TUN et le nombre de (oovs) sont don-
ns dans la table 4.9. Nous donnons pour rappel dans cette table les rsultats
dtiquetage du MSA laide du mme outil.
msa tun
formes lemmes lmms formes lemmes lmms
performance (%) 94,72 97,63 96,94 69,04 67,41 71,41
OOVs 158 47 42 2891 4766 2705
(%) 0, 57 0, 16 0, 15 26, 9 44, 35 25, 17
Nous donnons galement les rsultats dtiquetage des lemmes et des LMMs.
Ces derniers sont les formes non diacrites des lemmes. Comme nous lavons
indiqu dans la section 4.2, lun des avantages de notre systme de conversion
est quil peut gnrer partir dune forme source, les lemmes et les LMMs cibles.
Dans cette exprience, nous donnons les rsultats dtiquetage des lemmes et
des LMMs de rfrence puisque nous ne disposons pas dun systme de lemmati-
sation du TUN. Les rsultats de ltiquetage en parties de discours des lemmes et
des LMMs sont donns pour des raisons comparatives. Nous les comparons aux
rsultats finaux de notre exprience sur les lemmes et les LMMs prdits par le
systme de conversion.
Les rsultats montrent que ltiquetage le plus performant est donn sur des
LMM s du ct TUN et sur des lemmes du ct MSA . Ces rsultats sont artificiels
tant donn que nous avons utilis les lemmes et les LMMs de rfrence. La tche
relle est ltiquetage des formes. Les rsultats dtiquetage des formes atteignent
69% du ct TUN et 94% du ct MSA. Ces rsultats constituent les bornes de notre
exprience.
La table 4.9 montre galement lintersection importante des lexiques TUN et
MSA . Environ 75% de formes et des LMM s TUN appartiennent au lexique MSA .
Ce taux nest que de 55.65% pour les lemmes, ce qui tait prvisible dans la
mesure o, contrairement aux formes et aux LMMs, les lemmes sont entirement
diacrites.
La deuxime exprience que nous avons mene consiste diviser notre cor-
pus dvaluation (cf. section 3.4) en deux ensembles : une ensemble dentra-
nement compos de 600 phrases et un ensemble de test contenant 200 phrases.
Comme nous lavons indiqu dans le chapitre prcdent, le corpus dvaluation
reprsente une collection de phrases extraites de quatre sources diffrentes : des
sries tlvises, des dbats politiques, une pice de thtre et un corpus trans-
crit partir des enregistrements de discussions entre des clients et un agent de
121
la socit nationale tunisienne des chemins ferrs. 150 phrases de chaque do-
maine ont t slectionnes pour la construction du corpus dentranement et 50
phrases de chaque domaine ont construit lensemble de test.
Bien que la taille du corpus dentranement nest pas suffisante pour lappren-
tissage dun tiqueteur robuste, nous avons ralis cette exprience afin desti-
mer les performances dtiquetage du TUN laide dun tiqueteur entran sur
le TUN.
122
Figure 4.8.: tiquetage en parties de discours du tun avant la conversion
123
4.4.3. tiquetage en parties de discours sans
dsambigusation
La dernire exprience ralise consiste fournir ltiqueteur la sortie du
processus de conversion. Ltiqueteur effectue ainsi la dsambigusation et lti-
quetage en parties de discours simultanment.
Comme nous lavons indiqu, la conversion gnre trois automates qui varient
selon la nature des sorties : des formes, des lemmes et des LMMs. La figure 4.9
dcrit le nouveau processus dtiquetage.
Figure 4.9.: tiquetage en parties de discours des lemmes et des LMMs en pseudo-
MSA
124
Elle montre aussi quil est prfrable de raliser ltiquetage sur les LMMs plutt
que sur les lemmes ou les formes. Ltiqueteur des LMMs permet en effet dobtenir
une prcision de 89.1%. Ce rsultat prsente une augmentation absolue de 20%
par rapport aux rsultats de la premire exprience (tiquetage du TUN laide
dun tiqueteur MSA).
Afin de dterminer les sources derreurs, nous avons ralis une analyse der-
reurs sur ltiquetage des formes, des lemmes et des LMMs. La table 4.13 dcrit le
taux derreurs provenant de chaque processus de traitement savoir la conver-
sion et ltiquetage. Naturellement, nous nattribuons lerreur ltiquetage que
lorsque la conversion est correcte. Nous avons choisi de sparer les erreurs pro-
venant de la phase dtiquetage en deux types afin didentifier si les erreurs sont
des erreurs de dsambigusation ou dtiquetage (si la dsambigusation est cor-
recte).
La table 4.13 montre quune conversion incorrecte est nocive pour la qualit de
ltiquetage en parties de discours. Une meilleure conversion fournit un meilleur
tiquetage. Au niveau des LMMs 34% des erreurs proviennent de la conversion.
Dans 49% cas, les erreurs proviennent de la dsambigusation. Enfin, dans 17%
cas, les erreurs sont issues de ltiquetage en parties de discours, cest--dire le
systme de conversion a gnr un ensemble ambigu contenant un LMM correct.
Ltiqueteur a slectionn le bon LMM suite la dsambigusation mais lui a
assign une tiquette incorrecte.
Conclusion
Dans ce chapitre, nous avons compar de multiples mthodes dtiquetage en
parties de discours du TUN laide dun tiqueteur entran sur le MSA. Avant
ltiquetage, le texte TUN est traduit en pseudo-MSA. Le processus de conversion
est compos de trois tapes : une analyse morphologique dun mot TUN source,
suivi dun transfert lexical et une gnration morphologique des formes cibles
MSA . Le systme atteint une prcision de 89% (20% damlioration absolue par
rapport la prcision donne par ltiquetage du TUN sans pr-traitement). Les
expriences ont montr que les meilleurs rsultats sont obtenus sur ltiquetage
des lemmes et plus prcisment ceux non diacrits.
125
Conclusion gnrale et
perspectives
Bilan de la thse
Dans ce travail, nous avons propos une mthode gnrique pour le traitement
automatique des dialectes arabes. La mthode consiste de mettre profit les
nombreux outils et ressources du MSA pour raliser le traitement de dialectes.
Nous nous sommes intresss en particulier au dialecte tunisien.
126
et annot en partie de discours un corpus tunisien. Ce corpus est compos de 800
phrases et denviron 10, 000 occurrences. Il couvre plusieurs variantes du TUN.
127
une prcision de 89%. Ceci constitue notre meilleur rsultat, il est suprieur de
20 points au rsultat de ltiquetage sans conversion.
Perspectives
Plusieurs perspectives souvrent nous lissue de ce travail. Nous en dve-
loppons trois dans les paragraphes suivants.
Le dialecte tunisien tant avant tout oral. Traiter des transcriptions manuelles
constitue un objet artificiel. Notre travail trouvera toute sa justification lorsquil
sera possible de prendre en entre les sorties dun systme de transcription auto-
matique du tunisien. Nous navons malheureusement pas pour linstant notre
disposition un tel systme.
Finalement, dautres dialectes arabes peuvent tre traits selon le mme prin-
cipe. Nous disposons en particulier dune implmentation de lanalyseur/gnrateur
morphologique MAGEAD pour le levantin et lgyptien. Il ne reste donc plus qu
dvelopper des lexiques pour ces dialectes de larabe pour reproduire sur ces
derniers les expriences que nous avons ralises sur le tunisien.
128
Bibliographie
B ERNHARD, D., L IGOZAT, A.-L. et al. (2013). Hassle-free pos-tagging for the alsa-
tian dialects. Non-Standard Data Sources in Corpus Based-Research.
B LACK, A., R ITCHIE, G., P ULMAN, S. et R USSELL, G. (1987). Formalisms for mor-
phographemic description. In Proceedings of the third conference on European
chapter of the Association for Computational Linguistics, pages 1118. Associa-
tion for Computational Linguistics.
129
B OUJELBANE, R., B EN AYED, S. et B ELGUITH, L. H. (2013). Building bilingual
lexicon to create dialect tunisian corpora and adapt language model. ACL
2013, page 88.
D ANIELS, P. T. (2007). Mlanges david cohen : tudes sur le langage, les langues,
les dialectes, les littratures, offertes par ses lves, ses collgues, ses amis ;
prsents loccasion de son quatre-vingtime anniversaire (review). Lan-
guage, 83(1):221222.
D UONG, L., C OOK, P., B IRD, S. et P ECINA, P. (2013). Simpler unsupervised pos
tagging with bilingual projections. In ACL (2), pages 634639.
130
F ELDMAN, A., H ANA, J. et B REW, C. (2006). A cross-language approach to rapid
creation of new morpho-syntactically annotated resources. In Proceedings of
LREC, pages 549554.
G RAFF, D., M AAMOURI, M., B OUZIRI, B., K ROUNA, S., KULICK, S. et B UCKWAL -
TER , T. (2009). Standard Arabic Morphological Analyzer (SAMA) Version 3.1.
Linguistic Data Consortium LDC2009E73.
H ABASH, N., R AMBOW, O. et R OTH, R. (2009). Mada+ tokan : A toolkit for arabic
tokenization, diacritization, morphological disambiguation, pos tagging, stem-
ming and lemmatization. In Proceedings of the 2nd International Conference on
Arabic Language Resources and Tools (MEDAR), Cairo, Egypt, pages 102109.
131
H ABASH, N. et R OTH, R. M. (2009). Catib : The columbia arabic treebank. In
Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages 221224.
Association for Computational Linguistics.
132
L I, S., G RAA, J. V. et TASKAR, B. (2012). Wiki-ly supervised part-of-speech
tagging. In Proceedings of the 2012 Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language Learning,
pages 13891398. Association for Computational Linguistics.
M AAMOURI, M., B IES, A., B UCKWALTER, T. et M EKKI, W. (2004). The penn arabic
treebank : Building a large-scale annotated arabic corpus. In NEMLAR confe-
rence on Arabic language resources and tools, pages 102109.
PASHA, A., A L -B ADRASHINY, M., K HOLY, A. E., E SKANDER, R., D IAB, M., H ABASH,
N., P OOLEERY, M., R AMBOW, O. et R OTH, R. (2014). Madamira : A fast, com-
prehensive tool for morphological analysis and disambiguation of arabic. In
In Proceedings of the 9th International Conference on Language Resources and
Evaluation, Reykjavik, Iceland.
133
R ABIN, M. O. et S COTT, D. (1959). Finite automata and their decision problems.
IBM journal of research and development, 3(2):114125.
R OTH, R., R AMBOW, O., H ABASH, N., D IAB, M. et R UDIN, C. (2008). Arabic
morphological tagging, diacritization, and lemmatization using lexeme mo-
dels and feature ranking. In Proceedings of the 46th Annual Meeting of the
Association for Computational Linguistics on Human Language Technologies :
Short Papers, pages 117120. Association for Computational Linguistics.
T CKSTRM, O., D AS, D., P ETROV, S., M C D ONALD, R. et N IVRE, J. (2013). Token
and type constraints for cross-lingual part-of-speech tagging. Transactions of
the Association for Computational Linguistics, 1:112.
V ERGEZ -C OURET, M. (2013). Tagging occitan using french and castillan tree
tagger. In Proceedings of 6th Language & Technology Conference.
134
YAROWSKY, D., N GAI, G. et W ICENTOWSKI, R. (2001). Inducing multilingual text
analysis tools via robust projection across aligned corpora. In Proceedings of
the first international conference on Human language technology research, pages
18. Association for Computational Linguistics.
135
ANNEXES
136
A. Rgles morphologiques du tunisien
Dans cette annexe, nous dcrivons en dtail toutes les ressources que nous
avons cres dans MAGEAD pour le traitement du TUN.
Grammaire hors-contexte
[ENTREE] [WORD] [RACINE]
[RACINE] [RAD1] [RAD2] [RAD3]
[MOT] [CONJ]([VRB]|[NOM])
[NOM] [PREP]([INDEF_NOM]|[DEF_NOM])
[INDEF_NOM] [NOM_STEM] [INDEF_CAS]
[DEF_NOM] [DET] [NOM_STEM] ([DEF_CAS]|[NSUFF_NOPOSS])
[DEF_NOM] [NOM_STEM] ([DEF_CAS]|[NSUFF_POSS])[POSS]
[DEF_NOM] [DEF_NOM_STEM] [DEF_CAS]
[VRB] ([PV_VRB]|[IV_VRB]|[CV_VRB])[OBJ][POST_VRB]
[POST_VRB] ([POST:NEG]|[POST:nil])
[PV_VRB] [PV_PRT] [PV_VRB_STEM] [SUBJSUF_PV]
[PV_PRT] ([PRT:EMPHATIC]|[PRT:NEG]|[PRT:nil])
[IV_VRB] [IV_PRT][IV_VRB_CONJUG]
[IV_PRT] ([PRT:NEG]|[PRT:nil])
[IV_VRB_CONJUG] [SUBJPRE_IV:1S][IV_VRB_STEM][SUBJSUF_IV:1S]
[IV_VRB_CONJUG] [SUBJPRE_IV:1P][IV_VRB_STEM][SUBJSUF_IV:1P]
[IV_VRB_CONJUG] [SUBJPRE_IV:2MS][IV_VRB_STEM][SUBJSUF_IV:2MS]
[IV_VRB_CONJUG] [SUBJPRE_IV:2FS][IV_VRB_STEM][SUBJSUF_IV:2FS]
[IV_VRB_CONJUG] [SUBJPRE_IV:2FP][IV_VRB_STEM][SUBJSUF_IV:2FP]
[IV_VRB_CONJUG] [SUBJPRE_IV:2MP][IV_VRB_STEM][SUBJSUF_IV:2MP]
[IV_VRB_CONJUG] [SUBJPRE_IV:3MS][IV_VRB_STEM][SUBJSUF_IV:3MS]
[IV_VRB_CONJUG] [SUBJPRE_IV:3FS][IV_VRB_STEM][SUBJSUF_IV:3FS]
[IV_VRB_CONJUG] [SUBJPRE_IV:3FP][IV_VRB_STEM][SUBJSUF_IV:3FP]
[IV_VRB_CONJUG] [SUBJPRE_IV:3MP][IV_VRB_STEM][SUBJSUF_IV:3MP]
[CV_VRB] [CV_VRB_STEM] [SUBJSUF_CV]
137
MBC-verb
[prt:l] : [PART:RESULT]
[prt:l] : [PART:SUBJUNC]
[prt:l] : [PART:EMPHATIC]
[prt:s] : [PART:FUT]
[prt:neg] : [PART:NEG]
[asp:P][per:1][num:s] : [SUBJ_SUF_PV:1S]
[asp:P][per:1][num:p] : [SUBJ_SUF_PV:1P]
[asp:P][per:2][gen:m][num:s] : [SUBJ_SUF_PV:2MS]
[asp:P][per:2][gen:f][num:s] : [SUBJ_SUF_PV:2FS]
[asp:P][per:2][num:d] : [SUBJ_SUF_PV:2D]
[asp:P][per:2][gen:m][num:p] : [SUBJ_SUF_PV:2MP]
[asp:P][per:2][gen:f][num:p] : [SUBJ_SUF_PV:2FP]
[asp:P][per:3][gen:m][num:s] : [SUBJ_SUF_PV:3MS]
[asp:P][per:3][gen:f][num:s] : [SUBJ_SUF_PV:3FS]
[asp:P][per:3][gen:m][num:d] : [SUBJ_SUF_PV:3MD]
[asp:P][per:3][gen:f][num:d] : [SUBJ_SUF_PV:3FD]
[asp:P][per:3][gen:m][num:p] : [SUBJ_SUF_PV:3MP]
[asp:P][per:3][gen:f][num:p] : [SUBJ_SUF_PV:3FP]
[asp:I][per:1][num:s] : [SUBJ_PRE_IV:1S]
[asp:I][per:1][num:p] : [SUBJ_PRE_IV:1P]
[asp:I][per:2][gen:m][num:s] : [SUBJ_PRE_IV:2MS]
[asp:I][per:2][gen:f][num:s] : [SUBJ_PRE_IV:2FS]
[asp:I][per:2][num:d] : [SUBJ_PRE_IV:2D]
[asp:I][per:2][gen:m][num:p] : [SUBJ_PRE_IV:2MP]
[asp:I][per:2][gen:f][num:p] : [SUBJ_PRE_IV:2FP]
[asp:I][per:3][gen:m][num:s] : [SUBJ_PRE_IV:3MS]
[asp:I][per:3][gen:f][num:s] : [SUBJ_PRE_IV:3FS]
[asp:I][per:3][gen:m][num:d] : [SUBJ_PRE_IV:3MD]
[asp:I][per:3][gen:f][num:d] : [SUBJ_PRE_IV:3FD]
[asp:I][per:3][gen:m][num:p] : [SUBJ_PRE_IV:3MP]
[asp:I][per:3][gen:f][num:p] : [SUBJ_PRE_IV:3FP]
[asp:I][per:1][num:s] : [SUBJ_SUF_IV:1S]
[asp:I][per:1][num:p] : [SUBJ_SUF_IV:1P]
[asp:I][per:2][gen:m][num:s] : [SUBJ_SUF_IV:2MS]
[asp:I][per:2][gen:f][num:s] : [SUBJ_SUF_IV:2FS]
[asp:I][per:2][num:d] : [SUBJ_SUF_IV:2D_Ind]
[asp:I][per:2][gen:m][num:p] : [SUBJ_SUF_IV:2MP]
[asp:I][per:2][gen:f][num:p] : [SUBJ_SUF_IV:2FP]
[asp:I][per:3][gen:m][num:s] : [SUBJ_SUF_IV:3MS]
[asp:I][per:3][gen:f][num:s] : [SUBJ_SUF_IV:3FS]
[asp:I][per:3][gen:m][num:d] : [SUBJ_SUF_IV:3MD]
138
[asp:I][per:3][gen:f][num:d] : [SUBJ_SUF_IV:3FD]
[asp:I][per:3][gen:m][num:p] : [SUBJ_SUF_IV:3MP]
[asp:I][per:3][gen:f][num:p] : [SUBJ_SUF_IV:3FP]
[asp:C][gen:m][num:s] : [SUBJ_SUF_CV:MS]
[asp:C][gen:f][num:s] : [SUBJ_SUF_CV:FS]
[asp:C][gen:m][num:p] : [SUBJ_SUF_CV:MP]
[asp:C][gen:f][num:p] : [SUBJ_SUF_CV:FP]
MBC-verb-Intr
[pro:0] : [OBJ:nil]
MBC-verb-Tr
[pro:1S] : [OBJ:1S]
[pro:1P] : [OBJ:1P]
[pro:2MS] : [OBJ:2MS]
[pro:2FS] : [OBJ:2FS]
[pro:2D] : [OBJ:2D]
[pro:2FP] : [OBJ:2FP]
[pro:2MP] : [OBJ:2MP]
[pro:3MS] : [OBJ:3MS]
[pro:3FS] : [OBJ:3FS]
[pro:3D] : [OBJ:3D]
[pro:3MP] : [OBJ:3MP]
[pro:3FP] : [OBJ:3FP]
[pro:0] : [OBJ:nil]
MBC-verb-I
[asp:P][pos:V]:[PAT_PV:I]
[asp:I][pos:V]:[PAT_IV:I]
[asp:C][pos:V]:[PAT_CV:I]
[asp:P][pos:V][vox:pas]:[VOC_PV:I-pas]
[asp:I][pos:V][vox:pas]:[VOC_IV:I-pas]
MBC-verb-I-aa
[asp:P][pos:V][vox:act] : [VOC_PV:I-aa-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-aa-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-aa-act]
MBC-verb-I-au
[asp:P][pos:V][vox:act] : [VOC_PV:I-au-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-au-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-au-act]
MBC-verb-I-ai
[asp:P][pos:V][vox:act] : [VOC_PV:I-ai-act]
139
[asp:I][pos:V][vox:act] : [VOC_IV:I-ai-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ai-act]
MBC-verb-I-uu
[asp:P][pos:V][vox:act] : [VOC_PV:I-uu-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-uu-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-uu-act]
MBC-verb-I-ia
[asp:P][pos:V][vox:act] : [VOC_PV:I-ia-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-ia-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ia-act]
MBC-verb-I-ii
[asp:P][pos:V][vox:act] : [VOC_PV:I-ii-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-ii-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ii-act]
MBC-verb-II
[asp:P][pos:V] : [PAT_PV:II]
[asp:P][pos:V][vox:act] : [VOC_PV:II-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:II-pas]
[asp:I][pos:V] : [PAT_IV:II]
[asp:I][pos:V][vox:act] : [VOC_IV:II-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:II-pas]
[asp:C][pos:V] : [PAT_CV:II]
[asp:C][pos:V][vox:act] : [VOC_CV:II-act]
MBC-verb-III
[asp:P][pos:V] : [PAT_PV:III]
[asp:P][pos:V][vox:act] : [VOC_PV:III-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:III-pas]
[asp:I][pos:V] : [PAT_IV:III]
[asp:I][pos:V][vox:act] : [VOC_IV:III-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:III-pas]
[asp:C][pos:V] : [PAT_CV:III]
[asp:C][pos:V][vox:act] : [VOC_CV:III-act]
MBC-verb-IV
[asp:P][pos:V] : [PAT_PV:IV]
[asp:P][pos:V][vox:act] : [VOC_PV:IV-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:IV-pas]
[asp:I][pos:V] : [PAT_IV:IV]
[asp:I][pos:V][vox:act] : [VOC_IV:IV-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:IV-pas]
[asp:C][pos:V] : [PAT_CV:IV]
140
[asp:C][pos:V][vox:act] : [VOC_CV:IV-act]
MBC-verb-V
[asp:P][pos:V] : [PAT_PV:V]
[asp:P][pos:V][vox:act] : [VOC_PV:V-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:V-pas]
[asp:I][pos:V] : [PAT_IV:V]
[asp:I][pos:V][vox:act] : [VOC_IV:V-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:V-pas]
[asp:C][pos:V] : [PAT_CV:V]
[asp:C][pos:V][vox:act] : [VOC_CV:V-act]
MBC-verb-VI
[asp:P][pos:V] : [PAT_PV:VI]
[asp:P][pos:V][vox:act] : [VOC_PV:VI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:VI-pas]
[asp:I][pos:V] : [PAT_IV:VI]
[asp:I][pos:V][vox:act] : [VOC_IV:VI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:VI-pas]
[asp:C][pos:V] : [PAT_CV:VI]
[asp:C][pos:V][vox:act] : [VOC_CV:VI-act]
MBC-verb-VII
[asp:P][pos:V]:[PAT_PV:VII]
[asp:P][pos:V][vox:act]:[VOC_PV:VII-act]
[asp:P][pos:V][vox:pas]:[VOC_PV:VII-pas]
[asp:I][pos:V]:[PAT_IV:VII]
[asp:I][pos:V][vox:act]:[VOC_IV:VII-act]
[asp:I][pos:V][vox:pas]:[VOC_IV:VII-pas]
[asp:C][pos:V]:[PAT_CV:VII]
[asp:C][pos:V][vox:act]:[VOC_CV:VII-act]
MBC-verb-VIII
[asp:P][pos:V] : [PAT_PV:VIII]
[asp:P][pos:V][vox:act] : [VOC_PV:VIII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:VIII-pas]
[asp:I][pos:V] : [PAT_IV:VIII]
[asp:I][pos:V][vox:act] : [VOC_IV:VIII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:VIII-pas]
[asp:C][pos:V] : [PAT_CV:VIII]
[asp:C][pos:V][vox:act] : [VOC_CV:VIII-act]
MBC-verb-IX
[asp:P][pos:V] : [PAT_PV:IX]
[asp:P][pos:V][vox:act] : [VOC_PV:IX-act]
141
[asp:P][pos:V][vox:pas] : [VOC_PV:IX-pas]
[asp:I][pos:V] : [PAT_IV:IX]
[asp:I][pos:V][vox:act] : [VOC_IV:IX-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:IX-pas]
[asp:C][pos:V]:[PAT_CV:IX]
[asp:C][pos:V][vox:act] : [VOC_CV:IX-act]
MBC-verb-X
[asp:P][pos:V] : [PAT_PV:X]
[asp:P][pos:V][vox:act] : [VOC_PV:X-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:X-pas]
[asp:I][pos:V] : [PAT_IV:X]
[asp:I][pos:V][vox:act] : [VOC_IV:X-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:X-pas]
[asp:C][pos:V] : [PAT_CV:X]
[asp:C][pos:V][vox:act] : [VOC_CV:X-act]
MBC-verb-XI
[asp:P][pos:V] : [PAT_PV:XI]
[asp:P][pos:V][vox:act] : [VOC_PV:XI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:XI-pas]
[asp:I][pos:V] : [PAT_IV:XI]
[asp:I][pos:V][vox:act] : [VOC_IV:XI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:XI-pas]
[asp:C][pos:V] : [PAT_CV:XI]
[asp:C][pos:V][vox:act] : [VOC_CV:XI-act]
MBC-verb-QI
[asp:P][pos:V] : [PAT_PV:QI]
[asp:P][pos:V][vox:act] : [VOC_PV:QI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QI-pas]
[asp:I][pos:V] : [PAT_IV:QI]
[asp:I][pos:V][vox:act] : [VOC_IV:QI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QI-pas]
[asp:C][pos:V] : [PAT_CV:QI]
[asp:C][pos:V][vox:act] : [VOC_CV:QI-act]
MBC-verb-QII
[asp:P][pos:V] : [PAT_PV:QII]
[asp:P][pos:V][vox:act] : [VOC_PV:QII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QII-pas]
[asp:I][pos:V] : [PAT_IV:QII]
[asp:I][pos:V][vox:act] : [VOC_IV:QII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QII-pas]
[asp:C][pos:V] : [PAT_CV:QII]
142
[asp:C][pos:V][vox:act] : [VOC_CV:QII-act]
MBC-verb-QIII
[asp:P][pos:V] : [PAT_PV:QIII]
[asp:P][pos:V][vox:act] : [VOC_PV:QIII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QIII-pas]
[asp:I][pos:V] : [PAT_IV:QIII]
[asp:I][pos:V][vox:act] : [VOC_IV:QIII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QIII-pas]
[asp:C][pos:V] : [PAT_CV:QIII]
[asp:C][pos:V][vox:act] : [VOC_CV:QIII-act]
MBC-NOM
[prt:l] : [PREP:l]
[prt:b] : [PREP:b]
[prt:k] : [PREP:k]
[prt:0] : [PREP:nil]
[det:Al] : [DET:Al]
[det:0] : [DET:nil]
[pro:1S] : [POSS:1S]
[pro:1P] : [POSS:1P]
[pro:2MS] : [POSS:2MS]
[pro:2FS] : [POSS:2FS]
[pro:2D] : [POSS:2D]
[pro:2FP] : [POSS:2FP]
[pro:2MP] : [POSS:2MP]
[pro:3MS] : [POSS:3MS]
[pro:3FS] : [POSS:3FS]
[pro:3D] : [POSS:3D]
[pro:3MP] : [POSS:3MP]
[pro:3FP] : [POSS:3FP]
[pro:0] : [POSS:nil]
143
[PREP:nil] :
[PART:RESULT] : la+
[PART:SUBJUNC] : bAc+
[PART:EMPHATIC] : la+
[PART:NEG] : lA+
[PART:NEG] : mA+
[PART:FUT] : bAc+
[PART:FUT] : mAc+
[PART:nil] :
[POST:NEG] : +c
[POST:nil] :
[DET:Al] : Al+
[DET:nil] :
[POSS:1S] : +I
[POSS:1P] : +nA
[POSS:2MS] : +ik
[POSS:2FS] : +ik
[POSS:2MP] : +kum
[POSS:2FP] : +kum
[POSS:3MS] : +h
[POSS:3FS] : +hA
[POSS:3MP] : +hum
[POSS:3FP] : +hum
[POSS:nil] :
[OBJ:1S] : +nI
[OBJ:1P] : +nA
[OBJ:2MS] : +ik
[OBJ:2FS] : +ik
[OBJ:2FP] : +kum
[OBJ:2MP] : +kum
[OBJ:3MS] : +h
[OBJ:3MS] : +U
[OBJ:3FS] : +hA
[OBJ:3MP] : +hum
[OBJ:3FP] : +hum
[OBJ:nil] :
[SUBJ_SUF_PV:1S] : +t
[SUBJ_SUF_PV:1P] : +nA
[SUBJ_SUF_PV:2MS] : +t
[SUBJ_SUF_PV:2FS] : +t
[SUBJ_SUF_PV:2MP] : +tuwA
[SUBJ_SUF_PV:2FP] : +tuwA
144
[SUBJ_SUF_PV:3MS] : +0
[SUBJ_SUF_PV:3FS] : +it
[SUBJ_SUF_PV:3FP] : +uwA
[SUBJ_SUF_PV:3MP] : +uwA
[SUBJ_PRE_IV:1S] : n+
[SUBJ_PRE_IV:1P] : n+
[SUBJ_PRE_IV:2MS] : t+
[SUBJ_PRE_IV:2FS] : t+
[SUBJ_PRE_IV:2MP] : t+
[SUBJ_PRE_IV:2FP] : t+
[SUBJ_PRE_IV:3MS] : y+
[SUBJ_PRE_IV:3FS] : t+
[SUBJ_PRE_IV:3MP] : y+
[SUBJ_PRE_IV:3FP] : y+
[SUBJ_SUF_IV:1S] : +0
[SUBJ_SUF_IV:1P] : +uwA
[SUBJ_SUF_IV:2MS] : +0
[SUBJ_SUF_IV:2FS] : +0
[SUBJ_SUF_IV:2MP] : +uwA
[SUBJ_SUF_IV:2FP] : +uwA
[SUBJ_SUF_IV:3MS] : +0
[SUBJ_SUF_IV:3FS] : +0
[SUBJ_SUF_IV:3MP] : +uwA
[SUBJ_SUF_IV:3FP] : +uwA
[SUBJ_SUF_CV:MS] : +0
[SUBJ_SUF_CV:FS] : +0
[SUBJ_SUF_CV:MP] : +uwA
[SUBJ_SUF_CV:FP] : +uwA
[PAT_IV:I][VOC_IV:I-aa-a-act] : [V12V3,XXX,aa]
[PAT_PV:I][VOC_PV:I-aa-a-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-aa-a-act] : [V12V3,XXX,aa]
[PAT_IV:I][VOC_IV:I-aa-a-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-aa-a-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-aa-i-act] : [V12V3,XXX,ia]
[PAT_PV:I][VOC_PV:I-aa-i-act] : [1V2V3,XXX,ia]
[PAT_CV:I][VOC_CV:I-aa-i-act] : [V12V3,XXX,ia]
[PAT_IV:I][VOC_IV:I-aa-i-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-aa-i-pas] : [tV1V2V3,XXX,iia]
[PAT_IV:I][VOC_IV:I-au-act] : [V12V3,XXX,uu]
[PAT_PV:I][VOC_PV:I-au-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-au-act] : [V12V3,XXX,uu]
[PAT_IV:I][VOC_IV:I-au-pas] : [VtV12V3,XXX,iia]
145
[PAT_PV:I][VOC_PV:I-au-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-ai-act] : [V12V3,XXX,ai]
[PAT_PV:I][VOC_PV:I-ai-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-ai-act] : [V12V3,XXX,ai]
[PAT_IV:I][VOC_IV:I-ai-pas] : [VtV12V3,XXX,iaa]
[PAT_PV:I][VOC_PV:I-ai-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-ii-act] : [V12V3,XXX,ii]
[PAT_PV:I][VOC_PV:I-ii-act] : [1V2V3,XXX,ii]
[PAT_CV:I][VOC_CV:I-ii-act] : [V12V3,XXX,ii]
[PAT_IV:I][VOC_IV:I-ii-pas] : [VtV12V3,XXX,iii]
[PAT_PV:I][VOC_PV:I-ii-pas] : [tV1V2V3,XXX,iii]
[PAT_IV:I][VOC_IV:I-uu-act] : [V12V3,XXX,uu]
[PAT_PV:I][VOC_PV:I-uu-act] : [1V2V3,XXX,uu]
[PAT_CV:I][VOC_CV:I-uu-act] : [V12V3,XXX,uu]
[PAT_IV:I][VOC_IV:I-uu-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-uu-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:II][VOC_IV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_PV:II][VOC_PV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_CV:II][VOC_CV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_IV:II][VOC_IV:II-aa-pas] : [Vt1V22V3,XXX,iaa]
[PAT_PV:II][VOC_PV:II-aa-pas] : [t1V22V3,XXX,aa]
[PAT_IV:II][VOC_IV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_PV:II][VOC_PV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_CV:II][VOC_CV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_IV:II][VOC_IV:II-ii-pas] : [Vt1V22V3,XXX,iai]
[PAT_PV:II][VOC_PV:II-ii-pas] : [t1V22V3,XXX,ai]
[PAT_IV:III][VOC_IV:III-aa-act] : [1A2V3,XXX,a]
[PAT_PV:III][VOC_PV:III-aa-act] : [1A2V3,XXX,a]
[PAT_CV:III][VOC_CV:III-aa-act] : [1A2V3,XXX,a]
[PAT_IV:III][VOC_IV:III-aa-pas] : [Vt1A2V3,XXX,ia]
[PAT_PV:III][VOC_PV:III-aa-pas] : [t1A2V3,XXX,a]
[PAT_IV:III][VOC_IV:III-ii-act] : [1A2V3,XXX,i]
[PAT_PV:III][VOC_PV:III-ii-act] : [1A2V3,XXX,i]
[PAT_CV:III][VOC_CV:III-ii-act] : [1A2V3,XXX,i]
[PAT_IV:III][VOC_IV:III-ii-pas] : [Vt1A2V3,XXX,ii]
[PAT_PV:III][VOC_PV:III-ii-pas] : [t1A2V3,XXX,i]
[PAT_IV:V][VOC_IV:V-aa-act] : [Vt1V22V3,XXX,iaa]
[PAT_PV:V][VOC_PV:V-aa-act] : [t1V22V3,XXX,aa]
[PAT_CV:V][VOC_CV:V-aa-act] : [t1V22V3,XXX,aa]
[PAT_IV:V][VOC_IV:V-ii-act] : [Vt1V22V3,XXX,iai]
[PAT_PV:V][VOC_PV:V-ii-act] : [t1V22V3,XXX,ai]
146
[PAT_CV:V][VOC_CV:V-ii-act] : [t1V22V3,XXX,ai]
[PAT_IV:VI][VOC_IV:VI-act] : [Vt1A2V3,XXX,ii]
[PAT_PV:VI][VOC_PV:VI-act] : [t1A2V3,XXX,i]
[PAT_CV:VI][VOC_CV:VI-act] : [t1A2V3,XXX,i]
[PAT_IV:VIII][VOC_IV:VIII-aa-act] : [V1tV2V3,XXX,iaa]
[PAT_PV:VIII][VOC_PV:VIII-aa-act] : [AV1tV2V3,XXX,iaa]
[PAT_CV:VIII][VOC_CV:VIII-aa-act] : [V1tV2V3,XXX,iaa]
[PAT_IV:VIII][VOC_IV:VIII-ai-act] : [V1tV2V3,XXX,iai]
[PAT_PV:VIII][VOC_PV:VIII-ai-act] : [AV1tV2V3,XXX,iaa]
[PAT_CV:VIII][VOC_CV:VIII-ai-act] : [V1tV2V3,XXX,iai]
[PAT_IV:IX][VOC_IV:IX-act] : [V12A3,XXX,i]
[PAT_PV:IX][VOC_PV:IX-act] : [12AV3,XXX,u]
[PAT_CV:IX][VOC_CV:IX-act] : [V12A3,XXX,i]
[PAT_IV:X][VOC_IV:X-act] : [VstV12V3,XXX,iai]
[PAT_PV:X][VOC_PV:X-act] : [AVstV12V3,XXX,iai]
[PAT_CV:X][VOC_CV:X-act] : [VstV12V3,XXX,iai]
[NSUFF_POSS_PL_MASC] : [+iy]
[NSUFF_POSS_PL_FEM] : [+At]
[NSUFF_NOPOSS_PL_MASC] : [+iyn]
[NSUFF_NOPOSS_PL_FEM] : [+At]
147
[VV,V] 0 / _ [1V,%,Y,%Y], V=[{aui}], Y=[{Aaui}]
accompli inaccompli
1S ktibt niktib
1P ktibnA niktibuwA
2MS ktibt tiktib
2FS ktibtiy tiktibiy
2P ktibtuwA tiktibuwA
3MS ktib yiktib
3FS kitbit tiktib
3P kitbuwA yiktibuwA
148
[3,XY,0] Y, X=[{wy}], Y=[{wy0}]
[VX,Y,0] Y, X=[VOWEL], Y=[LONGVOWEL]
[VY,X,0] X, X=[VOWEL], Y=[LONGVOWEL]
[VX,Y,0] Y, X=[VOWEL], Y=[VOWEL]
[X,Y,0] Y, X=[VOWEL], Y=[LONGVOWEL]
[X,Y,0] Y, X=[VOWEL], Y=[VOWEL]
accompli inaccompli
1S rmiyt narmiy
1P rmiynA narmiywA
2MS rmiyt tarmiy
2FS rmiytiy tarmiy
2P rmiytuwA tarmiywA
3MS rma yarmiy
3FS rmAt tarmiy
3P rmAwA yarmiywA
149
accompli inaccompli
1S qult nquwl
1P qulnA nquwluwA
2MS qult tquwl
2FS qultiy tquwliy
2P qultuwA tquwluwA
3MS qAl yquwl
3FS qAlit tquwl
3P qAluwA yquwluwA
accompli inaccompli
1S wSilt nuwSil
1P wSilnA nuwSluwA
2MS wSilt tuwSil
2FS wSiltiy tuwSliy
2P madiytuwA tmiduwA
3MS wSil yuwSil
3FS wiSlit tuwSil
3P wiSluwA yuwSluwA
Verbes hamzs
Rgles morpho-phonmiques de verbes hamzs
[V1,,X,X] A0 / [+,+] _, X=[aui]
[V1,,X,X] A0 / [+tV%,+t%] _, X=[{aui}]
[V3,,X,0] A0 / _ [+S,+S], X=[{aui}], S=[{0iuU}]
[V3,,X,X] A0 / _ [+S,+S], X=[{aui}], S=[{0iuU}]
[VV,V] 0 / _ [2V3,%X,%,%A0], X=[{}], V=[{aui}]
[V3,,X,X] I0 / _ [+S,+S], X=[{aui}], S=[{tn}]
[VV,V] 0 / _ [2V3,%X,%,%I0], X=[{}], V=[aui]
[3,] 0 / [V%,I] _
[S,S] 0 / [V3+,X,V,%%+] _, S=[{ui}], X=[{}], V=[{aui}]
150
hamza dans la premire lettre de la racine (kla "manger")
accompli inaccompli
1S kliyt nAkil
1P kliynA nAkluwA
2MS kliyt tAkil
2FS kliytiy tAkliy
2P kliytuwA tAkluwA
3MS kl yAkil
3FS klAt tAkil
3P klAwA yAkluwA
Table .18.: Flexion des verbes contenant une hamza dans la premire radicale
accompli inaccompli
1S bdiyt nabdA
1P bdiynA nabdAwA
2MS bdiyt tabdA
2FS bdiytiy tabdiy
2P bdiytuwA tabdAwA
3MS bdA yabdA
3FS bdAt tabdA
3P bdAwA yabdAwA
Table .19.: Flexion des verbes contenant une hamza dans la troisime radicale
151
accompli inaccompli
1S madiyt nmid
1P madiynA nmiduwA
2MS madiyt tmid
2FS madiytiy tmidiy
2P madiytuwA tmiduwA
3MS mad ymid
3FS madit tmid
3P maduwA ymiduwA
accompli inaccompli
1S Hmurt niHmAr
1P HmurnA niHmAruwA
2MS Hmurt tiHmAr
2FS Hmurtiy tiHmAriy
2P HmurtuwA tiHmAruwA
3MS HmAr yiHmAr
3FS HmArit tiHmAr
3P HmAruwA yiHmAruwA
152
B. Liste des verbes issus de racines tun
1. gzr 12a3 = gzar "regarder"
2. nqb 12a3 = nqab "percer"
3. rkH 12a3 = rkaH "se calmer"
4. rAD 12a3 = rAD "se calmer"
5. Sdm 12u3 = Sdum "attaquer"
6. lqf 12i3 = lqif "attraper"
7. cwf 12u3 = cAf "voir"
8. jbd 12i3 = jbid "tirer"
9. qdm 12i3 = qdim "mordre"
10. nqz 1a22i3 = naqqiz "sauter"
11. gTs 12u3 = gTus "plonger"
12. Srf 12a3 = Sruf "dpenser"
13. Hm 12i3 = Him "intimider"
14. r 12u3 = ru "trembler"
15. sxf 12i3 = sxif "avoir piti"
16. skr 1a22i3 = sakkir "fermer"
17. nzl 1a2i3 = nzil "appuyer"
18. nn Aista1a2a3 = Aistanna "attendre"
19. bk 12i3 = bki "devenir muet"
20. Hbs 12a3 = Hbas "isoler"
21. rqd 12a3 = rqad "dormir"
22. Sbb 12a3 = Sabb "verser"
23. lHlH 1a23a4 = laHlaH "insister"
24. blbz 1a23i4 = balbiz "dfaire"
25. lnsy 1a23a4 = lansa "lancer"
26. frhd 1a23i4 = farhid "amuser"
27. fdd 12a3 = fadd "sennuyer"
28. ss 12a3 = ass "surveiller"
29. lzz 12a3 = lazz "obliger"
30. mss 12a3 = mass "toucher"
31. sdd 12a3 = sadd "bloquer"
32. lmd 1a22i3 = lammid "rassembler"
153
33. bTl 1a22i3 = baTTil "suspendre"
34. lwj 1a22i3 = lawwij "chercher"
35. frks 1a23i4 = farkis "chercher"
36. njm 1a22i3 = najjim "pouvoir"
37. hzz 12a3 = hazz "emporter"
38. dzz 12a3 = dazz "pousser"
39. jyb 12a3 = jAb "ramener"
40. TyH 12a3 = TAH "tomber"
41. yx 12a3 = Ax "jouir"
42. wly 1a22a3 = walla "devenir"
43. xly 1a22a3 = xalla "laisser"
44. fyD 12a3 = fAD "dborder"
45. msmr t1a23i4 = tmasmir "se fixer"
46. xlS 1a22i3 = xalliS "rembourser"
47. wm 12a3 = Am "se baigner"
48. fwH 1a22a3 = fawwaH "picer"
49. kHH 12a3 = kaHH "tousser"
50. HSl 1a22i3 = HaSSil "tromper"
51. fs 12a3 = fas "fouler"
52. T 12u3 = Tu "avoir soif "
53. Hqr 12a3 = Hqar "mpriser"
54. wlm 1A2i3 = wAlim "adapter"
55. bzq 12a3 = bzaq "cracher"
56. srH 12a3 = sraH "rver"
57. bH 12a3 = baH "gorger"
58. fDH 12a3 = fDaH "diffuser"
59. ssy 1A2a3 = sAsa "mendier"
60. br 12a3 = brA "gurir"
61. Tyb 1a22i3 = Tayyib "prparer"
62. Hws 1a22i3 = Hawwis "se promener"
63. 1a22i3 = ai "nerver"
64. tlf 1a22i3 = tallif "ngliger"
65. syb 1a22i3 = sayyib "laisser"
154
66. sys 1A2i3 = sAyis "aider"
67. Hm 1a22i3 = Hammi "provoquer"
68. y 1a22a3 = ayya "emmener"
69. Ty 1a22i3 = Tayyi "jeter"
70. bnj 1a22i3 = bannij "anesthsier"
71. xb 1a22i3 = xabbi "griffer"
72. nHy 1a22a3 = naHHa "enlever"
73. kb 1a22i3 = kabbi "sattacher"
74. yT 1a22i3 = ayyiT "crier"
75. qrr 1a22i3 = qarrir "insister"
76. wxr 1a22i3 = waxxir "reculer"
77. xlT 12a3 = xlaT "rattraper"
78. lT 12a3 = gluT "se tromper"
79. SHH 1a22a3 = SaHHaH "signer"
80. zrq 1a22a3 = zarraq "vacciner"
81. slf 1a22i3 = sallif "prter"
82. bws 12a3 = bAs "embrasser"
83. qbH t1a22a3 = tqabbaH "affecter"
84. msx t1a22a3 = tmassax "se salir"
85. rD 12u3 = ruD "rencontrer"
86. rtH 1a22a3 = rattaH "reposer"
87. xmj 12i3 = xmij "primer"
88. tH 12a3 = taH "danser"
89. dls 1a22i3 = dallis "falsifier"
90. Db 1a22a3 = Dabba "devenir fou"
91. rwm 1a22i3 = rawwim "dompter"
92. zrb 12i3 = zrib "dpcher"
93. tb 1a22i3 = attib "franchir"
94. fj 12a3 = fja "effrayer"
155
C. Table de dverbaux tun-msa
156
schme verbal type de dverbal schme nominal
msa tun
participe actif mu12a33 mi12A3
IX participe passif mu12a33 mi12A3
forme infinitive Ai12i3A3 12uw3iyya~
participe actif musta12i3 musta12i3
X participe passif musta12a3 musta12i3
forme infinitive Aisti12A3 Aisti12A3
participe actif mu1a23i4 1a23A4
Q participe passif mu1a23a4 m1a23i4
forme infinitive 1a23a4a~ 1a2i34a~
participe actif muta1a23i4 mit1a23i4
QI participe passif muta1a23a4 mit1a23i4
forme infinitive ta1a23u4 t1a23iy4
157
Mes publications
2012Ahmed Hamdi
Apport de la diacritisation dans lanalyse morphosyntaxique de larabe
Rencontre des tudiants Chercheurs en Informatique
pour le Traitement Automatique des Langues (RECITAL), Grenoble, France
158