You are on page 1of 224

THSE

En vue de l'obtention du

DOCTORAT DE LUNIVERSIT DE TOULOUSE


Dlivr par l'Universit Toulouse III - Paul Sabatier
Discipline ou spcialit : Informatique

Prsente et soutenue par Ilhme GHALAMALLAH


Le 18 Dcembre 2009
Titre : Proposition d'un modle d'analyse exploratoire multidimensionnelle dans un
contexte d'Intelligence Economique.

JURY
Corine CAUVET
Claude CHRISMENT
Bernard DOUSSET
Pr ESCORSA
Andr FLORY
Michel LAMURE
Maryse SALLES

Professeur, Universit Aix-Marseille III


Professeur, Universit Toulouse III
Professeur, Universit Toulouse III
Professeur, Universit polytechnique de Catalogne
Professeur, INSA de Lyon
Professeur, Universit de Lyon I
Matre de confrences, Universit Toulouse I

Rapporteur
Prsident du jury
Directeur de Thse
Examinateur
Rapporteur
Examinateur
Examinateur

cole doctorale : cole Doctorale Mathmatique Informatique Tlcommunications de Toulouse


Unit de recherche : Institut de Recherche en Informatique de Toulouse
quipe daccueil : Systmes d'Informations Gnraliss - Extraction et Visualisation d'Informations
Directeur de Thse : Bernard DOUSSET

Ilhme GHALAMALLAH

d'analyse
yse multidimensionnelle dans un contexte
Proposition d'un modle d'anal
d'Intelligence Economique.
Directeur de thse :
Bernard Dousset, Professeur l'Universit Toulouse III - Paul Sabatier

Rsum
La russite dune entreprise est souvent conditionne par sa capacit identifier, collecter, traiter et diffuser
de l'information des fins stratgiques. Par ailleurs, les technologies de linformation et de la connaissance
apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation
beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'tre submerg par cette
information et de ne plus pouvoir distinguer l'essentiel du ngligeable. En effet, avec lavnement de la
nouvelle conomie domine par le march, la problmatique industrielle et commerciale de lentreprise est
devenue trs complexe. Dsormais, pour tre comptitive, lentreprise doit savoir grer son capital
immatriel. Lintelligence conomique (IE) est une rponse aux bouleversements de lenvironnement
global des entreprises et plus largement de toute organisation. Dans une conomie o tout se complexifie
et bouge rapidement, la gestion stratgique de l'information est devenue l'un des moteurs essentiels de la
performance globale des entreprises. LIE est une dmarche et un processus organisationnel qui permet
d'tre plus comptitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte,
nous avons constat quune grande part de linformation porte stratgique vient du relationnel : liens
entre acteurs du domaine, rseaux smantiques, alliances, fusions, acquisitions, collaborations,
cooccurrences de tous ordres.
Nos travaux consistent proposer un modle danalyse multidimensionnelle ddie lIE. Cette approche
repose sur lextraction de connaissances par lanalyse de lvolution des donnes relationnelles. Nous
proposons un modle permettant de mieux comprendre lactivit des acteurs dun domaine donn, leurs
interactions mais aussi leur volution et leur stratgie, ceci dans une perspective dcisionnelle. Cette
dmarche repose sur la conception dun systme dinformation gnrique danalyse en ligne permettant
dhomogniser et dorganiser les donnes textuelles sous forme relationnelle et, de l, en extraire des
connaissances implicites dont le contenu et la mise en forme sont adapts des dcideurs non spcialistes
du domaine de lextraction des connaissances.

Ilhme GHALAMALLAH

Proposition d'un modle d'analyse multidimensionnelle dans un contexte


d'Intelligence Economique.
Directeur de thse :
Bernard Dousset, Professeur l'Universit Toulouse III - Paul Sabatier

Abstract
A successful business is often conditioned by its ability to identify, collect, process and disseminate
information for strategic purposes. Moreover, information technology and knowledge provide constraints
that companies must adapt : a continuous stream, a circulation much faster techniques increasingly
complex. The risk of being swamped by this information and no longer able to distinguish the essential
from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of
industrial and commercial enterprise is become very complex. Now, to be competitive, the company must
know how to manage their intangible capital.
Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more
broadly to any organization. In an economy where everything moves faster and more complex,
management
Strategic Information has become a key driver of overall business performance. CI is a process and an
organizational process that can be more competitive, by monitoring its environment and its dynamics. In
this context, we found that much information has strategic significance to the relationship: links between
actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all
kinds.
Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is
based
on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for
understanding the activity of actors in a given field, but also their interactions their development and
strategy, this decision in perspective.
This approach is based on the designing a system of generic information online analysis to homogenize
and organize text data in relational form, and thence to extract implicit knowledge of the content and
formatting are adapted to non-specialist decision makers in the field of knowledge extraction.

Ilhme GHALAMALLAH
Proposition d'un modle d'analyse multidimensionnelle dans un contexte d'Intelligence
Economique.

Mots-cls

Modlisation, extraction et gestion des connaissances, dcouverte de connaissance,

Systme dinformation, systmes interactifs, systmes daide la dcision, entrept de donnes,


bases de donnes relationnelles, gestion bibliographique, indexation automatique, recherche
dinformation.

Analyse de donnes, analyse exploratoire, analyse textuelle, analyse relationnelle, analyse


multidimensionnelle, indicateurs, visualisation, fouille textuelle, fouille numrique, bibliomtrie,
scientomtrie, infomtrie,

Veille scientifique, veille technologique, intelligence conomique, aide la dcision, analyse


stratgique, stratgie, veille stratgique, veille.

Remerciements
Dans le cadre de ma thse, nombreux sont ceux qui mont apport une contribution scientifique,
logistique ou morale. Que chacun trouve dans laccomplissement de cette thse lexpression de ma
reconnaissance pour sa contribution quelle quelle soit.
Cependant je voudrais exprimer ma gratitude messieurs Gilles Zurflhu et Claude Chrisment, directeurs
de lquipe des Systmes dInformation Gnraliss pour mavoir accueillie. Je remercie tout
particulirement Monsieur Claude Chrisment pour sa patience et sa disponibilit. Il a toujours t l pour
me guider et mencourager avec beaucoup de rigueur. Cest un honneur pour moi davoir travaill avec lui.
Je tiens donc, ici, le remercier particulirement pour sa patience et ses qualits humaines. Il a toujours su
utiliser les mots justes, mcouter dans les moments difficiles et me guider dans mes travaux avec beaucoup
de pdagogie.
Je tiens tout particulirement remercier les professeurs Corine Cauvet et Andr Flory de mavoir fait
lhonneur dtre rapporteurs de ce mmoire.
Jexprime toute ma reconnaissance mon directeur de thse, le professeur Bernard Dousset. Il a su depuis
le dbut de ma thse, tre l aux moments dcisifs. Son optimisme naturel, son humanisme, sa sagesse, son
esprit visionnaire, son sens du consensus, mont permis dvoluer dans un environnement stable et mont
donn des repres prcieux.
Je souhaite remercier vivement mesdames Maryse Salles-Colletis et Josiane Mothe pour leurs
disponibilits, leurs conseils, pour toutes les runions qui ont permis de redonner un deuxime souffle
mes travaux.
Merci Eloise Loubier et Anass Elhaddadi pour avoir gay lambiance du bureau durant nos
collaborations studieuses ou encore autours dun bon caf. Mes penses vont aussi pour tous les membres
de lquipe avec qui jai pu travailler ou encore simplement partager de bons moments.
Pendant ces annes de thse, jai donn galement des cours qui mont permis dacqurir de lexprience,
de prendre du recul par rapport la thse et surtout de rencontrer des gens extraordinaires. Je tiens
remercier Bernard Dousset pour mavoir fait confiance et donn lopportunit denseigner pour la
premire fois. Un merci sans limite Alain Berro et Nathalie Valls pour leur soutien et pour la bonne
ambiance quils ont instaur durant les enseignements de C2i. Je remercie galement David Panzoli pour
son aide pendant ma premire anne dATER.
Toute mon amiti va vers les doctorants, actuels ou anciens, de lquipe et en particulier Dana Kunhkun,
Bouchera Soukkarieh , Ronan Tournier, Dsir Kaompar, Estella Antoni, Nissou,
Je remercie galement les ex-IRIT, Nadhem, Nico, Mehdi, Olfa et Elie pour leur grain de folie.
Je remercie ma famille et mes amis, qui nont jamais cess de me soutenir et de me faire confiance. Merci
tous mes copains, parpills aujourdhui, Asma, Mounia, Farida, Nadge et Syrine pour tous les moments
fous quon a pass ensemble et qui me redonnaient la force de travailler. Un merci infini mes parents, ma
sur et mon frre, et syrine. Rien de ce que je pourrai crire, ni dire ne pourra exprimer ma gratitude.
Merci syrine davoir t l chaque instant, davoir partag mes peines, mon stress, mes joies, mes
espoirs, mes rves, etc. Merci mes parents, ma sur et mon frre, davoir cru en moi, pour mavoir
donn autant damour et avoir tout fait pour me donner les moyens et le courage de mener mes tudes
jusquau bout.
FFF

Table des Matires

Introduction gnrale
Contexte de travail
.............................................................................................................................. 19
Problmatiques
.............................................................................................................................. 20
Contributions
.............................................................................................................................. 21
Organisation du mmoire ......................................................................................................................... 23

Chapitre 1. Intelligence Economique & Stratgique : Les


systmes dinformations au cur de la dmarche
2.1 Introduction ................................................................................................................................... 27
2.2 Intelligence conomique : gense, volution et lucidation ........................................................... 28
2.2.1

2.2.2

2.2.3

Analyse stratgique ................................................................................................................. 32


2.2.1.1

Considrations gnrales .......................................................................................... 32

2.2.1.2

Lanalyse par lactivit : le modle SWOT ............................................................... 32

2.2.1.3

Lanalyse par les forces concurrentielles : le modle PORTER ............................... 34

2.2.1.4

Analyse par les processus de dcision : Le modle IDC ........................................... 35

2.2.1.5

Synthse : de lanalyse stratgique lIntelligence Economique ............................... 36

La veille ................................................................................................................................... 37
2.2.2.1

Processus de la veille ................................................................................................. 38

2.2.2.2

Les domaines de la veille .......................................................................................... 39

2.2.2.3

Typologie de la veille stratgique ............................................................................. 41

2.2.2.4

Synthse : De la veille stratgique lIntelligence Economique .............................. 42

Les systmes dinformation et aide la dcision .................................................................... 42

2.3 Lintelligence Economique par son processus ................................................................................ 45


2.3.1

Classification de linformation ............................................................................................... 49

2.3.2

Intelligence collective.............................................................................................................. 51

2.4 Les modles danalyse de lIE .......................................................................................................... 52


2.4.1

La mthode danalyse MEDESIIE ......................................................................................... 53

2.4.2

Les modles SITE ................................................................................................................... 54

2.5 Un systme dinformation adapt aux besoins dune dmarche dIE ............................................ 55
2.6 Evaluation des outils dIE ............................................................................................................... 58
2.6.1

Expression du besoin .............................................................................................................. 58

2.6.2

Collecte dinformation publie ............................................................................................... 59

2.6.3

Collecte dinformation primaire ............................................................................................. 59

2.6.4

Traitement et analyse .............................................................................................................. 59

2.6.5

Diffusion ................................................................................................................................. 60

2.6.6

Evaluation ............................................................................................................................... 60

2.7 Intelligence conomique : synthse ................................................................................................ 61

Chapitre 2. La dcouverte des connaissances


3.1 Introduction ................................................................................................................................... 69
3.1.1

Spcifications .......................................................................................................................... 69

3.1.2

Extraction de connaissances partir de bases de donnes ...................................................... 69

3.1.3

Architecture dun systme type dECBD ............................................................................... 70

3.1.4

De la Fouille de donne la Fouille de texte ......................................................................... 71

3.1.5

3.1.4.1

Approche linguistique .............................................................................................. 71

3.1.4.2

Approche statistique ................................................................................................. 72

Domaine dapplication : lanalyse bibliomtrique.................................................................. 72

3.2 Etapes dextraction de connaissances partir du texte ................................................................... 74


3.3 Document lectronique .................................................................................................................. 76
3.3.1

Structure logique dun document .......................................................................................... 78

3.3.2

Exemples de structure logique ................................................................................................ 79

3.4 Des documents lentrept de document ...................................................................................... 81


3.5 Mthodes de reprsentation multidimensionnelle rduite des documents .................................... 83
3.5.1

Units textuelles ...................................................................................................................... 83

3.5.2

Mesures de dpendances ......................................................................................................... 84


3.5.2.1

Variables quantitatives .............................................................................................. 84

3.5.2.2

Variables qualitatives ................................................................................................ 85

3.5.3

Matrice de Prsence-Absence ................................................................................................. 87

3.5.4

Matrice de Cooccurrence ....................................................................................................... 88


3.5.4.1

Matrice de cooccurrence simple ............................................................................... 88

3.5.4.2

Matrice de Cooccurrence Simple Symtrique.......................................................... 88

3.5.4.3

Matrice de Contingence ........................................................................................... 89

3.5.4.4

Matrice de Cooccurrence Multiple .......................................................................... 89

3.6 Mthodes de fouilles de texte ......................................................................................................... 90


3.6.1

3.6.2

3.6.3

La classification et le regroupement ....................................................................................... 91


3.6.1.1

La classification ascendante hirarchique (CAH) .................................................... 91

3.6.1.2

La Classification Par Partition (CPP) ...................................................................... 91

Association .............................................................................................................................. 92
3.6.2.1

Lanalyse en composante principale (ACP) ............................................................. 92

3.6.2.2

Lanalyse factorielle des correspondances (AFC) ..................................................... 92

Squences ................................................................................................................................ 93
3.6.3.1

Lanalyse factorielle multiple (AFM) ....................................................................... 93

3.6.3.2

Lanalyse procustenne ............................................................................................. 93

3.7 La restitution .................................................................................................................................. 93


3.8 Les outils dextraction de connaissances partir du texte .............................................................. 94
3.8.1

Les solutions intgres ............................................................................................................ 94

3.8.2

Les outils ECT dvelopp au sein de lquipe SIG-IRIT ....................................................... 96

3.8.2.1

La Plateforme Ttralogie .......................................................................................... 96

3.8.2.2

Le systme Doc Cube ............................................................................................... 97

3.9 Fouille de Texte : Synthse ............................................................................................................. 97

Chapitre.3 Xplor : Modle danalyse exploratoire


multidimensionnelle
4.1 Introduction 101
4.2 Prsentation du processus danalyse exploratoire multidimensionnelle Xplor .............................102
4.2.1

Spcification .........................................................................................................................102
4.2.1.1

Indicateur relationnel .............................................................................................103

4.2.1.2

Indicateur uni-vari ................................................................................................104

4.2.2

Prsentation gnrale des tapes du processus Xplor ...........................................................105

4.2.3

Planification ..........................................................................................................................105

4.2.4

4.2.5

4.2.6

4.2.3.1

Considrations gnrales ........................................................................................105

4.2.3.2

Fonctionnement gnral de lactivit planification ...........................................106

Recherche et collecte des documents ....................................................................................111


4.2.4.1

Sources et systmes de recherche ............................................................................111

4.2.4.2

Structure de la collection : attributs .......................................................................113

4.2.4.3

Fonctionnement gnral de lactivit recherche et collecte de documents .......113

Homognisation et/ou structuration des documents .........................................................115


4.2.5.1

Descripteur de format spcifique ...........................................................................116

4.2.5.2

Descripteur de format gnrique ...........................................................................120

4.2.5.3

Fonctionnement gnral de lactivit homognisation et /ou structuration ...121

Reprsentation multidimensionnelle des documents ...........................................................121


4.2.6.1

Modle deux dimensions .....................................................................................123

4.2.6.2

Modle trois dimensions .....................................................................................123

4.2.6.3 Fonctionnement gnral de lactivit reprsentation multidimensionnelle des


documents .....................................................................................................................124
4.2.7

4.2.8

Calcul des indicateurs et analyse ..........................................................................................124


4.2.7.1

Fonctions de manipulation ....................................................................................125

4.2.7.2

Fonctions dagrgation ...........................................................................................125

4.2.7.3

Fonctionnement gnral de lactivit calcul dindicateur et analyse .................126

Validation et diffusion ..........................................................................................................126

4.3 Modle de reprsentation multidimensionnelle des documents ..................................................126


4.3.1

4.3.2

Considration gnrales ........................................................................................................126


4.3.1.1

Notion de dpendance ...........................................................................................128

4.3.1.2

Gnralisation : tableaux de Burt 128

4.3.1.3

Base de calcul pour ces mesures .............................................................................130

4.3.1.4

Impact dun document sur les diffrentes matrices ...............................................131

Modle deux dimensions ...................................................................................................132


4.3.2.1

Principe ..................................................................................................................132

4.3.2.2

Tableau deux dimensions ....................................................................................132

4.3.3

Modle trois dimensions ....................................................................................................134


4.3.3.1

Principe ..................................................................................................................135

4.3.3.2

Tableau trois dimensions .....................................................................................136

4.4 Fonctions ...............................................................................................Erreur ! Signet non dfini.


4.4.1

4.4.2

4.4.3

Fonctions de manipulation ...................................................................................................139


4.4.1.1

Slection .................................................................................................................139

4.4.1.2

Restriction ..............................................................................................................139

4.4.1.3

Seuil ........................................................................................................................140

4.4.1.4

Ordre ......................................................................................................................140

4.4.1.5

Environnement .......................................................................................................140

4.4.1.6

Evolution ................................................................................................................141

4.4.1.7

Document ..............................................................................................................142

Fonctions dagrgation .........................................................................................................142


4.4.2.1

Somme ....................................................................................................................142

4.4.2.2

Minimum ...............................................................................................................142

4.4.2.3

Maximum ...............................................................................................................142

4.4.2.4

Comptage ...............................................................................................................142

4.4.2.5

Moyenne .................................................................................................................143

4.4.2.6

Frquence ...............................................................................................................143

Combinaison de fonctions ...................................................................................................143

4.5 Le profil des utilisateurs du processus danalyse exploratoire multidimensionnelle ....................144


4.5.1

Considrations gnrales ......................................................................................................144


4.5.1.1

4.5.2

4.5.3

Aide la coopration et la coordination ................................................................145

Modle utilisateur .................................................................................................................145


4.5.2.1

Le profil utilisateur .................................................................................................146

4.5.2.2

Historique des interactions ....................................................................................147

Gestion des exceptions et des particularits ..........................................................................148


4.5.3.1

Objectifs .................................................................................................................148

4.5.3.2

Processus dapprentissage .......................................................................................149

4.6 Synthse ........................................................................................................................................150

Chapitre 4. Implantation et exprimentation


5.1 Introduction .................................................................................................................................155
5.2 Motivations & objectifs ................................................................................................................155
5.2.1

Limites de la plateforme Ttralogie ......................................................................................155


5.2.1.1

Problme de pertinence pour l'utilisateur ..............................................................155

5.2.1.2

Problme de performance ......................................................................................158

5.2.1.3

Compilation des matrices dans une base de donnes ............................................158

5.2.2

Limites de la premire version du prototype Xplor ..............................................................159

5.2.3

Objectifs ...............................................................................................................................159

5.3 Notre approche .............................................................................................................................160


5.3.1

Modle de donnes ...............................................................................................................161

5.3.2

Compilation des matrices .....................................................................................................162

5.4 Architecture du prototype Xplor ..................................................................................................164


5.5 Fonctionnalits du prototype XPLOR .........................................................................................167
5.5.1

Concepts IE et veille .............................................................................................................167

5.5.2

Classification des liens IE .....................................................................................................168

5.5.3

Analyse gnrale ....................................................................................................................169

5.5.4

Analyse dtaille .....................................................................................................................171


5.5.4.1

Administration des donnes ...................................................................................171

5.5.4.2

Analyse des donnes ...............................................................................................172

5.6 Exprimentations ..........................................................................................................................174


5.6.1

Enjeux et problmatique ......................................................................................................174

5.6.2

Proposition ...........................................................................................................................175

5.6.3

Besoin informationnel ..........................................................................................................175


5.6.3.1

Source dinformation .............................................................................................175

5.6.3.2

Indicateurs ..............................................................................................................176

5.6.4

Collecte de document ...........................................................................................................176

5.6.5

Structuration .........................................................................................................................178

5.6.6

Homognisation .................................................................................................................179

5.6.7

Reprsentation multidimensionnelle ....................................................................................180

5.6.8

5.6.9

5.6.7.1

La fonction Xplor Items et champs ..................................................................181

5.6.7.2

La fonction Xplor Cooccurrences ..........................................................................182

Calcul dindicateur & Visualisation .....................................................................................183


5.6.8.1

Analyse de la base de donnes ................................................................................184

5.6.8.2

Calcul des indicateurs uni-varis et visualisation ...................................................185

Validation ......................................................................................Erreur ! Signet non dfini.

5.7 Synthse ........................................................................................................................................190

Conclusion gnrale et perspectives


Synthse des travaux ..........................................................................................................................192
Perspectives ..194

Introduction gnrale

.........................................................................19
Problmatiques
.........................................................................20
Contributions
.........................................................................21
Organisation du mmoire ......................................................................23
Contexte de travail

Contexte de travail
Avec louverture plus large des frontires, se sont intensifis, lchelle mondiale, les changes de toutes
sortes : capitaux, marchandises, services, technologies, personnes, informations, savoirs, etc. Favorise par
les moyens universels de communication, les interdpendances croissantes des tats dans les domaines
conomique, politique, social, culturel, scientifique et technologique ont transform le monde en un vaste
systme o tout vnement qui survient un point du globe a des rpercutions au point oppos. Dans un
univers de complexit et de comptition, o les flux et les rseaux explosent, le savoir, linformation et la
communication se situent au cur de la gouvernance de toutes les organisations. Ils reprsentent des
atouts stratgiques pour lentreprise comme pour les institutions de ltat et de la socit civile.
En plus de la complexit, la nouvelle socit fonde sur linformation et le savoir se caractrise par le
rythme exponentiel des progrs scientifiques et technologiques. Ceux-ci branlent en permanence les
organisations, y introduisant des changements discontinus, des ruptures, des acclrations soudaines qui
rendent lavenir hautement imprvisible. La masse des informations saccroit inluctablement avec la
capacit de stockage des donnes que permettent les dernires technologies de linformation et de la
connaissance. Le risque pour lentreprise est dtre surinforme, submerge par lacclration des flux
continus de donnes parses et multiformes, sans pouvoir sy retrouver. Le problme est celui de la
navigation dans un ocan dinformations en perptuel mouvement tout en rcuprant linformation utile
la dcision. Il sagit dassembler les pices parses dun puzzle en vue den dcouvrir limage, donc de
reprer et mettre en relation des signaux forts, des signaux faibles, des relations cachs dans la masse des
donnes disponibles et construire progressivement la connaissance de lenvironnement de lorganisation.
La matrise de lavenir dune entreprise est conditionne par sa capacit collecter, interprter, protger,
diffuser et utiliser linformation des fins stratgiques. Cest cette union entre linformation et la stratgie
qui est au centre de la notion dIntelligence Economique (IE). Ainsi que le dcrivent Christian Marcon et
Nicolas Moinet : Quil sagisse de surveiller son champ concurrentiel, de protger ses informations
stratgiques, de capitaliser ses connaissances ou dinfluencer son environnement, la question est bien celle
de lutilisation stratgique de linformation [Marcon, 2006]. LIE intgre ainsi la notion dintelligence
collective parce quelle fait travailler en rseau les divers acteurs concerns par chacune des tapes, de la
collecte lutilisation de linformation, faisant converger leurs activits dans une mme vision stratgique.
En ce sens, le vocable "systme d'intelligence conomique" dsigne l'ensemble coordonn des pratiques et
des stratgies d'utilisation de l'information utile dployes par une organisation [Martre, 1994]. A lchelle
de ltat, le systme dIE se dfinit par la coordination et lharmonisation, aux diffrents niveaux du pays,
de la gouvernance et de la gestion stratgique de linformation des diverses organisations qui sy activent.

Dans le contexte actuel, toute organisation doit voluer et sadapter trs vite aux changements de son
environnement. Lentreprise qui est en intelligence avec son environnement prend lavantage sur ses
concurrents qui le sont moins. En ce sens, elle doit surveiller les indicateurs de bonne sant leur niveau
interne et externe (march) pour dtecter les crises et les dfaillances ou les opportunits du systme. Do
le problme majeur de la maitrise et de la qualit de linformation. Linformation est devenue un actif
extrmement riche et complexe sur lequel se fondent les dcisions et laudit. Si cet actif nest pas soumis
des rgles visant augmenter sa fiabilit et sa traabilit, alors lopacit des prises de risques, quel que soit
le secteur dactivit, ne fera que crotre et les crises se succderont.
La mise en place dun systme dinformation dIE reprsente, pour lorganisation, la rponse indispensable
aux dfis dun environnement mondialis, de plus en plus complexe et imprvisible. Les systmes
dinformation pour laide la dcision vont permettre lentreprise dtre non seulement ractive mais
aussi proactive. Ractive, celle-ci visera sadapter avec davantage de clrit que ses concurrentes aux
changements de son environnement. Proactive, elle cherchera adopter une attitude anticipatrice, mieux
apprhender le sens de la dynamique de lenvironnement. Elle identifiera les menaces actuelles ou
potentielles pour sen prmunir ainsi que les opportunits saisir.
Problmatiques
La dmarche dIE permet de fournir lentreprise, ou dans un sens plus large lorganisation, une
comprhension fine de son environnement, travers les informations internes et externes auxquelles elle a
accs. Cette comprhension de lenvironnement est destine aider les dcideurs dans leurs choix de
stratgies que ce soit court, moyen ou long terme.
Dans ce contexte, une grande part de linformation porte stratgique prend souvent une forme
relationnelle : liens entre acteurs du domaine, rseaux smantiques, alliances, fusions, acquisitions,
collaborations, cooccurrences de tout ordre. La pertinence des connaissances extraites, partir des donnes
disponible, dpend trs souvent de la prise en compte de lvolution des donnes mais aussi de celles de
leurs interactions. La gestion et la mise disposition des informations et des connaissances extraites,
peuvent tre ralises au moyen dun systme dinformation. Cet outil, permet aux dcideurs davoir une
vision globale sur les activits dune entreprise par un accs rapide et interactif un ensemble de vues des
donnes organises. Ces vues permettent de reflter laspect multidimensionnel de lenvironnement de
lentreprise [Colliat, 1996].
En se basant sur le constat de la trs forte implication du relationnel dans la prospective, nos travaux se
situent linterface de ces deux domaines, afin dlaborer un modle danalyse multidimensionnel
permettant la comprhension des activits humaines, de leurs interactions mais aussi de leur volution,
dans une perspective dcisionnelle. Son intrt rside dans sa capacit :

prendre en compte les diffrentes informations disponibles sous toutes leurs dimensions,

analyser les relations existantes entre elles et leur volution.

Lobjectif du modle propos, est de comprendre et rsumer en de nouvelles connaissances synthtiques


lenvironnement dune organisation dans sa dynamique.
Nos travaux proposent une approche danalyse de lenvironnement informationnel dun problme
dcisionnel. Cette approche repose sur lextraction des connaissances par lanalyse de lvolution des
donnes relationnelles. Notre but est de proposer un systme unifi en ligne pour gnrer et organiser les
donnes sous forme relationnelle et del extraire des connaissances implicites dont le contenu et la mise en
forme sont adapts des dcideurs non spcialistes du domaine de lextraction des connaissances.
Une multiplicit de logiciels a t conue pour aider la prise de dcision, mais leur plus ou moins grande
difficult dutilisation a plutt contribu rendre la gestion de linformation de plus en plus complexe. Il
est donc ici question pour nous de proposer un systme dinformation simplifi, ergonomique et universel,

orient spcifiquement vers lanalyse stratgique. Le systme dinformation vis doit pouvoir homogniser
avec la bonne granularit et dduire de faon automatique des informations synthtiques caractre
stratgique partir de bases de donnes ouvertes, en rapport avec lenvironnement dune organisation.
Contributions
Contribution s
Dans notre dmarche, nous avons recours aux techniques dextraction de connaissances partir de corpus
textuels pour tudier, dans un contexte dIE, des donnes relationnelles volutives issues de
lenvironnement informationnel dune entreprise.
Cette thse a t soutenue par lquipe des Systmes dInformations Gnraliss (SIG), plus
particulirement les membres de lquipe dExploration et de Visualisation dInformation (EVI) de
lInstitut de Recherche en Informatique de Toulouse (IRIT).
Les domaines abords dans le cadre de nos travaux concernent lIE et la veille stratgique, la fouille de
texte, lextraction de connaissance, la bibliomtrie, les systmes dinformation.
Notre dmarche cible lanalyse des informations relationnelles volutives reposant sur un systme
dinformation adapt aux besoins de lutilisateur voulant effectuer une analyse stratgique dun domaine
spcifique dans un contexte dIE.
Le systme dinformation vis repose sur un modle danalyse exploratoire multidimensionnelle, bas sur
des mthodes dextraction, dhomognisation, de croisement et dexploration des donnes textuelles.
Nous dfinissons, pour cela, un modle gnrique de cration et de gestion de connaissances aliment par
les sources lectroniques textuelles ouvertes quelles soient structures ou semi structures. Ce type de
donnes est le plus riche puisquil concerne 80% des informations servant de rfrentiel aux dcisions.
Palliant la lourdeur et linadaptation aux besoins de lIE des systmes dinformations actuels, qui traitent ce
type de donnes, notre modle va permettre lentreprise dtre plus comptitive grce une meilleure
maitrise de linformation sur son environnement et sur la dynamique de celui-ci.
Le modle propos va couvrir les diffrentes tapes de traitement, danalyse et de visualisation des donnes.
Lapproche adapte consiste appliquer les techniques bibliomtriques la dmarche dIE. Lobjet
principal de la bibliomtrie consiste analyser, laide de mthodes statistiques et mathmatiques, un
corpus documentaire, afin den extraire des relations significatives entre ses divers lments. Elle a aussi
pour objet dtudier les livres ou revues scientifiques quant leur usage et leur production. Dans un
premier temps, la bibliomtrie tait destine rpondre des besoins purement documentaires. Dans un
second temps, les sociologues ont utiliss ces techniques statistiques pour comprendre les phnomnes de
la connaissance scientifique. Et ce nest qu partir des annes 80 que les techniques bibliomtriques ont
commences avoir des retombes au niveau industriel par ladaptation de ces techniques notamment aux
bases de brevets.
Lapplication des techniques bibliomtriques dans une dmarche dIE permet de dgager des indicateurs
de tendances partir de notices bibliographiques darticles scientifiques ou de brevets. Ces indicateurs vont
offrir aux dcideurs une vision synthtique de lenvironnement dun domaine donn en refltant l'autoorganisation de ses communauts, de ses rseaux de publications, de ses acteurs, etc.
Nous dfinissons deux classes dindicateurs :

Des indicateurs uni-varis permettant des comparaisons quantitatives entre des ensembles de
publications caractriss,

Des indicateurs relationnels destins cartographier, de faon fige ou volutive, les domaines
couverts par des ensembles de publications.

Le modle danalyse exploratoire multidimensionnelle propos sappuie sur deux principaux modles :

Le modle de reprsentation multidimensionnelle des documents

Le modle de calcul dindicateurs

Dautre part, dans le contexte de veille stratgique, Ttralogie [Dousset, 2003] est un outil
particulirement bien adapt aux analyses macroscopiques car il permet de dgager les signaux forts, les
signaux faibles et les tendances partir d'un corpus de documents collects sur un sujet prcis.
L'information labore, qui en est issue, reprsente une synthse obtenue par diverses mthodes danalyse
de donnes et diffuse via des visualisations graphiques. Mais l'issue des trs nombreuses analyses
stratgiques que nous avons dj ralis avec ce logiciel, il est apparu que les utilisateurs finaux des analyses
produites veulent, en complment de l'aspect global et stratgique (connaissances gnrales), des zooms
plus prcis sur certains points et ce afin de satisfaire leurs besoins spcifiques (connaissances cibles)
d'information sur des lments qu'ils ont dj identifis (concurrence, marchs, nouveaux produits ou
procds, partenaires potentiels, etc.) ou afin den dcouvrir dautres. A posteriori, de nombreux experts ou
dcideurs sont demandeurs de plus de dtails dans sur les lments traditionnels de leur environnement.
Notamment, pour tout ce qui concerne leur vocabulaire spcifique, les acteurs qu'ils ctoient, les marchs
qu'ils convoitent, les alliances qu'ils projettent.
Nous proposons donc de continuer valider le modle propos et de complter les analyses
macroscopiques par un systme de navigation en ligne au cur de l'information relationnelle obtenue par
des recoupements statistiques, des classifications ou des analyses multidimensionnelles. Le but tant de
privilgier l'extraction d'information en fonction du contexte gnral et non exclusivement par dcryptage
du contenu de quelques documents pris sparment. Il devient ainsi possible de retrouver, partir d'un
lment connu (acteur, mot cl), toute ou partie de l'information qui lui est connexe (quipes,
collaborations, concepts, mergences, mots associs, etc.) et ce par l'utilisation de nombreux oprateurs
d'association ou de filtrage et de fonctions de reporting pertinentes.
Ce prototype est destin restituer les rsultats dune tude stratgique. Nous avons privilgi diffrents
niveaux, synthtiques, cartographiques, reprsentant les principaux thmes et acteurs. Le dcideur
constitue ses propres filtres de sorte que ses modes de lecture puissent rpondre des questions aussi bien
dordre stratgique que tactique ou oprationnel, etc.
Le prototype dvelopp permet d'effectuer des analyses stratgiques sur des corpus d'information textuelle
issus des sources les plus diverses comme les bases en ligne (publications scientifiques, brevets, portails,
annuaires), les Cd, le Web visible et invisible, les news, la presse, les traces de connexions aux sites, les
bases internes, et donne la possibilit aux dcideurs de mener par eux mme leurs investigations sans la
participation dun analyste confirm ou dun expert.
Ses applications sont trs diverses :

identification des thmatiques et des acteurs du domaine,

mise en vidence des stratgies de dveloppement et de coopration,

proposition de scnarios dvolution technologique (innovation),

extraction des signaux faibles.

Paralllement, il a t propos une adaptation de la plate-forme danalyse stratgique Ttralogie au


traitement des langues orientales, en particulier larabe et le chinois grce un travail sur le codage
UNICODE UTF-8 en utilisant les capacits de transcodage doutils comme MS-Word.
En se basant sur le codage informatique unifi de ces langues, nous pouvons dtecter les entits nommes
via le traitement de bases semi structures comme les publications scientifiques, les brevets et la presse. Il
est alors possible dtablir des dictionnaires assez complets de termes scientifiques et techniques (mots-cls,
classifications, etc.), de noms dacteurs (auteurs, personnalits, entreprises, organismes publics,
laboratoires, etc.), de lieux gographiques, de dates et de les traduire, si possible sans ambigit, dans la
langue de lutilisateur. Le croisement de ces briques signifiantes de texte permettra ltablissement des
rseaux sociaux et smantiques afin de visualiser les stratgies sous-jacentes du domaine. Si, de plus, le

facteur temps est pris en compte (volution des rseaux), une vision prospective se dgage aisment
(tendances, trajectoires des acteurs, type dvolution, ruptures technologiques, etc.).
Organisation du mmoire
m moire
Ce mmoire est compos de quatre chapitres, ordonns selon notre dmarche d'analyse, comme le montre
la Figure 1.
Les deux premiers chapitres dcrivent l'existant dans le domaine dIE et de la dcouverte de connaissance.
Notre contribution porte sur la proposition dun modle danalyse exploratoire multidimensionnelle dans
un contexte dIE.
Le dernier chapitre prsente limplantation et les exprimentations effectues pour valider notre modle.

Chapitre 1
Intelligence Economique

Chapitre 2
La dcouverte de connaissance

Analyse stratgique,
Veille stratgique,
Processus et modles dIE,
Systme dinformation dIE.

Processus de lECBD,
Structure de document,
Techniques de la Fouille de Texte,
Plateforme Ttralogie.

Chapitre 3
Proposition dun modle danalyse multidimensionnel

Indicateurs uni-varis
Indicateurs relationnels
Processus danalyse exploratoire multidimensionnelle
Modle de reprsentation multidimensionnelle des
documents
Modle deux dimensions
Modle trois dimensions
Modle de calcul dindicateurs

Chapitre 4
Implantation & Validation
Architecture du prototype Xplor,
Fonctionnalits,
Exprimentation,
Validation.

Figure 1 : Organisation du mmoire.

Lobjectif du premier chapitre est de prsenter le contexte gnral de nos travaux. Au cours de ce chapitre,
nous prsentons les origines et lvolution du concept dIE ainsi que ses objectifs et ses diffrents besoins.
LIE va permettre aux entreprises une organisation structurelle et informationnelle pour faire face aux
nouveaux dfis (menaces et opportunits) de la mondialisation. Cette dmarche offre une nouvelle vision
de lorganisation de lentreprise qui est principalement orient vers une organisation base sur la maitrise
de linformation. Les besoins de la dmarche dIE sont centrs vers la connaissance de lenvironnement de
lentreprise dans un contexte dcisionnel. Nous identifions le processus dIE travers les diffrentes tapes
de la dmarche et les diffrents niveaux dvolution de linformation vers la connaissance et lintelligence
ainsi que les acteurs impliqus. Nous nous intressons aussi comment rorienter les systmes
dinformations vers une meilleure maitrise des connaissances et une meilleure circulation des informations
aussi bien au niveau interne et quexterne. Au cours de ce chapitre, nous prsentons une valuation des
diffrents outils dIE utiliss par les entreprises. Cette valuation est base sur un ensemble de critres,
dfinis sous forme de fonctionnalits, que les outils dIE doivent satisfaire.
Afin de rpondre aux besoins danalyse, nous proposons de coupler les besoins des tapes du processus dIE
avec les principes et techniques issues du domaine de la dcouverte des connaissances partir du texte.
Dans ce contexte, nous prsentons, dans le chapitre 2 de ce manuscrit, le domaine de la dcouverte des
connaissances et les techniques de la Fouille de Texte.
Nos travaux vont ds lors consister dfinir un modle de traitement et de gestion des donnes dans le
contexte du processus dIE en y intgrant deux dimensions incontournables que sont le relationnelle et le
temporelle. Ainsi notre modle danalyse multidimensionnelle, va se baser sur les quatre principales tapes
du processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse,
La restitution et interprtation des rsultats . Dont lobjectif principal est la cration de nouvelles
connaissances souvent totalement implicites et vise stratgique, qui se dduisent le plus souvent de
lanalyse de lvolution des rseaux dacteurs (auteurs, inventeurs, socits, villes, rgions, pays, journaux,
etc.), des rseaux smantiques (mots-cls, free-terms, multi-termes, ontologies, etc.) et des interactions
(acteur smantique).
Dans le troisime chapitre, nous prsentons le modle danalyse exploratoire multidimensionnelle Xplor
bas sur la prise en compte de laspect temporel au sein de lanalyse. Il repose sur lextraction des
connaissances partir des donnes textuelles par lanalyse des donnes relationnelles volutives.
Le modle danalyse exploratoire multidimensionnelle propos sappuie sur deux principaux modles :

Le modle de reprsentation multidimensionnelle des documents

Le modle de calcul dindicateurs

Lobjectif du chapitre 4 est dimplanter et exprimenter le modle danalyse multidimensionnel. Notre


contribution consiste proposer un systme danalyse et de navigation en ligne, que nous nommons
Xplor, exploitant systmatiquement les donnes relationnelles et leur volution. Notre approche consiste
privilgier l'extraction d'information en fonction du contexte gnral et non exclusivement par dcryptage
du contenu de quelques documents pris sparment. Il devient ainsi possible de retrouver, partir d'un
lment connu (acteur, mot cl), toute ou une partie de l'information qui lui est connexe (quipes,
collaborations, concepts, mots associs, etc.) ainsi que son volution (mergence, rupture, etc.). Dans le
cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons expriment
le prototype Xplor sur une analyse stratgique de donnes chinoises, portant sur le secteur des
biotechnologies agricoles en chine. Cette exprimentation est aussi prsente dans ce chapitre.
Enfin, nous concluons sur lensemble des travaux prsents dans ce mmoire. Nous prsentons nos
perspectives de recherche sur ces axes dtude, en reprenant les rsultats du sondage, mais aussi en valuant
les problmatiques engendres par nos travaux et que nous souhaiterions dvelopper par la suite.

1 Chapitre 1. Intelligence Economique & Stratgique : Les


systmes dinformations au cur de la dmarche

.....................................................................................................................................27
1.1 Introduction
1.2 Intelligence conomique : gense, volution et lucidation........................................................................ 28
1.2.1

1.2.2

1.2.3
1.3

Analyse stratgique........................................................................................................................... 32
1.2.1.1

Considrations gnrales ................................................................................................... 32

1.2.1.2

Lanalyse par lactivit : le modle SWOT ......................................................................... 32

1.2.1.3

Lanalyse par les forces concurrentielles : le modle PORTER ........................................... 34

1.2.1.4

Analyse par les processus de dcision : Le modle IDC ...................................................... 35

1.2.1.5

Synthse : de lanalyse stratgique lIntelligence Economique .......................................... 36

La veille ........................................................................................................................................... 37
1.2.2.1

Processus de la veille ......................................................................................................... 38

1.2.2.2

Les domaines de la veille ................................................................................................... 39

1.2.2.3

Typologie de la veille stratgique ....................................................................................... 41

1.2.2.4

Synthse : De la veille stratgique lIntelligence Economique .......................................... 42

Les systmes dinformation et aide la dcision ................................................................................ 42

Lintelligence Economique par son processus ............................................................................................ 45

1.3.1

Classification de linformation ......................................................................................................... 49

1.3.2

Intelligence collective ....................................................................................................................... 51

1.4

Les modles danalyse de lIE .................................................................................................................... 52

1.4.1

La mthode danalyse MEDESIIE.................................................................................................... 53

1.4.2

Les modles SITE ............................................................................................................................ 54

1.5

Un systme dinformation adapt aux besoins dune dmarche dIE.......................................................... 55

1.6

Evaluation des outils dIE ......................................................................................................................... 58

1.6.1

Expression du besoin ....................................................................................................................... 58

1.6.2

Collecte dinformation publie ......................................................................................................... 59

1.6.3

Collecte dinformation primaire ....................................................................................................... 59

1.6.4

Traitement et analyse ....................................................................................................................... 59

1.6.5

Diffusion ......................................................................................................................................... 60

1.6.6

Evaluation ....................................................................................................................................... 60

1.7

Intelligence conomique : synthse ........................................................................................................... 61

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

1.1 Introduction
A linstar de la constellation des autres notions qui lui sont associes (celles de gouvernance, veille
technologique, intelligence collectives, etc.), lIntelligence conomique (IE) est apparue au fil des
transformations sociales, induites par le processus de globalisation de lconomie de march et par le
dveloppement spectaculaire des technologies de linformation et de la communication (TIC). Laube du
XXI sicle marque, en effet, un changement dre pour lhumanit, le passage de la socit industrielle la
nouvelle socit de linformation et de la connaissance. Ce passage dmontre aujourd'hui que la richesse la
plus importante nest plus matrielle, ni physique. Elle est dsormais fonde sur limmatriel et conduite
par le savoir [Pinte, 2006].
Au-del, la comptitivit et linnovation sont devenues les clefs de voute pour toute organisation
ambitionnant la russite et la maitrise de sa prennit. La nouvelle comptitivit des organisations se fonde
de plus en plus sur leur capacit valoriser les savoirs externes et revaloriser leurs savoirs internes en vue
de produire, de manire continue, des innovations de produits et de procds. En consquence, pour
maintenir la comptitivit dans cette conomie mondialise, les organisations doivent relever
imprativement le dfi de linnovation. Dans ce contexte, le contrle de linformation stratgique et sa
transformation en savoir et savoirfaire constituent un impratif majeur pour lentreprise [Julien, 2003].
Ce qui rend incontournable le fait pour les organisations de disposer dun mcanisme de dtection des
tendances et enjeux de lvolution de leur environnement [Jacob, 2000]. LIE permet datteindre cet
objectif.
En effet, la mise en uvre dune dmarche dIE offre aux organisations lopportunit de capitaliser leurs
connaissances, sur leurs environnements interne et externe, et de dcupler leurs capacits dapprentissage.
Des outils, tels que la veille ou laudit, permettent doptimiser au mieux leurs processus dinnovation, de
recherche et dveloppement, afin daccder rapidement aux marchs cibls et de choisir judicieusement
partenaires et sources de financement. Linformation sous toutes ses formes est devenue une matire
premire indispensable pour assurer la survie, le pilotage, le dveloppement et la comptitivit pour une
entreprise, une communaut, un territoire ou une Nation. La matrise de lavenir dune organisation est
alors conditionne par sa capacit collecter, interprter, protger, diffuser et utiliser linformation des
fins dcisionnelles. La gestion stratgique de l'information est devenue l'un des moteurs essentiels de la
performance globale des organisations [Martre, 1994].
Dsormais, la conduite de lanalyse stratgique repose sur la capacit des organisations accder aux
informations valeur ajoute pour mieux anticiper les volutions et les tactiques des concurrents. Cest
cette union entre linformation et la stratgie qui caractrise la notion dIE.
Dautre part, lentre dans la socit de la connaissance reprsente pour beaucoup une plonge dans un
ocan dinformation. Les organisations sont presque satures par linformation. Lessor des technologies
connexes, avec lavnement dinternet et des rseaux, a accru les volumes disponibles. Les organisations se
heurtent aux problmatiques lies la gestion et lexploitation de ces ressources dans un but de cration de
connaissance. Les systmes dinformation permettent aux organisations de rpondre ces problmatiques.
En effet, un systme dinformation peut tre considr comme un ensemble de ressources humaines (le
personnel), de ressources matrielles et de procdures et mthodes permettant dacqurir, de stocker, de
traiter et de diffuser les informations caractres stratgiques au sein dune organisation.
Le systme dinformation se trouve alors au cur de la dmarche dIE, par ses fonctions de stockage,
danalyse, de traitement et de diffusion des donnes. Il ne sagit plus aujourdhui simplement de brasser
linformation sur internet, mais plutt dintgrer cette dernire dans des savoirs, des savoirs dans des
connaissances et des connaissances dans des cultures [Mass, 2000].
Ce premier chapitre vise un double objectif :

27

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Le premier consiste offrir une vision synthtique des pratiques de la dmarche dIE en tant que
matrise de l'information stratgique pour une entreprise, ou plus largement une organisation,
dans un but de gestion et de cration de connaissance.

Le second objectif est de dgager une vision gnrale des systmes dinformations sur lesquelles
pourra sappuyer une telle dmarche.

Ce chapitre est organis en cinq sections. Dans la premire section (1.2) nous dfinissons tout dabord les
fondements de la dmarche dIE savoir lanalyse stratgique, la veille et les systmes dinformation. Cette
section va permettre de les identifier et mettre en avant le rle de chacun. Dans la seconde section (1.3),
nous proposons une dfinition de la dmarche dIE selon un processus coordonnant lensemble de ses
fondements. Nous dtaillerons, dans cette section, les diffrents niveaux dvolution des donnes vers les
connaissances et les rseaux dacteurs qui constituent lintelligence collective de la dmarche. Dans la
troisime section (1.4), nous prsentons deux modles danalyses dans un contexte dIE. Ces derniers sont
issus des principaux travaux de recherches universitaires franais. Cest trois premires sections vont donc
exprimer notre vision de la dmarche dIE dans le cadre de nos travaux.
La quatrime section (1.5) de ce chapitre a pour objectif didentifier les caractristiques des systmes
dinformation permettant de supporter et rpondre aux besoins de la dmarche dIE. La cinquime section
(1.6) consiste dgager une reprsentation synthtique des principaux outils dIE utiliss dans le monde
industriel. Enfin, nous concluons ce chapitre par une synthse sur le contexte gnral de nos travaux.

conomique : g ense, volution


1.2 Intelligence conomique
et lucidation
L'IE nest pas une pratique novatrice ne exclusivement du dveloppement de la technologie et de la
socit de linformation. Chaque pays, en fonction de son histoire, de son pass culturel et religieux, de sa
situation gographique, de ses richesses naturelles ou industrielles, a conduit, au cours des sicles, une
dmarche que lon peut qualifier dIE. De remarquables tmoins de leur temps, tels Thucydide1 ou
Machiavel2, nous dcrivent comment convoiter les richesses, les savoir-faire de territoires proches et
lointains travers la guerre ou encore par le dveloppement dententes faites par la "bonne intelligence".
Trs tt, l'IE montra que si la qualit des institutions et la culture, lies la dynamique de linvestissement,
ont jou un rle essentiel, cest la capacit accder et grer le savoir qui a, ds le dbut des rvolutions
technologiques, fait la diffrence [Conesa, 2003].
Le concept dIE est en vogue depuis la fin des annes 60 aux Etats-Unis, la premire dfinition moderne
du concept fut dveloppe sous le nom d intelligence organisationnelle dans un ouvrage intitul :
Organisational intelligence : knowledge and policy in government and industry , par [Wilensky, 1967]. Il y
est dfini comme l'activit de production de connaissance servant le but conomique et stratgique dune
organisation, recueilli et produit dans un contexte lgal et partir de sources ouvertes. En parallle, le
Japon a dvelopp un modle de vision stratgique de coopration entre les entreprises qui peut tre
assimil de l'IE. En France, la premire dfinition officielle du concept est apparue en 1994, linitiative
du Commissariat Gnral du plan, dans un rapport prsid par M. Henri Martre, intitul : Intelligence
conomique et stratgie des entreprises .

1
Thucydide, homme politique et historien athnien, auteur de lHistoire de la guerre du Ploponnse, qui retrace
lorigine du conflit en sattachant rechercher les causes derrires les faits.
2
Machiavel, est un penseur italien de la Renaissance, thoricien de la politique, de l'histoire et de la guerre. Il montra
dans son ouvrage prince comment manipuler les opinions et en utilisant la force te la ruse, il tait possible de se faire
aimer par la foule.

28

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Une tude des origines du concept dIE montre quil relve dune construction complexe. En effet,
lmergence du concept et sa comprhension font appel de multiples champs scientifiques. Il se rattache
aux sciences de la sociologie des organisations, sciences politiques, sciences de linformation, technologies
de linformation et de la communication et aux sciences de gestion de linformation et des connaissances.
LIE est alors un champ de recherche extrmement vaste et prometteur.
La jeunesse du concept et linstabilit des connaissances, tant thoriques que pratiques, des terminologies
expliquent le caractre polysmique de lIE. Au problme de divergence dauteurs, sajoute celui de la
traduction des expressions anglo-saxonnes en leurs quivalents francophones. En effet, le terme
d Intelligence prsente un double sens. Selon la signification anglo-saxonne, Intelligence signifie
recherche dinformations ou activit de renseignement. On parle ainsi d Intelligence service , rseau
constitu par les spcialistes du renseignement des fins militaires ou conomiques. Mais l Intelligence
cest aussi la capacit pour une entreprise danticiper les changements, de sadapter, dtre capable de
rpondre rapidement aux sollicitations qui lui sont faites. Selon Larousse, l Intelligence est :
La facult de comprendre, de donner un sens ; laptitude sadapter une situation, choisir en fonction
des circonstances ; la capacit comprendre telle ou telle chose ; laptitude rsoudre des problmes
[Larousse, 2004].
Lintelligence de lentreprise sous entend la mise en uvre et lutilisation dun Systme nerveux constitu
de rseaux de communication interdpendants qui la rendent plus ractive, mieux informe et en
dfinitive plus comptitive [Mass, 2000]. La gestion de cette forme dintelligence, quil sagisse de la
collecte dinformations ou de la gestion des connaissances est ainsi devenue un des lments stratgiques de
la vie dune entreprise moderne. Lintelligence est alors la facult de sinformer et de comprendre son
environnement. Si la stratgie militaire est l'art de diriger les moyens en vue de la victoire, la stratgie
conomique pour une entreprise doit tre l'art de diriger les moyens dont elle dispose en vue d'assurer sa
russite. Pour diriger, il faut :

Voir : dtecter, couter ou reconnatre,

Savoir : comprendre et interprter,

puis Pouvoir : agir et russir.

Aprs avoir cern, dans un premier temps, la notion d Intelligence , il convient dans un second temps
dapprocher les contours de lIE en indiquant ce quil convient den exclure et ce quil convient dy inclure.
Pour Leonard M. Fuld3, lIE ne doit pas tre substitue :

De lespionnage, ce qui implique des activits illgales alors que lIE est une dmarche qui se base
sur des donnes disponibles lgalement.

Une boule de cristal ou une science exacte prdisant lavenir dune entreprise. Or lIE vise
dtecter les menaces et les opportunits issues de son environnement.

Une activit de recherche sur les bases de donnes, les bases de donnes noffrent rien dautre que des
donnes. LIE consiste analyser ces donnes afin doffrir une meilleure vision du march et des
concurrents de lentreprise.

De la recherche sur Internet ou la chasse aux rumeurs, Internet est avant tout un moyen de
communication et non un fournisseur dintelligence. Les donnes sont brutes et ne peuvent tre
interprtes quaprs avoir t analyses.

Le travail dune personne, une personne seule ne peut accomplir toute lactivit dIE. Au mieux,
elle coordonne lensemble de lactivit. La dmarche dIE se base sur un rseau dacteurs interne et

Prsident du cabinet FULD & COMPAGNY. Source : www.fuld.com (accs le 15 fvrier 2009)

29

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
parfois externe lentreprise qui coordonne les actions de traitement, danalyse et de diffusion des
informations utiles.

Une invention du vingtime sicle, lIE a toujours existe. Son apparition dans les entreprises date
du dbut des annes 80 aux Etats Unis. Mais le concept existait auparavant, surtout dans le
domaine militaire.

Un travail fait par des logiciels, on ne peut rduire lIE la simple utilisation des logiciels. Ils sont
les outils au cur de la dmarche mais ils ne peuvent remplacer lexpertise des intervenants.

La notion dIE est alors une notion aux frontires peu stables. En effet, ces dernires annes ont vu les
dfinitions de lIE se multiplier et voluer. Le rapport du Commissariat gnral du plan Intelligence
conomique et stratgie des entreprises , document de rfrence, donne lIE une dimension nationale
globale qui dpasse les frontires de l'entreprise. Il a t conu comme un ensemble de repres sur lequel
repose le socle thorique de lIE en France. Selon le rapport [Martre, 1994]:
Lintelligence conomique peut tre dfinie comme l'ensemble des actions coordonnes de recherche, de traitement et
de distribution, en vue de son exploitation, de l'information utile aux acteurs conomiques. Ces diverses actions sont
menes lgalement avec toutes les garanties de protection ncessaires la prservation du patrimoine de l'entreprise,
dans les meilleures conditions de dlais et de cots. Linformation utile est celle dont ont besoin les diffrents niveaux
de dcision de lentreprise ou de la collectivit, pour laborer et mettre en uvre de faon cohrente la stratgie et les
tactiques ncessaires latteinte des objectifs dfinis par lentreprise dans le but d'amliorer sa position dans son
environnement concurrentiel. Ces actions, au sein de l'entreprise, sordonnent autour dun cycle ininterrompu,
gnrateur dune vision partage des objectifs de l'entreprise.

LIE dcoule dune intention stratgique et fait interagir lensemble des acteurs conomique dune
entreprise, une communaut, un territoire, nationaux, transnationaux, tats. Cette dfinition permet de
dgager une vision globale des environnements dactions dans lesquelles lIE doit merger. La coordination
de ces actions offre en particulier lentreprise une visibilit sur ses diffrentes relations avec son
environnement par une observation permanente des comportements de leurs concurrents et des ralits des
marchs. La prise en compte de ces actions au niveau de llaboration des stratgies va permettre aux
entreprises de maitriser leurs positions concurrentielles.
La dfinition officielle du rapport Martre nest donc pas trs loigne de celle de Wilensky. Elle y ajoute la
notion de coordination, au sens le plus large (entre divisions, entre entreprises, entre acteurs de diffrents
niveaux : entreprises et collectivits locales), qui sera dveloppe dans les travaux de [Colletis, 2007].
Avec lavancement des travaux de recherche, une nouvelle gnration de dfinitions a merg au cours des
annes 2000, en favorisant une approche pluridisciplinaire dans la perspective dune conomie fonde sur
la connaissance. De dfinitions quasi exclusivement centres sur la description des processus et des
techniques de lIE, elles sont passes des dfinitions incluant des objectifs stratgiques puis, depuis peu
des dfinitions incluant les fonctions de gestion des connaissances, dapprentissage collectif et de
coopration [Salles, 2000]. Cette vision valorise lintelligence en rseau en passant dune entreprise
hirarchise, isole face son environnement, lentreprise rseau insre dans son environnement. Nous
retrouvons travers ces diffrentes dfinitions, un ensemble de fonctions qui sont associes la notion
dIE, nous les rsumons dans le Tableau 1.

30

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Fonctions

Auteurs

Maitrise du patrimoine scientifique,


technique et des savoirsavoir- faire
Dtection des menaces et de
dess
opportunits
Influence et contre influence
Coordination des stratgies
Coordination des activits
Renseignement
Gestion de risque informationnel
La cration de connaissances
Laide la dcision
Linnovation

[Clerc, 1997] ; [Levet, 1996]


[Clerc, 1997] ; [Levet, 1996]
[Clerc, 1997] ; [Levet, 1996]
[Levet, 1996]
[Colletis, 1997]
[Besson, 1996] ; [Hassid, 1997] ; [Baud, 2002] ;
[Lointier, 2000]; [Larivet, 2002]
[Larivet, 2002]
[Levet, 1996]; [Besson, 1996] ; [DeVasconcelos, 1999] ;
[Bournois, 2000] ; [Guilhon, 2003] ; [Levet, 2001] ; [Jackobiak,
2004]
[Bloch, 1995] ; [Revelli, 1998] ; [Bournois, 2000] ; (AFDIE4,
2001)
[Martre, 1994] ; [Bloch, 1996] ; [Bournois, 2000]

Tableau 1: Les Fonctions associes la notion dIE.

Le concept dIE est aujourdhui sorti de sa phase dmergence mais, nanmoins, Il est encore ncessaire de
produire un cadre rfrentiel sappuyant sur une rflexion pluridisciplinaire [Favier, 1998], [Larivet,
2001], [Alabdulsalam, 2006]. Dans le cadre de nos travaux, nous coordonnons la dmarche dIE autour
des trois concepts savoir analyse stratgique, veille et systme dinformation. La Figure 2 reprsente un
plan qui illustre la coordination de ces trois concepts, ce qui permet davoir un point de vue global de ces
trois concepts, qui constituent chacun une partie de cette section :

Analyse stratgique

Veille

Systme d
d information
Figure 2: Coordination des concepts lis lIE.

Lanalyse stratgique (1.2.1) permet de dgager les besoins informationnels de lentreprise, portant
sur son environnement, en vue de diminuer lincertitude et de faciliter la prise de dcision,

La veille (1.2.2) va guider et piloter le processus de collecte, traitement, analyse et diffusion des
informations afin de rpondre aux besoins informationnels exprims,

Le systme dinformation (1.2.3) sert de support aux diffrentes actions, allant de la collecte
jusqu lanalyse et la diffusion.

Association Franaise de Dveloppement de l'Intelligence Economique

31

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

1.2.1 Analyse stratgique


1.2.1.1 Considrations gnrales
La stratgie constitue un des domaines les plus rcents de la gestion des entreprises. Un de ses champs
d'investigation consiste analyser ce que l'entreprise sait et peut faire pour maintenir ou accrotre sa
comptitivit. En 1962, la stratgie tait dfinie par Alfred Dupont Chandler dans son ouvrage Strategy
and Structure: Chapters in the History of American Industrial Enterprise , comme celle qui consistait
dterminer les objectifs et les buts fondamentaux long terme dune organisation, puis choisir les modes
daction et dallocation de ressources qui lui permettraient datteindre ces buts, ces objectifs [Chandler,
1962].
La stratgie est l'ensemble des actions spcifiques devant permettre d'atteindre les buts et objectifs en
s'inscrivant dans le cadre de mission dfinies par la politique gnral de l'entreprise. Elle prcise :

Les activits spcifiques de l'entreprise, c'est--dire les couples marchs / produits ou les tripls
produits / marchs / technologies sur lesquels l'entreprise concentrera ses efforts. Elle consiste
donc dfinir le portefeuille d'activit de l'entreprise qu'il convient d'quilibrer en terme de
rentabilit, de risque et de perspective de dveloppement.

Le mode de dveloppement qui sera privilgi aucour du temps, c'est--dire, l'expansion en


volume, l'extension gographique, l'intgration verticale, la diversification des produits ou au
contraire la focalisation sur une activit, etc.

Les choix stratgiques doivent tre guids par la recherche de synergie entre les activits de l'entreprise.
Lanalyse stratgique est un processus de rflexion qui travers ltude de lenvironnement et notamment
de la concurrence, de la position concurrentielle dune entreprise travers son portefeuille stratgique,
permet didentifier les itinraires qui autorisent une entreprise passer, de la position concurrentielle
prvisible terme, la position voulue par ses dirigeants [Garibaldi, 2001].
Lanalyse stratgique intgre les diverses caractristiques informationnelles et organisationnelles de
lentreprise et de son environnement. Llaboration des stratgies dune entreprise va se baser
essentiellement sur la prise en compte de ses interactions avec son environnement.
La conception de lenvironnement dans la pense stratgique peut varier, do cette rapide typologie qui va
permettre didentifier les principaux modles danalyse stratgique :

Lanalyse par lactivit, le modle SWOT.

Lanalyse par les forces concurrentielles, le modle PORTER.

Lanalyse par le processus de dcision, le modle IDC.

1.2.1.2 Lanalyse par lactivit : le modle SWOT


Lanalyse SWOT ou matrice SWOT, de l'anglais Strengths (forces), Weaknesses (faiblesses),
Opportunities (opportunits), Threats (menaces), est un outil de stratgie d'entreprise permettant de
dterminer les options stratgiques envisageables au niveau d'un domaine d'activit stratgique. Les
expressions quivalentes en langue franaise sont Menaces, Opportunits, Forces, Faiblesses .
Le modle danalyse stratgique SWOT est introduit pour la premire fois par [Learned, 1965], qui
propose une premire dfinition des orientations stratgiques dune entreprise. Il consiste effectuer deux
diagnostics :

32

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Un diagnostic externe, qui identifie les opportunits et les menaces prsentes dans
l'environnement. Celles ci peuvent tre dtermines l'aide d'une srie de modles d'analyse
stratgique, tel que lanalyse par les forces concurrentielles de Michael Porter (section 1.2.1.2). Il
peut s'agir par exemple de l'irruption de nouveaux concurrents, de l'apparition d'une nouvelle
technologie, de l'mergence d'une nouvelle rglementation, de l'ouverture de nouveaux marchs,
etc.

Un diagnostic interne, qui identifie les forces et les faiblesses du domaine d'activit stratgique.
Celles-ci peuvent tre dtermines l'aide d'une srie de modles d'analyse stratgique, tels que
Benchmarking. Il peut s'agir par exemple du portefeuille technologique, du niveau de notorit,
de la prsence gographique, du rseau de partenaires, de la structure de gouvernement
d'entreprise, etc.

Lanalyse SWOT permet de dterminer si la combinaison des forces et des faiblesses de lorganisation est
mme de faire face aux volutions de lenvironnement, ou sil est possible didentifier ou de crer de
nouvelles opportunits qui permettraient de mieux tirer profit des ressources uniques ou des comptences
fondamentales de lorganisation.
C'est la confrontation entre les rsultats du diagnostic externe et ceux du diagnostic interne qui permet de
formuler des options stratgiques. Cette formulation d'options stratgiques constitue l'intrt de l'analyse
SWOT. Elle est conditionne de quatre critres savoir Forces/ opportunits, Forces/ Menaces, Faiblesses/
Opportunits, Faiblesses/ Menaces.

Forces/ Opportunits : consiste identifier les forts axes de comptences de lentreprise pour dfinir
de nouvelles opportunits extrieures pour la ralisation de la stratgie,

Forces/ Menaces : dfinie et assemble les savoir-faire interne lentreprise pour affronter les
menaces extrieures,

Faiblesses/ Opportunits : permet de rvler les faiblesses interne dune entreprise et dexploiter les
opportunits externes afin damliorer ses points faibles,

Faiblesses/ Menaces : elle permet de dfinir une stratgie pour une entreprise consciente de ses
faiblesses afin de se protger des menaces extrieures.

La matrice SWOT n'apporte cependant une aide pertinente que dans la mesure o les questions initiales
sont convenablement poses, que l'on puisse y rpondre, et que l'on a bien analys chaque domaine en
termes de performance mais aussi d'importance.
Nous dcrivons dans la Figure 3, lanalyse stratgique selon le modle SWOT.

33

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Buts

Diagnostic
Opportunits

Forces

Environnement

Entreprise

Menaces

Faiblesses
Choix stratgique

Domaines d
d activits

Plan d
dactions

Objectifs

Figure 3: Le modle SWOT [Learned, 1965].

Ce modle lavantage dtre attractif en raison de sa logique cartsienne. Il peut sappliquer une
situation simple en permettant lextraction dinformations quantifies. Il permet surtout en situation
complexe de concevoir une schmatisation rapide, claire et prcise dune ralit [Magakian, 2003].
L'environnement est vu comme une entit faite de menaces et d'opportunits que l'on dtecte partir de
faits et d'observations quantifies (bilans, parts de marchs, etc.) et auquel fait face l'entreprise [Favier,
1998].

1.2.1.3 Lanalyse par les forces concurrentielles : le


le modle PORTER
Dans l'analyse des forces concurrentielles, on ne considre plus que les forces du march dterminent le
type de concurrence et que l'entreprise nait qu' s'y adapter. Au march se substitue l'industrie (le secteur)
dans laquelle l'entreprise peut modifier les conditions de son environnement. Ce modle est introduit par
[Porter, 1980], il consiste rsumer lenvironnement dune entreprise en se basant sur les cinq forces
concurrentielles, quil dfinit comme suit:

Le pouvoir de ngociation des clients et des fournisseurs, le pouvoir de chaque client et fournisseur
dpend dun nombre de caractristiques du march et de limportance relative des ventes et des
achats pour lindustrie et lactivit en gnral.

La menace d'entrants potentiels, sexplique par le fait que les nouveaux entrants apportent de
nouvelles capacits, le dsir de conqurir des parts de marchs et de crer une nouvelle
concurrence.

La menace des produits de substitution, lidentification de ces produits permet de rechercher


dautres produits qui permettent de remplacer les produits existants.

Rivalit de la concurrence intra-sectorielle, consiste identifier les diffrentes concurrences qui


existent entre les entreprises du march pour un secteur donn.

L'objectif de ce modle est d'identifier les facteurs cls de succs de l'environnement, c'est--dire les
lments stratgiques qu'il convient de matriser afin d'obtenir un avantage concurrentiel. Pour cela, il est

34

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
ncessaire de hirarchiser les 5 forces, afin de dterminer quelles actions stratgiques doivent tre menes
en priorit. C'est ce modle de la stratgie qui a servi de rfrence ceux [Martinet, 1989] qui ont
introduit la notion de "veille" en France.
Dans la Figure 4, nous dcrivons les interactions entre les diffrentes caractristiques du modle PORTER.

Entrants potentiels

Concurrents

Clients

Rivalits

Menaces des nouveaux


entrants

Menaces des nouveaux


entrants

Fournisseurs

Menaces des nouveaux entrants

Menaces des produits et services


de substitutions

Substituts

Figure 4: Le Modle PORTER.

1.2.1.4 Analyse par les processus de dcision : Le


Le modle IDC
Le modle propos par Simon [Simon, 1960], permet dtudier les processus de dcisions dans le contexte
danalyse stratgique. Simon dcrit ce modle par un processus cognitif assorti dune situation de
traitement de linformation qui prsente une structure gnrique. Cette dernire comprend trois phases,
connues sous le nom IDC : Intelligence, Design, Choice. Chacune delle possde ses propres buts et ses
mcanismes de traitements de linformation [Salles, 2003]. Ce processus permet dtudier pour un
problme dcisionnel :

Son environnement et son contexte pour dgager une vision claire de la dcision,

imaginer les diffrents scnarios ou solutions possibles associs au problme pos, et les analyser,

choisir le scenario le mieux adapt la situation.

Les problmes dcisionnels poss aux dcideurs diffrents niveaux de lentreprise peuvent selon Simon, se
catgoriser en problmes structurs ou programms. Le modle Simon propose une apprhension de ces
problmes en trois tapes :

La collecte dinformation ou d Intelligence , explorer lenvironnement pour identifier les


situations pouvant appeler la dcision. Elle correspond lidentification du problme et la
comprhension de sa structure.

La conception, inventer, dvelopper, analyser diverses actions envisageables. Cest la phase de la


recherche de solutions possibles.

35

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Le choix, renvoie au choix de la solution retenue. Ce choix se fera sur des critres de satisfaction et
non plus sur loptimisation de la solution.

Deux phases supplmentaires Action et Evaluation ont t proposes par Maryse Salles [Salles, 1998], qui
permettent la confrontation de laction avec ses rsultats qui peut amener le dcideur revoir son
processus.
Ces phases ne se droulent pas de faon squentielle, elles font lobjet de retours en arrire, dajustements,
de corrections, de reprises de rsultats antrieurs.
Ainsi nous prsentons dans la Figure 5 les diffrentes tapes du processus IDC.

Intelligence

Conception

Choix

Actions

Validation

Figure 5: Le modle IDC.

Ce processus permet dtudier, pour un problme dcisionnel, son environnement et son contexte pour
dgager une vision claire de la dcision, dimaginer les diffrents scenarios ou solutions possibles associ au
problme pos, et de les analyser afin de choisir le scenario le mieux adapter la situation. Il attire
lattention sur la ncessit dune prvision partielle des solutions et dune comprhension globale de
lenvironnement. La phase de transition entre ltape intelligence et Conception , est fondamentale
dans le modle Simon.
Lanalyse de Simon dfinit le rle de lactivit de renseignement dans la prise de dcision stratgique alors
que lanalyse prcdente (lanalyse concurrentielle) faisait du renseignement un simple instrument au
service de la stratgie.
Pour Salles [Salles, 2003], le modle IDC reste encore aujourdhui une rfrence, notamment dans le
domaine de la conception de systme dinformation daide la dcision. Il est particulirement adapt aux
types de dcisions prioritairement vises par lIE (dcision stratgiques, et tactiques), et leur contexte
informationnel.

1.2.1.5 Synthse : de lanalyse stratgique lIntelligence


Economique
Dans le contexte de lanalyse stratgique et des diffrents modles que nous avons prsents,
lenvironnement se manifeste par des rseaux et des relais dinformation. Les entreprises voluent dans un
environnement en complexification croissante [Arpagian, 2004]. Le dveloppement hyperbolique des

36

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
alliances, des fusions, et dacquisitions, accentue la difficult de dcryptage de lenvironnement. Cette
volution influence le processus dacquisition dinformations et, en consquence, le mcanisme
dcisionnel. En effet, la comptitivit dune entreprise, et donc sa prennit, dpend de plus en plus
troitement de sa capacit dadaptation et de sa vitesse de raction. Il faut savoir la bonne information au
bon moment. Cette adaptabilit exige lanticipation travers la surveillance systmatique et rationalise de
lenvironnement global (on parle ds lors de veille stratgique). Il faut considrer lenvironnement comme
une variable stratgique en permanente reconfiguration et sur laquelle lentreprise peut agir, voire mme le
transformer, via la matrise de linformation. Or, cest la fonction mme de lIE que de traiter les
informations et de crer de la connaissance efficace.
Ainsi la dmarche dIE travers le prisme de lanalyse stratgique permet aux entreprises de mieux cerner
les contraintes sexerant sur les diffrents domaines caractrisant leur environnement. Do la ncessit de
la mise en place dun systme dinformation orient sur lenvironnement concurrentiel afin dassurer
lentreprise, en temps voulu, une information pertinente sur:

Ses principaux concurrents, leurs allis, dterminer la manire dont ils peuvent affecter les intrts
courants de lentreprise,

Le systme technologique, politique, conomique affectant la position concurrentielle ainsi que


leur volution.

Le but de nos travaux est de dtecter les diffrentes relations caractrisant lenvironnement de lentreprise.
Il faut donc d'abord comprendre les mcanismes de formation et d'volution de ces rseaux. La
connaissance tout instant de lenvironnement dune entreprise et lanalyse de sa dynamique devrait aussi
permettre lentreprise dadapter sa stratgie de manire contrler sa position dans le rseau [Gay, 2006].

1.2.2 L a veille
La veille merge en France la fin des annes 80, au carrefour du concept de vigilance [Oury, 1983] et des
thories de la comptitivit [Buigues, 1985], [Porter, 1986] qui sinscrivent dans une volution radicale
des thories du management, portes par le courant des mutations technologiques [Morin, 1985]. La veille
est donc un concept import des Etats-Unis o elle merge du modle de renseignement amricain. Elle se
rfre en France la notion de gestion concurrentielle, fonde en particulier sur les travaux de [Porter,
1986]. A partir des travaux [Ansoff, 1975], introduisant la notion de surprise stratgique, se dveloppent
les concepts de surveillance de lenvironnement, de vigilance et de veille [Oury, 1983], [Crozier, 1989],
[Villain, 1990], [Baumard, 1991], [Godet, 1991] et paralllement le concept de management stratgique
de linformation [Lesca, 1986].
Humbert Lesca dfinit la veille stratgique comme :
Le processus informationnel par le quel lentreprise se met lcoute anticipative des signaux faibles et de
son environnement dans le but cratif de dcouvrir des opportunits et de rduire son incertitude [Lesca,
1994].
Nous retenons la dfinition de la veille propose par lAFNOR (Association Franaise de Normalisation)
comme:
Une activit continue et en grande partie itrative visant une surveillance active de lenvironnement
technologique, commercial, etc, pour anticiper les volutions [AFNOR, 1998].
La veille repose sur lanticipation ou plutt la dtection des changements et notamment dventuelles
ruptures, elle concerne les informations caractre anticipatif. Ce sont des informations qui permettent de
dtecter ou signaler des mutations significatives dans lenvironnement de lentreprise. Elles doivent fournir
des informations sur le futur [Lesca, 1997], Lesca distingue deux approches pour ce type dinformations :

37

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Une premire approche consiste accumuler des informations sur le pass et effectuer des
extrapolations. Elle permet davoir une vision sur le futur dans le rtroviseur . Elle nest pas
approprie anticiper les changements surprenants et encore moins les ruptures.

Une seconde faon consiste rechercher des informations susceptibles dannoncer lavance des
changements fortes influences, appeles Signaux faibles .

Un signal faible, ou comme le dsigne Ansoff weak signal , est dfini comme tant le point de dpart
dune amplification propos de laquelle seulement une information partielle est disponible au moment o
la rponse doit tre fournie et qui doit au besoin tre complte avant que des impacts sur lentreprise ne
commencent se manifester [Ansoff, 1990].
Humbert Lesca dfinit quatre missions pour la veille :

Observer lenvironnement stratgique de lentreprise,

Dtecter le plutt possible les informations relatives aux changements qui peuvent sy produire,

Analyser et filtrer les informations susceptibles daffecter la mise en uvre des diverses
composantes de la stratgie de lentreprise,

Assurer la diffusion slective de linformation aux seules personnes autorises.

1.2.2.1 Processus de la veille


Une stratgie de veille comporte des tapes prcises travers lesquels diffrents acteurs sont impliqus.
Lobjectif ultime de cette dmarche est de transformer les informations en connaissances de faon
favoriser la prise de dcision. Si linformation de base nest pas ncessairement stratgique, elle le devient
par son utilisation. La fonction de renseignement extrieur au sein dune entreprise est une dmarche
mthodique et structure, qui fait appel de rels savoir-faire [Colas, 2004]. cette rflexion, on peut
constater que linformation est la matire premire du renseignement, et quun renseignement est une
information labore, pertinente et utile, correspondant aux besoins de celui qui la reoit. Ds lors, le cycle
du renseignement peut aussi bien tre un cycle de la connaissance. Le cycle du renseignement (Figure 6)
est divis en quatre phases : expression des besoins, recherche et collecte, traitement et analyse,
mmorisation et diffusion. Il sagit bien dun cycle, puisque le renseignement obtenu dune part permet
dorienter les nouveaux besoins. Dautre part, le renseignement lui-mme est rvalu en permanence, en
fonction de lvolution de la situation [Baud, 2002], [Pinczou du sel, 2006].

Expression des besoins

Recherche & Collecte


des donnes

Mmorisation et
Diffusion

Traitement &
Analyse

Figure 6: Cycle du renseignement.

38

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

1.2.2.2 Les domaines de la veille


Le cycle du renseignement est un processus permettant l'entreprise de s'informer de faon pertinente et
efficace sur son environnement. Par rapport la mthodologie classique en matire danalyse stratgique,
cet environnement peut tre spcifique et comprend alors tous les facteurs sur lesquels l'entreprise dispose
d'une influence directe. Il sera qualifi de [Paturel, 1996] :

Concurrentiel actuellement (veille sur les forces de la concurrence prsente dans le ou les secteurs
d'intervention de l'entreprise) et futur (surveillance des entrants potentiels),

Commercial (examen et risque d'volution des autres forces de la filire : clients et fournisseurs),

Technologique (regard et prvision se rapportant aux substituts venir ; les substituts prsents
faisant partie de l'environnement concurrentiel, conformment la dfinition du secteur de M.
Porter, 1980).

L'environnement peut encore tre constitu de facteurs sur lesquels l'entreprise n'a pas de possibilit
d'action directe (sauf lobbying ventuel). Dans ce cas, le systme de veille devient environnemental et
possde des volets politique, juridique, conomique, sociologique, psychologique, international, climatique
etc. suivant l'activit de lentreprise.
La veille est alors une expression gnrique qui englobe plusieurs types de veilles spcifiques selon ses
domaines dapplication. Cest le modle de Porter qui a engendr une nouvelle rflexion sur la pense
stratgique et sur les praticiens de la veille un peu partout travers le monde [Sutton, 1988]. C'est ainsi
que plusieurs types de veille se sont dvelopps. La Figure 7, reprsente une classification des types de
veille.
Veille Stratgique

Veille Technologique
Veille Scientifique
Scientifique

Veille Concurrentielle

Veille Commerciale

Veille Socitale

Veille Juridique

Veille Culturelle

Veille Territoriale

Figure 7: Types de Veille.

39

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
En 1989, Bruno Martinet et Jean Michel Ribault [Martinet, 1989] proposent, tout dabord, quatre
principaux types de veilles, qui se rsument en :

La veille Technologique, sapplique lenvironnement technologique de lentreprise, et qui est


orient vers ltude de lvolution en terme technologique du domaine industriel. Elle sappuie sur
les donnes issues des bases de brevets, des documentations techniques, des plaquettes
publicitaires, de la presse, des sites Internet, etc. Elle concerne lidentification par lentreprise des
techniques ou technologies se rattachant son activit, quelle a mis en uvre, ou quelle est
susceptible de mettre en uvre pour assurer un avantage comptitif.
[Rouibeh, 1998] distingue deux aspects de la veille technologique :


La veille brevets et proprit industrielle : cest le moyen par lequel lentreprise surveille
rgulirement les brevets dposs, la fois pour que ses concurrents nutilisent pas les
procds quelle a dvelopps, et pour tre informe des nouveaux brevets dposs.

La veille de produits innovants : cest le moyen par lequel lentreprise veille et anticipe la
mise sur les marchs de produits nouveaux ou de produits de substitutions de faon
distancer les concurrents et baisser les cots de production.

La veille Scientifique, concerne lenvironnement de la recherche scientifique li aux domaines de


production ou de comptences de lentreprise, les donnes manipules sont uniquement de types :
articles scientifiques, thses, rapports de recherches qui sont issus gnralement des bases
bibliographiques.

La veille concurrentielle, sapplique lenvironnement concurrentiel de lentreprise, qui permet de


surveiller les principaux concurrents dune entreprise, leurs positionnements dans le march, leur
volution et didentifier les menaces et opportunits que reprsente la dynamique de ces marchs.

La veille commerciale, sapplique lenvironnement commercial de lentreprise. Elle permet de


surveiller les relations clients-fournisseurs, par les produits, leurs couts, les taux dvolution du
march, etc. Cest lidentification des besoins exprims des clients et des consommateurs et leur
volution.

La veille socitale, qui stend aux autres domaines de lenvironnement de lentreprise. Il sagit
dune surveillance de la socit dans son ensemble qui permet, travers lanalyse des signaux
faibles, dobserver lvolution des comportements, des modes de vie et didentifier leur volution
possible.

Salmon et Delinares [Salmon, 1997], Jakobiak [Jakobiak, 2004] et les diffrents auteurs du domaine,
dtaillent la veille socitale (environnementale) en plusieurs types de veille selon son domaine
dapplication. Nous retrouvons :

La veille Juridique ou rglementaire, sapplique lenvironnement rglementaire et juridique de


lentreprise. Elle prend en compte lvolution des textes de lois, des normes nationales ou
internationales, des accords commerciaux, des dpts de brevets, des nouveaux labels de produits,
etc. Elle permet danticiper les ajustements ncessaires effectuer sur les modes de fonctionnement
de lorganisation telle que lanalyse des nouvelles rglementations ainsi que celles en prparation.

La veille culturelle, sous entend lenvironnement culturel de lentreprise, elle tudie les acteurs lis
lentreprise par leur culture, leur comportement, leur niveau social, leurs besoins, ...

La veille territoriale, est l'action publique au service du dveloppement conomique et industriel


d'un territoire, dans le cadre d'un ple de comptivit ou d'excellence territoriale par exemple. Les
collectivits territoriales (Conseils Rgionaux, Conseils Gnraux, Communauts de Communes
ou regroupements de communes et communes) utilisent des outils d'analyse de plus en plus en

40

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
plus oprationnels pour mieux grer leurs territoires. Les objectifs de ce type de systmes sont
varis :


La connaissance de leurs territoires pour mieux matriser leurs ressources,

La capacit de raction rapide face des situations de crise,

La matrise des infrastructures (routes, rseaux, ...),

Le recensement des bonnes pratiques dans d'autres territoires pour raliser un


Benchmarking,

La connaissance des savoir-faire et des produits du territoire pour raliser un marketing


territorial.

La veille stratgique va coordonner lensemble des veilles afin den fournir une synthse aux dcideurs. Elle
a principalement un caractre anticipatif. Elle fournit des informations sur les tendances et
lenvironnement pour enrichir la vision stratgique globale de lentreprise.

1.2.2.3 Typologie de la veille stratgique


La typologie de la veille propose, dans le Tableau 2, est une approche synthtique de la fonction de veille.
La dfinition des trois niveaux (veille passive, ractif-proactif et proactif) auxquels correspondent les
activits sappliquant tous les domaines ou secteurs de lentreprise.

Veille
Niveau

Passif

Champs

Ractifactif -P roactif

Proactif

Sans restriction
(concurrentiel, technologique, juridique, commercial, etc.)

Priodicit

Permanente

Sources

Frquente

Ponctuelle

Ouvertes
Techniques ; Textuelles ; Informelles

Acteurs
Mthode type

Tous

Veilleurs

Spcialistes

Revue de presse

Recherche-Internet

Contact & Outils spcialiss

Tableau 2: Une typologie de la veille [Bulinge, 2001].

On distingue trois types de veille :

La veille passive, est une activit naturelle puisquelle relve dune attitude quotidienne de
rception dinformations. Elles sont en mmoire et exploites de faon routinire.

La veille Ractive-Proactive correspond une dynamique de collecte oriente. Les acteurs qui se
rendent dans les foires et les salons ou qui cherchent des informations pertinentes sur Internet. Ce
sont des pratiques qui caractrisent cette activit.

41

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

La veille Proactive, apparait comme une opration planifie de recherche dinformations


pertinentes o des mthodes et des moyens particuliers sont mis en uvre par des spcialistes. Il
est ncessaire dassocier ce type de veille des outils dextraction et traitement dinformation.

1.2.2.4 Synthse : De la veille stratgique lIntelligence


Economique
En 1995, Henri Dou et Hlne Desvals explique le lien entre la veille et lintelligence conomique par le
texte suivant :
On entend par intelligence conomique la prise en compte par lentreprise de tous les lments extrieurs
susceptibles dinteragir avec ses activits. Ce concept () englobe lensemble des activits de surveillance
ayant une orientation forte sur la politique, la gopolitique et lconomie (). Lintelligence conomique
ne procde pas dune analyse fondamentale. Elle sinscrit seulement dans la mise en place de mthodes et
de comportement destins dfendre un environnement (industriel, recherche, financier), suivre la
veille technologique et ne peut en aucun cas se substituer elle, car, sans technologies propres, la
domination conomique ne serait pas de longue dure, la veille technologique est le palier de base partir
duquel peut se dvelopper lintelligence conomique.
Cette dfinition permet dtablir la hirarchie entre lIE et la veille mais passe sous silence la partie
informelle du renseignement et son aspect collectif. En effet les deux approches se compltent, la veille
rpond en grande partie aux besoins informationnels de lIE. Les entreprises doivent ncessairement mettre
en place un dispositif de veille afin de satisfaire les besoins essentiels engendrs par une dmarche dIE.
Ceci comprend les actions partielles dsignes sous le nom de documentation, de veille (scientifique et
technologique, concurrentielle, financire, juridique et rglementaire) et invite de surcrot "passer d'un
traitement individuel de l'information, la gestion de l'information et un processus d'actions collectives"
[Martre, 1994].
La notion dIE implique le dpassement des actions partielles de veille, mais aussi le renforcement de la
protection du patrimoine, des influences et de la gestion de linformation. LIE permet de donner un sens
linformation. Elle est la fois offensive et dfensive.
La veille stratgique apparat en gnral comme un moyen, un processus, un dispositif, voire un systme
dont le but est de fournir de l'information pour aider au pilotage, et en particulier au pilotage stratgique
[Salles, 1997].
Dans un processus de veille stratgique, linformation est soumise un cycle prdfini : recherche, collecte,
analyse et diffusion. Dans la phase analyse, nous pouvons distinguer diffrentes oprations auxquelles
linformation est soumise (validation, traitement, interprtation, synthse). Lensemble de ces oprations
est essentiellement ralis au cours dune dmarche principalement intellectuelle. Toutefois, la phase
danalyse peut tre assiste par les systmes daides la dcision lorsquil devient impossible de le faire par
une simple lecture et analyse intellectuelle ou quand les informations analyser sont volumineuses.
Dans le cadre de nos travaux nous considrons le processus de veille comme le levier informationnel de la
dmarche dIE. Dans ce contexte, nous proposons un systme dinformation bas sur lextraction et le
traitement de linformation issue de lenvironnement de lentreprise. Notre objectif, est doffrir un outil
permettant de supporter les diffrentes oprations dune veille proactive afin de satisfaire le besoin
informationnel engendr par la dmarche dIE.

1.2.3 Les systmes dinformation et aide la dcision


La modlisation systmique de toute organisation se dcompose en trois sous-systmes : systme oprant,
systme dinformation, systme de pilotage [Ravat, 2007].

42

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Systme oprant, consiste transformer les flux primaires (matires, fiance, personnel, etc.) pour
rpondre aux besoins des clients.

Systme de pilotage, regroupe lensemble du personnel dencadrement qui effectue les tches de
rgulation, de pilotage et dadaptation de lorganisation son environnement [Mlse, 1972].

Systme dinformation, permet de collecter, mmoriser, traiter et restituer les diffrentes donnes de
lorganisation afin de permettre au systme de pilotage deffectuer ses fonctions tout en sassurant
son couplage avec le systme oprationnel [Nanci, 2001].

Lactivit du systme oprationnel produit des informations stockes dans le systme dinformation ; aprs
traitement la transmission de ces informations vers le systme de pilotage permet ce dernier de connaitre
lactivit du systme oprant (flches informations dans la Figure 8). Les dcisions du systme de
pilotage seront rpercutes vers le systme dinformation puis vers le systme oprant pour permettre au
systme de pilotage den contrler le fonctionnement (flches dcisions dans la Figure 8).

Systme de
de pilotage
Coordination, objectifs
(Membres de la direction, etc)

Dcisions

Informations externes

Systme dinformation
-

Collecte
Mmorisation
Traitement
Transmission
Transmission

des donnes
(informations
)

Informations
collectes

Informations vers lextrieur

Environnement Exterieur

Informations
traites

Systme oprant
Flux
entrants

Production, action
(Ensemble du personnel excutant)

Flux
sortrants

Figure 8: Reprsentation systmique dune organisation [Mlse, 1972].

Nous retenons la dfinition donne, en 2000, par Robert Reix des systmes dinformations, qui est
inspire des auteurs des thories de management [Reix, 2000]:

43

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Ensemble organis de ressources : matriel, logiciel, personnel, donnes, procdures, etc. permettant
dacqurir, de traiter, de stocker des informations (sous forme de donne, textes, images, sons) dans et entre
des organisations.
Apporter un soutien aux processus de travail dans lorganisation selon trois modalits principales : fournir
de linformation, assister le travail humain et automatiser le travail.
Ainsi lauteur dfini les systmes dinformations comme support aux tches de traitement de linformation.
Il prsente une vision tridimensionnelle des systmes dinformations allant dune dimension
informationnelle, une dimension technologique puis une dimension organisationnelle.

La dimension informationnelle, qui concerne les diffrents niveaux de reprsentations des donnes
dans les systmes dinformations, allant des donnes ouvertes titre collectives aux donnes
fermes titre stratgique.

La dimension technologique, concerne les moyens techniques dploys pour couvrir les tapes de
collecte, traitements, diffusion et mmorisations des donnes.

La dimension organisationnelle, concerne lutilisation des systmes dinformations dun point de


vue organisation et structure dans lentreprise, qui est au-del de la vision technologique telles que,
la division du travail, la rpartition du pouvoir, la standardisation et la formalisation.

Dans un contexte dcisionnel, les dcideurs ont besoin dune vision synthtique et globale des
informations circulant dans leur organisation afin de guider et dadapter leur prise de dcision. Pour
faciliter ce processus, ils emploient les systmes dinformations. Ces outils permettent aux dcideurs davoir
une vision globale sur les activits dune entreprise par un accs rapide et interactif un ensemble de
donnes organises pour reflter laspect multidimensionnel des donnes de lentreprise [Colliat, 1996].
Pour rpondre aux besoins des dcideurs, il est ncessaires de synthtiser, rorganiser et historier les
donnes de production du systme dinformation afin den dterminer une sous partie relative laide la
dcision. Dans ce contexte [Ravat, 2007] propose une dfinition du Systme dInformation dAide la
Dcision (SIAD) :
Un SIAD est la partie dun systme dinformation permettant daccompagner les dcideurs dans le
processus de prise de dcision. Les fonctions dun SIAD permettent de :

collecter, intgrer, synthtiser et transformer les donnes oprationnelles dun SI,

mmorisera de manire adapte les donnes dcisionnelles,

traiter ces donnes,

restituer de manire approprie ces donnes afin de faciliter la prise de dcision.

De nos jours lensemble des outils informatiques permettant de supporter un SIAD est qualifi de Busines
Intelligence (BI) ou de Systme dAide la Dcision (SAD). Un SAD regroupe lensemble des outils
informatiques (matriels et logiciels) permettant :

dextraire, de transformer et de charger les donnes oprationnelles,

de construire un ou des espaces de stockages de donnes dcisionnelles,

de manipuler ces donnes au travers doutils danalyse ou dinterrogation destins au pilotage des
organisations.

Laccomplissement de ces fonctions est devenu complexe aujourdhui dans la mesure o ces informations
utiles apparaissent en des instants diffrents, en des lieux diffrents et sous des formes diffrentes. Les
principales difficults surmonter sont alors lies laccs linformation et aux donnes. Il faut pouvoir
identifier :

O est stocke linformation ?

44

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Comment est-elle code ?

Comment y accder ?

De nos jours, les entreponts de donnes constituent une solution adquate pour construire un systme
daide la dcision [Widom, 1995], [Inmon, 1996]. Un entrept de donnes est dfini comme tant une
collection de donnes intgres, orientes sujet, non volatiles, historises, rsumes et disponibles pour
linterrogation et lanalyse [Inmon, 1996].
Un des points centraux de lentreprise est alors son systme dinformation. En effet, informatis ou non il
est devenu le support de toute circulation dinformation et de toute dcision.
Or, lIE a pour objectif de permettre aux dcideurs de lentreprise de disposer dune information de valeur,
laquelle ils puissent se fier dans le cadre de leurs prises de dcision. Pour cela, il sagit de produire de
linformation pertinente et forte valeur ajoute. Cette exigence doit se retrouver travers des quatre
phases de la dmarche : collecte de linformation, traitement et diffusion (Figure 9). Ce sont les systmes
dinformation qui vont permettre de rpondre ces exigences. Les systmes dinformations sont alors au
cur de la dmarche dIE. Lobjectif de nos travaux consistent dfinir un systme dinformation daide
la dcision orient environnement pour soutenir la dmarche dIE.

Expression des besoins

Memmorisation et
Diffusion

Systme
dinformation

Recherche &
Collecte des donnes

Traitement &
Analyse
Figure 9: Systme dinformation support au cycle du renseignement.

1.3 Lintelligence Economique par son processus


Lanalyse stratgique et la veille constituent les bases mthodologiques du processus dIE. Sa mise en place
doit sinstaurer dans un climat de scurit globale. Dans ce contexte, nous regroupons les tapes du
processus en trois phases distinctes mais complmentaires : lanalyse stratgique, la veille et la protection de
linformation.
Selon ces hypothses et en sinspirant du cycle dIE propos par Bernard Dousset5, nous proposons une
nouvelle reprsentation graphique de la dmarche sous forme dun cycle itratif en huit, allant de
lidentification de lenvironnement dun problme dcisionnel pos jusqu la mise en place du plan
dactions. Cette reprsentation a pour objectif dclaircir et dfinir le contexte gnral de notre
contribution.
5

Prsentation de Dousset B., Runion du groupe de Recherche en IE, Juin 2007.

45

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le processus dIE est alors une coordination des processus danalyse stratgique et de veille base sur les
systmes dinformations. Nous le prsentons dans la Figure 10 en nous inspirons de la reprsentation
graphique propose par.
On retrouve dans cette prsentation schmatique, les quatre tapes essentielles du cycle du renseignement
savoir :

Comprhension du besoin,

La recherche et la collecte dinformation,

Le traitement de linformation,

La diffusion de linformation.

Le passage de ces tapes au niveau du processus dIE leur a fait subir des transformations au niveau des
termes qui les dcrivent ainsi quune adaptation aux diverses situations :

La comprhension du besoin est nomme par plusieurs expressions synonymes selon les auteurs
savoir : Ciblage [Lesca, 1994], Expression du besoin, Orientation gnrale [De vasconcelos,
1999], Identification du problme dcisionnel et sa traduction en besoin informationnel [Bouaka,
2004].

Pour la recherche et la collecte dinformation nous retrouvons : traque [Lesca, 2003], trouver
[Fuld, 1995], acqurir [Dupr, 1997], recueil [Oberson, 1997] et recherche [Jacobiak, 2001].

Lexploitation devient traitement puis analyse [Martinet, 1995].

Seule ltape de diffusion semble faire lunanimit bien quelle soit parfois ajoute au milieu du
processus.
Cycle

Intelligence Economique
Problme dcisionnel

Collecte

Environnement

Stratgie

Besoin informationnel

Cibles

Analyse

Diffusion

Plan dactions

Analyse stratgique

Veille stratgique

Figure 10 : Cycle dIE propos.

46

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le cycle dbute par lidentification et la comprhension de lenvironnement dun problme dcisionnel pos.
Cette tape pour but danalyser le positionnement stratgique de lentreprise dans cet environnement.
Lentreprise peut avoir recoure diverses mthodes issues de lanalyse stratgiques. Lanalyse du
positionnent est bien entendu spcifique chaque entreprise concernant les mthodes utilises. Plusieurs
mthodes existent dans la littrature ; parmi elles LCAG6, matrice BCG7, Mc Kensey, PIMS8, SWOT.
Nous dveloppons dans la suite de cette tape la mthode SWOT (1.2.1.2) qui possde la particularit
dtre plus adapte lanalyse de lenvironnement. Cette mthode permet dorganiser et de synthtiser
lenvironnement informationnel de lentreprise selon le problme dcisionnel pos. Elle se base sur une
bonne connaissance de lenvironnement interne et externe lentreprise.

Lenvironnement interne, reprsente lensemble des informations concernant lentreprise tels que :
sa raison sociale, son implantation, son statut juridique, son secteurs dactivit, ses domaines de
comptences, ses ressources, etc. Lanalyse de lenvironnement interne, permet de distinguer les
forces et faiblesses de lentreprise. Nous rappelons ici que les forces correspondent aux facteurs qui
permettent l'entreprise de mieux russir que ses concurrents. Les faiblesses dsignent les
domaines o l'entreprise est susceptible d'afficher des difficults par rapport la concurrence.

Lenvironnement externe, reprsente toutes les donnes produites par les diffrents domaines
(conomique, juridique, politique, culturelle, technologique) et acteurs (concurrents, fournisseurs,
partenaires, etc. et les thmes tels que nouveaux produits, procds novateurs, etc) qui sont en
interaction avec lentreprise.
Ces donnes sont susceptibles dinfluencer la stratgie de lentreprise.
Lanalyse de l'environnement externe, permet didentifier les opportunits et les menaces. Elle peut
tre dtermine laide du modle Porter (1.2.1.3). Ce modle consiste mesurer lattractivit du
march li un domaine donn par lidentification des groupes dacteurs et de thmes potentiels.
Lanalyse et la hirarchisation de ces groupes va permettre de dgager les opportunits et menaces
maitriser pour obtenir un avantage concurrentiel. Les opportunits correspondent des tendances
favorables conduisant de nouvelles perspectives de dveloppement et dont l'entreprise pourrait
tirer profit. Les menaces dsignent des problmes poss par une transformation de l'environnement
qui, en l'absence d'une rponse stratgique approprie, peuvent dtriorer la position de l'entreprise.

Afin dobtenir une vue synthtique de lenvironnement du problme dcisionnel pos, la matrice SWOT se
reprsente par une matrice dcoupe en quadrants (Tableau 3). Elle va permettre didentifier les facteurs
positifs : forces et opportunits et les facteurs ngatifs : faiblesses et menaces.

Positif

Ngatif

Environnement
Enviro nnement interne

Liste des forces

Liste des faiblesses

Environnement externe

Liste des opportunits

Liste des menaces

Tableau 3 : Analyse de lenvironnement.

Une fois lenvironnement analys, la matrice SWOT (Tableau 5) va pouvoir dterminer si la combinaison
des forces et faiblesses de lentreprise est mme de faire face aux menaces et opportunits de

LCAG : Learned, Christensen, Andreus, Guth.


BCG : Boston Consulting Group.
8
PIMS : Profit Impact of Market Strategy.

47

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
lenvironnement. La confrontation de lanalyse de lenvironnement interne et externe va permettre de
dgager quatre types de stratgies.

Forces

Faiblesses

Opportunits

Stratgie
Forces-Opportunits

Stratgie
Faiblesses-Opportunits

Menaces

Stratgie
Forces- Menaces

Stratgie
Faiblesses-Menaces

Tableau 4 : Matrice SWOT.

Stratgie Forces-Opportunits, consiste exploiter les forces internes pour poursuivre les
opportunits de lenvironnement.

Stratgie Faiblesses-Opportunits, va permettre damliorer les faiblesses internes afin de pouvoir


exploiter les opportunits de lenvironnement.

Stratgie Forces- Menaces, consiste utiliser les forces internes pour se protger des menaces de
lenvironnement. Ou convertir les menaces en opportunits en investissant les ressources
ncessaires.

Stratgie Faiblesses-Menaces, Consiste minimiser les faiblesses de la firme pour la rendre moins
vulnrable aux menaces extrieures. Stratgie de repositionnement ou de diversification.

Llaboration de la stratgie va se baser sur les rsultats obtenus par la matrice SWOT. Une fois la stratgie
est labore, il convient de dterminer les domaines d'activits stratgiques maintenir, dvelopper ou
abandonner.
En fonction de cibles identifies, il va sagir de rechercher les informations les plus pertinentes, lintrieur
et lextrieur de lentreprise. La premire tape consiste identifier les sources dinformations qui sont
susceptibles de contenir ces informations. A partir de ces sources les informations utiles vont tre extraites
et values. Il existe deux types dinformations qui sont ncessaires llaboration de la stratgie :
Linformation utile qui peut tre directement utilise ; et linformation labore qui rsulte de lanalyse et
le traitement des informations utiles. Ltape de traitement et danalyse est soutenue par les mthodes et les
outils de fouilles de donnes qui permettent de rvler les informations cache, et souvent statistiques
partir des informations utiles.
La dernire phase du cycle, consiste restituer les rsultats jugs pertinents aux utilisateurs potentiels qui
vont tablir et dfinir les actions stratgiques en se basant sur le degr de fiabilit des rsultats obtenus.
Cette phase peut engendrer une redfinition ou un rajustement de la cible, le cycle devient alors itratif.
Lexpression du besoin consiste traduire les cibles identifies dans ltape prcdente en questionnement
oprationnelles. Cette tape doit tre dtermin de faon trs prcise afin de bien pouvoir cibler la collecte,
lanalyse et de retourner des rponses pertinentes. Il est ncessaire de formaliser cette tape en dressant un
plan de veille qui dcline chaque domaine dactivit en un ensemble de questions prcises.
La collecte dinformation repose essentiellement sur la connaissance et la matrise des sources
dinformation. Cest une activit continue qui demande dtre en permanence lafft dinformations
importantes pour lentreprise. Il faut pour cela identifier de manire prcise, exhaustive et en toute lgalit
les sources internes et externes lentreprise susceptible de fournir des informations permettant une
meilleure prise de dcision.

48

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Toute fois en raison, dune part de la diversit et de la dispersion des sources dinformations, dautre part
du volume important des informations disponible, il est indispensable de dfinir un ensemble de sources
dinformations consulter en priorit en fonction de types dinformations recherchs : scientifiques,
technologiques, juridiques, etc.
Une fois la collecte des informations pertinentes est ralise et valide, il faudra procder leur traitement
et analyse pour transformer linformation en connaissance. En fonction du type dinformation, il ressort
trois types de traitement :
Signalement explicite, certaines informations se suffisent elles mmes, il suffit donc, aprs validation, de
les mettre en forme et de les analyser. Le traitement est simplement, ici, dordre signaltique en prenant en
compte la notion de priorit de lalerte.
Recoupement, dans ce cas, linformation doit tre rendue comprhensible par rapprochement avec dautres
informations de mme nature. Le traitement est alors le plus souvent dordre statistique (comparaison
des donnes chiffres spatiales ou temporelles) qui permet dexprimer une qualit ou une tendance. Le
recoupement dinformations permet aussi de vrifier la cohrence avec des informations similaires. Le
choix des sources et lvaluation de leur fiabilit sont ici des lments primordiaux, car linformation
obtenue est le plus souvent explicite et peut donc tre manipule ou intentionnellement biaise. Les
informations directes (explicites) sont bien entendu plus faciles obtenir et assimiler, mais il est difficile
de leur accorder une confiance absolue car elles sont trs souvent le fruit dune synthse individuelle ou
collective qui peut ne pas tre totalement objective ou trompe elle-mme par dautres informations
directes peu fiables.
La diffusion au sein de lentreprise constitue une phase importante du processus de veille. Elle consiste
valoriser les rsultats danalyse sur le plan stratgique. Afin den assurer la bonne exploitation linformation
pertinente doit tre restitue la bonne personne et au bon moment. Lobjectif du processus de veille
stratgique est de produire, sur des supports adapts, les informations stratgiques et tactiques cls en
rponse aux besoins informationnels exprims.
Nous notons, que la protection de linformation est un processus qui sinstaure en parallle du cycle de lIE
et sapplique toutes ces tapes.
Lensemble de ces tapes peuvent tre soutenues par lutilisation des systmes dinformation.

1.3.1 Classification de linformation


Nous identifions au niveau du processus dIE, diffrents niveaux dinformations (Figure 11) savoir :
Intelligence

5
Connaissances

4
Informations Elabores

2
3

Informations Utiles

1
Donnes
1 : Evaluer & Collecter, 2 : Valider & Diffuser, 3 : Analyser, 4 :
Interprter & Diffuser, 5 : Appliquer

Figure 11: Typologie des niveaux dinformation.

49

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Donnes, ce sont les donnes sur lesquelles va se baser la collecte dinformation, elles sont issues de
deux types de sources : formelles et informelles. Les travaux dIE diffrencient les informations
formelles et informelles, afin dorganiser un plan de collecte dissociant les diffrentes sources
disponibles.
 Les sources formelles : linformation formelle est une information disponible dans la presse,
les bases de donnes documentaires, les brevets, les textes de loi, les normes, les tudes
ralise par des prestataires publics ou privs, internet. Pour [Martinet, 1995],
linformation formelle existe sur un support papier, filmographique, informatique. Elle
peut tre structure ou non. Nous rsumons dans le Tableau 1-3 les principales sources
formelles dans un contexte dIE.

Structure

Type

Oui

Texte

Peu

Texte

Groupes de discussions
Traces de connexions

Support
CD-ROM,
Web, Serveurs
CD-ROM,
Web, Serveurs
Web
Serveurs

Peu
Non

Presse en ligne

Web

Peu

Blog

Web

Peu

Portail

Web

Peu

Texte
Texte
Texte, Video,
Image
Texte, Video,
Image
Texte

Bases documentaires
Brevets

Tableau 5: Sources dinformation formelles.


 Les sources informelles : ce type dinformation est vhicul par tous les types de
communication qui ne se font par lintermdiaire dun support institutionnalis comme
les articles scientifiques, les brevets, la presse, etc. Elle est souvent recueillie oralement.
Elle est qualitative et exige des analyses approfondies pour pouvoir tre suffisamment
utiles l'entreprise. Nous pouvons citer quelques exemples de sources informelles :
expositions, foires, salons, fournisseurs, sous-traitants, stagiaires, clients, rapport
dtonnement, etc.

Informations utiles, rsultent d'une premire opration de collecte partir des donnes. C'est celles
qui n'ont subit aucun traitement. Elles sont peu fiables, elles doivent tre values avant de les
diffuser. Elles ne peuvent acqurir de la valeur et devenir des informations labores qu'aprs
plusieurs traitements. Appele aussi : informations Exognes.

Informations labores, sont celles qui sont directement utilisables dans la prise de dcision. Elles
sont ce qu'on appelle les informations caractre stratgique et dcoulent des recoupements et
rapprochements avec d'autres informations. Grce des mthodes mathmatiques et statistiques,
on arrive tirer des conclusions indites et intelligentes par juxtaposition de donnes brutes.

Connaissances, ce sont les rsultats dinterprtation des informations utiles et labore retenues.
Dans ce contexte, nous retenons la dfinition propose par [Davenport, 1998] qui dfinissent la
connaissance comme une information valorise par lexprience, le contexte, linterprtation et la
rflexion.
Le passage de linformation la connaissance peut tre schmatis par lquation suivante :

50

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Informations
Informat ions utiles/ labores + Interprtations = Connaissances

Cette quation explique que la connaissance se construit au fur et mesure que les informations sont
intgres et assimiles au sein dun cadre de connaissance qui assure la cohrence et la structuration de la
base de connaissance accumule [Oubrich, 2003].

Intelligence, lorsque la connaissance est produite, elle peut servir de base une rflexion
stratgique. Selon Besson Bernard et Jean-Claude Possin "L'intelligence conomique peut tre
dfinie comme la capacit d'obtenir des rponses des questions en dcouvrant des intelligences
entre deux ou plusieurs informations pralablement mmorises".

1.3.2 Intelligence collective


Concevoir l'information d'un point de vue stratgique, rester en veil, protger des donnes sensibles,
partager des informations ou activer des rseaux humains demande une culture de l'intelligence collective,
loigne d'une ducation centre sur l'individu.
Selon [Colletis, 2007]:
Les deux questions de la coordination-coopration et de la production de connaissances nouvelles - la fois
ressources et rsultat de stratgies de changement - sont au cur de la dmarche dintelligence conomique.
La mise en commun des savoirs et savoir faire, en vue de la rsolution de problmes productifs indits,
n'obit pas un quelconque vu de meilleure circulation de linformation recherche pour elle-mme,
mais l'objectif de cration de ressources et de richesses.
Et selon [Lesca, 1997]:
Il y a intelligence collective, lorsque les signes observs dans lenvironnement, leur slection et leurs mises
en relations pour crer du sens sont lobjet dun travail collectif loccasion duquel les membres du groupe
sont en communication et en interaction sous toutes formes appropries.
Par ces dfinitions, les auteurs valorisent la collaboration des diffrents acteurs de lentreprise dans la
dmarche de lIE. Humbert Lesca prcise que lintelligence collective est le fruit de la communication et
des interactions (coordinations- cooprations) des diffrents acteurs de lentreprise selon leurs comptences
et leurs expriences.
Ainsi nous identifions dans la cadre dune dmarche dIE quatre classes dacteurs selon leurs comptences:

Dcideurs, ces acteurs interviennent en amont et en aval da la dmarche dIE. Les dcideurs vont
traduire leurs problmes dcisionnels en un ensemble de cibles hirarchises, qui vont le
transmettre la cellule de veille. Une fois quils acquirent les connaissances sur leurs cibles, ils
interviennent dans le choix des scenarios retenir et les dcisions prendre.

Cellule de veille, cette cellule est sous le contrle du responsable de la veille. Il se charge de la mise
en place du systme de veille et de coordonner la circulation des informations et leurs gestion. Il a
le rle danimateur du rseau de veille. Il est responsable des acteurs de cette cellule qui sont de
trois types :
 Le veilleur, ce sont les acteurs qui soccupent de la tche quotidienne de lexcution des
processus de recherche et collecte des donnes utilisant via les systmes dinformations.
Son rle principal est de rechercher les informations utiles et de les valider. Il travaille en
troite collaboration avec la cellule de documentation et le ou les analystes.

51

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
 Les analystes, sont chargs du traitement et de lanalyse des donnes collectes par le
veilleur. Leur travail consiste appliquer les techniques de fouilles de donnes et les
mthodes dtude bibliomtrique afin de raliser des analyses statistiques permettant de
dgager des indicateurs de tendances.
 Les experts, sont des acteurs qui ont des comptences ou des savoir-faire spcifiques un
ou plusieurs domaines, ils interviennent pour donner leur expertise sur la qualit des
donnes identifies. Les experts peuvent travailler en collaboration avec dautres experts
externes lentreprise mais qui possdent des comptences diffrentes. Cette collaboration
se fait dans une structure organise appele Rseau Externe , qui a pour but de favoriser
les changes de flux de connaissances ainsi que la cration de connaissance [Haroussi,
2004].

Centre de documentation, est sous la responsabilit de lanimateur du centre. Il gre les stratgies de
collecte dinformations et coordonne le rseau des documentalistes.
 Les Documentalistes, soccupent de collecter les informations formelles et informelles qui
portent sur lenvironnement interne et externe de lentreprise. La recherche et la collecte
dinformations sont leurs taches quotidiennes. Ils soccupent aussi valider et structurer
les informations informelles provenant des acteurs de lentreprise. Toutes les informations
collectes vont tre mmoris dans la base de donnes de lorganisation qui contient la
matire premire du processus de veille.

IC Externe
Rseau dacteurs externe

Dcideur

IC
Interne

Cellule de Veille

Experts

Analyste

Centre de documentation

Veilleur

Documentalistes

Figure 12: Les acteurs de la dmarche dIE.

1.4 Les modles danalyse de lIE


A travers les diffrentes dfinitions et caractristiques gnrales de lIE, nous identifions quatre dimensions
importantes prendre en compte dans la dfinition dun modle danalyse savoir :

La dimension environnement dune entreprise qui regroupe les lments pouvant influencer dune
manire directe ou indirecte lvolution stratgique dune entreprise. Elle est caractrise par les
partenaires, les concurrents, les marchs, les clients, etc.

52

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

La dimension humaine qui englobe les acteurs impliqus dans une dmarche dIE, quils soient
internes ou externe lentreprise. Elle est caractrise par les rseaux de collaborations,
dinteractions et de communication entre les diffrents acteurs impliqus dans cette dmarche.

La dimension stratgique, correspond aux diffrents modles danalyse permettant llaboration


des stratgies dune entreprise allant de lidentification des objectifs la dcision et la dfinition
dactions.

La dimension technologique, rassemble toutes les mthodes, outils et techniques utiliss pour
rpondre aux besoins informationnels dans une dmarche dIE, par les procdures de recherche,
collecte, traitements et diffusion de linformation.

La prise en compte de lune ou plusieurs de ces dimensions permet de concevoir divers modles servant
danalyse (conceptuelle ou pratique) de lIE. Nous avons retenu deux modles universitaires btis sur ces
dimensions : le modle MEDESIIE, le modle SITE.

1.4.1 La mthode
mthode danalyse MEDESIIE
La dmarche dIE propos par Maryse Salles dans le cadre du projet MEDESIIE9 est consacre
entirement l'analyse du besoin en IE des PME.
MEDESIIE considre le systme dIE comme le systme de reprsentation des connaissances de
l'entreprise, concernant les relations, relles ou potentielles, qu'elle entretient avec son environnement. Un
tel systme d'I.E a pour vocation premire d'apporter une aide la dcision, pour toutes les dcisions qui
affectent les relations de l'entreprise avec son environnement, de quelque manire que ce soit et avec
quelque intensit que ce soit10.
Larchitecture conceptuelle de ce systme sinspire de la dfinition propose par [Seligmann, 1989] pour la
conception des systmes dinformations. Seligmann dcrit une mthode comme constitue
obligatoirement de quatre composants, quil designe comme des "manires de" (way of) [Salles, 2003]: le
way of thinking (le paradigme, le point de vue), le way of modelling (les modles construire), le way of
organising (la dmarche suivre), le way of supporting (un support rassemblant les outils).
MEDESIIE [Salles, 2005], propose des modles pour dcrire : lentreprise, sa stratgie, son
environnement, son besoin relevant de lIE et ses Produit/services.

Un modle dentreprise, est dcrit selon ses diffrentes fonctions (productive, conomie/lien au
march, financire et dinnovation/systme dinformation). Chaque fonction est elle-mme
compose dun ensemble de sous-fonctions de management.

Un modle de stratgie, est reprsent par un ensemble de choix stratgiques structurels et daxes
de dveloppement (recherche dindpendance, croissance de ses activits, augmentation de ses
profits, etc.) ;

Un modle denvironnement, qui est dcrit, dans un premier temps, par les fonctions de
lentreprise et des relations quelle dveloppe avec son environnement ; dans uns second temps,
par lenvironnement exogne lentreprise, selon 8 grands dterminants (la gomtrie spatiale des
marchs, la demande, la technologie, la concurrence, le rgime financier, les conditions doffre, le
cadre rglementaire, lenvironnement politique et gopolitique).

Un modle du besoin, sert de cadre la collecte du besoin, sa formalisation, son analyse et sa


validation. Le besoin exprim est reprsent par un ensemble dunits de besoin. Le modle

Projet MEDESIIE (Mthode de dfinition de systme d'information pour l'intelligence conomique), consacr entirement
l'analyse du besoin en intelligence conomique (i.e.) des PME, et financ par la Rgion Midi-Pyrnes.
10
Source : http://ieut1.irit.fr/introduction/intro2.htm ( Projet MEDESIIE)

53

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
dunit de besoin est dcrit en fonction de trois dimensions : le niveau de pilotage de la dcision
pour lequel lunit est exprime (sa valeur : oprationnelle, tactique ou stratgique), la phase du
processus de dcision IDC associ lunit et son contenu informationnel (identification de sa
valeur et de sa fonction).

Un modle des produits/services, toute fourniture d'aide la dcision portant sur


lenvironnement, de lentreprise qui consiste en un outil de prototypage ralis en fonction de la
satisfaction des besoins recueillis afin den dfinir les cots, la porte et de pouvoir en valuer,
priori, les effets.

1.4.2 Les
Les modles SITE
Le modle SITE regroupe les diffrents modles dIE propos par lquipe de recherche SITE qui est
dirige par A. David et rattach au laboratoire LORIA. La problmatique de l'quipe est dtudier la
modlisation et le dveloppement de systmes dinformations stratgiques dans le cadre de lIE.
Ces modles se basent sur la mise en relation de trois espaces : lespace des problmes dcisionnels, lespace
des problmes informationnels et lespace des mdiations qui les relient par lintermdiaire des changes
entre les deux types dacteurs (dcideur et veilleur).
Les travaux de lquipe ont en commun la prise en compte de lutilisateur dans les systmes dinformation.
Ils proposent des modles permettant de dfinir les diffrents acteurs, leurs interactions et leurs
positionnements dans le processus dIE.
Nous retenons trois modles savoir : EquAte11, MEPD12, WISP13.
Le modle EquAte [David, 2002], reprsente une situation de recherche dinformation qui implique les
phases cognitives suivantes :

Lexploration du monde dinformation

Linterrogation de la base dinformation

Lanalyse de la base dinformation

Lannotation fonde sur diffrentes prfrences

Le modle MEPD [Bouaka, 2004], consiste dfinir les diffrentes facettes dun problme dcisionnel. Il
se base sur :

La modlisation du dcideur, par son identit, les traits de sa personnalit, son style cognitif et son
exprience,

La modlisation de lenvironnement, par lenvironnement immdiat (les clients, les fournisseurs,


les concurrents) et global (sociale, conomique, politique, etc.),

La modlisation de lorganisation, par lenvironnement, son signal, les hypothses que le dcideur
peut dduire de la dtection des signaux recueillis.

Le modle WISP [Kislin, 2007], est associ au modle MEPD dans lequel il sinsre en lui empruntant
quelques paramtres. Le modle WISP est un modle tridimensionnel, multi facette, qui intgre la notion
de point de vue :

11

Explore Query Analyse Annote


Modle pour lexplication dun problme dcisionnel
13
Model for Information Retrieval query Annotations Based on Expression Levels
12

54

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Une dimension analytique qui englobe la comprhension de la demande-enjeu-contexte (DEC),


la dfinition des indicateurs informationnels et toutes les oprations danalyse et de cration de
connaissances qui peuvent tre ralises par ltude des lments mmoriss,

Une dimension mthodologique qui est constitue, un premier niveau, par les comptences de
traduction du problme dcisionnel en problme informationnel et un second niveau par les
stratgies de recherche par lesquelles linformation est identifie et les connaissances sont acquises.

Une dimension oprationnelle qui correspond la slection des plans daction et la mise en place
des diffrentes tapes de rsolution de la mthodologie associe au modle WISP.

1.5 Un systme dinformation adapt aux besoins


dune dmarche dIE
Pour Patrick Romagni et Valrie Wild, la dfinition dun systme dinformation adapt la dmarche dIE
est la suivante [Romagni, 1998]:
Ensemble organis de procdures permettant, tout moment, de donner aux dcideurs une reprsentation
de la place de lentreprise dans son environnement et sur son march. Il produit de linformation pour
assister les individus dans les fonctions dexcution, de gestion et de prise de dcision.
Il doit :

Faciliter les dcisions, en permettant dautomatiser un certain nombre dactions ou en mettant


disposition des dcideurs des lments ncessaires la prise de dcision,

Coordonner les actions par le traitement de linformation,

Stocker de manire durable et stable les informations,

Traiter les donnes, cest la fonction la plus importante du systme dinformation car il entrane la
cration dinformations directement utilisables par les dcideurs.

Les systmes dinformations actuels ne sont pas adapts pour grer la dynamique du march. Ils sont
essentiellement conus pour des environnements stables et maitriss et sont btis essentiellement sur des
schmas organisationnels verticaux qui sont de plus en plus complexe. Ce type de systme dinformation
ne permet pas de rpondre aux besoins dune dmarche dIE. Il est donc essentiel de concevoir des
systmes dinformations permettant aux organisations une meilleure gestion de linformation et doffrir
une base de coordination des actions entre les diffrents acteurs. Cette coordination transversale est
soutenue par les motivations suivantes :

Les objectifs dune dmarche dIE sont inter-relis. Ils ne peuvent tre traits sparment.

Le besoin de partage dinformations entre les diffrents acteurs,

Le partage des connaissances acquises au cours dune dmarche,

Lorganisation de lentreprise de manire fonctionnelle est transversale.

Do limportance, dvoluer dune architecture verticale des systmes dinformation vers une architecture
transversale qui permettra une gestion globale de linformation.

55

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Structure fonctionnelle hirarchique

Infrastructure globale dinformation

Figure 13: Passage dune structure fonctionnelle hirarchique vers une infrastructure globale dinformation14.

Larchitecture transversale est base sur une architecture modulaire et volutive structure autour des
projets de lentreprise, linfrastructure globale dinformation va permettre selon [Cigref, 2004] :

De rduire les nombreuses coordinations verticales en diminuant les chelons hirarchiques,

Une meilleure surveillance de lenvironnement des units dcentralises,

Un dcloisonnement par une communication transversale,

Des relations axes sur la complmentarit des mtiers,

Une meilleure adaptation la dynamique du march.

Cette analyse confirme lmergence de plates-formes dinformation et lenracinement de la stratgie dans


les systmes dinformation. La dmarche dIE sinscrit alors dans le schma global du systme
dinformation stratgique de lentreprise.
Daprs le rapport du Cigref Intelligence conomique et stratgique , le portail de gestion de linformation
est actuellement loutil le mieux adapt pour implanter le concept et la culture dIE travers un rseau. Ce
portail est bti autour dune solution logicielle dite dIE. Lavantage de ce type de systme dinformation
sappuie sur les points suivants :
GESTION DU PROJET DE VEILLE

Une prise de conscience collective, chacun comprenant les enjeux de sa contribution au dispositif.

Porter la connaissance de tous, les thmes non confidentiels de veille et leur actualisation.

Donner une identification des acteurs et de leur rle en matire de projets et de gestion de
linformation.

PARTAGE DE LINFORMATION

Amliorer la qualit de linformation et crer de la valeur ajoute (change de points de vue et


consolidations).

Amliorer la circulation en offrant la possibilit dassurer un feed-back.

Crer des flux plutt que des stocks dinformations vers des destinataires susceptibles den tirer
profit.

14
Inspir de : de Systmes dinformation et comptitivit, Baumard Philippe et Benvenuti Jean-Andr, InterEditions, 1998.
Intelligence conomique et stratgique, Rapport Cigref, 2004.

56

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Favoriser la participation du plus grand nombre, avec possibilit de communication descendante,


montante et transversale.

Retenir des formats de diffusion ou de mmorisation adapts chaque type dinformation et de


destinataire.

Avoir une traabilit des demandes dinformations et des rponses.

Les fonctionnalits du portail doivent offrir aussi :


INTERFACE PERSONNALISEE

Personnalisation de linterface (info du jour, par thme, moteur de recherche, etc.) accs rapide
linformation.

COLLECTE PLUS PRECISE ET CIBLEE

Moteur de recherche, sur internet, web invisible, etc.

Remonte rapide des sources informelles (clients, fournisseurs, commerciaux, rseaux personnels,
etc) via certains outils (assistants numriques, courrier lectronique, tlphone mobile, internet,
etc.).

Cration dannuaires de liens Internet pour lensemble des membres dun rseau.

TRAITEMENT, ANALYSE, STOCKAGE

Reprsentation graphique des informations.

Archivage spcifique des informations utiles aux dcideurs en fonction de leur dure de vie
(validit).

DIFFUSION

Possibilit de gnrer des rapports la demande pour les dcideurs.

Groupe de discussion avec droits daccs, change et partage de linformation ; chacun profite des
informations rcoltes par les autres.

Pilotage plus pointu, gestion des feed-back.

Ciblage par rapport aux axes de dveloppement de lentreprise, suivi des acteurs, thmes les plus
actifs et sources surveilles.

Pilotage temps rel de lactivit de veille, grce des tableaux de bords permettant de contrler et
rorienter lactivit en fonction des objectifs.

Profiling des utilisateurs en fonction des thmes consults adquation entre informations
collectes et informations recherches.

Le couplage des besoins identifis dans une dmarche dIE avec les diffrentes techniques existantes de
travail collaboratif ou de Business Intelligence tels que : workflow, groupware, datawarehouse, data
mining, text mining, gestion lectronique des documents, visualisation, etc. permet doptimiser chaque
tape du cycle de lIE. La Figure 14 rsume lensemble de ces techniques pour chaque tape de la dmarche
dIE. La phase de collecte se fait gnralement par lutilisation des bases de donnes, Internet, agents de
recherche, moteurs de recherche, ltape de traitement et danalyse peut tre supporte par les outils de
visualisation, la bibliomtrie, lanalyse statistique, entrept de donnes, etc. ltape de diffusion peut
sappuyer sur les agents push-pull, les courriers lectroniques, etc.

57

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Expression du besoin

Collecte

Traitement & analyse

Diffusion

Bases de donnes

Visualisation
Visualisation

Workflow

Internet, Moteurs de
recherche, metamoteurs,
annuaires, etc.

Analyse smantique,
statistique, linguistique

Courrier lectronique

Bibliomtrie

Forum,
Mailing list

Datawarehouse

Agents intelligents
Agents de recherche

Agents danalyse

Agents push,
push pull

Internet & intranet

Figure 14: Les diffrentes techniques du Buisines Intelligence.

1.6 Evaluation des outils dIE


d IE
La socit FULD & COMPANY, est lun des leaders mondiaux de lIE particulirement dans l'analyse des
marchs et des concurrents ainsi que la veille stratgique et concurrentielle. Depuis 1998, cette compagnie
a toujours value les outils technologiques ddis lIE. Le dernier rapport dvaluation de la compagnie
Intelligence Software Report 2008-2009 , porte sur les outils de traitements avancs de linformation
utiliss dans le cadre dune dmarche dIE par les entreprises. Il se base sur lauto-valuation de 480
entreprises dans le monde.
Les auteurs diffrencient les outils dIE des outils Busines Intelligence (BI). Les outils BI portent sur les
entrepts de donnes et lanalyse des donnes quantitatives, qui sont exclusivement internes aux
entreprises. Or les outils dIE, concernent la collecte et lanalyse des donnes qualitatives qui sont la fois
internes et externes lentreprise.
Lvaluation des outils se base sur plus de 120 critres (reprsentes sous forme de fonctionnalits) qui
couvrent les cinq tapes du cycle de traitement de linformation dans le cadre de lIE, savoir : Expression
du besoin, Collecte dInformation publie, Collecte dInformation primaire, Traitement et Analyse,
Diffusion.

1.6.1 Expression du besoin


Cette partie consiste dfinir : la stratgie et les objectifs de ltude ainsi que son besoin informationnel,
cela constituent le moteur des tapes de collecte et danalyse.
Critres : lexpression du besoin est un processus purement humain, aucun logiciel ne peut dfinir
dynamiquement les besoins dune entreprise. Ils peuvent seulement offrir un cadre pour la gestion du
projet. Dans ce contexte les fonctionnalits que doit satisfaire loutil sont :

Une interface de gestion des droits daccs des utilisateurs,

Une interface pour introduire et grer les orientations thmatiques des axes de recherches,

58

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Une interface qui permet aux intervenants dintroduire et grer les diffrents besoins
informationnels lis une tude,

Une interface dchange et de partage de donnes dans le cadre dune tude pour permettre une
collaboration entre les diffrents intervenants.

1.6.2 Collecte dinformation publie


Cette tape concerne lidentification des sources de donnes et la recherche dinformations.
Critres : se basent sur les types de source que loutil peut traiter et les techniques de recherche, nous
retrouvons (sources formelles):

Les donnes internes de lentreprise : bases de donnes, documents de Microsoft Office, rapports,
emails, graphiques et intranet,

Les sources externes issues du web : pages web, sites internet, bases de donnes : Interroger
simultanment plusieurs moteurs de recherches (requtes inter-langues),

Dfinir un profil utilisateur pour la recherche dinformation (requtes, thmes, dates, etc.),

Surveiller les flux RSS15,

Une interface de requtes prdfinies,

Stockage des donnes,

Filtrage automatique des donnes collectes selon les critres de lutilisateur : concurrents, source,
dates, acteurs clsetc.,

Evaluation et validation des donnes collectes,

Commentaires et annotation des donnes collectes,

Classification et regroupement automatique des donnes collectes selon les critres de


lutilisateur.

1.6.3 Collecte
Collecte dinformation
di nformation primaire
Concerne la collecte dinformation informelle, auprs des acteurs internes lentreprise.
Critres : lvaluation des savoir-faire de lentreprise se base sur les points suivants :

Recherche et collecte des donnes partir de groupe de nouvelles et des forums,

Une interface pour saisir les informations informelles : entrevues, rapport, expertise, etc.

1.6.4 Traitement et analyse


Consiste produire des informations utiles partir des donnes collectes.
Critres : lvaluation des techniques danalyse des donnes qualitatives concerne les points suivants :

Trier les donnes selon des rgles dfinies par lutilisateur,

RSS dsigne une famille de formats XML utiliss pour la syndication de contenu Web.
Ce standard est habituellement utilis pour obtenir les mises jour d'informations dont la nature change frquemment.
Typiquement cela peut tre des listes de tches dans un projet, des prix, des alertes de toutes nature, des nouveaux emplois
proposs, les sites d'information ou les blogs. (Source : Wikipedia)
15

59

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Interface pour le tri et la visualisation des donnes collects,

Visualisation des modles : matrice SWOT, les cinq forces de Porter, etc.

Affichage des donnes dans un ordre chronologique,

Extraction des relations existantes entre les diffrents acteurs, dates, lieu, vnements et autres
corrlations importantes,

Les mthodes de Fouilles de donnes textuelles pour extraire et analyser les variables slectionnes
par lutilisateur,

La capacit de rapporter les donnes qualitatives aux quantitatives.

Visualisation des rsultats danalyse sous diffrents forme graphique.

1.6.5 Diffusion
Va porter sur les techniques utilises pour exporter et diffuser les rsultats obtenues.
Critres :

Prise en compte dune charte graphique ou de normes de prsentation des rapports,

Exporter les rsultats sous Microsoft Office ou quivalent,

Diffusion des rapports par mail, imprim, etc.

1.6.6 Evaluation
Evaluation
Treize outils ont t slectionns parmi les 480 recenss. Ce sont des outils qui recouvrent une grande
partie de la totalit des tapes du processus de lIE. Chacun des outils, est donc valu selon les critres
associs ces cinq tapes. Chaque tape est note sur une chelle de 1 5 (Tableau 6).
5
4
3
2
1

Excellent
Trs bon
Bon
Juste
Pauvre

Tableau 6: chelle dvaluation.

Le rapport comporte le comparatif des outils retenus selon le processus classique de traitement de
linformation (Tableau 7).
Les outils valus ne couvrent pas de faon optimale toutes les tapes du cycle. Le pourcentage de
couverture du cycle est en moyenne entre 50% et 80%. Ces outils se basent essentiellement sur les
techniques de recherche dinformation sur le web en utilisant les agents intelligents, seulement quatre
dentre eux (QL2 Software, Temis, Cymfony, Traction software) sappuient sur les techniques de Text
Mining et deux outils (Brimestone, Cymfony et Netro-City) sur les techniques de visualisation et de
Reporting.

60

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Evaluation des
Outils IE 2008-2009

Expression
du besoin

Brimstome
Cipher
Comergence
Comintell
Cymfony
Global Intelligence
KB Intelligence
Netro-City
QL2 Software
Strategy Software
Temis
Traction Software
Wincite

4
5
5
3
4
3
1
1
3
5
3
3
5

Collecte
dinformation
Formelle Informelle
3
3
3
4
3
5
3
3
5
5
2
3
2
1
3
4
3
3
3
5
2
2
4
3
3
2

Traitement
et
Diffusion
Analyse
4
3
3
4
2
4
2
2
4
5
2
2
1
1
3
3
2
1
2
4
2
2
1
4
2
4

Moyenne du
Cycle
3,4
3,8
3,8
2,6
4,6
2,4
1,2
2,8
2,4
3,8
2,2
3
3,2

Tableau 7: Comparatif des outils de lIE 2008-2009.

1.7 Intelligence conomique : synthse


Lobjectif de ce chapitre tait de prsenter le contexte gnral de nos travaux. Dans la section 1.2, nous
avons prsent les origines et lvolution du concept dIE ainsi que ses objectifs et ses diffrents besoins.
LIE va permettre aux entreprises une organisation structurelle et informationnelle pour faire face aux
nouveaux dfis (menaces et opportunits) de la mondialisation. Cette dmarche offre une nouvelle vision
de lorganisation de lentreprise qui est principalement orient vers une organisation base sur la maitrise
de linformation. Les besoins de la dmarche dIE sont centrs vers la connaissance de lenvironnement de
lentreprise dans un contexte dcisionnel. Le processus dIE dfini dans la section 1.3, prsente les
diffrentes tapes de la dmarche, les diffrents niveaux dvolution de linformation vers la connaissance et
lintelligence (section 1.3.1) ainsi que les acteurs impliqus (section 1.3.2). La section 1.4, nous a permis
didentifier les travaux existants portant sur les modles danalyse dans un contexte dIE. Les travaux
effectus dans le cadre du projet MEDESIIE sont principalement orients vers la formulation du besoin et
la modlisation du produit IE (section 1.4.1) et les travaux de lquipe de recherche SITE sintressent la
modlisation des acteurs impliqus dans la dmarche IE. Nous nous sommes intresss dans la section 1.5,
claircir les caractristiques des systmes dinformation adaptes aux besoins de la dmarche dIE. Nous
avons voqu aussi comment rorienter les systmes dinformations vers une meilleure maitrise des
connaissances et une meilleure circulation des informations aussi bien au niveau interne et quexterne.
Dans la section 1.6, nous avons prsents une valuation des diffrents outils dIE utiliss par les
entreprises. Cette valuation est base sur un ensemble de critres, dfinis sous forme de fonctionnalits,
que les outils dIE doivent satisfaire.
Le tableau de synthses (Tableau 8), permet de rcapituler lhistorique des principaux axes de lIE depuis
1967. Nous pouvons les dcomposer en deux tendances : le cur du domaine qui est stable depuis plus de
15 ans (Rassemblement, Traitement, Diffusion, Interprtation, Connaissances, Coordination, Prise de
dcision, Environnement) et les nouvelles proccupations plus ponctuelles, mais rcentes et qui font
essentiellement intervenir le facteur temps (Immdiate, Ultrieure, Continue, Anticiper, Au bon moment).
Do une importance grandissante du facteur temps et la ncessit de le prendre systmatiquement en
compte dans toute analyse stratgique.

61

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche

Prise de dcision, Actions

x
x

Comprendre, Adapter

x
x

x
x

x
x

Environnement

x
x

Dtecter, Surveillance active

Immdiate

Ultrieure

Menaces, Opportunits

2005

Juillet

Connaissances, Informations stratgiques


Coordinations, Collectives, Connexion,
Combiner, Communication, Partage

x
x

2003

2002

Paturel

Guilhon et Manni

2001

Diffusion, Distribution
Interprtation, Analyse, Production

1999

Levet

1997

SavoirSavoir-faire, Acteurs

1998

1996

De Vasconcelos

Colletis

1995

1998

Levet et Paturel

1994

Traitement, Tri, Mmorisation, Validation

Revelli

Martinet et Marti

1991

Rassemblement, Recherche, Collecte, Recueil

Besson et Possin

Baumard

Martre et AL

1967

Annes
Concepts

Wilensky

Auteurs

Continue
Anticiper
Au bon moment
Crativits,
Crativits,
Comptences nouvelles

Protection

x
x
x
x
x

Tableau 8: Historique des principaux axes de lIE.

Dans le contexte de notre approche, nous retenons la notion dIE telle quelle a t dfinit par Henri
Martre [Martre, 1994], cest--dire en tant qu'ensemble des actions coordonnes de recherche, de
traitement et distribution de l'information utile aux acteurs pour permettre l'action et la prise de dcision.
Ceci dpasse les actions partielles dsignes sous le nom de documentation, de veille (scientifique et
technologique, concurrentielle, financire, juridique, territoriale et rglementaire) et invite de surcrot
"passer d'un traitement individuel de l'information la gestion de l'information et un processus d'actions
collectives".
Notre vision de lIE est minemment stratgique, cest une dmarche d'anticipation et de projection dans
le futur, par la mise en vidence des liens unissant les acteurs dans un mme secteur d'activits. LIE repose
sur une dmarche d'anticipation individuelle et collective, une profonde connaissance de l'environnement
et des rseaux existants afin de pouvoir agir et ragir en fonction de leur volution. La coordination des
actions dans le cas d'une stratgie commune requiert une forte capacit saisir les variations et les ractions
environnementales chaque tape de la dmarche afin de reprer les facteurs de changement et den tenir
compte par des corrections appropries.
La majeure partie des informations lectroniques utiles la dcision se trouve encore sous forme textuelle
et bien souvent sous forme de texte libre. Lanalyse des textes reste donc la cl de toute dmarche dIE.
Deux coles se sont penches sur ce problme : la linguistique et la statistique ce qui a donn naissance
de nombreuses disciplines annexes comme lanalyse du discours, le rsum automatique, lanalyse du

62

Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
contenu, la recherche de concepts, la dcouverte de connaissance ou la recherche de signaux faibles
[Pazienza, 1997]. Le but tant toujours de pouvoir traiter, assimiler et synthtiser le contenu
informationnel de trs grandes collections de documents.
Nos travaux vont ds lors consister dfinir un modle de traitement et de gestion des donnes dans le
contexte du processus dIE en y intgrant deux dimensions incontournables que sont le relationnelle et le
temporelle. Ainsi notre modle danalyse multidimensionnelle, va se baser sur les quatre principales tapes
du processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse,
La restitution et interprtation des rsultats . Dont lobjectif principal est la cration de nouvelles
connaissances souvent totalement implicites et vise stratgique, qui se dduisent le plus souvent de
lanalyse de lvolution des rseaux dacteurs (auteurs, inventeurs, socits, villes, rgions, pays, journaux,
etc.), des rseaux smantiques (mots-cls, free-terms, multi-termes, ontologies, etc.) et des interactions
(acteur smantique).
Notre dmarche consiste alors dfinir un systme daide la dcision dans lobjectif est de pouvoir :

supporter les diffrentes tapes de la dmarche en offrant les diffrentes fonctionnalits prsentes
dans les sections 1.4 et 1.5,

extraire et traiter les donnes textuelles issues des sources formelles identifies dans la section
1.3.1,

rpondre aux besoins danalyse de la dmarche dIE en offrant des connaissances synthtiques de
lenvironnement informationnel de lentreprise, sur un domaine donn,

Restituer les rsultats sou une forme adapte aux utilisateurs.

Afin de rpondre ces besoins danalyse, nous proposons de coupler les besoins des tapes du processus
dIE avec les principes et techniques issues du domaine de la dcouverte des connaissances partir du
texte. Dans ce contexte, nous prsentons, dans le chapitre 2 de ce manuscrit, le domaine de la dcouverte
des connaissances et les techniques de la Fouille de Texte.

63

2 Chapitre 2. La dcouverte des connaissances

2.1 Introduction............................................................................................................................................. 69
2.1.1 Spcifications ................................................................................................................................... 69
2.1.2 Extraction de connaissances partir de bases de donnes .................................................................. 69
2.1.3 Architecture dun systme type dECBD .......................................................................................... 70
2.1.4 De la Fouille de donne la Fouille de texte .................................................................................... 71
2.1.4.1
Approche linguistique ....................................................................................................... 71
2.1.4.2
Approche statistique.......................................................................................................... 72
2.1.5 Domaine dapplication : lanalyse bibliomtrique ............................................................................. 72
2.2 Etapes dextraction de connaissances partir du texte ............................................................................... 74
2.3 Document lectronique ............................................................................................................................ 76
2.3.1 Structure logique dun document ..................................................................................................... 78
2.3.2 Exemples de structure logique .......................................................................................................... 79
2.4 Des documents lentrept de document ................................................................................................. 81
2.5 Mthodes de reprsentation multidimensionnelle rduite des documents.................................................. 83
2.5.1 Units textuelles............................................................................................................................... 83
2.5.2 Mesures de dpendances .................................................................................................................. 84
2.5.2.1
Variables quantitatives ...................................................................................................... 84
2.5.2.2
Variables qualitatives ......................................................................................................... 85
2.5.3 Matrice de Prsence-Absence ........................................................................................................... 87
2.5.4 Matrice de Cooccurrence ................................................................................................................. 88
2.5.4.1
Matrice de cooccurrence simple ........................................................................................ 88
2.5.4.2
Matrice de Cooccurrence Simple Symtrique .................................................................... 88
2.5.4.3
Matrice de Contingence .................................................................................................... 89
2.5.4.4
Matrice de Cooccurrence Multiple .................................................................................... 89
2.6 Mthodes de fouilles de texte.................................................................................................................... 90
2.6.1 La classification et le regroupement .................................................................................................. 91
2.6.1.1
La classification ascendante hirarchique (CAH) ............................................................... 91
2.6.1.2
La Classification Par Partition (CPP) ................................................................................ 91
2.6.2 Association ...................................................................................................................................... 92
2.6.2.1
Lanalyse en composante principale (ACP) ........................................................................ 92
2.6.2.2
Lanalyse factorielle des correspondances (AFC) ................................................................ 92
2.6.3 Squences ........................................................................................................................................ 93
2.6.3.1
Lanalyse factorielle multiple (AFM) ................................................................................. 93
2.6.3.2
Lanalyse procustenne...................................................................................................... 93
2.7 La restitution ............................................................................................................................................ 93
2.8 Les outils dextraction de connaissances partir du texte........................................................................... 94
2.8.1 Les solutions intgres ...................................................................................................................... 94
2.8.2 Les outils ECT dvelopp au sein de lquipe SIG-IRIT ................................................................... 96
2.8.2.1
La Plateforme Ttralogie ................................................................................................... 96
2.8.2.2
Le systme Doc Cube ....................................................................................................... 97
2.9 Fouille de Texte : Synthse ....................................................................................................................... 97

Chapitre 2. La dcouverte des connaissances

2.1 Introduction
2.1.1 Spcifications
Les principes de lextraction de connaissances partir de bases de donnes (ECBD) sont introduits afin
d'aider les dcideurs dans l'analyse des informations issues des sources lectroniques. Diffrentes
techniques automatiques sont proposes pour infrer de nouvelles connaissances, potentiellement utiles,
partir de gros volumes de donnes. Ces connaissances correspondent des modles ou des relations priori
inconnues mais qui existent de faon implicite dans les donnes. Lintrt des connaissances extraites est
valid en fonction du but de lapplication. Seul lutilisateur peut dterminer la pertinence des rsultats
obtenus par rapport ses objectifs.
LECBD fait appel des disciplines aussi diverses que les statistiques, lintelligence artificielle,
lapprentissage automatique, la reconnaissance des formes, la linguistique, les bases de donnes, les
techniques de visualisation [Kodratoff, 1999]. Son but est dautomatiser ou daider lextraction de
nouvelles connaissances pertinentes partir des grandes masses dinformations internes ou externes.
Dans le contexte dIE, environ 80% des sources de donnes sont textuelles. Pour satisfaire le besoin
danalyse de ce type dinformation, il est utile dtendre les techniques de dcouvertes de connaissances aux
documents textuels. Cette extension repose sur les principes de la Fouille de Texte.
Nos travaux se basent sur lhypothse quun document textuel, peut contenir deux types de connaissance :
des connaissances explicites, comme son sens et sa terminologie (mots cls, individus, organismes, lieux,
temps, etc.) et des connaissances implicites lorsquon lassocie dautres textes similaires afin den dduire
des structures synthtiques comme des rseaux smantiques, des rseaux dacteurs, des graphes de
collaborations, des matrices de cooccurrences ou autres, des signaux faibles. La Fouille de Texte nous
permet une meilleure reprsentation des connaissances explicites afin den faciliter lexploitation dans le
but de rvler ces connaissances implicites contenues dans les corpus textuels.
Lobjectif de ce chapitre est de prsenter les principaux concepts et techniques de la dcouverte de
connaissances partir du texte.

2.1.2 Extraction de connaissances partir de bases de donnes


[Fayyad, 1996] dfini lECBD, comme :
Un processus non trivial didentification de structures inconnues, valides et potentiellement exploitables
dans les bases de donnes.
LECBD est un processus dextraction de connaissances partir de bases de donnes. Il consiste analyser
des donnes brutes pour en extraire des connaissances exploitables. Ces dernires vont permettre un
expert davoir une vision synthtique dun domaine donn.
Le processus est dirig par un analyste qui selon ses objectifs va appliquer des mthodes de fouille de
donnes (FD) sur des donnes pralablement slectionnes pour dduire des modles du domaine.
Le processus dECBD peut tre divis en plusieurs tapes [Fayyad, 1996] :

69

Chapitre 2. La dcouverte des connaissances

Donnes transformes

Modles

Fouille
de donne

70

Connaissances

Evaluation
Interprtations

Transformation

Prtraitement
Donnes prtraites

Donnes cibles

Slection
Base de donnes

Figure 15: Processus dECBD.

La slection, permet de crer un ensemble de donnes tudier,

Le prtraitement, vise enlever le bruit et dfinir une stratgie pour traiter les donnes
manquantes,

La transformation, o lon recherche les meilleures structures pour reprsenter les donnes en
fonction de la tche,

La fouille de donnes, la fouille proprement dite est la dfinition de la tche : classification,


recherche de modles, et la dfinition des paramtres appropris,

Linterprtation et lvaluation, pendant lesquelles les patrons extraits sont analyss. La


connaissance qui en est ainsi dduite est alors stocke dans la base de connaissances.

Il existe souvent une confusion entre les concepts Fouille de Donnes (FD) et lECBD, certains auteurs les
considrent comme synonymes. Or, la FD nest quune des tapes du processus dECBD. Elle correspond
lapplication des mthodes et techniques dextraction de connaissances.

2.1.3 Architecture dun systme type dECBD


Un systme dECBD [Han, 1998], [Simon, 2000], sarticule autour des composantes suivantes :

Une ou plusieurs bases de donnes et leurs systmes de gestion, pour le traitement des masses de
donnes volumineuses.

Une base de connaissances qui permet la fois la gestion des connaissances et la rsolution des
problmes lis au domaine des donnes. Le systme utilise une base de connaissances (par exemple
une ontologie du domaine) qui est enrichie grce aux nouvelles connaissances infres par le
systme.

Un systme FD pouvant sappuyer sur des techniques symboliques comme lextraction des rgles
dassociation [Agrawal, 1994], la classification par treillis de Galois [Barbut, 1970], [Davey, 1994]
ou linduction par des arbres de dcision [Breiman, 1984], [Quinlan, 1986].

Et une interface se chargeant des interactions avec lanalyste et de la visualisation des rsultats.
Lanalyste et lexpert sont chargs de guider les recherches et de valider les connaissances extraites.

Chapitre 2. La dcouverte des connaissances

71

Interface utilisateur

Fouille de Donnes
Systmes de gestion des BD ou DW

Bases de donnes
(BD)

Base de
connaissances

Entrept de
donnes (DW)

Figure 16: Architecture type dun systme dECBD [Han, 2000].

2.1.4 De la Fouille
Fouille de donne la Fouille de texte
La Fouille de Texte (FT) est introduite, par Feldman and Degan en 1995 sous le terme Knowledge
Discovery in Textual Databases (KDT) [Feldman, 1995], ou Text Data Mining (TDM) par Marti A.
Hearst en 1999 [Hearst, 1999], et traduit en franais par [Kodratoff, 1999] en Extraction des
Connaissances partir de Textes (ECT).
Feldman et Degan, dcrivent la Fouille de Texte comme un processus danalyse exploratoire qui permet de
rvler des informations exploitables du texte. Ainsi la FT peut tre aussi dfinie comme un processus de
dcouverte de connaissances qui consiste extraire des informations utiles partir des donnes textuelles
par des outils danalyses [Feldman, 2007]. Le but dun processus de FT est de trouver des relations
intressantes impossibles ou difficiles dtecter par une analyse squentielle de linformation [Kodratoff,
1999].
Nous considrons lECT comme un paradigme de lECBD au sens o le processus dECT prend modle
sur celui de lECBD, cest--dire que cest une instance de lECBD applique aux textes [Cherfi, 2004]. Et
la fouille de texte ne reprsente quune tape du processus dECT.
Compare la Fouille de Donnes (FD), qui permet lextraction automatique de connaissances partir de
donnes structures, lobjectif de la FT est dextraire de linformation labore partir dinformations
textuelles peu ou mal structures. [Feldman, 2007] indiquent que les rsultats de la FT reprsentent
gnralement les caractristiques des documents plutt que les documents eux-mmes.
LECT est lintersection de deux disciplines savoir la statistique et la linguistique. Ces deux disciplines
sont fondamentalement diffrentes dans leurs principes et dans leur histoire [Lebart, 1998], [Mothe,
2000], la linguistique ne sintressant quau langage utilis pour constituer les textes. Dans lanalyse de
texte les diffrents niveaux suivants sont considrs [Lebart, 1998], [Pazienza, 1997].

2.1.4.1 Approche linguistique


Au plan linguistique, plusieurs niveaux danalyse sont considrs [Lebart, 1998] :

Lanalyse syntaxique qui permet de dfinir les units textuelles de base et qui sintresse la place
relative de chaque mot. Certaines mesures utiles en sont issues : plac avant, aprs, tant de mots
maximum, dans la mme phrase, dpend de, etc.

Chapitre 2. La dcouverte des connaissances

Lanalyse lexicale sintresse la terminologie (origines des mots, relations, inclusions, synonymies,
etc.) [Reinert, 1996].

Lanalyse morphologique soccupe des variations dans la forme des mots (orthographes, radicaux,
suffixes, prfixes, troncatures, inflexions, etc.). Elle manipule les morphmes (mots simples,
radicaux, drivations, racines anciennes : grec, latin).

Lanalyse smantique sintresse la notion de contenu donc au sens, aux concepts vhiculs par les
textes et aux rseaux qui les unissent [Lin, 1998].

2.1.4.2 Approche statistique


Cot statistique plusieurs dcompositions sont proposes :
En fonction de la nature des mthodes :
Les mthodes quantitatives bases essentiellement sur les dnombrements, corrlations, distributions,
associations.
Les mthodes exploratoires et notamment lanalyse de donnes avec une approche plus qualitative [Benzecri,
1992].
Les mthodes relationnelles avec la thorie de graphes, les rseaux de neurones, les rseaux baysiens,
lanalyse relationnelle [Marcotorchino, 1991], [Huot, 1992].
Vis vis des fonctionnalits recherches, la dcouverte de modles endognes, a priori inconnus, sappuie
sur quatre types dapproches complmentaires, [Fayyad, 1996] :

Une approche descriptive issue de la statistique descriptive, de lanalyse des donnes et des
reprsentations graphiques.

Une approche structurante se basant sur les mthodes de classification automatique supervises
(classes prdfinies, reprsentants de classes) ou non supervises (hirarchies, regroupements), sur
la reconnaissance des formes et lapprentissage automatique [Razouk, 1990].

Une approche explicative qui permet de faire le lien entre faits expliquer et variables explicatives
(analyses multidimensionnelles [Benzecri, 1973], [Benali, 1989]) et permet aussi de catgoriser de
nouveaux lments en fonction de classes prdfinies.

Une approche prdictive qui est tourne vers lavenir, la composante temps y jouant parfois un rle
important. Elle conduit la recherche de squences [Agrawel, 1995] (volutions absolue ou
relative, trajectoires, stratgies, ) par lanalyse factorielle multiple (AFM) [Escofier, 1998] ou
lanalyse procustenne [Fichet, 1987], [Fichet, 1988], [Lafosse, 1990] et la prdiction de certains
comportements (achat, panne, dveloppement, rupture, ) par la recherche dassociations
[Agrawal, 1993].

2.1.5 Domaine dapplication : lanalyse bibliomtrique


Nos travaux, qui se positionnent lintrieur dune problmatique dextraction de connaissances partir
de donnes textuelles des fins de prospective scientifique et technologique, prend ses racines dans certains
concepts thoriques et mthodiques de la scientomtrie et de la bibliomtrie. Puisque la frontire entre les
dsignations de bibliomtrie et scientomtrie nest pas toujours claire, nous fixerons celle-ci en adoptant la
dfinition de [Polanco, 1995], qui dsigne la scientomtrie comme tant :
la bibliometrie specialise au domaine de lIST (Information scientifique et Technique). Toutefois,
la scientometrie designe dune manire generale lapplication de methodes statistiques des donnes
quantitavies (economiques, humaines, bibliographiques), caracteristiques de letat de la science.

72

Chapitre 2. La dcouverte des connaissances


En 1917, Cole et Eales furent les premiers raliser une tude bibliomtrique sur des publications
littraires parues entre 1850 et 1860, concernant lanatomie.
En 1927, Gross et Gross ralisent des tudes plus avances, comptabilisant, non pas les publications
scientifiques, mais les citations des travaux mentionnes par les chercheurs dans leurs publications. Ces
tudes furent appliques aux journaux cits concernant tous les domaines de la chimie. Laboutissement de
ces recherches a eu pour rsultat, ltablissement dune liste regroupant les journaux considrs comme
indispensables dans le domaine de la chimie.
Une nouvelle thorie fut dveloppe par Bradford en 1934, mais ne sera prise en compte quen 1948 et fut
dnomm loi de Bradford. Cette loi sest intresse la rpartition des articles scientifiques, pour un
domaine donne, dans les priodiques. Les rsultats obtenus ont permis de dfinir une rpartition des
journaux en fonction de leur aptitude reprsenter un domaine scientifique donn.
En 1963, de Solla Price a travaill sur la dfinition des lois qui rgissent lvolution et le comportement de
la science : science de la science, avec pour principal indicateur : les publications et les citations.
De Solla Price fut lorigine de la loi qui stipule que la prolifration de la connaissance scientifique suivrait
une courbe en S et celle concernant le phnomne de collaboration des chercheurs qui serait dpendant
dun ensemble de rgles sociologiques, dont la principale est la cration collge invisibles .
En 1969, Pritchard dfinit la bibliomtrie comme tant lapplication des mathmatiques et des mthodes
statistiques aux livre, articles et autres moyens de communication .
Dans le dbut des annes quatre vingt, aux tats unis, lutilisation des techniques bibliomtriques nest plus
restreinte lvaluation scientifique mais souvre lvaluation des activits de proprits industrielle. La
bibliomtrie est devenue alors un outil daide la veille scientifique et technologique.
Cette adaptation des techniques bibliomtriques au monde industriel sest facilite par lexistence de bases
de donnes mmorisant les dpts de brevets nationaux et internationaux sous forme de notices
bibliographiques.
[Narin, 1977] met en pratique ce concept en employant les mthodes bibliomtriques pour lanalyse des
rfrences bibliographiques de type brevet collect partir des bases de donnes brevet.
Le dveloppement des nouvelles technologies informatiques qui favorisent le traitement et les grandes
capacits de stockage ainsi que la prise de conscience de limportance de la bibliomtrie comme outil de
veille technologique par les dcideurs industriels, a pouss les universits et coles mener des travaux de
recherche pour dvelopper de nouvelles techniques facilitant lanalyse stratgiques des informations de
type : scientifiques, technologiques, conomiques, juridiques, etc.
Actuellement, les recherches en terme de dveloppement de techniques bibliomtriques sont orientes vers
le dveloppement doutils de traitements de texte intgral ainsi que doutils adapts aux diffrentes
informations accessibles via internet.
TECHNIQUES
Il est possible de classer sommairement les techniques selon les mthodes employes. Ces mthodes
sont [Rostaing, 1996]:

La modlisation des distributions des lments bibliomtriques : rpartition de type


cur/dispersion, loi de Bradford, loi de Lotka, loi de Zipf et unification en une loi universelle.

Llaboration dindicateurs uni varis, cest--dire de mesures purement quantitatives bases sur du
simple dnombrement ou des calculs de ratio partir des diffrents lments bibliographiques : la
date de publication, les revues, les auteurs, les organismes les pays, les thmes, etc.

Llaboration dindicateurs relationnels, cest--dire lexploitation des mthodes danalyse des


donnes statistiques pour dcrire les relations entretenues entre diffrents lments

73

Chapitre 2. La dcouverte des connaissances


bibliographiques : des mots associs, des co-classifications, des co-publications, des cooprations,
analyse des co-citations, etc.

La modlisation de la diffusion des connaissances : lois sur la circulation des ouvrages et thories de la
communication.

Les trois premires techniques mentionne ci-dessus sont abordes dans ce chapitre. La dernire ne sera pas
voque car ces mthodes statistiques sont plus particulirement dveloppes pour des problmatiques
propres aux sciences de la communication.
En ce qui concerne lapplication des trois premires techniques bibliomtriques, deux domaines sont
concerns :

La sociologie et lhistoire des sciences et des techniques,

Lvaluation de la recherche et des techniques,

Adoptes initialement par les institutions acadmiques des fins dvaluation du rendement (science
policy er research management), les mthodes issues de la bibliomtrie voient aujourdhui leurs domaines
dapplication dborder vers le secteur priv et se rpandre en tant quoutils danalyse dans :

Les centres dcisionnels des organisations commerciales,

Analyse de lenvironnement scientifique et technique,

Veille technologique et concurrentielle.

Lapplication des techniques bibliomtriques dans le domaine de la veille a pour principal objectif de
dgager un ensemble dindicateurs de tendance grce lanalyse de notices bibliographiques collectes
partir des bases de donnes. Ces indicateurs de tendances sont destins aider les dcideurs anticiper et
pouvoir prendre des dcisions en prenant en compte les lments stratgiques ncessaires. Les informations
collectes peuvent tre destines des tudes de veille scientifique, il sagit donc de notices
bibliographiques darticles scientifiques ou alors pour des tudes de veille technologiques et
concurrentielles, dans ce cas il sagira de notices de type brevet.
Actuellement, des solutions logicielles incorporant les concepts propres lanalyse de citation ou de
cooccurrence dlments bibliographiques des modules de visualisation sont disponibles sur le march.
Nous ciblons dans ce chapitre lapplication des mthodes de la bibliomtrie aux domaines de lanalyse de
lenvironnement scientifique et technique et la veille technologique et concurrentielle.

2.2 Etapes dextraction de connaissances partir


du texte
LECT se dcompose squentiellement en plusieurs phases ou concepts

Rechercher, identifier, collecter et valider linformation brute utile.

Cette phase de recherche dinformation (RI) est primordiale. Elle consiste rechercher puis
identifier les sources les plus pertinentes, en ciblant, sur chaque source, toute linformation utile
par des requtes adaptes. Ensuite, il convient de collecter linformation dtecte sous le meilleur
format et au meilleur cot et de la valider par chantillonnage, tri et valuation de pertinence.

Prparer, homogniser, organiser le corpus rcolt.

Ici, il sagit de saffranchir des problmes de format, de polysmie, dhomonymie, de synonymie, de


donnes manquantes, de biais, de bruit, de filtrage, de nettoyage (DataCleaning) afin de faciliter de futurs

74

Chapitre 2. La dcouverte des connaissances


traitements automatiques. Cette phase exploratoire sappuie essentiellement sur la linguistique (analyses
morphologique et syntaxique), certaines techniques lies lintelligence artificielle et la notion de
mtadonnes.
Lobjectif de cette phase est d'obtenir des donnes sous un format adapt lapplication de la dcouverte
de connaissances. Elle consiste en diffrentes tches comme l'homognisation, le nettoyage et la
structuration des donnes sources. La structuration des documents collects consiste en un dcoupage de
l'information utile en units (mots cls, individus, organismes, lieux, temps, etc.) pour prparer
l'extraction des plus significatives dentre elles en fonction des objectifs viss.

Extraction et analyse.

Il faut alors rechercher des classes, des associations ou des squences temporelles [Agrawal, 1993]
afin de mettre en vidence les structures existantes aussi bien au niveau des acteurs que des
concepts, den comprendre les mcanismes et les enjeux et den dduire leur volution.

Dans ce cadre, les techniques danalyse de donnes prennent souvent pour point de dpart une
reprsentation de l'information labore sous une forme matricielle. Ces matrices se dcomposent
gnralement en deux classes. Dun cot, les matrices reprsentant les relations entre entits issues du
mme type de donnes comme les auteurs, les mots cls ou des concepts, des sites Web, etc. De lautre
ct (cas plus complexe), les matrices reprsentent les relations entre deux entits diffrentes. Il peut sagir
alors de connexions documents-termes, auteurs-termes, auteurs-affiliations, etc.

Depuis le milieu des annes 90, les tapes de prparation et danalyse ont t privilgies (70% de
leffort global) au dtriment des deux autres et ont conduit de nombreux checs dimplantation
du processus de veille dans les entreprises essentiellement dus une grave carence en information
utile ou une mauvaise communication des conclusions [Dousset, 2003].

Restituer les nouvelles connaissances,

La visualisation des connaissances peut tre reprsente par diffrentes formes graphiques selon la
mthode danalyse choisie. En proposant, sur des supports de diffusion lectroniques, des
documents de synthse interactifs et des reprsentations graphiques adaptes chaque destinataire
(reporting). Cette tape est elle aussi fondamentale, mais elle ne reprsente que 20% de leffort
consenti.

Le processus dECT ne peut tre complet que si les connaissances infres peuvent tre exploites par
lutilisateur. Ainsi les informations induites l'tape prcdente doivent tre prsentes dans un format
directement exploitable.
Ce processus peut ensuite dboucher sur la gestion des connaissances (Knowledge Management : KM) en
compltant les dispositifs dj existants pour capitaliser et partager les connaissances et les comptences
dans lentreprise. Dans la suite de ce document, nous allons nous attacher dvelopper ces phases,
voques ci-dessus, dans le cadre de linformation scientifique et technique. Le dveloppement de chacune
de ces phases ( Etapes ECT dans Figure 17) va se baser sur les applications de la mthodologie de la
plateforme la plateforme de veille scientifique et stratgique ( application dans Figure 17), Ttralogie,
[Dousset, 1988], [Dkaki, 1995], [Dousset, 1995], [Dousset, 2006], [Dousset, 2009] dveloppe au sein de
lquipe des Systmes dInformation Gnraliss de lInstitut de Recherche en Informatique de Toulouse
(IRIT).
Toutefois, le principe gnral que nous allons prsenter est parfaitement transposable aux domaines
connexes que sont les mondes conomique, juridique, rglementaire ou mme politique et social.

75

Chapitre 2. La dcouverte des connaissances

Etapes de lECT

Application

Rechercher, identifier,
collecter et valider

Document lectronique
Section 2.4

Prparer, homogniser,
organiser

Extraction

Analyse et restitution

Entrept de document
Section 2.5
Reprsentation
multidimensionnelle
rduites des documents
Section 2.6
Fouilles de texte
Section 2.7
Restitution
Section 2.8

Figure 17: Etapes de lECT et ses applications.

2.3 Document lectronique


Un document lectronique est toute donne informatique (autre qu'un programme informatique ou un
fichier systme) qui doit tre utilise sous forme informatique, sans tre imprime. l'inverse du
document papier, le document lectronique peut permettre de sparer l'aspect prsentation (mise en
forme, mise en page, ...) et l'aspect information (contenu, donnes, ...), offrant alors la possibilit dune
exploitation spare. Dans le cadre de nos travaux nous allons nous intresser aux documents lectroniques
contenant du texte.
Le concept de document lectronique, tel quil est habituellement envisag, recouvre les documents
produits via des diteurs de texte au format Word, RTF, LaTeX, etc. Un document lectronique peut
donc tre vu comme une chane incluant des balises suites de caractres particulires, mots-cls prdfinis
dlimitant les diffrents lments de ce document.
Les sources de donnes traites par le processus de fouille de texte reprsentent une collection de
documents lectroniques qui sont dfinis comme un ensemble dinformations organises et reprsentes
selon les choix de lauteur [Fondin, 1998]. Nous pouvons associs un document plusieurs vues [Stern,
1997], [Sdes, 1998], [Chrisment, 2000], [Fuhr, 2000], [Ravat, 2007]:

Le contenu du document,

La structure physique du document qui dcrit le format (taille, mise en page, formatage) de
restitution physique dun document sur support (papier, cran). Elle est base sur la
dcomposition de son contenu en blocs dinformation et une arborescence de ceux-ci pour la
reprsentation visuelle du document.

La structure logique du document, qui permet didentifier les granules dinformation dun
document et de dfinir un dcoupage de linformation dun point de vue hirarchique. Une
structure logique peut tre dcompose en structure gnrique et spcifique. La structure
gnrique exprime lorganisation gnrique commune toute une classe de documents. La
structure spcifique dun document est une instance dune structure gnrique.

76

Chapitre 2. La dcouverte des connaissances

77

Les attributs externes ou identit du document, permettent de caractriser sans quivoque un


document (date de cration, format, n version).

La figure ci-dessous illustre ces diffrents composants [Khrouf, 2004].


Lgende
+ : 1 ou plusieurs fois
* : 0, 1 ou plusieurs fois

Document
Titre
Auteur1, Auteur2
Mail1, Mail2
Adresse

Mots cls : mc1, mc2, mc3


Rsum : dans cet article nous

Introduction
.

Document

Titre

Titre

Auteur1

Auteurs+

Auteur2

Mails+

Centr, Gras, pts 14

Mail1

Adresses+

Mail2

MC+

Adresse1

Rsum

Adresse2

...

Contenu
Section *
Structure Logique

Centr, Gras, pts 16

Dans cet article..


Introduction

Contenu

Structure
Structure Physique

Figure 18 : Vues dun document lectronique.

La dfinition du concept de structure logique fait apparaitre trois types de documents : les documents
non structurs (ne contenant pas dinformations de structure) ; les documents semi-structurs (contenant
peu dinformation sur la structure du document) ; et les documents structurs (contenant lensemble des
informations sur la structure du document).
Les sources que nous retenons dans le contexte de nos travaux, sont uniquement des sources lectroniques
(sources formelles section 1.3.1) contenant des documents lectroniques de type structurs ou peu
structurs, ainsi nous dfinissons deux types de sources de donnes :

Sources de donnes structures : les bases bibliographiques, les bases de brevets, (aussi bien sur
serveurs en ligne que sur cd-rom),

Sources de donnes peu structures : flux RSS, site web, page web, traces de connexions, groupes de
discussions, presse en ligne.

Chapitre 2. La dcouverte des connaissances

2.3.1 Structure logique dun document


Chaque source ayant sa propre structure, il est important de sadapter chacune dentre elles par recours
des outils de description des formats appels Mtadonnes.
Nous citons ici la dfinition donne par le National Information Standards Organisation (NISO), dans un
article paru en 2004, intitul "Under standing Meta data" :
Une mtadonne (du Grec, mta, ce qui dpasse, englobe) est une donne propos dune autre
donne. En sciences de linformation, les mtadonnes sont des ensembles de donnes structures
dcrivant des ressources physiques ou numriques, ou, sur un plan plus fonctionnel, de linformation
structure qui dcrit, explique, localise la ressource et en facilite la recherche, lusage et la gestion.
[Morel-Pair, 2001]
Gnralement, les mtadonnes sont ajoutes aux donnes pour aider identifier, dcrire et localiser les
diffrentes ressources (documents) lectroniques. Les mtadonnes sont des donnes factuelles qui
contiennent de linformation sur linformation des granules. Plus prcisment, c'est un ensemble structur
d'informations dcrivant une ressource. Elles sont associes aux ressources sans ambigut comme, par
exemple, le nom des auteurs, la date de publication, les mots cls choisis pour indexer le document, etc.
Elles permettent en fait dviter le reformatage physique des donnes en les dcrivant logiquement et en
autorisant un pilotage fin des automates dextraction et de dcoupage de linformation. Dans prs de 90%
des cas, le reformatage est inutile et les donnes rcupres peuvent tre directement traites en mode natif
[Dkaki, 1993].
Pour la structuration et la prsentation des documents sur le Web, des normes ont t tablies telles que
SGML, HTML et XML.
SGML (Structured Generalized Markup Language) prsente les caractristiques dun langage de balisage. Il
a t adopt officiellement en octobre 1986 comme norme internationale [ISO8879, 1986]. La structure
globale dun document SGML est la suivante :

Un ensemble de dclarations o sont prciss les caractristiques SGML utilises,

Une DTD (Document Type Definition) o la structure logique du document est exprime en
termes dlments que le document devra contenir,

Du texte.

HTML (HyperText Markup Language) est un langage de balisage driv de SGML. Ce langage a t
largement exploit pour la cration des pages Web. Tous les documents HTML sont en fait des
documents conformes une seule DTD : la DTD HTML [W3C, 1999].
Le dernier-n, XML (eXtensible Markup Language), est un langage de description et dchange de
documents structurs. Il est le rsultat de la coopration dun grand nombre dentreprises et de chercheurs
partenaires du W3C (World Wide Web Consortium) [W3C, 2000]. XML distingue deux classes de
documents :

Les documents bien forms sont ceux qui obissent aux rgles syntaxiques du langage XML,

Les documents valides sont des documents bien forms et obissent en outre une structure type,
dfinie explicitement dans une DTD.

Les ressources tant gnralement partages, plusieurs normes reposant sur les structures de documents ont
t dfinies pour permettre leur description l'aide des mtadonnes. La plus populaire est le Dublin Core
qui est un standard de description bibliographique cre en 1995. Il fait l'objet de la norme internationale
ISO 15836, disponible en anglais et en franais depuis 2003. Il est employ par l'Organisation Mondiale
de la Sant, ainsi que d'autres organisations intergouvernementales. Le Dublin Core a un statut officiel au

78

Chapitre 2. La dcouverte des connaissances


sein du W3C et de la norme ISO 23950. Ce standard a t conu pour dcrire de faon simple mais non
ambigu des ressources documentaires disponibles sur Internet. Il se compose dun jeu de 15 lments,
chacun de ces lments tant facultatif et rptable. Il sagit dun format ouvert. Il est interoprable et
compatible avec les principaux standards du web tels que HTML, XML, RDF. Cest lun des formats de
mtadonnes descriptives les plus rpandus sur Internet.
Le standard Dublin Core16 [Dublin Core, 2007] est un ensemble dlments ayant une smantique claire
et facilement comprhensible par les utilisateurs. Toutes les briques dun document lectronique peuvent
tre identifies de manire homogne par quinze proprits ayant trait :

au Contenu proprement dit de la brique de document (titre, sujet/mots-cls, description, source,


langage, relation, couverture),

la Proprit intellectuelle de ce contenu (crateur, diteur contributeur),

aux Caractristiques physiques de la brique (date, type, format, identifiant).

Nous dtaillons chaque lment du Dublin Core dans le tableau ci-dessous.


Nom

Identifiant

Dfinition

Titre

Title

Titre principal du document

Crateur

Creator

Nom de la personne, de l'organisation ou du service l'origine de la rdaction


du document

Sujet et Motsclefs
Description

Subject

Le sujet du contenu de la ressource

Description

Une description du contenu de la ressource

Editeur

Publisher

L'entit responsable de la diffusion de la ressource, dans sa forme actuelle, tels,


un dpartement universitaire, une entreprise.

Contributeur

Contributor

Une entit qui a contribu la cration du contenu de la ressource

Date

Date

Une date associe avec un vnement dans le cycle de vie de la ressource

Type
Format
Identifiant

Type
Format
Identifier

Source

Source

Langue
Relation
Couverture

Language
Relation
Coverage

La nature ou le genre du contenu de la ressource


La matrialisation physique ou digitale de la ressource
Une rfrence non ambigu la ressource dans un contexte donn
Une rfrence une ressource partir de laquelle la ressource actuelle a t
drive
La langue du contenu intellectuel de la ressource
Une rfrence une autre ressource lie cette ressource
La porte ou la couverture spatio-temporelle de la ressource

Droits

Rights

Information sur les droits sur et au sujet de la ressource


Tableau 9: Elments du Dublin Core.

2.3.2 Exemples de structure logique


Les lments Dublin Core sont utilisables suivant deux types diffrents de syntaxes :

16

La syntaxe HTML permet d'inclure des lments Dublin Core directement dans un document
HTML (ou XHTML) en utilisant les balises "META".

http://www.dublincore.org

79

Chapitre 2. La dcouverte des connaissances

<meta name="DC.Title" content="La vie priv&amp;eacutee et la technologie">


<meta name="DC.Description" content="Actualit&eacute; concernant la tra&amp;ccedilabilit&eacute;
sur Internet">
<meta name="DC.Date" content="2008-09-17">
<meta name="DC.Format" content="text/html">
<meta name="DC.Contributor" content="Hubert Guillaud">
<meta name="DC.Language" content="fr">
<meta name="DC.Source" content="http://www.internetactu.net/2008/09/17/la-vie-privee-etlatechnologie">
<meta name="DC.Type" content="Article"
Figure 19: Mtadonnes dans un document HTML.

La syntaxe XML/RDF permet des constructions plus complexes pouvant tre incluse directement
dans les documents qu'elle qualifie mais galement utilise pour exprimer des mtadonnes
portant sur des documents externes.

< Title>La vie priv&amp;eacutee et la technologie< /Title>


< Description >Actualit&eacute; concernant la tra&amp;ccedilabilit&eacute; sur Internet< / Description >
< Date>2008-09-17< / Date >
< Format>text/html< / Format >
< Contributor>Hubert Guillaud< / Contributor >
< Language>fr< / Language >
< Source>http://www.internetactu.net/2008/09/17/la-vie-privee-et-latechnologie< / Source >
< Type>Article< / Type >
Figure 20: Mtadonnes dans un document XML.

Les travaux de [Dousset, 2003] dans le cadre de lECT se sont essentiellement bass sur les documents
lectroniques issus des bases de donnes bibliographiques. Ce type de base de donnes est une collection de
notices bibliographiques dcrivant des documents de type scientifique en fonction de leurs thmatiques.
Chaque notice bibliographique est structure en un ensemble de champs dtermins rpondant des rgles
de forme et de contenu prcis tel que : Titre, Auteur, Pays, Organisme, etc. La figure suivante prsente un
exemple de notice issue de la base INSPEC.
Title: Information superhighway and the digital global library: Realities and challenges
Authors: Ching-Chih Chen
Affiliation: Graduate Sch. of Libr. & Inf. Sci., Simmons Coll., Boston, MA, USA
Journal: Microcomputers for Information Management Vol: 11 Iss: 3 p. 143-55
Date: Sept. 1994
Abstract: The fast technological developments in recent years, particularly in the area of
telecommunications, and [....]
Thesaurus: Information dissemination; Information networks; Library automation
Country of Publication: USA
Figure 21: Exemple de notice bibliographique INSPEC.

Ces notices sont des reprsentations intermdiaires permettant de reflter aussi fidlement que possible le
contenu smantique des documents de la collection. Ces informations bibliographique sont gres
sparment des documents qui leurs sont associs. Contrairement aux mtadonnes construis partir des
langages XML et HTML qui sont directement inclus dans les documents.

80

Chapitre 2. La dcouverte des connaissances


Dans le cadre de nos travaux, nous considrons les mtadonnes associes un document lectronique
comme une information bibliographique. Nous proposons alors dtudier ce type dinformation sous
toutes ses formes allant des documents issues du web aux notices issues des bases de donnes
bibliographiques.

2.4 Des documents lentrept de document


[Ravat, 2007] dfinit un entrept de document comme un espace de stockage centralis dinformations
(contenu, structures, mtadonnes) issues des documents sources (htrognes en structures et en types)
pertinents pour une analyse portant sur un domaine donn. Dans le cadre de lECT, cette centralisation,
lextraction des documents sources, leur conservation et laccs aux documents sont raliss selon un
modle unique.
La premire tape du processus dECT est la dtection et le recueil dinformation depuis des sources
htrognes pour aboutir une collection de documents. Cette dernire peut tre compose par plusieurs
ensembles de documents reprsentatifs du domaine danalyse.
La slection des donnes est gnralement ralise par linterrogation dun ou plusieurs ensembles de textes
suivant les besoins de lutilisateur. La premire tape consiste donc effectuer une simple recherche
dinformation au sein des sources disponibles. Un systme de recherche dinformations est un ensemble de
modles et de processus permettant la slection dinformations pertinentes en rponses aux besoins
utilisateurs exprims laide dune requte contenant le plus souvent des mots cls [Salton, 1971],
[Rijsbergen, 1979]. Larchitecture dun systme de recherche dinformation est compos dun module
dindexation automatique [Maron, 1960] ou semi-automatique [Maniez, 1991] des documents ou des
units informationnelles ; dun module dappariement document-requte afin de restituer lutilisateur
toutes les informations susceptibles dtre pertinentes et ventuellement dun module de reformulation
[Rocchio, 1971] de la requte. La qualit de ces systmes tient en grande partie son processus
dindexation et la pertinence du modle de reprsentation sous-jacent.
Les diffrents types de modles de systmes de recherche dinformation se distinguent donc par leur
processus dindexation ou formulation des requtes, mais plus particulirement par leur processus de
correspondance entre les reprsentations des requtes et des documents. Ces modles ont t tudis dans
de nombreux ouvrages [Salton, 1971], [Rijsbergen, 1979], [Salton, 1989], [Frakes, 1992], [BaezaYates,
1999], [Chowdhury, 2004] et de nombreux travaux de recherche notamment dans lquipe SIG de lIRIT
[Tuffery, 1984], [Anton, 1987], [Denjean, 1989], [Soul-Dupuy, 1990], [Boughanem, 2000], [Mothe,
2000], [Soul-Dupuy, 2001], [Sauvagnat, 2005].
Comme les sources de donnes actuelles sont trs diverses (bases documentaires, Internet, brevets, ...), les
systmes dECT doivent pouvoir manipuler simultanment des donnes issues de sources htrognes.
Lhtrognit des sources peut se traduire diffrents niveaux : systmes, modles, formats et
smantiques des donnes [Kedad, 1999]. Dans ce contexte la problmatique essentielle dans llaboration
dun entrept de document est la prise en compte de lhtrognit structurelle des documents textuels
sources mais galement de lhtrognit smantique (conflit de nom dattribut ou de type, absence de
valeur, ...).
Pour rpondre cette problmatique plusieurs travaux au sein de lquipe SIG [Dkaki, 1993],
[Chrisement, 1997], [Chrisment, 2000], [Khrouf, 2004], [Ravat, 2007] sy sont intresss. Ils consistent
dfinir un modle de descripteur de format gnrique (structure et smantique) de documents issus de
sources htrognes. Ce descripteur est une reprsentation prdfinie pour lensemble de la collection.

81

Chapitre 2. La dcouverte des connaissances

82

Descripteur gnrique

Descripteur de format spcifique


au corpus 1

..

Descripteur de format spcifique


au corpus n

..

Mtadonnes du corpus 1

D1

..

Dm

Mtadonnes du corpus n

D1

..

Dp

Figure 22: Descripteurs de format gnrique.

Chaque ensemble de documents issus de la mme source possde un format spcifique. Chaque format est
ensuite dcrit par des descripteurs de format spcifique qui analysent finement sa structure et dcomposent
son contenu en unit smantiques pour dfinir les modes dextraction les mieux adapts chaque
ensemble. Un descripteur de format gnrique va tre dfini pour permettre le regroupement des units
smantiques selon leurs contenus. Ces descripteurs servent dinterface pour lapplication des mthodes
didentification, dextraction et de dnombrement des informations utiles.
Ces solutions reposent sur les systmes de rcritures qui sont utiliss pour la recherche de motifs et de
signatures, la conversion de format, le balisage, la gnration de liens, lindexation automatique, etc.

Le descripteur de format spcifique repose sur des rgles de conversion (de type rgles de
production des grammaires transformationnelles) pour transformer le balisage initial en un
balisage spcifique, respectant le formalisme de la reprsentation-pivot.

Le descripteur de format gnrique repose sur la spcification des rgles de rcriture qui permet
dunifier les diffrents balisages spcifiques.

Lobjectif de la rcriture est de parcourir des flux dentre et de les rcrire en sortie. La rcriture est
programme en spcifiant une liste ordonne de rgles appliquer sur le flux en entre (texte,
document,...). Cette liste constitue un filtre qui contient les motifs capturer, pour les liminer ou les
transformer. Si la comparaison est positive, loutil rcrit le motif associ.
A partir des rsultats du descripteur gnrique, des rgles dextraction sont dfinies pour permettre disoler
linformation partir des documents traits. Ainsi, chaque champ est distinguable et surtout peut tre
facilement extrait. Linformation explicite est directement lisible.
Les rgles de transformation ou rgles de rcriture rgles dextraction sont exprimes partir
dexpressions rgulires, qui spcifient les motifs capturer et rcrire. Elles possdent un
fonctionnement pipe-line , chacune recevant un flux, le traitant et le transmettant ventuellement la
suivante.

Chapitre 2. La dcouverte des connaissances

83

2.5 Mthodes de reprsentation


multidimensionnelle rduite des documents
Un entrept de document rpond la ncessit de synthtiser les informations recueillies. Le format de
l'information synthtise doit tre adapt lapplication de fonctions d'extraction de donnes, qui utilisent
essentiellement des donnes numriques en entre. Les reprsentations rduites des documents sous forme
de matrice sont un moyen de transformer les donnes qualitatives en quantitatives. Cette procdure est
largement utilise dans les applications statistiques.
Dans le processus dECT, les informations vont tre rduites un format permettant lapplication des
fonctions dexploration choisies. Les mthodes d'analyse de donnes (ou encore : analyses descriptives
multidimensionnelles) sont dvolues, pour l'essentiel, la description de tableaux : de mesures, de
contingence, ou de prsence-absence [Lebart, 1995]. Les travaux de [Dousset, 2003] prsentent diffrents
formats de reprsentation multidimensionnelle rduite des documents. Ils reposent sur lidentification des
dpendances existantes dans la collection de documents et sont reprsents sous forme de matrices. Au
cours de cette section, nous allons prsenter ces diffrentes matrices.

2.5.1 Units textuelles


Dans lanalyse de donnes appliques aux documents textuels, la notion dindividu est associe aux units
textuelles dont la juxtaposition constitue un corpus. Ainsi, une unit textuelle peut tre:

Un document : notices bibliographiques, brevets, pages Html, traces de connexions, articles de


presse, etc.

Une subdivision de document : chapitre, paragraphe, phrase, ligne, etc.

Lensemble des units textuelles reprsente une population dindividus sur laquelle va porter lanalyse. Et
les variables tudies vont reprsenter les caractristiques des individus. Une variable peut tre associe
alors aux balises (auteurs, pays, titre, descripteurs, ) dans le cas dun individu qui reprsente un
document de type notice bibliographique. Le but dune analyse est soit de classer les individus en fonction
dune ou plusieurs variables, soit de rechercher les corrlations entre les diffrentes variables sur la totalit
de la population ou sur des parties significatives. Il existe deux grands types de variables Qualitatives et
Quantitatives. Chaque type de variable peut tre subdivis en catgories plus fines :
La figure 23 rsume ces deux types de variables :

Variables
Qualitatives
Ordinales

Nominales

Quantitatives
Hirarchiques

Continue

Discrtes

Figure 23 : Types de variables.

Variables quantitatives,
quantitatives contiennent des valeurs mesurables. La valeur mesure sur un individu est
reprsente par une quantit. Il existe deux types de variables quantitatives discrtes et continues. Les
variables quantitatives discrtes sont associes aux valeurs que lon peut numrer. Elles ne peuvent prendre
que des valeurs discrtes, cest--dire spares les unes des autres. Cest le cas par exemple pour le nombre

Chapitre 2. La dcouverte des connaissances


de citations, le nombre dauteurs, le nombre de lignes dans un document, etc. Les variables quantitatives
continues peuvent prendre toutes les valeurs possibles dans un intervalle. Elles sont exprimes en classe de
largeur gale.
Variables qualitatives,
qualitatives comme leur nom lindique, elles contiennent des valeurs qui expriment une
qualit. Elles peuvent tre ordinales, nominales ou hirarchiques. Dans le cadre de nos travaux, nous nous
intresserons presque exclusivement qu ltude des variables qualitatives.

Les variables qualitatives ordinales, sont associes des valeurs de type numrique ou assimil et
mesures sur chaque individu (parfois qualifie de catgorie). On peut alors classer les individus
par valeurs croissantes ou dcroissantes17. Nous retrouvons par exemple lanne de publication,
lanne de dpt, le jour de la semaine ou du mois, ...

Les variables qualitatives nominales, prennent des valeurs qui sont des lments dune catgorie non
hirarchique, cest--dire, ses lments ne peuvent pas tre rangs dans une gradation logique ce
sont des modalits. Exemple : noms des auteurs, des revues, des pays,

Les variables qualitatives hirarchiques, correspondent aux valeurs qui sont associes aux lments
dune catgorie hirarchique. La valeur mesure sur un individu est ordonnables selon une
granularit. Nous retrouvons ainsi les zones gographiques, les inclusions smantiques, les
priodes, etc.

Ces variables qualitatives peuvent tre :

Uni-modale : cette variable ne prend quune seule modalit pour mesurer un individu. Exemple :
anne de publication ou de dpt, revue, langue, type de document, source, 1 auteur, etc. Une
seule modalit est alors requise obligatoirement pour chacun de ces champs dinformation.

Multimodales modalits exclusives : cette variable peut prendre simultanment plusieurs modalits
diffrentes pour dcrire un individu. Exemple : auteurs (un article peut tre sign par plusieurs
auteurs, tous diffrents mais napparaissant quune seule fois), dposants, mots-cls, classifications,
citations, adresses, etc.

Multimodales modalits non exclusives : cette variable peut prendre la mme modalit plusieurs
fois. Exemple : pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cits, revues
cites, termes issus du texte libre (titre, rsum, texte intgral), etc.

2.5.2 M esures de dpendances


Selon la nature de lindividu, de la variable tudie, la mesure de dpendance diffre.

2.5.2.1 V ariables quantitatives


Soit X et Y deux variables quantitatives, supposes n valeurs

notes

La mise en vidence de dpendance entre ces deux variables permet de rduire lespace informationnel afin
de mieux le matriser. De mme il est possible dliminer des lments totalement indpendants du
contexte. Ainsi, seules les relations les plus significatives seront conserves.

17

Source : http://fr.wikipedia.org/wiki/Variable_ordinale

84

Chapitre 2. La dcouverte des connaissances

85

2.5.2.2 Variables qualitatives


Nous considrons deux variables qualitatives observes simultanment sur n individus. On suppose que la
premire, note X possde r modalits. Lensemble de ces valeurs appartiennent {m1, m2,,mr} avec mj
une modalit considre.
Une seconde variable, note Y, elle-mme observe sur n individus, possde s modalits. Lensemble de ces
valeurs appartiennent {m1, m2,, ms} avec mk une modalit considre.
Lidentification des relations de dpendances entre ces deux variables qualitatives prsentes dans de grandes
collections de documents, peut tre dfini selon diffrentes mesures. Nous retrouvons notamment :

La contingence est issue du croisement de deux variables uni-modales. La somme des lments de
la matrice est alors gale au nombre de documents possdant simultanment les deux modalits.
Les croisements peuvent tre de type Journaux
documents

Annes ou encore N de

Types de documents .

La cooccurrence est la prsence simultane de deux units linguistiques (deux mots par exemple ou
deux codes grammaticaux) au sein dun mme contexte linguistique (le champ balis, le champ
textuel, le paragraphe ou la phrase). Les cooccurrences rsultent du croisement de deux variables
qualitatives dont au moins lune nest pas uni-modale, modalits multiples, exclusives ou non.

Un certain nombre de modles et de coefficients ont t ce jour proposs : [Lafon, 1984],


[Church, 1990], [Dunning 1993], [Fung, 1997], [Manning, 1999], [Vronis, 2003], [Wu, 2003],
[Vronis, 2004], etc.

La proximit, qui tudie en termes de distance deux variables. Pour le texte libre, il est possible
de ne prendre en compte que les concidences des modalits physiquement proches ( ct, dans la
mme phrase, n mots de, etc.).

La prsence/ absence, Il existe au moins un document du corpus qui contient simultanment les
deux modalits.

Ces mesures donnent des visions diffrentes mais complmentaires dune mme ralit. Dans le contexte
de ce chapitre, nous ciblons le croisement de variables qualitatives. On gnre ainsi une matrice dont le
nombre de lignes est gal au nombre de modalits de la premire variable et le nombre de colonnes celui
de la seconde. Ces matrices serviront de bases aux techniques dextraction de connaissances.
Le tableau ci-dessous, rsume les diffrents formats de matrices selon le type de variables qualitatives.

Chapitre 2. La dcouverte des connaissances

Multi
Mu ltimodale
lti modale
modalits exclusives

UniUni - modale

UniUni - modale

Multimodale
Multi modale
modalits exclusives

86

Multimodale
modalits non
exclusives

Contingence
Prsence/ absence
Cooccurrences simples
Prsence/ absence
Cooccurrences simples
Cooccurrences multiples
Prsence/ absence

Multimodale
Multi modale
modalits non
exclusives

Figure 24 : Types de matrices.

Il existe deux types de matrices [Dousset, 2003] :

Les matrices symtriques, sont issues du croisement dune variable non exclusive avec elle-mme
(auteurs, pays, villes, citations, brevets cits, mots-cls, multi-termes). Les croisements effectus
permettent de mettre en avant les associations entre les modalits dune mme variable. Ainsi la
matrice symtrique, croisant des auteurs permet de rvler leur collaboration, leur stratgie et la
formation de leurs quipes de recherches.

Les matrices asymtriques, croisent deux variables diffrentes, ou alors la mme variable filtre par
deux ensembles diffrents de modalits. Leur analyse permet de rvler les corrlations croises
entre leurs modalits respectives. Cest un des lments cls de la dcouverte de connaissances
cachs dans les grands corpus dinformation textuelle.

Ainsi le croisement dune variable avec les documents est fortement utilis en Recherche dInformation
pour les calculs de pertinence, le filtrage de document etc. Le croisement dune variable avec le temps
permet de dtecter les tendances et les mergences. Les croisements entre des auteurs et des thmatiques
permettent de rvler les centres dtudes les plus importants, les concurrences, les collaborations relatives
un sujet spcifique etc.
Dans ce qui suit nous dtaillerons chaque classe de matrice :

Figure 25 : Classification des matrices.

Chapitre 2. La dcouverte des connaissances

87

La matrice Prsence-Absence est une reprsentation rduite des documents qui nous permet
dappliquer des indicateurs bibliomtriques robustes bass sur le qualitatif. La construction de ces
indicateurs prend comme point de dpart les marginales de la matrice et les autres cellules ne sont
pas prises en compte. Dans le cas dune veille scientifique sur un domaine donn nous pouvons
valuer par ces indicateurs : lindice de notorit dun auteur ou dun journal, le nombre de
journaux o un auteur a publi, etc.

La matrice Cooccurrence peut prendre plusieurs reprsentations selon lobjectif de lanalyse. Nous
utilisons la matrice Cooccurrence simple pour effectuer des analyses relationnelles quantitatives
telles que calculer le nombre de co-signature entre deux auteurs. Cette matrice se rduit la
matrice Contingence lorsque les deux variables qualitatives sont uni modales. La
Cooccurrence Multiple est utilise lorsque nous souhaitons tudier la frquence des concepts
dans un document, dans ce cas il suffit quil y ait au moins une des variables tudies qui soit
multimodales modalits non exclusives.

2.5.3 Matrice de PrsencePrsence-Absence


Cette matrice croise deux variables qualitatives. Elle consigne lexistence dau moins un individu, ici un
document, contenant simultanment une modalit de la premire variable et une de la seconde. Elle nest
compose que de zros et de uns.
Exemple
Soit un corpus contenant un ensemble de notices bibliographiques, un individu est associ chaque notice
bibliographique, et caractris par un ensemble de variables qualitatives (Auteurs, Journaux, Dates).
Lapplication de la mesure de dpendance prsence-absence aux deux variables Auteurs Journaux,
consiste consigner lexistence dau moins une notice contenant simultanment une modalit de la
variable Auteur et une associe la variable Journaux . Nous obtenons alors, pour un item du champ
1 si un Auteur a sign au moins une fois dans un Journal, et donne 0 sinon.
x Journaux
Auteurs
Dousset
Cavaller
Porter
Marginale
Colonne

1
1
0

0
1
0

1
1
1

Marginale
Ligne
2
3
1

Sci-Watch

R&D&I Datametrics

Figure 26 : Exemple de Matrice Prsence-Absence.

Interprtations :

La marginale ligne, identifie le nombre de journaux dans lesquels a publi un auteur, ce qui nous
permet de dduire indirectement la finalit de recherches de cet auteur : il a t valu par autant
de comit de lecture.

La marginale colonne, rvle le nombre dauteurs qui ont sign au moins une publication dans le
journal correspondant, ce qui nous permet de dduire la taille de la communaut qui utilise ce
mdia pour communiquer ses travaux dans le domaine concern.

Chapitre 2. La dcouverte des connaissances

88

2.5.4 Matrice de Cooccurrence


Il existe plusieurs types de matrices de cooccurrences, indiquant la prsence simultane de deux modalits
associes deux variables qualitatives. La matrice de cooccurrence simple, se base sur le dnombrement des
individus chez qui la cooccurrence se produit. La matrice de cooccurrence multiple sur le cumul des
couples de modalits qui caractrisent lensemble des individus.

2.5.4.1 Matrice de Coo


C ooccurrence
ooccurrence Simple
Simple
Permet de croiser deux variables qualitatives. Elle consigne le nombre dindividus qui possdent
simultanment une modalit de la premire variable et une de la seconde.
Exemple
Nous reprenons, lexemple de la matrice prsence-absence, dans le cas de lapplication de la mesure de
dpendance cooccurrence simple aux deux variables Auteurs Journaux, la mesure consiste calculer le
nombre de notices contenant simultanment une modalit de la variable Auteur et une seconde associe
la variable Journaux. Nous obtenons alors, pour un item du champ auteur, le nombre de publications quil
a sign pour un item particulier du champ journal.

x Journaux
Auteurs
Dousset
Cavaller
Porter
Marginale Colonne

Sci-Watch R&D&I Datametrics


2
1
0
3

0
1
0
1

5
2
9
16

Marginale
Ligne
7
4
9
20

Figure 27 : Exemple de Matrice de Cooccurrence Simple.

Interprtations :

La marginale ligne, reprsente le nombre de publications par auteur,

La marginale colonne, identifie le nombre de signatures par journal, et non pas le nombre de
publications par journal.

2.5.4.2 Matrice de Cooccurrence Simple Symtrique


Si la mesure de cooccurrence simple permet de croiser une variable qualitative avec elle mme, nous
parlerons alors de matrice de cooccurrence simple symtrique.
Dans ce cas, chaque cellule de la matrice permet didentifier le nombre dindividus possdant
simultanment deux modalits de la variable tudie. La diagonale est dominante et chacun de ses
lments est associ une modalit et consigne le nombre total dindividus caractris par cette dernire.
Les autres lments de la mme ligne (ou colonne) reprsentent les liens de cette modalit avec le reste des
modalits associes la variable tudie.
Nous reprenons, lexemple de la matrice prsence-absence, dans le cas dapplication de la mesure de
dpendance cooccurrence simple aux deux variables Auteurs Auteurs, la mesure consiste calculer le
nombre de notices contenant simultanment deux modalits de la variable Auteur. Nous obtenons alors,
pour chaque item du champ auteur, le nombre de publications quil a sign avec un autre item du mme
champ.

Chapitre 2. La dcouverte des connaissances


x Auteurs
Auteurs

89

Dousset Cavaller Porter

Dousset

Cavaller

Porter

Figure 28 : Exemple de Matrice de Cooccurrence Simple Symtrique.

Interprtations :

Un lment diagonal reprsente le nombre de publications par auteur,

Une autre cellule identifie le nombre de co-signatures entre deux auteurs.

2.5.4.3 Matrice
Matrice de Contingence
Si la mesure de cooccurrence sapplique deux variables qualitatives uni-modales, nous parlerons alors de
mesure de contingence. Cette mesure permet de croiser deux variables qualitatives uni-modales. Elle
consigne le nombre dindividus qui possdent simultanment une modalit de la premire variable et une
de la seconde. Ainsi un individu nest compt quune seule fois dans la matrice.

Exemple
Nous reprenons, lexemple de la matrice prsence-absence, dans le cas dapplication de la mesure de
dpendance contingence aux deux variables uni-modales Journaux-Dates, la mesure consiste calculer le
nombre de notices contenant simultanment une modalit de la variable Journaux et une seconde
associe la variable Dates . Nous obtenons alors, pour un item du champ Journaux, le nombre de
publications apparues pour un item du champ Dates. Comme les champs Dates et Journaux sont unimodaux, chaque publication (ou notice) nest compte quune fois.

x Dates
Journaux
Sci-Watch
R&D&I
Datametrics
Marginale Colonne

2005

2006 2007

85
65
32
182

91
77
28
196

43
31
12
86

Marginale
Ligne
219
173
72
464

Figure 29 : Exemple de Matrice de Contingence.

Interprtations :

La marginale ligne, reprsente le nombre de publications par journal,

La marginale colonne, identifie le nombre de publications par date.

La somme de tous les lments reprsente leffectif global des notices du corpus analys.

2.5.4.4 Matrice de Cooccurrence Multiple


Permet de croiser deux variables qualitatives dont lune au moins est modalits multiples et non
exclusives. Pour un individu elle dnombre les paires de modalits dans un document est cela pour toutes

Chapitre 2. La dcouverte des connaissances

90

la population. Pour ce type de reprsentation, il est intressant dtudier le cas o la premire variable est
lidentifiant dun document (individu) et la seconde est, soit les termes dans une phrase ou soit les pays
dans un champ dadresses multiples. Ce qui nous permet de dduire pour chaque ligne de la matrice le
vecteur des occurrences des modalits de la deuxime variable.
Ainsi, la cooccurrence multiple est principalement utilise en Recherche dInformation [Boughanem,
2001] afin de faire ressortir les documents les plus pertinents, cest dire ceux dans lesquels le terme
recherch apparait le plus souvent, de faon significative.
Elle est quivalente la cooccurrence simple dans le cas de deux variables multimodales modalits
exclusives ou dans le cas du croisement dune variable multimodale et une variable uni-modale.
Elle est identique la contingence, dans le cas de croisement de deux variables uni-modales.
Exemple
Soit un corpus (la population) contenant un ensemble de notices bibliographiques (les individus), un
individu est caractris par la variable qualitative modalit multiple et non exclusive Pays, et la variable
qualitative uni-modale N de notice.
Lapplication de la mesure de dpendance cooccurrence multiple aux deux variables N de notice - Pays,
consiste calculer le nombre de fois o la modalit de la variable Pays est prsente dans une notice. Et cela
pour toutes les modalits de la variable Pays et toutes les notices.

x Pays
Notice
Notice 1
Notice 2
Notice 3
Marginale Colonne

France Espagne USA


2
2
0
4

0
1
1
2

0
0
1
1

Marginale
Ligne
2
3
2
7

Figure 30 : Exemple de Matrice de Cooccurrence Multiple.

Interprtations :

La marginale ligne, identifie le nombre de fois o les modalits de la variable Pays sont cites dans
chaque notice,

La marginale colonne, rvle pour chaque modalit de la variable Pays le nombre de fois o elle
apparait dans le corpus.

2.6 Mthodes de fouilles de texte


Dans cette section, nous prsentons les trois fonctions dexploration (classification, association, squence)
bases sur les techniques danalyses de donnes, dans une optique de faire merger les informations caches
au sein de grandes masses de donnes. Les reprsentations multidimensionnelles rduites des documents,
sont la base dapplication de ces mthodes.

Chapitre 2. La dcouverte des connaissances

Figure 31 : Fonctions et techniques dexploration.

2.6.1 La classification et le regroupement


Lors dun processus de classification, les donnes sont ranges dans des classes prdfinies ou sont
regroupes en fonction de leurs similitudes, sans groupes priori. La classification induit lexistence dun
systme de rfrence et dune mtrique permettant de calculer la ressemblance dun lment, soit avec une
classe prdfinie soit avec les autres lments dans le cas dun regroupement [Dkaki, 1995]. La
Classification est ensuite obtenue via des mthodes issues de lanalyse statistique. Les mthodes de
classifications sont dcrites dans [Sokal, 1963], [Sibson, 1973] et leurs applications aux donnes
documentaires sont en particuliers dtailles dans [Croft, 1977], [Rijsbergen, 1979], [Voorhees, 1986].
Deux classes de mthodes de classification ont t dfinies. Les mthodes non hirarchiques (par exemple
la Classification Par Partition CPP) ont pour objectif de partitionner lensemble des objets en diffrents
groupes (un objet ne peut appartenir qu un seul groupe) alors que les mthodes hirarchiques (par
exemple la Classification Ascendante Hirarchique CAH) permettent dobtenir un arbre de classification
plusieurs niveaux [Mothe, 2000].

2.6.1.1 La classification
classification ascendante hirarchique (CAH)
Elle considre initialement toutes les observations comme tant des clusters ne contenant qu'une seule
observation (singleton), et leur distance est alors le plus souvent dfinie comme tant leur distance
euclidienne. La premire tape consiste donc runir dans un cluster deux observations les plus proches.
Puis le principe de CAH continue, fusionnant chaque tape les deux clusters les plus proches au sens de
la distance choisie.
Le processus s'arrte quand les deux clusters restant fusionnent dans l'unique cluster contenant toutes les
observations. Les mthodes de ralisation de ces classifications sont relates dans [Dobrowolski, 1964],
[Bouroche, 1989], [Bellot, 2004] entre autres. Cette analyse classique base sur une matrice de distances
est entirement interactive, permettant, entre autres, le choix du niveau de coupure, lobtention du dtail
dune classe, lexportation de la classification vers le tableur, les cartes factorielles, ou encore les cartes
gostratgiques.

2.6.1.2 La classifi
classification
lassifi cation par partition
p artition (CPP)
Il nest plus question, ici, de proposer une hirarchie de classes imbriques autorisant parfois plusieurs
niveaux de coupure cohrents, mais de simplement dfinir une partition compose dun nombre
maximum de classes dfini lavance.
Cette mthode consiste alors choisir dabord un initiateur pour chaque groupe. Chaque lment est
ensuite rattach linitiateur le plus proche. De ce processus rsulte un ensemble de groupes disjoints. Le

91

Chapitre 2. La dcouverte des connaissances


centre de gravit de chaque groupe est alors calcul. Le processus est ritr avec comme initiateurs de
groupes les centres de gravit obtenus litration prcdente ; cela jusqu ce que les centres de gravit
obtenus soient stables.

2.6.2 Association
La recherche dassociations consiste dtecter les liens qui peuvent exister entre deux donnes de diffrents
types (par exemple entre les pays et les thmatiques de recherche ou entre les journaux et les laboratoires de
recherche).

2.6.2.1 Lanalyse en composante principale (ACP)


(ACP)
Elle sapplique aux donnes quantitatives et ventuellement aux matrices issues du qualitatif comme celles
de contingence et de cooccurrence. L'objectif de l'analyse en composantes principales est de revenir un
espace de dimension rduite en dformant le moins possible la ralit et d'expliquer pour le mieux les
liaisons initiales entre les variables. Cette mthode est base sur la recherche des axes principaux dun
nuage de points [Benzecri, 1973]. Le nuage des individus (lignes) est reprsent dans lespace des variables
(colonnes). Le but est de trouver le meilleur modle rduit n variables synthtiques qui reprsente au
mieux lensemble des informations de la matrice.
LACP engendre la rduction du nombre de caractres permettant des reprsentations gomtriques des
individus et des caractres, c'est--dire de visualiser les donnes n dimensions (n>3) dans un espace p
dimensions (p<n) laide dune projection de ces donnes sur les plans dfinis par les p dimensions. Cest
la matrice des variances-covariances (ou celle des corrlations) qui permet de raliser ce rsum pertinent,
parce quon analyse essentiellement la dispersion des donnes considres. De cette matrice, on va extraire
les vecteurs propres associs aux valeurs propres de plus forts modules de cette matrice pour dterminer les
composantes principales de ce modle optimal.
La premire composante reprsente en fait laxe de rotation autour duquel le nuage de points a la plus
faible inertie, donc celui qui explique le mieux la dispersion des individus. En tendant cette dmarche au
sous espace orthogonal, on trouve la seconde composante et ainsi de suite.
Comme la nature et la dispersion des variables sont parfois trs htrognes, une normalisation de celles-ci
est alors ncessaire pour obtenir des cartes lisibles et sur lesquelles les variables ont toutes des rles
similaires. Cest le principe de l'Analyse en Composantes Principales Rduite A.C.P.R. Les variables sont
alors rduites par normalisation (division par la norme de chaque vecteur colonne), ce qui a tendance
arrondir le nuage et donc gnrer des valeurs propres de plus faibles modules. La matrice diagonaliser
est alors celle des corrlations (diagonale unitaire) et non plus la matrice de variance-covariance.
LACP joue un rle central, cette mthode sert de fondement thorique aux autres mthodes danalyse de
donnes dites factorielles qui en apparaissent comme des cas particuliers.

2.6.2.2 Lanalyse factorielle des correspondances (AFC)


Elle sappuie sur la mme logique que lACP ceci prs quelle sapplique des donnes qualitatives. La
technique de l'AFC est essentiellement utilise pour de grands tableaux de donnes toutes comparables
entre elles, si possible exprimes toutes dans la mme unit. Elle sert dterminer et hirarchiser toutes
les dpendances entre les lignes et les colonnes du tableau. Chaque ligne correspond un profil unitaire, il
suffit donc de faire une analyse en composantes principales de ces profils.
Les donnes sont transformes afin de mettre en vidence la rpartition relative de lindividu par rapport
aux variables et dtablir les corrlations entre les profils obtenus. En fait, lAFC correspond une ACP
ralise sur une matrice qui a dj subie un traitement supplmentaire, en prenant en compte la marginale

92

Chapitre 2. La dcouverte des connaissances


des variables et des individus. Dans ce cas, les individus et les variables sont visualiss dans le mme espace.
La distance entre une variable et un individu est assimilable une relation de proximit et donc de
dpendance. Elle permet dobserver la typologie des individus par rapport aux variables ou la typologie des
variables par rapport aux individus [Benzecri, 1973].

2.6.3 Squences
Les squences peuvent tre dcouvertes au travers de tables de cooccurrences trois dimensions, cest dire
partir de sries temporelles de tables deux dimensions. Il sagit, dans un premier temps, de dcouvrir les
associations au sein de chacune des tables, puis de faire apparatre les volutions de ces associations. Cette
dcouverte de squences est base sur lAnalyse Factorielle Multiple [Benali, 1989] et sur lAnalyse
Procustenne [Lafosse, 1990]. La matrialisation de lvolution se fait par la visualisation des trajectoires,

2.6.3.1 Lanalyse factorielle multiple (AFM)


L'analyse factorielle multiple est une technique qui permet seulement d'tudier des variables multimodales
qualitatives.
Cette mthode permet de comparer les relations qui existent entre les individus et les variables en fonction
dun critre. Elle est base sur ltude de diffrents tableaux reprsentants les mmes individus selon les
mmes variables mais pour une valeur de critre diffrente ou des instants diffrents. LAFM consiste
alors raliser une Analyse factorielle (AFC ou ACP) soit partir de la concatnation des diffrents
tableaux, soit partir dun des tableaux.

2.6.3.2 Lanalyse procustenne


Lanalyse procustenne [Lafosse, 1985] permet de mettre en vidence les volutions relatives des donnes
en gommant lvolution moyenne. Son point de dpart est une matrice (tableau) trois dimensions
croisant deux variables et le temps. Cette analyse est une mthode qui permet dajuster par rotation,
translation et homothtie, un nuage de points sur une configuration cible de points. Il est alors possible de
dduire la trajectoire relative suivie par les diffrents points. Pour cela, les diffrents tableaux sont centrs
de sorte faire concider leurs centres de gravit et modifis par rotation pour minimiser la distance entre
les tableaux pris deux deux. La distance entre les tableaux est dfinie pour une srie de tableaux centrs.
Kh, h
Le but est dtudier lvolution relative des points les uns par rapport aux autres, afin de connaitre la
typologie de leur dynamique.

2.7 La restitution
La restitution des rsultats danalyse peut seffectuer sous des formes trs diverses : fiche de synthse,
document hypertexte, prsentation multimdia, portail, etc. Mais lessentiel de la restitution de
linformation labore est bas sur des reprsentations graphiques en raison du trs grand pouvoir de
synthse des images et de leur comprhension quasiment intuitive. Ces reprsentations de linformation
ont en fait plusieurs fonctions bien distinctes :

La dcouverte de connaissances obtenue grce linteractivit avec les images produites par les
mthodes danalyse,

93

Chapitre 2. La dcouverte des connaissances

La diffusion des rsultats sous une forme aisment assimilable : images fixes rigoureusement
slectionnes par les analystes pour illustrer les documents papier,

La navigation grce des systmes dynamiques dillustration des rsultats chiffrs sappuyant sur
une interactivit forte avec lutilisateur final (cartes ou graphiques statistiques interactifs,
documents hypertextes, restitution sous forme de portails, ) et lui permettant de retrouver une
information cible.

Nous pouvons dcomposer les images produites suivant plusieurs aspects :

Les graphiques statistiques classiques, qui, par lapport de linteractivit, restent trs attractifs pour
exprimer certaines distributions : frquences, rpartitions dans le temps, parts de marchs,
tendances, ruptures,

Les cartes interactives (cartes factorielles, cartes gographiques, cartes smantiques,


environnements virtuels, ) qui rpartissent linformation produite dans un espace navigable en 2
ou 3 dimensions [Benford, 1995], [Fowler, 1996], [Gahegan, 2001],

Les expressions graphiques des classifications (dendogrammes, arbres dynamiques, blocs


diagonaux, partitionnements, ) qui permettent de naviguer dune classe lautre afin den
dterminer les caractristiques, le contenu et, ventuellement, les liens de dpendance [Mukherjea,
1995], [Orosco, 1997],

Les graphes relationnels, qui, lorsque leur trac est optimis, donnent une illustration intuitive aux
liens remarquables dtects par les analyses [Boutin, 1999], [Van Dongen, 2000], [Herman,
2000], [Marshall, 2001].

De nombreuses recherches sur la smiologie graphique sont en cours, car ce mode de restitution semble
tre le mieux adapt pour rechercher, manipuler, comprendre et synthtiser linformation plthorique qui
est mise notre disposition [Thomas, 2001], [Gimeno, 2001]. Une part de notre proposition concernera
la restitution graphique, la diffusion, la navigation et les diffrents modes dinteractivit.

2.8 Les outils dextraction de connaissances


partir du texte
Depuis le dbut des annes 90 et le succs dInternet, de nombreux outils destins la recherche
dinformation textuelle et lextraction de connaissances ont vu le jour. A lorigine ils se dcomposaient en
deux grandes classes : les outils statistiques et les outils smantiques. La tendance actuelle est dessayer de
fusionner un peu les deux approches qui, bien que trs diffrentes dans leurs principes, sont assez
complmentaires : lanalyse smantique se charge dextraire du texte libre une terminologie contrle et des
cartes de concepts, la statistique, quant- elle, permet de traiter les champs baliss et de croiser toute
linformation afin de restituer de nouvelles connaissances essentiellement sous forme de graphiques, de
clusters ou de cartes.

2.8.1 Les solutions intgres


Voici une liste des principales solutions proposes, certaines ne sont plus distribues mais se retrouvent trs
souvent intgres dans des applications plus rcentes.
CLEMENTINE (SPSS : www.spss.com). Cest un outil de fouille de donnes orient gestion analytique
de la relation client. Il conduit des segmentations, des typologies, des prvisions, la dtection
dassociations et sappuie notamment sur de nombreux algorithmes de rgression et danalyse factorielle.

94

Chapitre 2. La dcouverte des connaissances


DATAVIEW (CRRM Marseille : crrm.u-3mrs.fr). Un des premiers outils de bibliomtrie adapt
lanalyse des informations semi-structures et bas sur des mthodes statistiques.
MATHEO (ICMS : www.matheo-software.com) Nouvelle version du logiciel DATAVIEW.
DILIB (INIST). Plate-forme de gestion documentaire et de traitements bibliomtriques base sur
lutilisation structurante de la norme SGML : http://dilib.inist.fr.
LEXIMINE (LexiQuest : www.lexiquest.com). Systme danalyse statistique et linguistique permettant de
cartographier des sujets spcifiques issus de gros corpus non structurs. Il vient dtre repris par SPSS et
intgr ses solutions de "datamining".
NEURODOC (INIST Nancy). Cette station de travail, qui permet de classer, cartographier et analyser
linformation bibliographique dans une perspective de veille scientifique et technique, se base sur les
rseaux de neurones afin dtablir des cartes de concepts liant les thmes aux acteurs.
ONLINE MINER (Temis : http://www.temis.com). Solution de veille multi-sources (y compris XML)
qui permet dextraire et dorganiser des concepts et qui est complte par divers utilitaires : moteur de
recherche, catgoriseur, cartouche de comptences.
SDOC (INIST Nancy). Utilise la notion de cooccurrence, dindice dquivalence et la classification
ascendante hirarchique pour dtecter des clusters smantiques et alimenter un diagramme 2D densit
centralit.
STRATEGIC FINDER (Digimind : www.digimind.fr). Il interroge des bases dinformation cibles du
Web invisible ainsi que des moteurs de recherche. Il effectue automatiquement le dchargement et le
ddoublonnage des documents, en gre la mise jour et assiste la diffusion des recherches :
www.strategicfinder.com .
TECHNOLOGY WATCH (IBM/ECAM France). Cette solution est ddie la veille scientifique et
technologique de l'entreprise, elle permet lanalyse de brevets et de documentations scientifiques et
techniques.
TEXT NAVIGATOR (IBM/ECAM France). Il permet de classer des documents reformats par thmes en
leur appliquant diffrents traitements linguistiques et mathmatiques.
TKS : Text Knowledge Server (IBM/ECAM France) Plate-forme qui regroupe un ensemble doutils qui
permettent danalyser, de classifier et de structurer des documents issus dInternet ou de dIntranet.
TROPES (Acetic : www.acetic.fr). Il identifie des concepts par analyse smantique et conduit un graphe
relationnel entre ces concepts. Il utilise un important dictionnaire (mots et classes) et se base sur la notion
de proximit dans les textes.
VANTAGE POINT (Search Technologie : www.thevantagepoint.com). Ce logiciel, orient analyse de
fiches bibliographiques, dtecte les acteurs majeurs et les sujet porteurs ou mergents dun domaine. Il
produit des graphes de relations et des analyses statistiques.
WORDMAPPER (Grimmersoft : www.grimmersoft.com). Cet outil intgr de "TextMining"
cartographie linformation textuelle en identifiant automatiquement des thmes cls. Il sappuie la fois
sur des mthodes danalyse linguistique et statistique et propose divers modes de reprsentation et de
navigation.

95

Chapitre 2. La dcouverte des connaissances

2.8.2 Les outils ECT dvelopp au sein de lquipe SIGSIG- IRIT


2.8.2.1 La Plateforme Ttralogie
La plateforme Ttralogie [Dousset, 1988], [Dkaki, 1993] dveloppe au sein de notre quipe SIG-IRIT est
ddie lextraction des connaissances partir de textes. Dans le contexte de la veille stratgique (VS),
Ttralogie est un outil particulirement bien adapt aux analyses macroscopiques, il permet en effet de
dgager les signaux forts, les signaux faibles et les tendances partir d'un corpus de documents collects sur
un sujet prcis. L'information labore, qui en est issue, reprsente une synthse obtenue par diverses
mthodes danalyse de donnes et diffuse via des visualisations graphiques.
Lapproche suivie par Ttralogie est essentiellement base sur la dcouverte de connaissance partir de
linformation textuelle de type bibliographique ou de brevets issue de bases bibliographiques en ligne, sur
CD/Rom, d'Internet ou de toute autre source informatise. Par l'intermdiaire de mthodes statistiques,
d'analyse exploratoire des donnes et de cartographie interactive, il fait apparatre, dans des temps trs
courts, de nouvelles connaissances stratgiques jusque l inexploites comme : l'identit des acteurs, leur
notorit, leurs relations, leurs lieux d'action, leur mobilit, l'mergence et l'volution des sujets et des
concepts, la terminologie, les domaines porteurs, que lire et o publier, avec qui collaborer.
La plate-forme est compose en plusieurs modules complmentaires :

Module de manipulation de corpus permettant dinterfacer les sources dinformations [Dousset,


1988], [Dkaki, 1996], [Dkaki, 1998], [Mothe, 2003], [Dousset, 2009].

Module de reprsentation rduite de donnes, qui permet de structurer selon les objectifs viss les
relations (prsence- absence, contingence, cooccurrence, cooccurrence multiple, etc.) existantes
dans le corpus analys [Dousset, 1987], [Dousset, 1988], [Dousset, 1989], [Dousset, 2005],

Module danalyse de donnes, qui recouvre toutes les techniques de classification, dassociation et
de squences (ACP, AFC, CAH, CPP, etc.) [Dousset, 1987], [Dousset, 1989], [Dousset, 1993],
[Dousset, 2006], [Dousset, 2007].

Module de visualisation, permet doffrir des rsultats graphiques sous forme de carte factorielle en
2D, 3D et 4D [Dousset, 1991], [Banammar, 1999], [Dousset, 2002], [Dousset, 2003].

Module danalyse de graphe, qui permet dexplorer lvolution des matrices par des graphes
volutifs [Karouach, 2003], [Dousset, 2005], [Loubier, 2007], [Loubier, 2008], [Loubier, 2009].

Larchitecture modulaire, qui est adopte, permet une adaptation fine des besoins spcifiques qui sont
essentiellement lis la taille des entreprises ou des organisations, leur secteur d'activit, leur type de
clientle, aux impratifs en termes de cot, de qualification, de ractivit et de vision prospective. Plusieurs
niveaux de comptences et de services sont proposs :

les scnarios d'analyse prfabriqus couvrant la majorit des besoins lmentaires en information
labore,

des stratgies d'analyse plus complexes mises au point par des spcialistes pour chaque source
spcifique d'information lectronique,

un logiciel interactif pour la ralisation d'analyses spcifiques trs dtailles pouvant tre conduites
de faon collgiale via Internet.

96

Chapitre 2. La dcouverte des connaissances

Figure 32: Les diffrentes sorties de la plateforme Ttralogie.

2.8.2.2 Le systme Doc Cube


Le systme Doc Cube [Mothe, 2001] dvelopp au sein de lquipe SIG-IRIT est ddi lextraction des
connaissances partir de textes. Un des composants de base de DocCube et une de ses originalits
correspond la notion dhirarchies de concepts qui structurent l'espace d'information. Ces hirarchies
correspondent en fait diffrents aspects qui composent chaque domaine. Par exemple, le domaine de la
veille scientifique et technique peut tre structur selon l'origine de la technologie (auteur, laboratoire,
ville, pays, ), les techniques utilises, la date, l'objectif de la technologie. Le domaine conomique peut
tre structur autour de hirarchies comme le temps, le go-rfrencement, les indicateurs conomiques,
les industries. Ces hirarchies sont proposes pour offrir l'utilisateur des visualisations globales
d'information qui l'aident dans sa recherche et dans l'exploration de la masse d'information dont il
dispose. Ces visualisations globales reposent sur une modlisation multidimensionnelle. C'est dire que
l'information est reprsente et organise selon diffrentes dimensions et que des faits peuvent tre analyss
de faon interactive. Les contextes dapplication de cet outil sont la bibliomtrie, la formulation de requte
et lexploration des documents web.

2.9 Fouille de Texte : Synthse


Le processus dECT est conduit par un analyste et un expert du domaine tudi. Ce processus permet de
rpondre aux objectifs de la veille stratgique. Il permet doffrir une vue synthtique et pertinente pour une

97

Chapitre 2. La dcouverte des connaissances


analyse en IE par la rvlation des informations endognes. Ces informations refltent les tendances, les
signaux faibles, etc. dun domaine donn.
Lobjectif de lECT est donc de permettre lexpert de retrouver, partir dun corpus donn, des relations
connues dans son domaine, de pouvoir les localiser explicitement, danalyser les acteurs partir dune ou
plusieurs de ces relations. LECT permet galement de dcouvrir de nouvelles relations. En ce sens, notre
dfinition rejoint celle de [Fayyad, 1996] pour lECBD quils qualifient de processus non trivial
didentification de motifs (dinformation) valides, nouveaux, potentiellement utiles et au final
comprhensibles partir dun ensemble de donnes.
Nos travaux se situent au niveau de ce type de traitement pour la modlisation et la conception dun
systme dinformation daide la dcision. Lorsquon est confront une information plthorique, non
directement assimilable, mais traitable lectroniquement, il est possible den dgager tout un ensemble de
connaissances caches, inaccessibles par la lecture mais ayant une porte stratgique. Nous parlons alors
dinformation endogne, car elle ne peut tre obtenue que par traitement automatique et orient dun
ensemble de documents. Elle est donc gnre au sein mme dun corpus par des manipulations
(mathmatiques et textuelles) codifies dans des mthodes adaptes chaque cas. Elle soppose en fait
linformation explicite : celle que lauteur a voulu transmettre et que nous qualifions dexogne car elle a
t mise volontairement dans lcrit, elle vient donc de lextrieur. Notre avis est que linformation
explicite est rarement stratgique (sauf dans les rapports confidentiels). En effet, si nous tudions de prs
lensemble des sources disponibles (Tableau 5) tels que :

Rfrences bibliographiques : rsums et mots-cls trs gnraux, peu de technique, pas de texte
intgral.

Articles scientifiques : les recherches en cours et les projets les plus prometteurs ne sont pas
dvoils, linformation est souvent distille sur plusieurs articles.

Brevets : ils servent protger linvention et non pas aider autrui la prolonger.

Presse : souvent partisane, superficielle, qui mnage ses effets.

Agences de presse : signalisation des faits bruts sans analyse.

Internet : il sert vendre ou analyser les connexions plus qu informer.

Nous remarquons que sur lensemble de ces sources textuelles, se cachent des informations implicites
(appele endogne) que les rdacteurs eux mmes nont pas conscience davoir contribu mettre en
commun et la disposition de tous. Ce type de traitement permet alors de dgager des informations
portant par exemple sur :

Lvolution des collaborations entre organismes ou entreprises, ce qui permet de dduire leurs
stratgies.

La classification des brevets en fonction de leurs rfrences aux brevets antrieurs (co-citations
appliques aux brevets) permet de bien structurer un domaine technologique,

Linformation endogne est alors la cl de la veille stratgique. Lextraction systmatique de connaissances


caches permet de rpondre la majeure partie des besoins informationnels engendrs par lanalyse
stratgique dun problme dcisionnel pos.

98

Chapitre.3 Xplor : Modle danalyse multidimensionnelle

3.1 Introduction .................................................................................................................................101


3.2 Prsentation du processus danalyse exploratoire multidimensionnelle Xplor .............................102
3.2.1

Spcification .........................................................................................................................102
3.2.1.1

Indicateur relationnel .............................................................................................103

3.2.1.2

Indicateur uni-vari ................................................................................................104

3.2.2

Prsentation gnrale des tapes du processus Xplor ...........................................................105

3.2.3

Planification ..........................................................................................................................105

3.2.4

Recherche et collecte des documents ....................................................................................111

3.2.5

Homognisation et/ou structuration des documents 115

3.2.6

Reprsentation multidimensionnelle des documents ...........................................................121

3.2.7

Calcul des indicateurs et analyse ..........................................................................................124

3.2.8

Validation et diffusion ..........................................................................................................126

3.3 Modle de reprsentation multidimensionnelle des documents ..................................................126


3.3.1

3.3.2

3.3.3

Considration gnrales ........................................................................................................126


3.3.1.1

Notion de dpendance ...........................................................................................128

3.3.1.2

Gnralisation : tableaux de Burt ...........................................................................128

3.3.1.3

Base de calcul pour ces mesures .............................................................................130

3.3.1.4

Impact dun document sur les diffrentes matrices ...............................................131

Modle deux dimensions ...................................................................................................132


3.3.2.1

Principe ..................................................................................................................132

3.3.2.2

Tableau deux dimensions ....................................................................................132

Modle trois dimensions ....................................................................................................134


3.3.3.1

Principe ..................................................................................................................135

3.3.3.2

Tableau trois dimensions .....................................................................................136

3.4 Fonctions ...............................................................................................Erreur ! Signet non dfini.


3.4.1

Fonctions de manipulation ...................................................................................................139

3.4.2

Fonctions dagrgation .........................................................................................................142

3.4.3

Combinaison de fonctions ...................................................................................................143

3.5 Le profil des utilisateurs du processus danalyse exploratoire multidimensionnelle ....................144


3.5.1

Considrations gnrales ......................................................................................................144

3.5.2

Modle utilisateur .................................................................................................................145

3.5.3

Gestion des exceptions et des particularits ..........................................................................148

3.6 Synthse ........................................................................................................................................150

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 101

2.10

Introduction

Que cela soit au niveau dun individu, dune entreprise ou dune nation, surveiller et anticiper les
volutions de son environnement est vital pour maintenir ou dvelopper sa comptitivit. Linformation
reprsente la matire premire dune dmarche dIE. Au cours de la dernire dcennie, un grand nombre
de documents publics est disponibles sur Internet (dpches de presse, bases de donnes bibliographiques
scientifiques et techniques, etc.) ou en Intranet (mails, rapports techniques, rapports dtonnement)
contenant potentiellement de linformation utile la dcision. La capacit des entreprises recueillir et
stocker ces documents dpasser leur capacit les traiter, les analyser et les exploiter. Les entreprises
rclament donc des systmes dextraction et danalyse dinformation personnaliss et volutifs mettant
laccent sur des besoins relatifs des fonctions dexploration, sur des domaines prcis (agroalimentaire,
aronautique, pharmaceutique etc.), telles que : identifier des fournisseurs de technologies, des
concurrents, reprer les fusions/acquisitions dentreprises paraissant dans la presse conomique, etc.
Notre contribution consiste proposer un systme dinformation adapt aux besoins la dmarche dIE
(voir section 1.5). Lobjectif de ce systme est doffrir une rfrence mthodologique aux oprations de
collecte, de traitement et danalyse des informations. Il doit permettre dobserver et danalyser
lenvironnement informationnel dun problme dcisionnel sous toutes ses dimensions. Lapproche suivie
(voir Figure 33), repose sur le couplage des mthodes utilises au cours du processus dECT (section 2.2
du chapitre 2) avec les diffrentes tapes du processus de veille (voir section 1.2.2.1 du chapitre1).
Veille
Besoin informationnel
Extraction de Connaissances partir du Texte
Collecte

Collecte de documents
Homognisation et structuration
Reprsentation multidimensionnelle

Analyse

Calcul des indicateurs et analyse


Validation

Synthse
Figure 33: Couplage du processus de veille et de lECT.

Laspect dynamique de lanalyse dinformation est vital toute activit de veille dans un contexte dIE.
Cette dynamique intgre la notion de surveillance continue de lenvironnement de lentreprise, afin de
pouvoir dtecter ses changements et ses volutions. Dans ce contexte une grande part de linformation
porte stratgique vient du relationnel et la pertinence des donnes extraites dpend fortement de le prise
en compte de leur volution mais aussi de celles de leurs interactions. Le recoupement entre plusieurs
informations permet ainsi une comprhension synthtique de lenvironnement informationnel de
lentreprise et de sa dynamique. Le systme dinformation propos, se base sur un modle danalyse
exploratoire multidimensionnelle, que nous nommons Xplor, qui permet de rpondre ces besoins par la
prise en compte, dune part de laspect relationnel, et dautre part de laspect temporel au sein de lanalyse.
Il repose sur lextraction des connaissances partir des donnes textuelles par lanalyse des donnes

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 102


relationnelles et de leur volution. Cette spcification temporelle du modle permet de situer les
vnements, les stratgies et les actions aussi bien que dans :

Le pass par reconstruction de la chronologie,

Le prsent par orientation temporelle,

Le futur par anticipation, pour tout ce qui concerne les organisations successives dun rseau, telles
que les collaborations, alliances, fusions, acquisitions, co-citations, co-signatures, cooccurrences de
tous ordres.

Le modle vis repose sur deux principaux modles :


Un modle de reprsentation multidimensionnelle des documents, qui permet de transformer les donnes
qualitatives en quantitatives. Nous notons, que notre contribution se base sur les documents lectroniques
tels prsents dans la section 2.3 du second chapitre de ce manuscrit.
Lobjectif de ce modle est d'obtenir, en final, une vue globale ou fdratrice des documents collectes qui
sera utilise tout au long du processus danalyse.
Un modle de fonctions, qui a pour objectif doffrir un ensemble de fonction gnrique et combinatoire qui
permettent de construire diffrent type dindicateur, selon les besoins danalyse, partir de la
reprsentation multidimensionnelle des documents.
Le systme dinformation dIE propos doit permettre aussi de grer le partage des informations entre les
diffrents acteurs impliqus. Lobjectif est de dfinir un espace de communication et de diffusion
dinformation pour offrir une plateforme de collaboration et de coopration entre les diffrents
intervenants. Pour cela nous dfinissons un modle utilisateur qui sadapte chaque profil utilisateur.
Nous proposons donc un systme dinformation dIE qui gnre des produits dIE aux besoins de
lensemble des acteurs (voir section 2.14) concerns.
Ce chapitre est compos de quatre sections comme suit :
Dans la premire section nous prsentons le processus du modle danalyse exploratoire
multidimensionnelle. Nous dcrivons dans cette partie les diffrentes tapes du processus et lapproche
suivie pour rpondre aux besoins de chacune.
La seconde section, consiste dcrire le modle de reprsentation multidimensionnelle des documents
(section 2.12). La troisime section, va permettre de dfinir le modle de fonctions (voir sections Erreur !
Source du renvoi introuvable.
introuvable.).
ouvable. Dans la quatrime section, nous identifions les diffrents profils
utilisateur impliqus dans le processus danalyse exploratoire multidimensionnelle (section 2.14).
Nous concluons ce chapitre par une synthse (section 2.15) sur notre contribution.

Prsentation du processus danalyse


2.11
exploratoire multidimensionnelle Xplor
2.11.1

Spcification

Le processus propos sinsre au niveau du cycle dIE pour supporter les diffrentes tapes de veille
stratgique (voir Figure 10). Nous considrons que le dclanchement du processus propos est bas sur la
fin de ltape de ciblage du processus danalyse stratgique. Nous rappelons que le ciblage, permet
didentifier les domaines dactivits analyser. Cette activit a pour objectif de traduire le problme
dcisionnel pos en un problme informationnel.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 103


Ltape de ciblage se base sur lidentification des Facteurs Cls de Sucs (FCS). Un FCS est une entit qui
contribue de faon essentielle au maintien des avantages concurrentiels de lentreprise. Il peut porter sur
un domaine ou un sous domaine dactivit. Pour chaque domaine dactivit cibl (Figure 34), nous
devons dfinir les FCS qui lui sont associs.
Lidentification des FCS permet de dfinir le problme informationnel associ un domaine dactivit
cibl selon :

Les concepts et/ou les acteurs surveiller ou analyser,

Hirarchiser chacun deux selon leur priorit danalyse

Les indicateurs informationnels (2.1.5) qui permettent de les synthtiser et les reprsenter.

Domaine dactivit

Acteurs pertinents

Concepts pertinents

Hirarchisation des acteurs prioritaires

Hirarchisation des concepts prioritaires

Liste des indicateurs/acteur

Liste des indicateurs/concepts

Figure 34 : Identification des cibles.

Nous notons que la mthode MEDESIIE (voir section 1.4.1) et les modles SITE (voir section 1.4.2)
permettent doffrir un cadre mthodologique pour lidentification des cibles surveiller.
Dans le contexte de nos travaux, nous supposons que les indicateurs peuvent se prsenter sous forme soit
dindicateur uni-vari, soit dindicateur relationnel (vois section 2.1.5).

2.11.1.1 Indicateur relationnel


Les co-signatures sont l'indicateur relationnel le plus courant. L'analyse des co-signatures sert mettre en
lumire les liens et les interactions entre les acteurs des systmes nationaux et internationaux de science et
technologie. Ce sont ces interactions que nous dsignons par le concept de flux de connaissances. La
mthode des mots associs et celle des co-citations sont aussi des indicateurs relationnels18. Ils permettent
de dresser des portraits de l'activit scientifique fonds sur le contenu des publications. Ces indicateurs
permettent de suivre l'volution de la science et de la technologie et d'identifier les thmes de recherche
mergents et les acteurs qui y contribuent. Les indicateurs de co-citations et de mots associs sont toutefois

18

La banque de donnes de lObservatoire des Sciences et des Technologies, dans son tat actuel, ne permet pas
l'utilisation de ces indicateurs en raison de l'absence de donnes sur les rfrences et les mots-cls.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 104


rarement utiliss dans un cadre politique, contrairement aux indicateurs descriptifs et l'analyse des cosignatures qui sont couramment utiliss pour les tches de description et d'valuation de la recherche.
Dans les Tableau 10 nous prsentons un exemple dindicateurs relationnels issus de ltude des relations
entre les diffrents lments dune notice bibliographique (voir Figure 21).

Mots--cls
Mots

MotsMots- cls

Pays

Organisme

Auteurs

Rseaux
smantiques

Thmatiques
spcifiques des
pays

Thmatiques
spcifiques des
organismes
Collaborations
internationales
des organismes
Collaborations
entre les
organismes

Domaine de
comptence de
chaque auteur
Collaborations
internationales
des auteurs
Collaborations
entre auteurs et
organismes
Structure et
collaboration
des quipes

Collaborations
internationales

Pays

Organisme

Auteurs

Date
Evolution des
thmatiques
Evolution de
l'activit de chaque
pays
Evolution de
l'activit de chaque
organisme
Evolution de
l'activit des
auteurs

Tableau 10 : Exemple dindicateurs relationnels.

Dans le Tableau 11, nous prsentons les indicateurs relationnels de tendances qui permettent dtudier les
relations entre les diffrents lments dune notice bibliographique (voir Figure 21) par la prise en compte
de la dimension temporelle Date.

MotsMots- cls

Mots--cls
Mots

Pays

Pays

Organisme

Auteurs
Date

Date

Date

Date

Evolution des
rseaux
smantiques

Evolution des
thmatiques
spcifiques des
pays

Evolution des
thmatiques
spcifiques des
organismes
Evolution des
collaborations
internationales des
organismes
Evolution des
collaborations entre les
organismes

Evolution des
collaborations
internationales

Organisme

Evolution des domaines


de comptence de chaque
auteur
Evolution des
collaborations
internationales des auteurs
Evolution des
collaborations entre
auteurs et organismes
Evolution des structures et
collaborations des quipes

Auteurs

Tableau 11 : Exemple dindicateurs relationnels de tendance.

2.11.1.2 Indicateur uniuni-vari


Le dnombrement des articles et des citations, le dnombrement des brevets et des citations dans les
brevets sont les indicateurs descriptifs les plus courants. Ils mesurent le volume et l'impact de la recherche
divers niveaux d'agrgation.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 105


Lorsquils sont calculs diffrentes priodes, ils permettent d'identifier des tendances. La mthode du
dnombrement est base sur le calcul du nombre de publications scientifiques attribuables un acteur,
dans un domaine donn. Il peut s'agir d'un auteur, d'une institution, d'un secteur d'activit regroupant
diverses institutions universit, laboratoire public, industrie , ou encore d'une unit gographique
ville, province, pays. Le niveau d'agrgation du domaine de recherche peut tre une discipline ou une sous
discipline scientifique, une technologie ou encore un crneau technologique spcifique19. Enfin, il est
intressant de rappeler que les indicateurs descriptifs peuvent tre appliqus aux publications et aux
brevets, selon que l'analyse porte sur la production scientifique ou la production de technologie.
Si nous considrons les matrices comme des matrices de prsence/absence, leur marginales reprsente le
nombre de cellules non nuls de chaque ligne et de chaque colonnes. Ceci nous conduit au calcul
dindicateurs uni-varis particulirement robustes comme :

Auteurs

MotsMots-cls

Pays

Organisme

Auteurs

Date

Etendu de la
thmatique dun
auteur

Nombre de pays
avec lesquels a
collabor un
auteur

Nombre
dorganismes
avec lesquels
a collabor
un auteur

Nombre de
collaborateurs
dun auteur

La dure de la
carrire dun
auteur dans le
domaine tudi

Tableau 12 : Exemple dindicateurs uni-varis.

Le systme dinformation propos consiste rpondre aux calculs de ces indicateurs. Notre objectif, est
doffrir un modle danalyse exploratoire multidimensionnelle gnrique, qui permet de calculer des
indicateurs de type uni-vari et relationnel de tendance. Nous notons que les exemples prsents peuvent
tre tendus dautres type de document tel que : les brevets, la presse, etc.

2.11.2

Prsentation gnrale des tapes du processus Xplor

2.11.3

Planification

2.11.3.1 Considrations gnrales


La premire activit du processus propos est la planification. Elle est tablie partir du problme
informationnel expos par les dcideurs. Lobjectif de cette activit est de dcrire la dmarche de pilotage
du processus danalyse. Nous dfinissons cette activit selon la mthode 5W-1H : What, Why, Who,
When, Where, How (Quoi, Quand, O, Qui, Comment, Pourquoi). Dans le cadre de la mise en place
dun projet dIE, Franois Jakobiak a dvelopp une approche systmique dIE base sur le principe des
5W 1H [Jakobiak, 2006] (Tableau 13).

What
Why
Who

Dfinition du sujet danalyse


Enjeux et intrt du sujet danalyse
Identification des acteurs : Analystes, Experts,
Veilleurs, Dcideurs
When Calendriers des actions
Where Sources dinformation
19

B. Godin, L'tat des indicateurs scientifiques et technologiques dans les pays de l'OCDE, (Document de travail, Projet
de remaniement des sciences et des technologies, Statistique Canada), 1996, 17.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 106


How

Modalits daction
Tableau 13 : Les questions 5W-1H.

Le principe 5W-1H renferme ce que l'on appelle en rhtorique les circonstances : la personne, le fait, le
lieu, les moyens, les motifs, la manire et le temps. Ainsi, lentreprise peut dresser un plan danalyse dtaill
lui permettant de mener bien son projet dIE.
Dans le cadre de nos travaux nous adaptons ce principe pour dcrire le besoin informationnel pos et
orienter lanalyse exploratoire. Notre adaptation se positionne au niveau de la question How
(Comment). lorigine, lobjectif de cette question tait de dcrire les procdures, techniques et actions
mettre en place dans le cadre du projet tudi. Dans le contexte du processus propos, la question How
(Comment) va dcrire les indicateurs mettre en uvre pour satisfaire le problme informationnel pos.
En se basant sur le principe 5W-1H, nous proposons de dcomposer lactivit de la planification en 14
sous activits (Figure 37). Cette dcomposition va permettre de rpondre de faon claire et prcise
chaque question des 5W-1H.
Il est noter que le dclencheur de lactivit planification est le problme informationnel (Erreur
Erreur ! Source
du renvoi introuvable.)
introuvable. pos. Les produits de cette activit sont dcrits dans le Tableau 14.

What

Le sujet danalyse

Why
Who
When

Les thmes du sujet danalyse


Les acteurs : Analystes, Experts, Veilleurs, Dcideurs
Le calendrier des actions
Les sources formelles pour chaque thme
Where
Les sources informelles pour chaque thme
Les indicateurs pour chaque thme,
Les attributs cibls, leurs valeurs, leurs granularits et leurs relations
How
pour chaque indicateur
Tableau 14 : Les produits de lactivit planification.

2.11.3.2 Fonctionnement gnral de lactivit


lactivit planification
Le principe de la planification est le suivant. Lors de la premire phase, un problme informationnel est
pos. Ce problme va tre identifi par la dfinition de son sujet danalyse. Une fois le sujet dfini,
lutilisateur doit :

dfinir les thmes danalyse,

planifier les oprations de lanalyse,

identifier les acteurs impliqus.

La validation de lactivit dfinir les thmes danalyse conduit lutilisateur dfinir, pour chaque thme
identifi, deux activits principales comme lidentification des sources dinformations et la dfinition des
indicateurs danalyse.

2.11.3.2.1

Identification des sources dinformation

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 107


Lactivit de lidentification des sources dinformations consiste rpertorier toutes les sources formelles et
informelles susceptibles de contenir des informations utiles au thme de lanalyse. Dans le contexte dIE,
les sources dinformations sont de deux types :
LES SOURCES FORMELLES
Linformation est dite formelle ds lors quelle est publie sur support papier, informatique, microfilm, etc.
Elle peut tre structure ou non, mais il sagit dans tous les cas dune information directement accessible
(sous rserve des contraintes dfinie par son auteur) et exploitable.
Les sources formelles sont composes principalement de la presse, la tlvision, la radio, les livres, banques
de donnes et CD-ROM, les brevets, les informations lgales, les tudes ralise par des prestataires publics
ou privs, Internet. Ces sources ont lavantage dtre sres et assez exhaustives, de faible cot (sauf le cas
certaines banques de donnes telles que Pascal, etc.) et faciles daccs. Dans le cadre de notre contribution,
les banques de donnes les plus consultes sont dominante scientifique, technologique ou rglementaire
et se trouvent sur des bases bibliographiques. Parmi les bases juges les plus intressantes, nous pouvons
citer dans le domaine conomique Factiva20, physique avec Inspec21, orient entreprise avec Kompass
Europe22, multidisciplinaire avec Pascal23, mdical avec PubMed24, etc. Les documents issus de ces bases
sont sous forme de notices bibliographiques. Ces notices offrent une description synthtique souvent
suffisante pour obtenir des informations stratgiques adaptes nos besoins danalyse. Nous dfinissons
une notice bibliographique par un ensemble dattributs (auteur, date, journal, etc.) o chaque attribut peut
contenir une ou plusieurs valeurs que nous appelons informations utiles.
LES SOURCES INFORMELLES
Les sources informelles sont constitues de toutes les informations non formalises et non disponibles
directement. Il est donc ncessaire dentreprendre des dmarches directes auprs des dtenteurs supposs
de cette information. Ces sources peuvent tre les expositions et les salons, les fournisseurs, les colloques,
les congrs, les clubs o les acteurs changent des informations et communiquent. Linformation qui
circule alors peut tre dune grande valeur stratgique, les concurrents (portes ouvertes, communication
commerciale et financire, publication de journal interne, etc.), les rseaux personnels : le cousin, lami
commercial de chez X, le reprsentant de Y, le voisin qui travaille chez Z, lcoute, par hasard , dune
conversation dans un avion, un train, lors dun dner, etc. dans la limite de la lgalit et de la dontologie.
Dans notre cas dtude, nous utilisons les sources informelles pour valider les rsultats de lanalyse
exploratoire.

2.11.3.2.2

Dfinition des indicateurs danalyse

Cette activit consiste dfinir les indicateurs calculer et valuer. Ces indicateurs ont pour objectif de
synthtiser et interprter lenvironnement informationnel du thme de lanalyse. Dans le Tableau 21, nous
dfinirons lensemble des indicateurs pouvant tre exprims dans le contexte de nos travaux.
A ce niveau dactivit, lutilisateur doit introduire les diffrents indicateurs associs chaque thme du
sujet danalyse. Chaque indicateur est analys de manire identifier ses attributs cibls, leur granularit,
leurs valeurs et leurs relations. Lobjectif de cette dcomposition est dorienter et dcrire les diffrentes
activits du processus propos.
SPECIFICATION

Dow jones Factiva. http://factiva.com/ . Base de donnes de presse et dinformatique conomique.


EBSCO Industries. http://support.epnet.com/. Base de donnes bibliographiques en physique.
22
http://www.kompass.fr/ip. Base de donnes sur les entreprises europennes.
23
INIST (Institut National de lInformation Scientifique et Technique). Base de donnes multidisciplinaire.

20
21

24

Base de donnes bibliographiques, interrogeable par le Mesh (Medical subject heading)

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 108


Nous dfinissons un besoin informationnel not B par < SA, ThA, IndA, AttA, ValA, >
SA : reprsente le contexte gnral du besoin pour lanalyse A,
ThA = < Th1, Th2, , Thm >, reprsente les thmes fixs pour le sujet SA.
IndA = {< Thi, < Indi1, Indi2, , Indin >>}, reprsente les indicateurs associs chaque thme.
AttA = {< Indij, < Attij1, Attij2, , Attijp >>}, reprsente les attributs identifis pour les indicateurs
dfinis pour chaque indicateur.
ValA = {< Attijk, < Valijk1, Valijk2, , Valijkq >>}, reprsente les attributs spcifis pour chaque type
dacteurs.
Dans la Figure 35, nous dfinissons une hirarchie de concepts associs la dcomposition des indicateurs.

Niveau 0

Niveau 1

Niveau 2

Niveau 3

Niveau 4

Val1111

............

.....

Indn1
.....

.....

Indni

Valn11k
.....

Attnij

Val111k
..........................
.

.....

.....

.....
Thjn

Att11j

Ind1i

Thj1
Sujet

Ind11

.....

Att111

Valnijk

Figure 35: Hirarchie de concepts associes la spcification des besoins.

Exemple
Le besoin est dfini comme suit :
Bs = < SAs, ThAs, IndAs, AttAs, ValAs>
SAs = valuation de la recherche scientifique dans le domaine des Nanotechnologies
ObjAs = < Les collaborations, La production scientifiques, Les thmatiques de recherches>
IndAs = {< Les collaborations, < Les collaborations entre auteurs, Les collaborations entre organismes,
Les collaborations entre pays>>, < La production scientifiques, < Le nombre de publication,
Lvolution du nombre de publication>>, < Les thmatiques de recherches, <Lvolution des thmatiques
de recherches des auteurs>>}
AttAs = {< Les collaborations entre auteurs, < Auteur, Auteur >>, < Les collaborations entre organismes, <
Auteur, Organismes >>, < Les collaborations entre pays, < Auteur, Pays >>, < Le nombre de publication, <

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 109


Auteur >>, < Lvolution du nombre de publication, < Auteur, Date >>, <Lvolution des thmatiques de
recherches des auteurs, < Auteur, Descripteurs, Date >>}
ValAs = << Date >, < 1999, 2000, 2001, 2002, 2003, 2004>>
La hirarchie de concepts associs est comme suit :

Sujet

Thmes

Indicateurs

Les collaborations
entre auteurs

Les collaborations

valuation de la
Recherche Scientifique
dans le domaine des
Nanotechnologies

La production

Attributs

Auteur

Les collaborations
entre organismes

Organisme

Les collaborations
entre pays

Pays

Le nombre de
publication

Auteur

Evolution du nombre
de publication
Thmatiques de
recherche par auteurs

Les thmatiques
Evolution des
thmatiques de recherche
des auteurs

Valeurs

Auteur
Date
Auteur
Descripteur

Auteur
Descripteur

1999

2000
2001

Date

2002
2003

2004

Figure 36: Exemple de la hirarchie de concepts associes au sujet Nanotechnologie.

Une fois que toutes les sous activits associes lactivit de la planification sont termins et valides, les
rsultats obtenus seront mmoriss pour une utilisation ultrieure.
La Figure 36, reprsente le fonctionnement gnral de lactivit planification.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 110

Figure 37 : Le fonctionnement gnral de lactivit planification .

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 111

2.11.4

Recherche et collecte des documents

Lobjectif de cette activit est de centraliser tous les documents susceptibles de contenir des informations
pertinentes rpondant aux besoins de lanalyse. Cette activit se base sur les produits issus de lactivit
planification. Nous retenons de cette dernire : la liste des sources dinformations formelles, le sujet, les
thmes et objectifs, la liste des attributs et leurs valeurs. Ces produits vont permettre de guider lactivit de
recherche dinformation pour construire le corpus cibl de lanalyse.
Le terme corpus dsigne gnralement de vastes ensembles de donnes textuelles semi ou totalement
structurs et sous forme lectronique. Un corpus est une collection de donnes langagires qui sont
slectionnes et organises selon des critres linguistiques explicites pour servir d'chantillon du langage,
selon [Habert, 2000]. De plus, un corpus lectronique est un corpus qui est encod de manire standardise
et homogne pour permettre des extractions non limites l'avance. L'origine et la provenance des
donnes langagires sont notes. En effet, la simple existence sur support lectronique ne fait pas d'un
ensemble de textes un corpus lectronique. Encore faut-il que ce document respecte des conventions de
reprsentation, de codage rpandues, voire consensuelles, qui permettent la transmission et la rutilisation
des donnes textuelles.

2.11.4.1 Sources et systmes de recherche


La recherche et collecte des documents est gnralement ralise par linterrogation dune ou plusieurs
collections de documents sur un sujet et un thme donn. Il nexiste pas un systme unique permettant de
collecter tous les documents disponibles. Lutilisation simultane des diffrents systmes disponibles
permet dy remdier. Les sources interroges sont alors souvent htrognes.
Dans le cadre de notre proposition, nous rappelons que les sources informelles ne seront pas considres
dans cette activit, nous nous appuierons seulement sur les sources formelles. Nous identifions les sources
formelles de donnes selon leur structure savoir:

Sources de donnes structures : les bases bibliographiques, les bases de brevets, etc.

Sources de donnes semi ou non structures : Flux RSS, Page web, Traces de connexions, Groupes de
discussions, Presse en ligne, etc.

Dans la Figure 38, nous prsentons la procdure que nous retenons pour lactivit de recherche et collecte de
documents qui peuvent tre issus de sources htrognes. Le but de notre dmarche est de construire un
corpus cibl partir de toutes les collections de documents retourns par les diffrentes sources interroges.
Chaque collection est compose d'une slection d'informations textuelles brutes.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 112

Sources htrognes

Flux

Systme PUSH

Robot Aspirateur

Collection 1

Collection 2

WWW

BDD

Systme de Recherche dInformations

Systme de Tlchargement

Collection 3
Corpus Cible

Collection 4

Collection 4

Figure 38 : Procdure de lactivit Recherche et Collecte de documents.

La collecte de documents peut seffectuer par une simple recherche dinformation au sein des bases de
donnes de type bibliographique ou brevet. Cette recherche dinformations repose sur les Systmes de
Recherche dInformation qui intgrent un ensemble de modles et de processus permettant de slectionner
des informations pertinentes en rponse aux besoins identifis. Le processus de recherche dinformation
consiste mettre en correspondance les besoins identifis sous forme dun ensemble de mots cls (requte)
avec lensemble des descripteurs des collections de documents (ou de pages web). Ce processus restitue une
collection de documents selon leur pertinence ordonne dcroissante vis--vis de la requte formule. Cette
collection est collecte par lutilisation des systmes de tlchargements intgrs dans les systmes de
gestion des bases de donnes bibliographiques (brevet). Ces derniers permettent de rcuprer les rsultats
sous forme dun ensemble de documents textuels structurs.
Dans le cas dutilisation des systmes de recherche dinformation tels que : Google, Exalead, ou des
systmes qui noffrent pas la possibilit de tlcharger directement les rsultats, il est possible de collecter
les documents en utilisant des robots de type aspirateurs disponibles sur Internet : aspirateur dURL
(Wisigot, MmoWeb, Teleport pro), aspirateurs de site tels que MmoWeb ou Teleport pro permettant
de rcuprer lintgralit ou une partie des pages web retournes.
Il est galement possible de constituer des collections de documents en utilisant les systmes PUSH media
qui sont des systmes servant retourner des informations sur des thmatiques prcises et cela de faon
permanente et automatique selon les critres pralablement slectionns. Les rsultats obtenus sont des
pages web qui sont collectes par des robots aspirateurs. Ces derniers retournent des documents baliss tels
que des fichiers de type XML, HTML ou des documents de type texte non baliss par exemple les traces
de connexions.
Le rsultat de cette opration de collecte correspond au corpus cibl qui devient une nouvelle source
dinformation, cible. Les documents associs aux collections contenues dans le corpus cibl possdent le

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 113


format de leur source. Ces formats dorigine, dans certains cas, ne sont pas directement exploitables dans le
cadre de notre proposition.

2.11.4.2 Structure de la collection : attributs


Les collections utilises sont composes de notices (2.3.1), cest dire des documents structurs en
attributs [Dkaki, 2000]. Un attribut est identifi par une balise, par exemple auteur, date, adresse,
organisme. Une valeur est le contenant dun attribut.
Un attribut peut tre [Mothe, 2000], [Dousset, 2003] :

mono-valeur ne pouvant avoir quune seule valeur possible, gnralement les attributs de type
Titre , Date sont mono-valeur.

multi-valeur en ayant plusieurs valeurs, comme par exemple plusieurs noms dauteurs pour un
article cocrit, dlimits par des sparateurs.


Dans Auteur : Mothe-Josiane; Chrisment-Claude; Dkaki-Taoufiq; Dousset-Bernard;


Karouach-Said , il y a cinq valeurs lmentaires de mme type pour le mme attribut.

compos, certains attributs peuvent contenir des valeurs recouvrant plusieurs concepts. Cette
notion vient du fait que les bases dinformation ne sont en fait que semi-structures.
Par exemple : lattribut So: Computers-environment-and-urban-systems. 2006; 30 (4) : 460-484
peut se dcomposer en trois valeurs de types divers :


Nom du journal : Computers-environment-and-urban-systems

Date de publication : 2006

Rfrence : 30 (4) : 460-484 qui se divise en : numro, volume, et premire et dernire


pages.

Les documents issus des sources assez bien structures sont gnralement prsents par un ensemble
dattributs (par exemple lauteur du document, sa date de cration, etc.) prdfini constituant dj une
notice bibliographique. Dans ces documents, les informations utiles associes aux attributs y sont
marques grce un langage de balisage. Ce balisage est non ambigu et rpond des rgles prcises qui
doivent tre strictement appliques pour que le document soit considr comme valide lors de sa cration.
Dans cette catgorie nous retrouvons, les documents tlchargs partir des bases de donnes
bibliographiques ou brevet et les documents de type SGML ou XML.
Dans le cas o les documents sont collects partir des sources peu ou mal structures, nous catgorisons
les contenus afin de redfinir une structure de type bibliographique. Nous retrouvons dans cette deuxime
catgorie : les documents HTML, les documents non baliss etc. Nos recherches nous ont emmens alors
dfinir des traitements permettant de structurer et dhomogniser les documents contenus dans le corpus
cibl.
Dans le cas des documents non structurs, nous considrons seulement les documents textuels dont la
structure est caractrise par des sparateurs. Notre approche ne stend pas aux documents de texte libre.

2.11.4.3 Fonctionnement gnral de lactivit recherche


recherche et collecte de
documents
partir de ces hypothses, nous dcrivons dans la Figure 39 : Le fonctionnement gnral de lactivit
Recherche et collecte dinformation . Le dclencheur de lactivit recherche et collecte de document est la
fin de lactivit de planification. Les produits de la planification utiliss au niveau de la recherche et collecte
de document sont :

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 114

Le sujet et les thmes danalyse

Les sources formelles

Les attributs cibls et leurs valeurs

Le produit de lactivit recherche et collecte de document est le corpus cibl.

Figure 39 : Le fonctionnement gnral de lactivit Recherche et collecte dinformation .

La premire phase de lactivit dbute par la cration dun corpus cibl vide. La seconde consiste
slectionner une source dinformation formelle parmi les sources retenues au niveau de lactivit
planification. Une fois la source dinformation slectionne suivra alors ltape didentification de son type.
Selon le type de la source lutilisateur formule et soumet la requte ou le critre. Chaque requte (ou
critre) est construite partir du sujet et thmes danalyse, des attributs cibls et de leurs valeurs. La
collection de documents retourne par la source sera ensuite analyse. Si les rsultats sont jugs pertinents
par lutilisateur, procdera alors lactivit de collecte de ces documents sinon la requte ou le critre seront
reformuls. Les documents retenus partir de la source dinformation slectionne seront rajouts au

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 115


corpus cibl. Laction est rpte sur lensemble des sources dinformation formelles identifies par
lactivit planification. Le corpus cibl est jug complet si et seulement si toutes les sources sont interroges.
Dans le cas o le corpus cibl est jug complet suivra alors la phase de sa validation et de sa mmorisation.

2.11.5
Homognisation et/ou structuration des
documents
Dans la dmarche propose, nous supposons que les documents contenus dans le corpus cibl peuvent tre
issus de sources htrognes. Lhtrognit des sources peut tre de format, de langue, etc. Il sagit donc
de rsoudre des problmes de type smantique (conflit de nom dattribut ou de type, absence de valeur...),
mais galement de type structurel (documents non baliss, HTML) ou encore syntaxique. Pour y
rpondre, notre dmarche va se baser sur les principes dextraction dinformations dfinis par [Dkaki,
1996], [Chrisment, 1997]. Cette approche permet dextraire des informations prdfinies partir de
documents textuels o la localisation dinformations extraire est balise ou spares par des chanes de
caractres. Ces solutions permettent dans le contexte de notre proposition de :

dfinir une vue unifie des documents contenus dans le corpus cible,

grer les cas de valeurs multiples (un attribut marque plusieurs valeurs de mme type) et des
valeurs diverses (un attribut marque plusieurs valeurs de natures diverses),

grer les diffrents conflits smantiques et syntaxiques tels que la synonymie syntaxique, inclusion,
gnricit et spcificit.

La vue unifie associe au corpus cibl correspond une reprsentation logique, structure, prdfinie de
lensemble de ses collections. Cette reprsentation respecte le format dune notice bibliographique. Sa
dfinition se base sur la prise en compte des descripteurs de format spcifiques et des descripteurs de
format gnrique (Figure 40 : Dmarche dhomognisation des documents.).
Corpus Cibl

Descripteurs de
formats spcifiques
(1)

Descripteurs de
formats spcifiques
(2)

Descripteurs de
formats spcifiques
(3)

Descripteurs de
formats spcifiques
(4)

Descripteur de format gnrique

Vue unifie
Figure 40 : Dmarche dhomognisation des documents.

Descripteurs de
formats spcifiques
(5)

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 116

2.11.5.1 Descripteur de format spcifique


Pour sadapter toutes les structures caractrisant le corpus cibl, il est ncessaire dutiliser des descripteurs
de formats spcifiques pour chaque collection. Lobjectif est de pouvoir y driver le descripteur de format
gnrique.
Le descripteur de format spcifique dcrit de manire complte la collection auquel il est associ. Il doit
tre suffisamment formel pour faciliter le passage au descripteur de format gnrique en traduisant de
manire claire la faon dont se fera lextraction des informations utiles lanalyse. Il permet ainsi de dfinir
les patrons dextraction appliquer chaque collection.
Il est dfini selon les travaux de [Mothe, 2000] par:

une structure dextraction,

des rgles dextraction spcifiques,

des transformateurs smantiques spcifiques.

2.11.5.1.1

Structure dextraction

Chaque collection de document issue des sources de donnes structures est dfinie par un ensemble
dattributs ou champs baliss. Cet ensemble renseigne sur le type, la nature et la localisation de toutes les
informations lmentaires que chaque unit dinformations peut contenir. Cette structure peut tre
dduite par apprentissage ou en consultant la documentation du serveur. Elle correspond une mtainformation associe chaque collection.
Dans le cas o la collection de document est collecte partir dune source dinformation peu ou mal
structures nous devons localiser les informations utiles lanalyse et dfinir pour chaque nature
dinformation lattribut qui lui est associ. Ce traitement nous permet dfinir une structure des documents
de la collection sous forme de notice bibliographique.

Identification de la Structure
Rgles dextraction
Rgles de rcriture

Notices bibliographiques

Figure 41: Processus informationnel

Soit dans la Figure 41 un extrait du corpus de document collect partir des traces de connexions au site
atlas.irit.fr pour lanne 2007.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 117

Figure 42: Traces de connexion.

Lanalyse du contenu de la Figure 41 nous permet de dfinir les attributs cibls et les rgles de rcriture
des valeurs de ces attributs. Nous dcrivant dans le Tableau 15, les attributs cibls pouvant dcrire le
contenu de la Figure 41 sous forme de notice bibliographique.

Attributs
Numro
Date
Heure
Source
IP
Service
Destination

Valeurs
Valeur s
9328
5/05/2007
2/17/39
AOrleans-154-1-143-195.w90-20.abo.wanadoo.fr
127.0.0.1
Ftp
Atlas-dmz

Tableau 15 : Structure du contenu de la collection traces de connexion .

La structure de la collection traces de connexion devient alors sous la forme suivante :


< Numro, Date, Heure, Source, IP, Service, Destination>

2.11.5.1.2

Rgles dextraction spcifiques

Les rgles dextraction spcifiques permettent de dcrire la manire dont les informations utiles seront
extraites. Elles associent chaque lment de la structure lensemble des valeurs quelle extrait pour un
attribut cibl.
Les rgles dextraction peuvent se baser sur :

des rgles de dcoupage lorsquelles sont uniquement exprimes par des marqueurs
syntaxiques et des sparateurs comme les caractres de ponctuation. Cette catgorie de
rgles sera le plus souvent utilise dans le cas des attributs multi-valeurs.
En reprenant lexemple prcdent, la figure suivante dcrit la structure de la collection de
documents Trace de connexion et SExtract reprsente lensemble des attributs cibls
extraire pour une analyse donne.
La rgle dextraction appliquer repose sur lutilisation dun operateur dordre (ORDx).

S = < Numro, Date, Heure, Source, IP, Service, Destination >

SExtract = <Heure
<Heure,
Heure, Jour,
Jour, Mois >
Where (Heure) = Notice : ;ORD3 , indique que llment dinformation Heure provient du
troisime lment spar par ; avec la balise Notice :
Where (Jour) = Notice : ;ORD2
Where
Where (Mois) = Notice : ;ORD2
ORDx: oprateur dordre
Figure 43 : Exemple de rgle dextraction.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 118

des rgles descriptives lorsquelles dcrivent les informations extraire. Nous utilisons cette
catgorie pour extraire les valeurs associes aux attributs de type compos. Ces rgles
consistent dcrire les informations extraire. Elles peuvent se prsenter sous forme dun
automate qui dtecte des squences types dans les valeurs dun attribut.
Par exemple la squence 19 XY MMM tel que MMM = {Jan, fev, , Dec} et 00 XY
99.

Soit la rgle dextraction ExtractR :


ExtractR (UI, AttExtract, RgleAtt )
AttExtract : Elment de la structure dextraction,
UI : unit dinformation contenant la valeur extraire,
RgleAtt : reprsente une rgle associe llment dextraction Where (AttExtract)
Exemple
Soit une collection issue de la base PASCAL dans laquelle nous souhaitons extraire lensemble des auteurs.
Lapplication de la fonction dextraction ExtractR :
ExtractR ( Val, Auteur, Rg_Auteur)
Donne pour rsultat :
{ MOTHE-Josiane, CHRISMENT-Claude, DKAKI-Taoufiq, DOUSSET-Bernard, KAROUACH-Said}
O Rg_Auteur : est une rgle de dcoupage prenant en compte les sparateurs des valeurs associs
lattribut Auteur et cela par la relation WherePascal (Auteur) = AU .

2.11.5.1.3

Transformateurs
Tran sformateurs smantiques spcifiques

Les transformateurs smantiques permettent de remdier aux problmes de reprsentation des


informations utiles qui peuvent fausser les rsultats de lanalyse. Ces problmes sont lis aux diffrentes
relations smantiques qui peuvent exister entre les diffrentes valeurs prises par un attribut cibl.
Nous identifions dans ce contexte trois types de relations :

synonymie,

inclusion,

gnricit-spcificit.

RELATION DE SYNONYMIE

Lunicit de la reprsentation des valeurs nest pas assure dans les collections collectes. En effet, les
attributs sont rarement standardiss aussi bien dans leur forme que dans leur contenu smantique. La
mme valeur peut avoir plusieurs reprsentations telles que lorthographe des auteurs ou conventions
dcriture des prnoms fluctuantes, homonymes, mots cls multiformes et de sens identiques, adresses
fantaisistes etc.
Nous traitons par les relations de synonymies les problmes de diffrences syntaxiques, les fautes de
transcriptions
Diffrences syntaxiques

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 119


ABBAL-P => ABBAL, P
ABECASSIS-J => ABECASSIS, J
Unit dinformation complte ou initiale
AGEORGES-AGNES => AGEORGES-A
AGEORGES, A => AGEORGES-A
Faute de transcription
AGUIE-BEGLUN, V => AGUIE-BEGHIN,V
Dans ce contexte [Dousset, 03] a dfinit la notion de dictionnaires de synonymie qui permet de dfinir les
diffrentes relations smantiques existantes entre les valeurs pour rpondre aux diffrentes problmatiques.

Soient A, B, C, D, E les valeurs associs un lment de la structure


dextraction,
Si
A => B & B => C
C => D
B => E & C => E
Alors les relations dextraction de synonymies sont :
A => E
B => E
C => E
D => E
=> est une relation de synonymie.

Lomission de telles relations biaiserait les rsultats statistiques ainsi que les conclusions des mthodes qui
seront utilises en aval.
RELATION DINCLUSION

Les objectifs dune tude peuvent induire un degr dabstraction plus au moins grand pour certaines
valeurs. La relation dinclusion permet lutilisateur de choisir la granularit des valeurs de lanalyse ainsi
que leur homognisation. Par exemple, une relation d'ordre intressante concerne des informations
gographiques avec villes, dpartements, rgions, pays, continent...
Dans cette relation dordre x<y signifie que x est plus spcifique que y, et que la notion y recouvre la
notion x.

Exemple
Si un document est sign par un laboratoire parisien, alors ce document est franais et europen.
Paris => France => Europe
Californie => USA => Amrique
Barcelone => Espagne => Europe
Dpartement => rgion => Pays => Continent
L'utilisateur doit tablir une liste dcrivant la prcision du niveau dabstraction choisit, comme exemple
pour une analyse par continent : cela gnre une liste de synonymes tels que toutes les valeurs dun niveau
hirarchique inferieur au niveau France sont associ la valeur France et toutes les valeurs de niveau
suprieures sont ignores.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 120


RELATION DE GENERICITE-SPECIFICITE

Un regroupement des valeurs peut donner naissance une classe en vue de raliser des analyses. Certains
dtails prsents dans le corpus peuvent tre reprsents par des concepts plus larges selon les besoins de
lutilisateur. Il sagit par exemple de regrouper tous les attributs associs au champ auteurs dune mme
quipe ou les pays dune mme culture ou dun mme profil conomique. Dans certains cas cest la seule
mthode qui permet de rduire efficacement le nombre de variables prises en compte dans lanalyse
multidimensionnelles.
Notons que nous prenons la relation gnricit-spcifit dans le sens utilis dans les thesauri, et non dans
celui lingnierie des connaissances. On peut donc rencontrer de vritables relations dhyperonymie mais
aussi des relations de mronymie.

Exemple
Classe G8 :
France => G8
Etats Unis => G8
Royaume Uni => G8
Japon => G8

Classe 2006-09:
2006 => 2006-09
2007 => 2006-09
2008 => 2006-09
2009 => 2006-09

2.11.5.2 Descripteur de format gnrique


Le descripteur de format gnrique est driv partir des descripteurs de format spcifique. Le descripteur
gnrique va tre dcrit par :

une structure gnrique dextraction, qui devient alors la structure commune aux diffrentes
collections du corpus cibl.

des rgles dextraction gnriques.

Dkaki [Dkaki, 1996], propose une drivation de la structure dextraction globale partir des structures
dextractions associe chaque corpus collect.
Exemple de structure gnrique
Pour deux exemples de corpus collects partir des sources Pascal et Factiva, la structure globale
dextraction StructureGlobal Extrac et la fonction WhereG sont dfinies comme suit :
StructureGlobal Extrac = {Titre, Auteur, Affiliation, Confrence, Date, Pays, Descripteur, thme, Journal, Langue}
WhereG ([Auteur] ) = {(SPascal, AU), (SFactiva, BY) }
Exemple d e rgle dextraction gnrique
AU: MOTHE-Josiane; CHRISMENT-Claude; DKAKI-Taoufiq; DOUSSET-Bernard; KAROUACHSaid ( Pascal)
BY

Franois Courvoisier (Factiva)

ExtractR ( Val, [Auteur] , Rgle[Auteur] ) = ExtractR (Val, Auteur, Rgle Auteur) ={ MOTHE-Josiane,
CHRISMENT-Claude, DKAKI-Taoufiq, DOUSSET-Bernard, KAROUACH-Said, Franois
Courvoisier }
Avec : Rgle Auteur: est une rgle de dcoupage prenant en compte les sparateurs du champ associ Auteur
par la relation Wherepascal (Auteur) = AU et WhereFactiva (Auteur) = BY.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 121

2.11.5.3 Fonctionnement gnral de lactivit homognisation et /ou


structuration
Cette activit permet dhomogniser et structurer lensemble des collections de documents contenus dans
le corpus cibl. Lobjectif est de dfinir une vue unifi du corpus. Les documents utiliss pour cette activit
sont : les attributs cibls et leurs granularits.
La premire phase de lactivit dbute par lanalyse du corpus cibl. Si le nombre de collections contenues
dans le corpus est suprieur un, on a affaire un corpus htrogne. Dans ce cas lutilisateur, pour
chaque collection, doit dfinir le descripteur de format spcifique rpondant aux besoins de lanalyse. Une
fois que toutes les collections sont traites, suivra ltape de la dfinition du descripteur de format
gnrique.

Figure 44 : Le fonctionnement gnral de lactivit Homognisation et/ou structuration des documents.

2.11.6

Reprsentation multidimensionnelle des documents

Notre proposition consiste dfinir une structure unique de donnes intermdiaires entre informations
brutes et pr-connaissances dduites, sous la forme dun entrept de donnes gnrique, qui contiendra

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 122


seulement des pr-connaissances sous forme relationnelle. Cette structure de lentrept servira de support
pour lapplication des diffrentes fonctions exploratoires dfinies dans la section 3-3-7.
La reprsentation multidimensionnelle permet dalimenter lentrept de donnes partir du corpus cibl.
Lentrept de donnes gnr ne doit contenir que les relations existantes entre les diffrents attributs
cibls. Lextraction de ces relations partir du corpus cibl va se baser sur les descripteurs de format
spcifiques et gnriques dfinis prcdemment (sections 3.3.5.1 et 3.3.5.2) et les attributs cibls mettre
en relation, selon les besoins de lanalyse. Le but de cette dmarche est de dfinir une reprsentation
multidimensionnelle gnrique des documents afin de mieux synthtiser leurs contenus et cela en
liminant les lments indpendants, pour ne garder que les dpendances les plus significatives en termes
danalyse.

Vue unifie

Structure 3D

Structure 2D

Entrept de donnes

Figure 45 : Entrept de donnes.

La reprsentation multidimensionnelle se base sur les matrices prsentes dans ltat de lart (2.5.2 Mesures
de dpendances).

Figure 46 : Classification des matrices.

Nos travaux consistent dfinir deux modles savoir :

Modle deux dimensions,

Modle trois dimensions.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 123

2.11.6.1 Modle deux dimensions


Lobjectif du modle deux dimensions est de reprsenter chaque document du corpus cibl sous forme
relationnelle. Ce modle est dfini selon lune des matrices de la Figure 47.
Soit la structure de la vue unifie dun corpus cibl dfinie par :
< ID-Doc, Auteur, Date, Revue, Pays, Descripteur, Organisme >
Dans le cas dune matrice prsence-absence, le modle deux dimensions associ correspond un tableau
deux dimensions o les lignes correspondent aux valeurs de lAttributj et les colonnes aux valeurs de
lAttributi. Tel que :
Attributi {Auteur, Date, Revue, Pays, Descripteur, Organisme}
Les valeurs contenues dans la matrice dcrivent sil existe une relation de dpendance, de type prsenceabsence, entre les attributs croiss.

Attributi

Attribut cibl

ID-Doc

Relation de dpendance

Figure 47 : Relation de dpendance deux dimensions.

Nous dtaillerons le modle de la reprsentation multidimensionnelle deux dimensions dans la section


2.11.6.1.

2.11.6.2 Modle trois dimensions


Lobjectif du modle trois dimensions est de dfinir lensemble des relations de dpendances entre les
attributs du corpus cibl. Ce modle repose sur le principe de la matrice de cooccurrence. Dans le cadre de
nos travaux, nous proposons de dfinir des matrices de cooccurrence trois dimensions (3D). Chaque
dimension correspond un attribut cibl. Le troisime attribut cibl correspond au temps, correctement
discrtise en priodes homognes.
Soit la structure de la vue unifie dun corpus cibl dfinie par :
< ID-Doc, Auteur, Date, Revue, Pays, Descripteur, Organisme >
Le modle trois dimensions associ, est dfini par une matrice de cooccurrence trois dimensions o les
deux premires dimensions correspondent aux Attributi et la troisime lattribut Date . Tel que :
Attributi {Auteur, Date, Revue, Pays, Descripteur, Organisme}

Attributi

Attributi

Attribut cibl

Relation de dpendance

Date
Figure 48 : Relation de dpendance trois dimensions.

Les valeurs contenues dans la matrice de cooccurrence 3D quantifient la relation de dpendance entre les
trois attributs croiss. La quantification rvle le nombre de documents dans lesquels on retrouve les trois
valeurs simultanment.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 124


La dimension temporelle est ici importante car il sagit de lanalyse dune chronique historique : des
variations dun mme attribut au cours du temps, afin de pouvoir comprendre la dynamique. La fonction
premire pour laquelle il est intressant dobserver lhistorique dun attribut vise en dcouvrir certaines
rgularits afin de pouvoir tablir une prvision. Il sagit ici de supposer que les mmes causes produisent
les mmes effets. Avec une analyse fine, il est mme possible dtablir des prvisions robustes vis--vis de
ruptures brusques et de changements non prvisibles.

2.11.6.3 Fonctionnement gnral de lactivit


lactivit reprsentation
multidimensionnelle des documents

Figure 49 : Le fonctionnement gnral de lactivit Reprsentation multidimensionnelle des documents .

2.11.7

Calcul des indicateurs et analyse

Nos travaux consistent proposer un ensemble de fonctions exploratoire. Dans ce contexte, nous
dfinissons deux types :

Fonctions de manipulation

Fonctions dagrgation

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 125

2.11.7.1 Fonctions de manipulation


En terme de manipulation multidimensionnelle, les premiers travaux sur les manipulations OLAP ont
tendu les operateurs de lalgbre relationnelle pour le modle en cube [Gray, 1996], [Agrawal, 1997] (une
transcription SQL des oprations est disponible dans [Agrawal, 1995]). Dans le cadre de nos travaux nous
nous sommes inspirs de ces travaux pour dfinir des fonctions de manipulation pour le modle en cube
propos. Les fonctions de manipulation proposes sont divises en 5 groupes :

Les fonctions de manipulation de la porte de lanalyse : slection, restriction, seuil.

La fonction dordonnancement : ordre.

La fonction environnement : pour une valeur dattribut donne, affiche lensemble des attributs et
des valeurs cooccurrents dans lentrept.

La fonction volution : permet dexplorer lvolution dans le temps des rsultats des fonctions
prcdentes.

La fonction Document : permet de retrouver les documents sources.

2.11.7.2 Fonctions dagrgation


Les fonctions dagrgation sont des lments important lors de la gnration de rapports sur des bases de
donnes [Klug, 1982]. Ce sont des fonctions donnant des rsultats quantitatifs :

Somme,

Comptage,

Minimum,

Moyenne,

Maximum,

Frquence.

Ces diffrentes fonctions sont dtailles dans la section 2.13.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 126

2.11.7.3 Fonctionnement gnral de lactivit calcul dindicateur et


et
analyse

Figure 50 : Le fonctionnement gnral de lactivit Calcul des indicateurs et analyse.

2.11.8

Validation et diffusion

Cette tape permet aux diffrents utilisateurs de valider :

Dune part chaque activit du processus (cf. les figures dcrivant le fonctionnement gnral de
chaque activit),

Dautre part le rsultat obtenu par le processus (le produit de lIE).

Modle de reprsentation
2.12
multidimensionnelle des documents
2.12.1

Considration gnrales

Lobjectif principal de cette tape est dextraire les relations de dpendances existantes entre les diffrents
lments de la structure dextraction globale du corpus structur. Le but est de rduire les informations
extraites afin de mieux les maitriser, en liminant les lments indpendants, pour ne garder que les
relations les plus significatives en termes danalyse.
Dans ce contexte, le corpus structur reprsente la population dindividus sur lesquelles va porter lanalyse.
Nous dfinissons une vue multidimensionnelle du corpus global et lensemble des lments de la structure

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 127

dextraction globale (< Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >) reprsente les dimensions (ou les
variables dans le domaine danalyse de donnes) de lanalyse, et les valeurs du corpus reprsentent (< {
valeur11G, , valeurk1G}, , { valeur1iG, , valeurliG}, , { valeur1jG, , valeurmjG} >) les attributs associs
aux dimensions (ou les modalits dans le domaine danalyse de donnes).
La vue est alors une modlisation des diffrentes corrlations entre variables sur la totalit de la population
(documents du corpus source) ou simplement une de ses parties significatives.
Les variables sont de plusieurs types [Dousset, 03]:

Qualitatives ordinales : anne de publication, de dpt, heures de connexion, jours de la semaine


ou du mois,

Qualitatives hirarchiques : thesaurus hirarchiques, zones gographiques, inclusions


smantiques, chemin daccs aux fichiers,

Qualitatives nominales : auteurs, revues, pays, dictionnaires de mots-cls,

De plus les variables qualitatives peuvent tre :

UniUni- modales : prsence ou absence dune caractristique.

MultiMulti -modales modalits exclusives : anne, revue, langue, type de document, source, (une
seule modalit de cette variable est alors requise obligatoirement pour chaque document).

MultiMulti -modales modalits ventuellement multiples : auteurs, mots-cls, classifications,


citations compltes, (plusieurs modalits diffrentes de cette variable peuvent apparatre une
seule fois chacune dans le mme document).

Multi
Multi -modales modalits multiples ventuellement redondantes:
redondantes mots du texte libre,
affiliations, pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cits, revues cites,
(une mme modalit peut alors apparatre plusieurs fois dans le mme document).

Dans ce contexte, le modle gnrique de lensemble des documents du corpus global est dfini comme
suit : Chaque document du corpus source est dcrit par lensemble des lments de la structure
dextraction du corpus, et chaque document est identifi par un lment de la structure dextraction
nomm N Doc .
Exemple
Soit : StructureGlobal Extrac = < N Doc, Anne, Auteur, Revue, Pays, Mots C, Organisme >
La reprsentation des variables associe est comme suit :

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 128

Individus de la population

Document

Inclusion

Equivalence

N Doc

Anne

Multimodales
modalits exclusives

Auteur

Revues

Pays

Multimodales
modalits multiples

Mots C

Organisme

Multimodales modalits
multiples redondantes

Variables qualitatives

Figure 51 : Modle de document contenu dans le corpus structur.

Dans le cas qualitatif, il est possible de croiser deux variables en prenant pour base la population globale ou
un extrait de celle-ci. Quelle que soit la mesure utilise, on gnre une matrice dont le nombre de lignes est
gal au nombre de modalits de la premire variable et le nombre de colonnes celui de la seconde. Ces
matrices serviront de base aux principales techniques dextraction de connaissance que nous avons
dveloppes dans le cadre de Ttralogie.

2.12.1.1 Notion de dpendance


Ce que nous recherchons principalement, ce sont les relations de dpendances entre les variables prsentes
dans des grandes collections de documents. La mise en vidence de ces relations et leur analyse permettent
dchafauder des scnarios tendant expliquer les mcanismes complexes qui grent le fonctionnement de
lenvironnement dun domaine ou dun acteur. Le but est de rduire lespace informationnel afin de mieux
le matriser, en liminant les lments indpendants, pour ne garder que les relations les plus significatives
en termes de stratgie. De nombreuses mesures de dpendance sont utilisables : covariances, corrlations,
concidences, contingences, cooccurrences, proximits. Elles donnent des visions diffrentes mais
complmentaires dune mme ralit.

2.12.1.2 Gnralisation : tableaux de Burt


Dans un tableau de Burt [MARC91
MARC91],
MARC91 toutes les variables qualitatives sont croises entre elles. Ce tableau,
souvent immense, dpasse la capacit mmoire des machines les plus modernes et son analyse directe est
beaucoup trop longue et complexe pour pouvoir rpondre simultanment lensemble des demandes
potentielles des utilisateurs. Cest pour cette raison que nous sommes obligs de dcomposer le tableau de
Burt en sous matrices utiles, qui seront directement exploitables en mmoire.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 129

Illustration par un exemple concret.


Ltude dun exemple simple va nous permettre de passer en revue tous les types de sous matrices qui sont
rellement utiliss au cours dune analyse classique.
Dans le cas thorique suivant, nous allons prendre un champ qualitatif de chaque type et tout croiser
ensemble, afin dillustrer les diffrentes configurations possibles :

DP- Champ date (qualitatif ordinal modalits exclusives).

JN- Champ journal (qualitatif nominal modalits exclusives).

AU- Auteurs (qualitatif nominal modalits multiples mais non redondantes).

TH- thesaurus (qualitatif nominal modalits multiples mais non redondantes et le plus souvent
hirarchiques : cf Mesh).

PA- pays (qualitatif nominal modalits ventuellement multiples et/ou redondantes dans le cas
de plusieurs adresses).
Ceci nous conduit gnrer 25 matrices (5x5) qui nont pas toutes la mme utilit, les mmes
caractristiques et qui sont parfois redondantes entre elles ou avec dautres mesures plus simples obtenir.
Le tableau de Burt correspondant va donc avoir les caractristiques suivantes :

Burt*

JNJN-

AUAU-

THTH-

PAPA-

Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
symtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique

Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
symtrique
Cooccurrence
sple ou glob
asymtrique

Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
symtrique

DPDPDP-

Diagonale**

Contingence

JNJN-

Contingence

Diagonale

Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique

Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique

AU-AU

THTH-

PAPA -

Tableau 16 : Matrices utiles du tableau de Burt.

* Dans tous les cas, des matrices de prsence absence peuvent aussi tre gnres.

** Les matrices diagonales (modalits exclusives) nont pas dintrt puisque elles font double
emploi avec le dnombrement des modalits.

*** Les autres matrices barres nont pas de relle utilit puisque leurs transposes (matrices
hautes) offrent une alternative plus judicieuse pour les analyses factorielles.
Dans ce qui suit, nous allons donner des prcisions sur les caractristiques de ces matrices, sur leur utilit,
les mtriques utilises et sur les traitements possibles pour arriver en extraire de nouvelles connaissances.
Nous ne pouvons plus parler de contingence lorsquau moins une des deux variables peut simultanment
prsenter plusieurs modalits pour un mme document, car la matrice produite par croisement ne possde

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 130

plus les proprits remarquables voques ci-dessus. De nouvelles mesures de correspondance entre deux
modalits, une associe la premire variable et lautre la seconde, sont alors disponibles :

Prsence absence : il existe au moins un document du corpus qui contient simultanment les
deux modalits (concidence).

Cooccurrence simple: nombre de documents dans lesquels on retrouve simultanment les deux
modalits (identique la contingence si les modalits sont exclusives dans chaque variable).

Cooccurrence globale : nombre de couples de modalits en concidence (diffre de la mesure


prcdente si la mme modalit est signale plusieurs fois dans un mme document). Sapplique
essentiellement au texte libre ou aux lments des adresses et des citations.

Proximit : pour le texte libre, il est possible de ne prendre en compte que les concidences des
modalits physiquement proches ( ct, moins de n mots, dans la mme phrase, ) aprs ou
sans limination des mots vides.
Dans les trois derniers cas, il est possible de gnrer un compte fractionnaire afin que chaque document ou
unit textuelle nintervienne, dans la matrice, quavec le mme poids de 1. Il suffit pour cela de rpartir ce
poids sur lensemble des cellules qui correspondent aux cooccurrences constates. La matrice retrouve alors
les proprits dune matrice de contingence classique mais les lments de la matrice et les marginales ne
sont plus exprims par des valeurs entires. Un article scientifique sign simultanment par 450 auteurs
naffectera plus les cellules concernes que de +1/450ime dans une matrice de type Auteurs Journaux.
Mais cette technique est surtout applicable lorsque les documents analyss sont trs htrognes au niveau
de la taille (en particulier pour Internet). En effet, un document trs long, dcoup ou non en phrases,
gnre infiniment plus de cooccurrences quun document trs court, il est donc sur reprsent dans la
matrice ce qui peut fausser en partie lanalyse.

2.12.1.3 Base de calcul pour ces mesures


Soit lextrait de fiche bibliographique suivant :

FTFT- Bilan et perspectives du programme Cartisol : construction d'une carte gntique du


tournesol et de recherche de marqueurs molculaires de rsistance aux maladies| (soit 13 mots
significatifs)

AU-- PINOCHET X^GENTZBITTEL


E
AU
X GENTZBITTEL L^BRET-MESTRIES
L

OURVIEILLE DE

LABROUHE D^GRIVEAU Y^BERVILLE A^VEAR F^NICOLAS P| (8 auteurs)

JN-- OCL.
JN
OCL Olagineux, corps gras, lipides| (1 journal)
PD-- 1997|
PD
1997 (1 date)
EA-- La rsistance du tournesol aux maladies fait l'objet de recherches depuis de longues annes.
EA
Les acquis de ces travaux et la complexit des questions rsoudre ont motive la mise en place du
programme Cartisol dont on peut maintenant tirer un bilan. Ce programme a runi des
partenaires de la recherche publique, le CETIOM et des semenciers privs. Dans une premire
phase, une carte gntique du tournesol a t tablie par marqueurs RFLP. Durant la deuxime
partie du programme, le partenariat mis en place a permis de mettre en vidence des QTL de
rsistance a Sclerotinia, et d'identifier des rgions de la carte particulirement intressantes pour le
marquage de QTL ou de gnes de rsistance a des pathognes. Ce travail a abouti au dpt d'un

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 131

brevet et a la publication de plusieurs articles. Les acquis du programme constituent une base trs
utile pour poursuivre la mise au point de nouveaux outils molculaires d'aide a la slection.| (soit
environ 70 mots significatifs)

FD-- Resistance champignon Gene Locus Helianthus annuus Sclerotinia sclerotiorum


FD
DNA Marqueur gntique France Diaporthe helianthi^CETIOM^GEVES^INRA^1990-1994
1994-1997 PARTENARIAT QTL RESISTANCE AUX MALADIES Slection assiste
marqueur| (soit 18 mots-cls)

2.12.1.4 Impact dun document sur les diffrentes matrices


Types des
champs

Modalits
exclusives

Modalits non
exclusives

Modalits
prsentes
plusieurs fois
FT(Cartisol) &
EA(resistance)

Modalits
prsentes
plusieurs fois
EA(QTL) &
EA(resistance)

Modalits
exclusives ou
redondantes
JN(OCL) &
EA(tournesol)

Champs et
modalits
croiss
Prsence absence
Cooccurrence
simple
Cooccurrence
globale
Proximit 2
mots
Pondration
fractionnaire

JN(OCL) &
PD(1997)
+1
si 0 avant
+1

AU(PINOCHE
T X) &
FD(DNA)
+1
si 0 avant
+1

+1
si 0 avant
+1

+1
si 0 avant
+1

+1
si 0 avant
+1

Sans intrt

Sans intrt
Sans intrt

(1x3)
soit +3
Sans intrt

(2x3)
soit +6
+1

(1 x 2)
soit +2
Sans intrt

Sans intrt
Sans intrt

(1x1)/(8x18)
soit +1/144

(1x3)(13x70)
soit +3/910

(2x3)(70x70)
soit +6/4900

(1x2)/(1x70)
soit +2/70

Tableau 17 : Impact des mesures en fonction des matrices.

Dans les deux tableaux qui suivent, nous prcisons limpact du document prcdent sur la valeur dune
cellule de la matrice calcule dans diffrents cas :

Matrice croisant deux variables modalits exclusives : champ journal JN avec la modalit
OCL crois avec le champ date de publication PD et la modalit 1997 .

Matrices croisant deux variables modalits non exclusives : champ auteurs AU avec la modalit
PINOCHET X avec le champ descripteurs FD et la modalit DNA .

Matrices croisant deux variables modalits multiples et redondantes : champ titre FT avec la
modalit Cartisol crois avec le champ rsum EA et la modalit resistance ou champ
rsum EA crois avec lui mme pour les modalits QTL et resistance .

Matrice mixte croisant une variable modalits exclusives et une variable modalits multiples et
redondantes : champ journal JN modalit OCL crois avec rsum EA et sa modalit
tournesol .
A la vue de ces rsultats, nous pouvons remarquer quil est difficile dexprimer quantitativement des
relations qui sont essentiellement dordre qualitatif. Le choix des mesures est pourtant essentiel pour bien
mettre en vidence les informations convoites : signaux forts, signaux faibles, spcificits dun domaine,
La stratgie sera diffrente selon que le corpus tudi est homogne ou trs htrogne. Dans ce dernier cas
deux options sont possibles : pondrer ou revenir des units textuelles plus homognes comme le

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 132

paragraphe ou mme la phrase. Cette dernire technique nest applicable quaux auto croisements portant
sur le texte libre (mono et multi-termes) avec, ventuellement, lutilisation dun filtrage diffrent pour les
lignes et les colonnes.

2.12.2

Modle deux dimensions

Lobjectif de ce modle consiste reprsenter toutes les dpendances intra et inter documents prsents
dans le corpus cibl. Cette reprsentation est base sur une structure deux dimensions. Chaque
dimension est un attribut du document.
Pour un corpus de documents dont la structure dextraction est comme suit :
StructureGlobal Extrac = < N Doc, Date, Auteur, Revues, Pays, Mots C, Organisme >
Nous proposons de construire des tableaux deux dimensions, qui permettent de dfinir les relations
existantes entre llment de la structure dextraction Numro de document avec le reste des lments.

Document

Equivalence
N Doc

Auteur

Date

Organisme

Pays

Mots C

Revues

Relations de dpendances

Figure 52 : Exemple de dpendance deux dimensions intra document.

2.12.2.1 Principe
La construction de la relation se base sur le principe de Prsence/Absence (voir section 2.5.3), qui consigne
lexistence dau moins un document contenant simultanment les modalits des deux variables tudies.
Pour un corpus structur dont la structure dextraction est dfinie comme suit :
StructureGlobal Extrac = < Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >,
Avec
ChpiGExtrac : correspond llment i de la structure dextraction global,

2.12.2.2 Tableau deux dimensions


Soient X et Y deux variables qualitatives p et q modalits respectivement dcrivant un ensemble de n
individus.
Soit lensemble des modalits {x1, ,xp} de la variable X.
Soit lensemble des modalits {y1, ,yq} de la variable Y.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 133

Le tableau de croisement deux dimensions est une matrice p lignes et q colonnes tel que nij prend la
valeur 1 si xi et yj et la valeur 0 sinon.
XxY

y1

y2

yj

yq
n1q
n2q

xi

n1j
n2j

n12
n22

n11
n21

x1
x2

ni1

ni2

nij

niq

xp

np1

np2

npj

npq

Figure 53 : Tableau a deux dimensions.

Lalimentation du corpus se base sur la prise en compte des relations de dpendances existant dans la
structure par suppression des lments indpendants. Ainsi, seules les relations les plus significatives sont
conserves.
Remarque : Nous considrons dans le corpus multidimensionnel chaque variable comme dimension, leurs
modalits et les valeurs du cube comme attributs.
Nous dfinissons le corpus multidimensionnel CM2Dassoci la modlisation deux dimensions comme
suit :
Soit la structure du corpus multidimensionnel (2 dimensions) SCM2D dfinie comme suit :
SCM2D = {< DimNDoc, Dimi >}
Le corpus multidimensionnel CM2D dfinie comme suit :
CM2D = {< AttyNDoc, Attxi >}
Avec
- AttyNDoc DNDoc lensemble des attributs {Att1NDoc, , AttqNDoc} de la Dimension j associ la
dimension DimNDoc,
- Attxi Di lensemble des attributs {Att1i, , Attpi} de la Dimension i Dimi .

CAS PARTICULIER

Dans le cas o lune des variables croises est de type identifiant de document, la matrice construite permet
de rvler les diffrentes inter-relations entre un document et ses diffrents attributs.

Dimensions
N Doc

Chp2GExtrac
X

ChpiGExtrac
X

ChpjGExtrac
X

Figure 54 : Exemple de relations NDoc-Chp.

Ainsi le corpus de documents peut etre reconstruit sous forme matricielle.

Exemple
En reprenant le corpus structur de lexemple prcedant ( 3.2.3.1.), Nous reprsentons les diffrents
documents du corpus global associ par le tableau deux dimensions comme suit :

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 134

N
N
N
N
N
A
D
M
J
P
X
X
X
X
X
A a1 a2 a3 a4 D d1 d2 d3 J j1 j2 j3 j4 P p1 p2 p3 p4 M mc1 mc2 mc3 mc4

N
dc1

1 1

dc2

dc3

1 1

dc4

dc5

dc6

dc7

1 1

dc8

1
1

1
1

1 1

dc10

dc11

1 1

dc12

dc13

1
1

1
1

1
1

1
1

dc9

1
1

1
1

1
1

1
1

1
1

1
1

1
1
1

Figure 55 : Tableau deux dimensions du CorpusGlobal

Ainsi, nous dfinissons La structure du corpus comme suit :


SCM2DExple = {< Numro, Auteur >, < Numro, Date >, < Numro, Journal >, < Numro, Pays >, <
Numro, Mots C >
Afin de construire le corpus multidimensionnel, nous garderons que les cases dont les valeurs sont
suprieur ou gales un.
le corpus multidimensionnel associ est :
C M2D Exple = {<dc1, a1>,,<dc13, mc4> }

2.12.3

Modle trois dimensions

Lobjectif de cette structure est de permettre ltude de lvolution des interactions entre variables afin de
raliser des projections dans lavenir, qui sont essentielles pour la prise de dcisions stratgiques. Notre
proposition consiste dfinir une structure unique de donnes intermdiaires entre informations brutes et
pr-connaissances dduites, sous la forme dun entrept de donnes gnrique, qui ne contiendra que des
pr-connaissances sous forme de relations volutives. Cette structure de corpus servira de support pour
lapplication des diffrentes fonctions de dcouverte de connaissances.
La structure du corpus multidimensionnel repose sur une modlisation trois dimensions. Cette dernire
permet de dfinir les diffrentes relations de dpendances entre les lments de la structure dextraction du
corpus structur (les variables du corpus) avec la prise en compte de la structure temporelle (la variable
temporelle) (voir figure).
Pour un corpus de notices dont la structure dextraction est comme suit :
StructureGlobal Extrac = < N Doc, Date, Auteur, Revue, Pays, Mots C, Organisme >
Nous proposons de construire des matrices trois dimensions, qui permettent de dfinir les relations de
dpendances existantes entre les variables du corpus en y intgrant systmatiquement la variable temporelle
cest--dire llment Date .

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 135

Document

Inclusion
Equivalence

N Doc

Auteur

Titre

+ Date

Organisme

Pays

Mots C

Revue

Relations de dpendances

Figure 56 : Exemple de dpendance intra document trois dimensions et llment temporel.

2.12.3.1 Principe
Notre but est didentifier toutes les relations de dpendances existantes dans le corpus entre les diffrentes
variables de ltude (voir Figure). Ces relations sont dfinies par des matrices de co-occurrences. Ces
matrices indiquent la prsence simultane des modalits de deux variables qualitatives dans un document.
Nous adoptons ces matrices en y rajoutant une troisime variable comme suit :
Les deux premires variables sont les variables qualitatives associes au corpus multidimensionnel,
Et la troisime variable est toujours la variable temporelle (Data, anne, ) associe au corpus.
Ainsi, la matrice de co-occurrence consiste indiquer la prsence des modalits de ces trois variables dans
un document (structure trois dimensions). Nous nommons cette matrice Cube .

Variable1

Date
Variable 2

Figure 57 : Cube de donnes.

Le cube permet de regrouper les relations existantes dans un corpus en priodes. Nous identifions deux
types de forme de cube :
Cube sous forme de matrice symtrique : dans le cas o nous considrons la coprsence des
modalits dune mme variable et la variable temporelle dans un document.
Cube sous forme de matrice asymtrique : dans le cas o nous considrons la prsence des
modalits de deux variables distinctes et la variable temporelle dans un document.
Pour un corpus structur dont la structure dextraction est dfinie comme suit :
StructureGlobal Extrac = < Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >,
Avec
ChpiGExtrac : correspond llment i de la structure dextraction global,

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 136

2.12.3.2 Tableau trois dimensions


Soient X et Y deux variables qualitatives distinctes p et q modalits dcrivant un ensemble de n
individus. Et T une variable qualitative temporelle r modalits.
Soit lensemble des modalits { x1, ,xp} de la variable X.
Soit lensemble des modalits { y1, ,yq} de la variable Y.
Soit lensemble des modalits { t1, ,tr} de la variable T.

2.12.3.2.1

Matrice symtrique

La matrice asymtrique est une matrice r lignes et s colonnes qui a pour lment gnrique le
nombre nijk dindividus tel que xi et xj et tk

n11r
n21r

n1j1
n2j1

n1jr
n2jr

n1p1
n2p1

n1pr
n2pr

nijr

xp

np11

np1r

nij1

npj1

npjr

nip1

npp1

nipr

ni1r

ni11

xi

n111
n211

tr

xp

t1

tr

xj

t1

tr

x1

X
x1
x2

t1

X
T

XxXxT

nppr

Figure 58 : Matrice symtrique.

2.12.3.2.2

Matrice asymtrique

La matrice asymtrique est une matrice r lignes et s colonnes qui a pour lment gnrique le
nombre nijk dindividus tel que xi et yj et tk

n11r
n21r

n1j1
n2j1

n1jr
n2jr

n1q1
n2q1

n1qr
n2qr

nijr

xp

np11

np1r

nij1

npj1

npjr

niq1

npq1

niqr

ni1r

ni11

xi

n111
n211

tr

yq

t1

tr

yj

t1

tr

y1

t1

X
x1
x2

Y
T

XxYxT

npqr

Figure 59 : Matrice asymtrique

Grce la structure du cube, nous construisons le corpus multidimensionnel. Lalimentation du corpus se


base sur la prise en compte des relations de dpendances existantes dans la structure du cube par
suppression des lments indpendants. Afin de construire le corpus multidimensionnel, nous garderons
que les cases dont les valeurs sont suprieur ou gales un.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 137

Remarque : Nous considrons dans le corpus multidimensionnel chaque variable comme dimension, leurs
modalits et les valeurs du cube comme attributs.
Nous dfinissons le corpus multidimensionnel associ au cube comme suit :
Soit la structure du corpus multidimensionnel (3 dimensions) SCM3D dfinie comme suit :
SCM3D = {< Dimi, Dimij, DimT, NbDocijT >}
Le corpus multidimensionnel CM3D dfinie comme suit :
CM3D = {< Attxi, Attyij, AttzijT, AttoijT >}
Avec
- Attxi Di lensemble des attributs {Att1i, , Attpi} de la Dimension i Dimi ,
- Attyij Dj lensemble des attributs {Att1j, , Attqj} de la Dimension j associ la dimension i
Dimij ,
- AttzijT DT lensemble des attributs {Att1T, , AttrT} de la Dimension temps DimT ,
- AttoijT NbD lensemble des attributs {Att1Nb, , AttlNb} du nombre de documents ou les trois
dimensions apparaissent simultanment.
AttoijT = Di x Dj x DT [Attxi, Attyij, AttzijT] et AttoijT >= 1

Exemple
Soit CorpusEStructu = {< StructureGlobal Extrac, CorpusGlobal >} compos de 13 documents.
StructureGlobal Extrac la structure globale dextraction est prsente comme suit :
StructureGlobal Extrac = < Numro, Auteur, Journal, Date, Mots C, Pays>
Nous considrons chaque lments de la structure dextraction StructureGlobal Extrac , comme dimension de
lanalyse multidimensionnelle.
Le corpus global CorpusGlobal est comme suit :
CorpusGlobal = < {dc1, a1, a2, d1, mc1, mc2, p1, p2}, {dc2, a1, j2, d1, mc1, mc2, p1}, {dc3, a1, a2, j3, d3, mc1, mc2,
p1, p2}, {dc4, a1, j1, d3, mc1, p1}, {dc5, j1, d1, mc2, p2}, {dc6, a2, j3, d1, mc1, mc2, mc3, p2},{dc7, a2, a3, d3, mc2,
mc3, p1, p2},{dc8, a2, a3, j1, d2, mc3, p3},{dc9, a3, a4, j4 d2, mc3, mc4, p3, p4},{dc10, a3, j3, mc2, mc3, d2,
p3},{dc11, a3, a4, j4, mc2, mc3, mc4, d3, p3, p4},{dc12, a4, j2, mc1, mc4, p4, d3},{ dc13, a4, j1, mc1, mc2, mc3, mc4,
d2,p4} >
Tel que :
{dc1, dc2, dc3, dc4, dc5, dc6, dc7, dc8, dc9, dc10, dc11, dc12, dc13} N et N reprsente lensemble des attributs
associs la dimension Numro .
{a1, a2, a3, a4} A et A reprsente lensemble des attributs associs la dimension Auteur.
{d1, d2, d3} D et D reprsente lensemble des attributs associs la dimension Date.
{j1, j2, j3, j4} J et J reprsente lensemble des attributs associs la dimension Journal.
{p1, p2, p3, p4} P et P reprsente lensemble des attributs associs la dimension Pays.
{mc1, mc2, mc3, mc4} M et M reprsente lensemble des attributs associs la dimension Mots C.
Ainsi, dans le contexte de lexemple, nous nous intressons aux relations volutives existantes entre les
couples de dimensions suivantes :
Auteur- Auteur, Auteur- Journal, Auteur- Mots C, Mots C- Mots C, Mots C- Journal, Mots C- Pays

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 138

Dimensions
Numro
Auteur
Journal
Mots C
Pays
Date

Numro

Auteur

Journal

Mots C

Pays

Date

Figure 60 : exemple de relations deux dimensions.

Nous reprsentons ces diffrentes relations par le tableau trois dimensions comme suit :
AxAxD

A
D

A
a1
a2
a3
a4
AxJxD

J
D

d1
1
2

j1
d2

d1

a2
d2

d3

1
2

2
3

d3

d1

d3

d1

1
1

a3
d2

d3

1
2

2
2

j3
d2

d3

d1

d1

2
2

2
1

2
3

d1

mc3
d2

d3

1
3
2

1
1
1
2

1
1

2
2
1
1

d1

mc2
d2

d3

d1

mc3
d2

d3

3
4

1
2

1
3

1
1
1

1
2
4

2
3

d3

d1

j3
d2

d3

1
1
1

1
1

d1

d2

d3

1
3
1

1
1
1

mc1
d2 d3

mc2
d2 d3

a4
d2

d3

2
3

j4
d2

d3

1
1

1
1

mc4
d2

d3

mc4
d2

d3

1
1

d1

d1

d1

mc1
d2 d3

j2
d2

1
1
1

1
D

d3

d1

A
a1
a2
a3
a4

MxM xD

a1
d2

A
a1
a2
a3
a4
A x M xD

d1

d1

d1

mc1
mc2
mc3
mc4
MxJxD

J
D

d1

j1
d2

d3

d1

j2
d2

d1

1
1
2
2

1
2

j4
d2

d3

mc1
mc2
mc3
mc4
M xPxD

1
2

J
D

1
1
2
1

1
1
1

p1
d1

d2

p2
d3

d1

2
2
1

2
3
1

d2

1
2
1

p3
d3

1
2
2

p4
d1

d2

d3

1
1
2
2

1
1
1
2

mc1
mc2
mc3
mc4

2
2

1
2
1

Figure 61 : Matrice du Corpusglobal

Ainsi, nous dfinissons La structure du corpus comme suit :

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 139

SCM3DExple = {< Auteur, Auteur, Date, NbDocAAD >, < Auteur, Journal, Date, NbDocAJD >, < Auteur, Mots C,
Date, NbDocAMD >, < Mots C, Mots C, Date, NbDocMMD >, < Mots C, Journal, Date, NbDocMJD >, < Mots C,
Pays, Date, NbDocMPD >}
Et le corpus multidimensionnel associ est :
C M3D Exple = {<a1, a1, d1, 2>,, <mc4, p4, d3, 2> }

2.13

Modle de calcul dindicateurs


din dicateurs

2.13.1

Fonctions de manipu
manipulation

2.13.1.1

Slection

Cette fonction permet de slectionner un attribut particulier dans le corpus.


La fonction slection fSelection est dfinie comme suit :
fSelection (Atti) = C SM3D
C SM3D = {< Valxi S, Valyij, ValzijT, ValoijT >}
Avec
< Valxi S, Valyij, ValzijT, ValoijT >: lensemble des valeurs de lattribut slectionn.

La fonction fSelection consiste slectionner lensemble des instances du corpus o les attributs de la
dimension slectionne correspondent au prdicat de restriction.

2.13.1.2 Restriction
La fonction Restriction est employe pour rduire le nombre de donnes analyser. Lutilisateur peut
spcifier une restriction sur les valeurs dun attribut en dfinissant une restriction sous forme:

Soit dun prdicat Prdicat,

Soit en choisissant le nombre de modalits dun attribut.


La fonction slection fRestriction est dfinie comme suit :
fRestriction (Atti, Prdicat) = C SM3D
C SM3D = {< Valxi S, Valyij, ValzijT, ValoijT >}
Avec
-

Prdicat : prdicat restrictif sur un attribut Atti,


< Valxi S, Valyij, ValzijT, ValoijT >: linstance slectionne du corpus CM3D o la
valeur x associe lattribut i correspond au prdicat restrictif.

La fonction fRestriction consiste slectionner lensemble des instances du corpus o les attributs de la
dimension slectionne correspondent au prdicat de restriction.

Exemple
En reprenant lexemple prcdent ( 3.2.3.1.), lutilisateur peut choisir de restreindre la porte de son
analyse aux interactions de lauteur a1.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 140

AxJxD
A
a1
a2
a3
a4

J
D

d1

1
2

j1
d2

d3

d1

j2
d2

1
1
1

d3

d1

1
1

j3
d2

d3

d1

j4
d2

d3

1
1

1
1

1
1
1

Figure 62 : Exemple de restriction.

Le corpus selectionn ne gardera que les instances ou lauteur a1 apparait.


fRestriction (A, Auteur= a1) = C SM3DExemple = {< a1, a1, d1, 2>, < a1, a1, d3,3>, < a1, a2, d1,1>, < a1, a2, d3,2>, ,
< a1, mc3, d1,1>}

2.13.1.3 Seuil
La fonction Seuil a pour objectif de filtrer les relations en fixant un nombre minimum soit la valeur dun
attribut, soit au nombre doccurrences dune relation entre deux attributs.
Un exemple dutilisation est donn dans la section Erreur
Erreur ! Source du renvoi introuvable..
introuvable.

2.13.1.4 Ordre
La fonction Ordre permet de trier un ensemble de valeurs dun attribut ou un ensemble doccurrences
dune relation.
La fonction ordre fOrdre est dfinie comme suit :
fOrdre ({< Attxi S, Attyij, AttzijT, AttoijT >}, Tri) = {< Attxi S, Attyij, AttzijT, AttoijT >}Trier
Tri = {Croissant, Dcroissant}

Exemple
Soit lensemble dinstances C SM3DExemple = {< a1, a1, d1,2>, < a1, a1, d3,3>, < a1, a2, d1,1>, < a1, a2, d3,2>, ,
< a1, mc3, d1,1>}
S
Tri(C M3DExemple , (Tri= Dcroissant)) = {< a1, a1, d3,3>, < a1, a1, d1,2>, < a1, a2, d3,2>, < a1, a2, d1,1>, , < a1,
mc3, d1,1>}

2.13.1.5 Environnement
La fonction Environnement permet lutilisateur de visualiser les diffrentes interactions dun attribut ou
un ensemble dattributs. Elle consiste pour une valeur (ou un ensemble de valeurs) :
Identifier les attributs et leurs valeurs et calculer le nombre de document o ils apparaissent simultanment
avec la valeur tudie. Lutilisateur peut fixer un seuil au nombre de document pour restreindre ltendue
de lanalyse (par la combinaison avec la fonction Seuil).

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 141

La fonction environnement fEnv est dfinie comme suit :


fEnv (Atti, Seuil) = {< Attij, Valxi, Valyij, Nbxy >}
Avec
-

Seuil : la valeur restrictive,


Attij : reprsente lattribut j associe lattribut i,
Valiu : reprsente la valeur u de lattribut i,
Nbxy : reprsente le nombre de document o la valeur x de lattribut i apparait
simultanment avec la valeur y de lattribut j tel que ValoijT >= Seuil.

Exemple
En reprenant lexemple prcdent ( 3.2.3.1.), lutilisateur peut identifier lenvironnement de lattribut
auteur dans le corpus:

AxAxD
A
a1
a2
a3
a4

a1
5

a2
3
6

a3

3
4

a4

AxJxD

2
4

A
a1
a2
a3
a4

j1
3
3
1
1

j2
2
1

j3
1
2
1

j4

AxMxD

2
2

A
a1
a2
a3
a4

mc1

mc2

mc3

mc4

4
3

4
5
2
2

1
3
4
4

fEnv (Atti, Seuil)= {<a1, a1, 5>, , <mc4, mc4,3> }


Lenvironnement de lauteur est defini par les relations existant entre differents auteurs, entre les auteurs et
les journaux et entre les auteurs et les mots cls.
Nous remarquons les points suivants :

Il existe des collaborations entre les differents auteurs de lanalyse,

Les differents auteurs publient dans les memes journaux,

Les auteurs publient sur un thme (mc2) commun.

2.13.1.6 Evolution
Cette fonction permet de dtailler lvolution des rsultats des autres fonctions. Lvolution se base sur
ltude des attributs temporels.
La fonction fEvol applique la fonction environnement

Env

est dfinie comme suit :

fEvol (Atti) = {< Attij, Valxi, Valyij, ValzijT,Nbxy >}


Avec
-

Attij : reprsente lattribut j mis en relation avec lattribut i,


Valiu : reprsente la valeur u de lattribut i,
Nbxy : reprsente le nombre de document o la valeur x de lattribut i apparait
simultanment avec la valeur y de lattribut j.

Exemple
Grace la fonction Evolution, lutilisateur peut identifier la repartition par date des publications dun
auteur donn.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 142

AxAxD

a1

A
a2

A
D

AxAxD
A
a2

d1

a1
d2

a2

a3

a4

d1

a3
d2

d3

d1

a2
d2

d3

d3

d1

a4
d2

d3

fEvol (A) = {< a2, d1, 2>, < a2, d2, 1>, < a2, d3, 3>}

2.13.1.7 Document
La fonction document diffre des prcdentes en ce sens quelle consiste seulement reconstruire les
documents dans lesquels apparat une valeur donne dun attribut donn. Rappelons que le passage du
corpus cibl vers la reprsentation multidimensionnelle fait disparaitre lunit des documents.

2.13.2

Fonctions dagr
dagrgation
agrgation

Les fonctions dagrgation sont principalement utilises dans le cas de calcul des indicateurs uni-varis.

2.13.2.1 Somme
La fonction Somme permet deffectuer des additions en se basant sur le nombre de cooccurrence de chaque
instance de relation.

2.13.2.2 Minimum
Cette fonction retourne la valeur minimale que peut prendre le nombre doccurrences des instances dune
relation.

2.13.2.3 Maximum
Cette fonction retourne la valeur maximale que peut prendre le nombre doccurrences des instances dune
relation.

2.13.2.4 Comptage
Cette fonction permet deffectuer des comptages soit sur les attributs soit sur les valeurs. Nous dfinissons
deux types de comptage :
Le nombre de valeurs dun attribut,
Le nombre dinstances dune relation.
La fonction comptage associe un attribut fComptage est dfinie comme suit :
fComptage (Atti) = Taillei
Taillei: le nombre de valeurs associes lattribut i,

Exemple
La comptage des attributs de lexemple prcedent ( 3.2.3.1.) donne les resultats suivants :

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 143

fComptage (A) = 4
fComptage (M) = 4
fComptage (P) = 4
fComptage (J) = 4
fComptage (D) = 3
Ainsi, lanalyse va porter sur ltude des diffrentes interactions existantes entre quatre auteurs, quatre mots
cls, quatre pays et quatre journaux et leurs volutions sur les trois priodes. Ces interactions sont dcrites
par 129 instances de relation.

2.13.2.5 Moyenne
Cette fonction permet de retourner la moyenne de nimporte quel ensemble de valeurs.

2.13.2.6 Frquence
Frquence
Cette fonction retourne la frquence de la valeur dun attribut sur un ensemble de valeurs.

2.13.3

Combinaison de fonctions

Toutes les fonctions prsentes dans la section prcdente peuvent tre vues comme des fonctions
lmentaires qui, combines entre elles, permettent de calculer un ensemble dindicateurs selon les besoins
exprims.
Dans le tableau suivant, nous prsentons quelques exemples de ces combinaisons de fonctions.
Fonctions
I NDICATEURS UNI-VARIES
Nombre de pays avec lesquels a collabor un auteur
au moins deux fois
Dure de la carrire dun auteur

SELECTION

SOMME

ENVIROENNEMENT

SELECTION

EVOLUTION

COMPTAGE

SELECTION

ENVIRONNEMNT

RESTRICTION

SELECTION

ENVIRONNEMNT

RESTRICTION

SEUIL

I NDICATEURS RELATIONNELS
RELATIONNELS
Structure et collaboration dune quipe
Evolution structure et collaboration dune quipe

Tableau 18 : Exemple de combinaison de fonctions pour le calcul dindicateurs.

EVOLUTION

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 144

2.14
Le profil des utilisateurs du processus
danalyse exploratoire multidimensionnelle
multidimension nelle
2.14.1

Considrations gnrales

La dmarche dIE intgre la notion dintelligence collective parce quelle fait collaborer en rseau les
diffrents acteurs impliqus par chacune des tapes du processus, de la formulation du besoin et la
planification jusqu la validation, diffusion et utilisation de linformation stratgique. Les diffrentes
activits de ces acteurs se coordonnent pour converger vers la mme vision stratgique. Comme nous
lavons prsent au niveau de la section 1.3.2 du premier chapitre de ce manuscrit, les acteurs impliqus
dans une telle dmarche sont identifis par leurs comptences et leurs expriences. Dans le cadre du
modle danalyse exploratoire multidimensionnelle propos, nous identifions cinq profils dutilisateur :

Utilisateur

Expert

Documentaliste

Analyste

Dcideur

Administrateur

la classification dj propose dans la section 1.3.2 nous rajoutons la classe administrateur. Ce profil
dutilisateur a pour rle de grer le systme et lespace de communication entre les diffrents profils.
Lorsque lon aborde la modlisation du processus danalyse exploratoire multidimensionnelle, sont les
problmes de communication entre les divers utilisateurs qui semblent le plus difficile grer :

Les metteurs de la demande (dcideurs) qui ne proposent souvent, comme point de dpart, que
quelques indicateurs trs personnels.

Le service de documentation qui a la charge du choix des sources, de lidentification de


linformation, de son recueil, de son filtrage (homognisation, structuration, etc.).

Les analystes (analystes, veilleurs) qui recherchent et valorisent, par tout un ensemble de mthodes
que nous contribuons dvelopper (reprsentation multidimensionnelle, calcul dindicateurs), les
informations potentiellement utiles la dcision et qui les mettent en forme pour lexpert.

Lexpert du domaine, qui recadre le sujet, valide certaines pistes pour lesquelles il demande des
prcisions et qui en supervise la synthse.

Le destinataire (dcideur), enfin, dont les besoins trs spcifiques induisent un rendu des rsultats
adapt sa fonction, sa psychologie, sa disponibilit et ses impratifs immdiats. Le plus souvent
la vue des conclusions, il rinjecte une nouvelle demande dans le processus, le rendant ainsi
itratif.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 145

2.14.1.1 Aide la coopration et la coordination


Lutilisation des outils ncessaires lanalyse exploratoire multidimensionnelle est assez linaire entre ces
divers utilisateurs, mais des dialogues courts et frquents sont ncessaires afin de recadrer en permanence la
dmarche, la profondeur des investigations et la prparation de la synthse. Cest ainsi que tout au long du
processus de veille, des contacts sinstaurent entre des personnes qui ont souvent beaucoup de mal se
rencontrer physiquement (problmes de disponibilit, de localisation, etc.). Des contacts distants sont
possibles mais ils ncessitent la prparation de rapports intermdiaires figs qui ne permettent pas une
confrontation active de chacun. Cest pour apporter une solution ce problme que nous avons dfini un
environnement ouvert et distribu pour notre modle afin de permettre une interactivit maximale,
ventuellement distante, entre les divers acteurs concerns par le processus danalyse.
Deux types de cooprations sont offerts :

Un accs individuel de chaque intervenant lensemble de lanalyse (donnes, outils et rsultats


intermdiaires) afin de lvaluer et de la complter.

Un accs simultan (de deux acteurs ou plus, notamment dans le cas de formations) orchestr par
des possibilits dinterventions mutuelles sur le processus danalyse et des techniques permettant la
collaboration instantane et distance des utilisateurs et des mthodes.

Voici quelques exemples de collaborations distantes des utilisateurs de lanalyse.

Dialogue documentaliste analyste pour la constitution, le recadrage, le choix des formats et la


validation du corpus cibl, la mise au point des descripteurs de formats spcifiques et gnriques,
larbitrage dans les choix de certains synonymes ambigus, la slection des composantes (ou
facettes) de linformation menant des croisements judicieux.

Dialogue analyste expert du domaine pour la communication des rsultats techniques, leur
valuation, le choix des indicateurs (volution terminologique, nouveaux thmes, nouveaux
acteurs, prcision des termes composs), la slection des rsultats communiquer au dcideur et la
forme leur donner, la mise au point du document de synthse.

Dialogue expert (du domaine) dcideur afin dvaluer la porte stratgique de certains rsultats,
de prciser des lments techniques soulevs par lanalyse, dapprhender les scnarios possibles
dvolution du domaine, ventuellement de demander des complments dinformation ou des
zooms spcifiques.

Ce processus peut tre complt par des dialogues internes chaque mtier : documentalistes entre eux,
analystes et informaticiens, experts internes et externes.

2.14.2

Modle utilisateur

Un modle utilisateur est une reprsentation explicite des informations sur tous les aspects de lutilisateur
qui peuvent tre utiles au comportement du processus. Le processus danalyse exploratoire
multidimensionnelle que nous avons dfini ncessite la modlisation des connaissances sur un utilisateur.
Selon notre approche, le profil de lutilisateur est dcrit par cinq dimensions :

informations personnelles de lutilisateur,

description des comptences,

historique de ses besoins dinformations,

les actions slectionnes,

ses expertises.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 146

Cet historique permet de dduire de nouvelles connaissances sur cet utilisateur. Ces cinq dimensions
voluent corrlativement au cours du temps. Notre modle est constitu de deux parties. La premire
partie concerne le profil de lutilisateur et la seconde partie est lhistorique de ses interactions.

Figure 63 : modle utilisateur.

2.14.2.1 Le profil utilisateur


Le profil utilisateur est compos de deux espaces. Chaque espace est constitu dun ensemble
dinformations. Le premier espace est lidentit de lutilisateur, il est compos dinformations sur lidentit
civile de lutilisateur et dinformations dordre sociales.

Identit civile de lutilisateur (Nom, prnom, age, genre, etc.).

Identit sociale (Organisme, fonction, dpartement, adresse, pays, etc.).

Le deuxime espace est lespace des comptences de lutilisateur : ce sont des donnes qui permettent
didentifier le niveau de comptence de lutilisateur associs ses domaines dexpertises.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 147

Figure 64 : Modle profil utilisateur.

2.14.2.2 Historique des interactions


Lhistorique des interactions est compos de trois espaces.
Le premier espace concerne les informations dcrivant le besoin informationnel de lutilisateur. Il est
compos du sujet danalyse et de lobjectif fix.
Le second espace porte sur une description des informations lies au comportement de lutilisateur. Il sagit
des connaissances lies lobservation ralise par le systme sur lutilisateur. Il est compos dun sous
objectif danalyse et dune suite dactions effectues un instant t. Les actions concernent la slection des
composantes du systme. Si le sous objectif est le calcul dun indicateur la suite dactions va porter sur les
diffrentes fonctions utilises pour le calculer. La mmorisation de ces actions se fait dune manire
automatique par le systme.
Le troisime espace dcrit lexpertise ou linterprtation des rsultats et les connaissances dduites par
lutilisateur la fin de chaque tape danalyse. Il est des rsultats obtenus et pour chaque rsultat une
expertise est pose.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 148

Figure 65 : Modle historiques des interactions.

2.14.3

Gestion des exceptions et des particularits


particularits

2.14.3.1 Objectifs
Le systme propos permet sur un sujet donn de mener des analyses par N utilisateurs. Chaque analyse
est identifie par son modle utilisateur. Ce partage de connaissances permet dinfluencer et orienter les
actions qui se poursuivent par des rseaux dacteurs dans un cadre danalyse portant sur le mme contexte.
Aussi, il peut conduire dans certains cas une confrontation des exceptions et de particularits qui sont
dtect par les utilisateurs et qui les partagent instantanment aux diffrents acteurs du rseau. Puisque le
comportement des utilisateurs change selon leurs besoins et leurs comptences. Lobjectif de la gestion des
confrontations nous mne rendre notre systme plus accessible et cooprative tout en y intgrant
lexpertise des diffrents acteurs impliqu c'est--dire les connaissances dduites par chaque utilisateur au
cours des diffrentes tapes danalyse.
La traabilit des besoins est un processus qui permet de tracer les diffrents besoins informationnels dun
utilisateur de leurs naissances leurs diverses expressions et des tapes successives de leurs volution, c'est-dire de capturer et de mmoriser itrativement la connaissance sur cet utilisateur et sur son contexte qui
permettra de mieux cerner les origines de ses besoins et den comprendre leur importances. Nous
tendrons ce concept une traabilit gnrale de lanalyse .
Dans ce contexte la traabilit gnrale de lanalyse se base sur une traabilit du profil utilisateur de ltape
de la formulation du besoin jusqu' la validation des rsultats selon ses diffrentes facettes savoir :

Les donnes personnelles,

Les donnes lies ses comptences,

Les donnes lies son besoin informationnel,

Les donnes lies son comportement,

Et les donnes lies ses expertises.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 149

Grce ces diffrents points nous allons procder un apprentissage dans un but denrichissement des
fonctionnalits du modle, et dfinir des scenarios danalyses afin de guider et dorienter lutilisateur dans
son tude. Pour cela nous dfinissons une traabilit des analyses.
Dans le cadre de nos travaux, nous focalisons le mcanisme dapprentissage seulement au niveau de ltape
de calcul dindicateurs. Nous rappelons que le systme propos permet doffrir lutilisateur, dune part
des indicateurs prdfinis bass sur des combinaisons de fonctions, et dautres part un ensemble de
fonctions quil peut combiner pour construire des indicateurs qui ne sont pas prdfinis au niveau du
systme.
Ainsi, lobjectif de lapprentissage est de dtecter les diffrentes combinaisons de fonctions utilises par
lutilisateur pour atteindre son objectif danalyse. Si ces combinaisons ne sont pas dj dfinies au niveau
du systme, le mcanisme dapprentissage nous permet denrichir la base des indicateurs prdfinis en y
intgrant ces nouvelles combinaisons de fonctions.

2.14.3.2 Processus dapprentissage


Le principe est le suivant. Lutilisateur soumet un historique dinteractions dun profil utilisateur. Lors de
la premire phase du processus dapprentissage, le systme dbute par une analyse du besoin
informationnel formul par lutilisateur, cest--dire il identifie lindicateur que souhaite calculer
lutilisateur. Une fois lindicateur identifi, la seconde phase consiste rechercher lindicateur (le besoin
informationnel) dans la base de connaissance. Si lindicateur est retrouv, le systme va analyser la suite
dactions effectue par lutilisateur pour le calcul de cet indicateur. Nous rappelons que chaque action
slectionne par lutilisateur correspond une fonction danalyse et que la suite dactions est une
combinaison de ces fonctions un instant t. La phase qui suit consiste apparier la combinaison de
fonctions slectionne par lutilisateur avec les combinaisons dactions du modle de calcul dindicateurs,
au moyen dune analyse de similarit. Si les combinaisons ne sont pas similaires, le systme va calculer
chaque squence de combinaison de fonctions slectionnes par lutilisateur et analyser les rsultats
obtenus. Si les rsultats correspondent au calcul dindicateur, le systme va valuer le temps dexcution de
cette nouvelle combinaison propose. Si le temps dexcution de cette combinaison est inferieur la
combinaison de fonctions de la base de connaissance alors le systme va proposer cette nouvelle
combinaison, pour lindicateur tudi, au concepteur du systme pour une valuation dans une perspective
dintgration de cette nouvelle combinaison de fonctions dans le systme.
Dans le cas o le besoin formul par lutilisateur nexiste pas dans la base de connaissance, alors le systme
va tout dabord identifier et analyser les suites dactions slectionnes par lutilisateur. Une fois analyses,
ces suites dactions vont tre apparies avec les suites dactions qui existent dj dans la base de
connaissances. Nous notons quune suite dactions peut rpondre un mme besoin qui peut tre formul
de diffrentes manires selon les comptences de lutilisateur. Si cette suite dactions existe dans la base de
connaissance, alors le systme va calculer le temps de son excution. Si le temps de traitement de cette suite
dactions est inferieur celui de la suite dactions de la base alors le systme va proposer cette nouvelle suite
dactions et le nouveau besoin identifi au besoin dj mmoris dans la base de connaissance.
Si la suite dactions de lutilisateur nexiste pas dans la base alors le systme va mmoriser cette suite
dactions et son besoin informationnel dans une base de test et la soumettre au concepteur pour valider ce
nouveau besoin et son traitement.

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 150

Figure 66 : processus dapprentissage.

2.15

Synthse

Au cours de ce chapitre, nous avons tout dabord prsent dans la section 2.11 le processus danalyse
exploratoire multidimensionnelle. Le processus propos a pour objectif de calculer des indicateurs qui
permettent de synthtiser lenvironnement informationnel dun problme dcisionnel pos. Dans ce
contexte, nos travaux distinguent deux types :

Les indicateurs uni-varis (section 2.11.1.2)

Les indicateurs relationnels (section 2.11.1.1)

Au cours de cette section, nous avons dtaill pour chaque tape du processus lapproche adapte dans le
cadre de nos travaux. Ce processus repose sur deux modles qui reprsentent lessentiel de notre
contribution savoir :

Le modle de reprsentation multidimensionnelle des documents (section 2.12)

Le modle de calcul dindicateurs (section Erreur ! Source du renvoi introuvable.)


introuvable.

Le modle de reprsentation multidimensionnelle des documents, au niveau de cette section nous avons
propos deux types de modlisation des dpendances intra et inter documents, la premire deux
dimensions et la seconde trois dimensions. La modlisation deux dimensions (section 2.11.6.1), nous
permet de dcrire les relations de dpendances bases sur des mesures de cooccurrences et de prsenceabsence. Ce type de reprsentation va nous permettre de synthtiser lensemble des liens statique dun

Chapitre 3 : Xplor : modle danalyse exploratoire multidimensionnelle 151

domaine donn. Quant la modlisation trois dimensions (section 2.11.6.2), nous a permis de dfinir et
reprsenter laspect dynamique des diffrents liens inter et intra documents du corpus cibl.
partir de cette reprsentation, nous avons dfinis le modle de calcul dindicateurs. Lobjectif de ce
modle est doffrir un ensemble de fonctions lmentaires, qui combines permettent de calculer de faon
gnrique un ensemble dindicateurs robustes.
Outre ces deux modles, nous proposons un modle de gestion et de partage dinformations (section
2.14.1.1) entre les diffrents acteurs impliqus dans le processus propos.
Afin damliorer et enrichir les combinaisons de fonctions proposes, nous dfinissons un processus
dapprentissage permettant doffrir au concepteur du systme dinformation des stratgies dintgration
dindicateurs et de combinaisons de fonctions.
Dans ce contexte, nous proposons dans le chapitre quatre une implmentation du systme propos. Cette
implmentation concerne plus prcisment :

La reprsentation multidimensionnelle des documents selon une modlisation trois dimensions.

Le calcul dindicateurs de type univaris et relationnel.

Dans un souci de validation de cette implmentation, nous prsenterons dans le chapitre quatre une
exprimentation portant sur un cas rel.

3 Chapitre 4. Implantation et exprimentation

4.1 Introduction ..................................................................................................................................155


4.2 Motivations & objectifs .................................................................................................................155
4.2.1

Limites de la plateforme Ttralogie .......................................................................................155

4.2.2

Limites de la premire version du prototype Xplor...............................................................159

4.2.3

Objectifs.................................................................................................................................159

4.3 Notre approche ..............................................................................................................................160


4.3.1

Modle de donnes ................................................................................................................161

4.3.2

Compilation des matrices ......................................................................................................162

4.4 Architecture du prototype Xplor ...................................................................................................164


4.5 Fonctionnalits du prototype XPLOR ..........................................................................................167
4.5.1

Concepts IE et veille ..............................................................................................................167

4.5.2

Classification des liens IE ......................................................................................................168

4.5.3

Analyse gnrale .....................................................................................................................169

4.5.4

Analyse dtaille .....................................................................................................................171

4.6 Exprimentations ...........................................................................................................................174


4.6.1

Enjeux et problmatique .......................................................................................................174

4.6.2

Proposition ............................................................................................................................175

4.6.3

Besoin informationnel ...........................................................................................................175

4.6.4

Collecte de document ............................................................................................................176

4.6.5

Structuration..........................................................................................................................178

4.6.6

Homognisation...................................................................................................................179

4.6.7

Reprsentation multidimensionnelle .....................................................................................180

4.6.8

Calcul dindicateur & Visualisation ......................................................................................183

4.7 Synthse .........................................................................................................................................190

Chapitre 4: Implantation et exprimentation 155

3.1 Introduction
Lobjectif de ce chapitre est dimplanter et exprimenter le modle danalyse multidimensionnel. Notre
contribution consiste proposer un systme danalyse et de navigation en ligne, que nous nommons
Xplor, exploitant systmatiquement les donnes relationnelles et leur volution. Notre approche consiste
privilgier l'extraction d'information en fonction du contexte gnral et non exclusivement par dcryptage
du contenu de quelques documents pris sparment. Il devient ainsi possible de retrouver, partir d'un
lment connu (acteur, mot cl), toute ou une partie de l'information qui lui est connexe (quipes,
collaborations, concepts, mots associs, etc.) ainsi que son volution (mergence, rupture, etc.).
Le prototype propos pour objectif d'aider l'utilisateur non initi dans sa navigation et sa qute de
nouveauts ou de complments d'information ainsi que dans la recherche d'lments de comparaison avec
des connaissances antrieurs. La possibilit qui leur est donne de pouvoir eux mmes naviguer sans
contrainte dans l'information labore est un plus indniable, car aucun analyste ne peut aller au devant de
l'ensemble des proccupations de chacun, ou alors il faut qu'il soit leur entire disponibilit, c'est dire
appartenir intgralement leur structure et trs bien connatre leurs problmatiques.
Notre dmarche cible lanalyse des informations relationnelles volutives reposant sur des interfaces de
visualisation pertinentes et des modes dinteraction adapts aux tches de lutilisateur. Elle repose sur les
quatre tapes bien connues de dcouverte interactive de connaissances proposes par [Newell, 1972] :

La caractrisation de lenvironnement. Il sagit dextraire les proprits et oprations pertinentes et


accessibles lutilisateur pour la dcouverte de connaissances nouvelles,

Le choix dune reprsentation formelle pour dfinir lespace de navigation,

Limplmentation informatique de cette reprsentation formelle : son codage et sa reprsentation


visuelle,

Limplmentation de la procdure de dcouverte de connaissances : linteractivit.

Nous prsentons, en section 4.2, les objectifs et lapproche, dans la section 3.3, adopte au niveau du
prototype Xplor. Dans un second temps, nous dfinirons son architecture (section 3.4) et en section ses
fonctionnalits (section 3.5).
Dans la section 3.6, nous prsentons lexprimentation effectue pour valider chaque tape du processus de
dveloppement du systme Xplor. Cette exprimentation a t effectue dans le cadre des travaux de
recherches du GDR-IE. Lexprimentation porte sur lanalyse des donnes issues de bases de donnes
scientifiques chinoises.
Enfin, une synthse, des exprimentations et une validation du systme Xplor sont proposes.

3.2 Motivations & objectifs


3.2.1 Limites de la plateforme Ttralogie
3.2.1.1 Problme de pertinence pour l'utilisateur
Ttralogie est une plateforme particulirement bien adapte aux analyses stratgiques globales. Elle permet
en effet de dgager les signaux forts, les signaux faibles et les tendances partir d'un ensemble de
documents collects sur un sujet prcis. Ces analyses sont obtenues par une combinaison de mthodes
danalyse de donnes telles quAFC, ACP, CAH, etc.

Chapitre 4: Implantation et exprimentation 156


Dans la Figure 67, nous prsentons un exemple de carte factorielle obtenue aprs AFC sur une matrice de
cooccurrence deux dimensions Thmes Auteurs, pour un grand laboratoire de recherche en
informatique. Nous pouvons remarquer des groupes dauteurs corrls par leur thmatique de recherche,
des thmes interfaces (entre deux groupes dauteurs), certains experts des interfaces, des thmes interfaces
avec ou sans expert, des variations continues de thmatiques. Aprs vrification, les quipes thmatiques
dtectes correspondaient parfaitement avec celles de la plaquette de prsentation du laboratoire en
question. Trois constatations sont alors possibles :

Le laboratoire concern a ralis une prsentation objective de sa structure,

Il est possible de connatre parfaitement cette structure depuis lextrieur,

De plus, les qualits et les dfauts de cette structure sont maintenant connus.

Equipe thmatique cohrente

Thme
interface

Thme
interface
Variation
continue de la
thmatique

Expert de
linterface

Equipe thmatique cohrente

Figure 67 : Carte factorielle en 4D dune AFC Thmatique Auteurs.

Mais l'issue de ces rsultats que nous avons raliss avec cette plateforme, il est apparu que les utilisateurs
finaux (analystes ou dcideurs) de lanalyse produite veulent, en complment de l'aspect stratgique global,
des zooms plus prcis sur certains dtails. Ce afin de satisfaire leur curiosit en matire d'information
labore autour d'lments qu'ils ont dj identifis. Parmi les exemples des besoins informationnels et
complmentaires recherchs nous retrouvons :

La productivit de chaque expert et son volution,

La productivit des thmatiques et dtecter celles qui sont mergentes,

Chapitre 4: Implantation et exprimentation 157

Des principaux experts pour chaque thmatique,

Lvolution des thmatiques des principaux experts,

Le nombre de collaborations de chaque Expert, ainsi que leurs productivits et leur volution,

Les thmatiques associes chaque collaborateur dun expert choisi et son volution,

Des reprsentations des rsultats sous formes de graphiques simples (Reporting).

Les outils proposs jusque l se basent sur une notion de distance entre les donnes non jointes et non pas
en terme de jointure. Il est alors difficile dtudier les donnes relationnelles et leur volution.
Aussi, les modules de visualisation intgrs dans la plateforme Ttralogie proposent des cartes graphiques
deux, trois et quatre dimensions. Linterprtation de ces rsultats exige des connaissances dans les
domaines dextraction de connaissances et lanalyse de donnes. Or, les rsultats de lanalyse dans le
contexte dIE sont ddis des dcideurs qui ne sont pas forcment experts dans ces domaines.
Dautre part, au del des besoins informationnels, les utilisateurs expriment des besoins lis laccessibilit,
linteractivit et la navigation au sein de linformation relationnelle. Ils souhaitent de disposer :

Dun systme dextraction accessible via Internet ou Intranet, pour que les analyses soient leurs
dispositions au bon moment.

Des scenarios danalyse prdfinis bass sur des indicateurs informationnels, pour guider les
utilisateurs dans leurs analyses,

Une automatisation gnrique du processus dextraction cible,

Une centralisation des analyses pour faciliter la gestion du partage et la scurit des donnes,

Un systme ergonomique et interactif pour une navigation rapide et prcise.

De nombreux analystes ou dcideurs ont donc besoin de plus de finesse dans l'approche des lments
constituant traditionnellement leur environnement immdiat. Notamment, pour tout ce qui concerne leur
vocabulaire spcifique, les acteurs qu'ils ctoient, les marchs qu'ils convoitent et les alliances qu'ils
projettent. Une analyse peut tre revisite par diffrents spcialistes du domaine et apporter chacun des
rponses prcises aux questions stratgiques et parfois confidentielles qu'il se pose. Le but est ici d'aider le
dcideur dans sa navigation et dans sa qute de nouveauts ou de complments d'information ainsi que
dans la recherche d'lments de comparaison avec des connaissances antrieurs. La possibilit qui lui est
donne de pouvoir lui mme naviguer sans contrainte dans l'information labore est un plus indniable,
car aucun analyste ne peut aller au devant de l'ensemble des proccupations de chacun, ou alors il faut
qu'il soit leur entire disponibilit, c'est dire appartenir intgralement leur structure et trs bien
connatre leurs problmatiques.
Le prototype vis doit offrir des possibilits d'exploration trs fine et des reprsentations synthtiques de
lenvironnement et son volution, des informations recueillies et des nouvelles connaissances dduites. Il
doit permettre une automatisation gnrique des indicateurs permettant aux dcideurs dapprhender les
donnes massives quils ont traiter. En amont, il doit assurer le recoupement des informations collectes,
la recherche, la slection et le filtrage de l'information labore disponible dans des bases spcialises
internes, externes et sur Internet, ainsi que la prise en compte des donnes informelles collectes, sur le
terrain, par les diffrents acteurs de la veille. En aval, pour la communication et la restitution des rsultats,
il doit privilgier l'ergonomie dans les fonctions de prsentation, d'exploration, de navigation et de
synthse.

Chapitre 4: Implantation et exprimentation 158

3.2.1.2 Problme de performance


Comme mentionn dj le logiciel Ttralogie, gre des fichiers contenant linformation brute pour en
extraire, des matrices de croisement, ces matrices de grande taille contiennent plus de zro que de valeurs
non nulles (matrices creuses), ce qui limite un peu la puissance du systme, soit en volume despace en
mmoire et sur disque soit au niveau de la vitesse de lecture de ces matrices. Pour remdier ces
problmes, au lieu de gnrer des matrices de cooccurrences entre tous les items, nous proposons de
gnrer un fichier o ne sont enregistrs que les croisements effectifs entre items, ce qui permet de
diminuer lespace utilis et daugmenter la vitesse de lecture et de traitement de ce fichier. Le schma de la
base en est aussi grandement simplifi et sa mise jour devient vidente.

Figure 68: Exemple de matrice de cooccurrence Auteur-Auteur.

3.2.1.3 Compilation des matrices dans une base de donnes


Une premire mthode, pour gnrer la base de donnes qui sera utilise pour la navigation interactive au
niveau du prototype, est de partir directement des dictionnaires et des matrices utiliss par Ttralogie pour
lanalyse macroscopique. Cette approche prsente de nombreux avantages :

Compatibilit totale avec lanalyse par Ttralogie,

Ne ncessite pas de systme dextraction complmentaire,

Permet de complter des analyses dj prtes,

Renforce par la navigation la pertinence du rapport d'analyse.

Chapitre 4: Implantation et exprimentation 159


Cette technique est essentiellement destine complter les analyses Ttralogie en permettant
lutilisateur final de naviguer sa guise, afin de prciser certains passages de lanalyse et de les ramener dans
le contexte et lenvironnement requis. Pour certaines analyses gnralistes disponibles en ligne, cette
approche permet chacun de complter son interprtation des conclusions toujours un peu strotypes
de ce type de dmarche globale. Pour des analyses plus pointues sur des sujets trs prcis, la taille plus
rduite des dictionnaires utiliss permet de conserver toute linformation utile, notamment au niveau des
champs smantiques. Dans ce cas, cette approche nous semble la mieux indique.

3.2.2 Limites de
de la premire version du prototype Xplor
Le portail existant avec sa puissance et la multitude des oprations quil offre, a des inconvnients lis
surtout, au nombre important de tables dans la base de donnes, ce qui prsente des difficults par la suite
pour la mise jour de la base, des inconvnient lis larchitecture du site lui-mme, on est oblig de
parcourir plusieurs pages pour arriver au but.
Le portail Xplor avait pour objectif de reprsenter deux types dinformations sous forme de matrice
reprsentant :

les relations des units de mme nature. Elles peuvent reprsenter des associations de termes,
rseaux dauteurs, rseaux de mots cls ou de concepts, etc.

les relations entre deux entits diffrentes. Il peut sagir de reprsenter des rseaux documentstermes, auteurs-termes, auteurs-affiliations, etc.

Ces deux reprsentations permettent une analyse visuelle et exploratoire statique des relations explicites,
dans une optique de dcouverte de nouvelles relations implicites.
La version amliore que nous proposons doit, non seulement, simplifier considrablement le schma de la
base mais aussi y apporter une troisime dimension : le temps et ce systmatiquement au niveau de toutes
les relations prises en compte. Lanalyse nest ainsi plus simplement statique mais devient entirement
dynamique et tourne vers lvolution des relations.

3.2.3 Objectifs
Le processus dexploration propos au niveau du prototype Xplor est organis la base dun ensemble
dindicateurs quantitatifs et relationnels. Ces indicateurs permettent de synthtiser les donnes
relationnelles et den extraire les connaissances implicites afin de rpondre aux besoins de lutilisateur.
Lobjectif principal du prototype est doffrir aux utilisateurs non initis, au domaine de lextraction de
connaissance, une comprhension qualitative du contenu de linformation quils manipulent.
Le prototype Xplor a donc pour objectif doffrir aux utilisateurs (dcideurs) la possibilit de :

Visualiser les analyses stratgiques globales issues de la plateforme Ttralogie. Ces analyses sont
diffuses via le prototype Xplor sous forme hypertexte.

Transfrer et stocker lensemble des donnes relationnelles issues de la plateforme Ttralogie dans
la base de donnes du prototype Xplor.

Conduire leurs propres analyses en ligne en naviguant dans lensemble des relations proposes :

 par une vue claire et comprhensible des principaux acteurs (auteurs, socits, inventeurs,
concurrents, pays) du domaine tudi,
 en slectionnant les acteurs qui les intressent et ainsi connaitre leurs caractristiques et les
lments stratgiques qui les concernent.

Chapitre 4: Implantation et exprimentation 160


 en tudiant lenvironnement de chaque acteur par une exploitation des rseaux qui lui sont
connexes. Cette technique permet de mieux comprendre lorganisation de son environnement.
 par la prise en compte de llment temporelle au niveau des donnes relationnelles, les utilisateurs
peuvent analyser lvolution des acteurs tudis et de leur environnement. Ce qui permet
dapprhender non seulement leurs structures implicites, mais aussi de comprendre leur volution
et donc dtecter les vnements cls et les stratgies mises en uvres.

conduire leurs analyses via des scenarios prdfinis sous forme dun ensemble dindicateurs de
tendances. Ces derniers ont pour objectifs de faciliter et guider lutilisateur dans son processus
dexploration.

visualiser les rsultats de leurs analyses sous forme de graphiques ergonomique et facile
interprter (Histogramme, tableaux, etc.).

Partager des analyses simultanment et apprentissage.

Scuriser laccs aux analyses et aux informations manipules.

3.3 Notre approche


Le prototype dvelopp dans le cadre de nos travaux est aliment par des donnes relationnelles issues de la
plateforme Ttralogie. Cette dernire permet deffectuer des analyses stratgiques globales sur des donnes
textuelles ou factuelles provenant de bases bibliographiques en ligne, sur CD/Rom, d'Internet ou de toute
autre source informatise, presse etc. Par l'intermdiaire de mthodes statistiques descriptives et
exploratoire des donnes, Xplor fait apparatre, dans des temps trs courts, de nouvelles connaissances
stratgiques jusque l inexploites comme : l'identit des acteurs, leur notorit, leurs relations, leurs lieux
d'action, leur mobilit, l'mergence et l'volution des sujets et des concepts, la terminologie, les domaines
porteurs.
Lapproche adopte, pour le dveloppement du prototype Xplor, permet de combiner les techniques
dextraction de connaissance partir des donnes textuelles et les techniques de stockage, danalyse et de
visualisation des donnes relationnelles. Chacune de ces techniques est vue comme un composant aux
fonctionnalits prcises et dlimites. Plus simples dvelopper, plus robustes et tests dans des contextes
diffrents, ces composants peuvent sassembler de plusieurs manires pour crer ainsi des applications
varies et adaptes aux besoins des utilisateurs.
Notre approche, pour le dveloppement du systme Xplor, repose sur une architecture dcisionnelle trois
niveaux :

Sources et traitement, ce niveau permet dalimenter lentrept de donne, partir des corpus de
donnes textuelles. Il permet le passage de la reprsentation des documents textuels (donnes
qualitatives) sous forme de donnes quantitatives. Il concerne le traitement de lhtrognit des
informations, dun point de vue : contenu smantique : scientifique, technique, etc., structurel :
fortement structur (brevet) non structur (e-mails), linguistique (multilinguisme) : chinois,
arabe, format du support : Word, html, pdf, etc., taille : dfinition de lunit dinformation
analyser (granularit de linformation). Pour cette partie du traitement, les techniques employes
sappuient sur les fonctionnalits du systme Ttralogie dvelopp antrieurement par les
membres de lquipe SIG-EVI. Ces composantes permettent de rpondre au problme
dhtrognit des documents analyser.

Entrept de donnes, est un espace de stockage qui premier niveau permet doffrir une vue unifi
du corpus cible, et au deuxime niveau permet lextraction et le stockage des donnes sources
structures sous forme dune reprsentation multidimensionnelle. Le second niveau porte sur les

Chapitre 4: Implantation et exprimentation 161


traitements de cration de lentrept de donnes. Il repose sur la cration des matrices deux et
trois dimensions (contingences, cooccurrences, prsence absence) partir de la vue unifie. Notre
approche consiste utiliser les composantes du systme Ttralogie pour la cration des matrices
deux dimensions et rajuster la structure des rsultats obtenus pour faciliter le transfert des
donnes dans lentrept de donnes du prototype. Cet entrept ne contiendra que les donnes
sous forme relationnelles tel que : Ndoc-Auteur, Auteur-Auteur-Date, etc. Cette reprsentation
permet de synthtiser toutes les relations existantes entre les diffrents attributs constituant les
documents analyser. La base de donnes est interface grce au systme Xplor sur Intranet ou
Internet, afin que l'utilisateur puisse lui mme mener ses propres investigations.

Analyse et restitution, ce niveau permet deffectuer des analyses multidimensionnelles en ligne sur
les donnes issues de lentrept et restituer les rsultats lutilisateur par des fonctions de
reporting. Il comporte les fonctionnalits de navigation et danalyse en ligne. Ces fonctions sont:
administration des donnes, exploration des donnes relationnelles et visualisation des rsultats.
Chaque attribut peut tre filtr au moyen de fonctions relationnelles prdfinies en se servant des
liens complexes qu'il possde avec lui mme et les autres attributs de la base. Des statistiques
descriptives interactives sont alors disponibles pour chaque extrait (frquences, quivalences, etc.)
ainsi que sur lvolution de leurs relations. Des fonctions de reporting sont prdfinies pour
permettre la visualisation des rsultats.

Sources et
Traitements

Entrept de
donnes

Analyse et
Restitution

Stockage

Structure 3D

Analyse

Traitement du corpus

Vue unifie

Figure 50 : Approche adopte.

3.3.1 Modle de donnes


Chaque analyse est implante sparment, elle peut tre accde par mot de passe et sa description est
consigne dans une table des analyses. Pour chaque analyse nous devons ensuite dfinir plusieurs entits :
les attributs, les valeurs et les matrices constituant la structure actuelle ou future de l'analyse et dfinissant
les points qui ont t traits et qui sont disponibles pour la navigation. D'un autre ct se trouvent les
utilisateurs des analyses. Ils sont identifis dans une table des utilisateurs, leurs accs sont scuriss par mot
de passe. Les analyses sur lesquelles ils ont des droits ainsi que les entits visibles sont aussi consignes dans
des tables. Des extensions de droits sont donnes l'administrateur, des restrictions peuvent aussi
intervenir (donnes publiques, donnes prives) aussi bien en lecture, qu'en criture.

Chapitre 4: Implantation et exprimentation 162

Figure 69 : Liens bases - utilisateur.

Le modle de donnes est prsent dans la figure suivante, il tient compte de son implantation future dans
un serveur d'analyses accessible sur InterNet ou IntraNet. Comme le plus souvent, un rapport d'analyse
sous forme lectronique (.doc, .html) est associ une base de donnes, il est possible de crer des liens
entre les diffrents chapitres du rapport et les fonctions interactives de zoom et de reporting offertes par la
base. Cette mthode permet de dynamiser la lecture du rapport et de s'en approprier le contenu de faon
trs personnelle. Un mme sujet peut intresser plusieurs personnes, d'o l'ide du partage de certaines
analyses via le Web. Un corpus global pouvant tre revisit de plusieurs manires tout en gardant, comme
fil conducteur, la structure de l'analyse macroscopique dj ralise. C'est dans cette optique que nous
avons conu l'implantation des analyses dans un portail traitant de la veille et dans lequel se trouvent des
espaces publics et des espaces privs suivant les possibilits de partage et les contraintes de confidentialit
rencontres.

Figure 70 : Modle de donnes.

3.3.2 Compilation des matrices


Lutilisation de la plateforme Ttralogie, offre la possibilit de crer des matrices trois dimensions de type
cooccurrences. Nous rappelons, dans le contexte de nos travaux, que la troisieme dimension prise en
compte par ces matrices est systmatiquement lattribut de type temporel.
Pour traiter et exploiter les rsultats de ces matrices dans le prototype Xplor, nous avons redfinis les
fonctions de crations des matrices de cooccurrences de Ttralogie. Cette radaptation intervient
principalement sur le format des rsultats.

Chapitre 4: Implantation et exprimentation 163


Au pralable, le rsultat de la fonction Matrice de cooccurrence trois dimensions, tait sous forme
dun fichier texte decrivant un tableau deux dimensions. Pour chaque valeur prise par lattribut
Temps , un fichier tait gnr.
Par exemple, pour la creation des matrices de coocurrence de type :

Auteur-Auteur-Temps

Auteur-Conference-Temps

Les resultats obtenus par ttralogie sont dcrits dans la Figure 71.

Aut.1
4
1
3

Aut.1
Aut.2
Aut.3

Aut.n

Aut.1
Aut.2
Aut.
2 3
Aut.
1
2 Aut.n

Aut.1
4
1
Aut.
3 3
3
1
6

Aut.1
Aut.2
Aut.2
Aut.3
1

2
Aut.n

Aut.1
Aut.2
Aut.3
4
1
3
1
2
Aut.3

Aut.n
3
6

3
1

1
Aut.
Conf.
1 Conf.2
6 n
1
3

1
21
8

1
2
1

Conf.
1
3

Conf.
8 3
6
12
1

Aut.n
1

Conf.1 Conf.2 Conf.3


3
6
1
2
1
Conf.2 Conf.3
Conf.n
8
200171
6
2007

2
1

1
2
1

Conf.
1 n

2008
1

Fichier 1

Conf.n

2006
20016

Fichier 3

Fichier 2

Figure 71 : Les rsultats Ttralogie de la fonction Matrice de cooccurrence trois dimensions.

Ces rsultats ne sont pas adapts la structure de la base de donnes du prototype Xplor, pour y remedier,
nous proposons une fonction pour gnrer trois fichiers tels que :

Le premier fichier Attribut , va dcrire les attributs cibls. Chaque attribut est identifi par un
numro, un code et un type.

Le second fichier Valeur , reprsentera les valeurs de chaque attribut cibl. Chaque valeur est
identifie par son libell, son numro et le numro de son attribut.

Le troisime fichier Cooccurrence , concernera toutes les relations de cooccurences identifies


dans le corpus cibl. Chaque cooccurrence est identifie par le numero de la valeur du premier
attribut, le numero de valeur du second attribut, la valeur de la coocurrence et le libl de
lattribut Temps (Attribut1-Attribut2-Cooccurrence-Temps).

Ces representations nous offrent une nouvelle structure qui permet de decrire de faon synthtique les
resultats de la compilation des matrices. Cette structure a t propose de faon a respecter le modle de
donnes associ la base de donnes du prototype Xplor. Ainsi, les donnes obtenues seront facilement
exportes vers le prototype.
La Figure 72, represente un exemple de la nouvelle structure des resultats de la fonction Matrice de
cooccurrence trois dimensions.

Chapitre 4: Implantation et exprimentation 164

Type
Auteurs
Confrence

Fichier Attribut

Code
Aut
Conf

N Attribut
1
1

n
n+1
n+2

1
2
2

N Attribut
1
2

Numum -Valeur
1
2

Libell
Aut1
Aut2

Autn
Conf1
Conf2

Fichier 2Valeur

Temps
2006
2007
.

n+2

2006

n+m

2007
.

1
n

Cooccurrences
Cooccurrences
3
1
.

NumNum - Valeur
Val eur 2
1
2
.

NumNum - Valeur 1
1
1

n+m

Confm

Fichier Cooccurrence

Figure 72 : Nouvelle structure des rsultats de la fonction Matrice de cooccurrence trois dimensions.

3.4 Architecture du prototype Xplor


Le prototype Xplor fonctionne selon une architecture Client/serveur. Cette dernire permet la mise
disposition de plusieurs clients des services provenant dun serveur. L'architecture client/serveur dsigne un
mode de communication entre plusieurs ordinateurs d'un rseau qui distingue un ou plusieurs postes
clients du serveur : chaque logiciel client peut envoyer des requtes un serveur. Un serveur peut tre
spcialis en serveur d'applications, de fichiers, de terminaux, ou encore de messagerie lectronique. Le
client et le serveur doivent bien sr utiliser le mme protocole de communication. Un serveur est
gnralement capable de servir plusieurs clients simultanment. Cette architecture client/serveur dispose de
nombreux avantages :

Centralisation des ressources sur le serveur ; cest le serveur qui fournit le ou les services aux
nombreux clients prsents sur un rseau.

Scurit accrue due aux points dentre qui peuvent tre limits ou filtrs plus facilement.

Une administration simplifie puisquelle se fait uniquement sur le serveur, do aussi une scurit
accrue.

Le prototype Xplor vient complter la plateforme Ttralogie. Cette dernire fonctionne de manire
distribue au sein dun rseau. Aussi, elle passe par un systme de fentrage appel X Window. Celui-ci
crer et gre des fentres dans lesquelles il affiche du texte et du graphique. Le fonctionnement de X
Window est bas sur le modle Client / Serveur. Le serveur X et le client X sont deux processus distincts
qui communiquent entre eux par l'intermdiaire d'un protocole. Le serveur X est le programme qui assure
la gestion et le contrle des priphriques d'entres et de sorties. Le client X est le programme utilisateur
qui exploite les services du serveur X en lui soumettant des requtes d'affichage ou de dialogue.
Par rapport au modle client / serveur classique, dans lequel le serveur s'excute sur une machine
distance, tandis que l'application client rside sur la machine locale, X inverse gographiquement les rles.
Le serveur se trouve dans la machine locale (le terminal devant le quel se trouve l'utilisateur) tandis que X
peut s'excuter sur une machine distance. Cependant, les principes du modle client/serveur sont
respects. Le serveur X rpond aux requtes soumises par les clients X.

Chapitre 4: Implantation et exprimentation 165


En tant que serveur, si un client dsire accder Ttralogie, il doit prsenter son "Display". Il est l'entit
qui regroupe le serveur et les priphries d'entres / sorties qu'il gre, c'est dire la combinaison de lcran
du client, clavier et souris. X Windows n'est pas une interface graphique proprement dite. Cependant il
peut servir de base dautres environnements graphiques tels que Motif, Open Look, News, CDE.
La configuration de la plateforme Ttralogie est exige certaines contraintes do la ncessit du passage au
web qui permet une accessibilit via des navigateurs et qui permet des accs facile, rapide et sure avec des
fonctionnalits simple et robuste
Dans le cadre de nos travaux notre choix sest port sur la combinaison serveur web Apache (serveur
HTTP), MySQL (serveur de base de donnes) et PHP, tous gratuits et libres. Sous Linux, cette
combinaison s'appelle LAMP (sigle de Linux, Apache, Mysql, PHP ); sous Windows, WAMP
( Windows, Apache, Mysql, PHP ); et sous Mac, MAMP ( Macintosh, Apache, Mysql, PHP ). Apache
HTTP Server, souvent appel Apache, est un logiciel de serveur HTTP produit par l'Apache Software
Foundation. C'est le serveur HTTP le plus populaire du Web.
MySQL est un systme de gestion de base de donnes relationnelles SGBDR rapide, robuste er facile
dutilisation. Il est adapt la gestion de donnes dans un environnement rseau, notamment en
architecture client/serveur. Il est fourni avec de nombreux outils et est compatible avec de nombreux
langages de programmation. Il est le plus clbre SGBDR du monde Open Source, particulirement grce
son interoprabilit avec le serveur de pages Web Apache et le langage de pages Web dynamiques PHP.
MySQL est un systme de gestion de Bases de Donnes fonctionnant sous Windows et Linux.
L'application est installe sur un serveur Apache muni d'une base MySQL permettant de stocker les
donnes rentres en amont dans l'application.
PHP est un langage de script qui sexcute cot serveur, le code PHP tant inclus dans une page HTML
classique. Il peut donc tre compar dautres langages de script qui fonctionnent sur le mme principe :
ASP (Active Sever Pages), JSP (Java Server Pages) ou PL/SQL Server Pages (PSP). A la diffrence dun
langage comme le JavaScript, o le code est excut cot client (dans le navigateur), le code PHP est
excut cot serveur. Le rsultat de cette excution est intgr dans la page HTML qui est envoye au
navigateur. Ce dernier na aucune connaissance de lexistence du traitement qui sest droul sur le serveur.
Cette technique permet de raliser des pages Web dynamiques dont le contenu peut tre compltement ou
partiellement gnr au moment de lappel de la page, grce des informations rcuprs dans un
formulaire ou extraites dune base de donnes.
Le protocole de communication utilis est le protocole HTTP. Le but de ce dernier est de permettre un
transfert de fichiers (essentiellement au format HTML) localis grce une chane de caractres appele
URL entre un navigateur (le client) et un serveur Web.
Le prototype Xplor est une application hberge dans un serveur Apache et sa base de donnes est au
niveau du serveur MySQL. Une application est un programme ou un groupe de programme conus pour
tre exploits par un utilisateur final quel quil soit. Lorsque lutilisateur final dialogue avec lapplication au
moyen dun navigateur, on dit quil sagit dune application de base de donnes sur le web ou plus
simplement dune application web. Xplor consiste en deux composantes :

La base de donnes MySQL est la mmoire du prototype,

Lapplication proprement dite consiste en un ou plusieurs programmes destins accomplir une


certaine tche. Les programmes crent laffichage que voit lutilisateur dans la fentre de son
navigateur. Cest ce qui rend lapplication interactive, en lui permettant daccepter des
informations de lutilisateur, en traitant ces informations et en renvoyant une rponse compose
daprs les informations extraites de la base de donne.

Chapitre 4: Implantation et exprimentation 166

Module PHP

Serveur en ligne
Http : Apache
BDD MySQL

Clients : Navigateur
Web
Figure 73 : architecture dimplantation.

Le fonctionnement de lchange client/serveur est comme suit : le client envoie une requte au serveur sous
la forme d'une URL avec ventuellement un passage de paramtres (1). Le serveur commence par vrifier
si la page demand dpend du module PHP ou est statique (.htm, .html, ...) (2). Si il s'agit d'une page
PHP, le script est alors interprt par le moteur (3) qui peut ventuellement envoyer une requte vers le
serveur de base de donne MySQL (4) Celui-ci lui renverra alors les donnes demandes afin de terminer
l'interprtation du script (5). Au final, il gnrera une page statique (6) du mme type qu'une page html
pouvant tre interprte par le navigateur du client (7).
Les avantages de cette architecture sont :

Des performances leves

Interface vers la base de donnes MySQL

Simplicit d'utilisation et d'apprentissage

Portabilit

PHP gre les sessions. On peut donner des droits d'accs diffrents selon les utilisateurs en
utilisant PHP session.

Chapitre 4: Implantation et exprimentation 167

3.5 Fonctionnalits
Fonctionna lits du prototype XPLOR
Dans le cadre du travail mdiatis dutilisateurs non spcialistes de linformatique, il est primordial davoir
des fonctionnalits et un outil simple dutilisation. Lapplication Xplor est ainsi souple et sexcute
aisment sur toute machine. De mme, elle doit tre simple dutilisation et sintgrer aux pratiques de
lutilisateur. La page daccueil (Figure 55) du prototype saffiche au niveau du navigateur de lutilisateur
sous forme dun ensemble de liens hypertexte. Les menus du prototype Xplor sont reprsents sous forme
dun ensemble de liens qui sont suffisamment ars pour safficher dans des crans grands (PC) ou petits
(tlphonie portable).
Le menu de la page daccueil du prototype sarticule autour de quatre composantes principales :

Informations et connaissances portant sur la Veille et IE.

Une classification des liens des principaux acteurs de lIE.

Analyse Gnrale : administration et diffusion des analyses stratgiques du systme Ttralogie.

Analyse Dtaille.

Dans la suite de cette section nous prsenterons le prototype xplor en dtaillons chaque composante.

Figure 74 : Page daccueil du prototype XPLOR.

3.5.1 Concepts IE et veille


La premire composante du menu de la page daccueil du prototype Xplor porte sur les diffrentes
dfinitions et lexiques manipules dans le contexte de : IE, Veille stratgique, extraction de connaissances,
recherche dinformation, analyse de donnes etc.
Le contenu des pages web Dfinition et Lexique associes cette composante est organis dans un
sous-menu hypertexte selon un ordre alphabtique. Chaque lien du sous-menu reprsente la premire
lettre associe un ensemble de concepts. Cette technique permet lutilisateur de naviguer dans ces pages
grces au sous-menu qui offre une recherche rapide et simple.

Chapitre 4: Implantation et exprimentation 168

Figure 75 : Concepts IE et Veille.

3.5.2 Classification des liens IE


La deuxime composante concerne une classification des liens des principaux acteurs de lIE en France.
Cette classification sest base sur un corpus collect partir du web. Ce corpus comporte 67 acteurs.
Chaque acteur est dcrit par un ensemble dattributs tels que : site internet, descripteurs, acteurs, date,
type. Ce corpus nous a permis deffectuer une classification des acteurs par rapport leur type : entreprise,
cole, association, gouvernement, etc.
Cette classification a t effectue par la plate forme Ttralogie, qui nous a permis didentifier les liens
entre les acteurs et leur type sous forme de matrice de cooccurrence deux dimensions puis appliquer
une AFC sur ces liens. Les rsultats obtenus ont servi de modle pour la reprsentation des acteurs dans le
prototype Xplor.
La figure ci-dessous dcrit la page des liens des acteurs dIE en France sous forme dun ensemble de liens
hypertexte o chaque lien rfrence le site web de lacteur associ. Ainsi nous offrons lutilisateur un
ensemble de sites internet des diffrents acteurs du domaine IE en prcisant pour chacun leur comptences
ce qui permet lutilisateur davoir une vision gnrale des diffrents organismes intervenants dans le
domaine IE selon leur type, par une navigation rapide et interactive.
Cette tude a t effectue dans le cadre du stage de Melle Sophie Martin au sein de notre quipe.

Chapitre 4: Implantation et exprimentation 169

Figure 58 : Classification des liens.

3.5.3 Analyse gnrale


La troisime composante du menu principal du prototype dvelopp concerne ladministration et la
diffusion des analyses stratgiques globales issues de la plateforme Ttralogie. Lobjectif de cette
composante est doffrir aux utilisateurs une navigation simple et rapide dans les nombreux dictionnaires
extraits des corpus (tris par ordre alphabtique et par frquences dcroissantes) et de rendre directement
accessible chaque rubrique particulire laide dun plan gnral. Une organisation diffrente du
document hypertexte est propose pour chaque cas spcifique (publications scientifiques, analyse de
brevets, Internet, etc.) mais les nombreuses analogies constates nous ont permis de standardiser une
grande partie de ce mode de restitution. Ici encore, les exportations sous forme standard (formats et noms
des fichiers) des graphiques et illustrations ainsi que celles des dictionnaires nous permettent un gain de
temps lors de la production du document de synthse de chaque analyse.
Nous retrouvons tous les avantages de ce mode de diffusion : navigation libre, accs toute linformation
disponible, portabilit, possibilit dutiliser le support CD-Rom, nombreuses fonctions prdfinies (retour
en arrire, enregistrement, impression, etc.), possibilit de mettre lanalyse en ligne.

Chapitre 4: Implantation et exprimentation 170

Figure 76 : Fonction de tlchargement de lanalyse issue de Ttralogie.

Figure 77 : Diffusion de lanalyse gnrale.

Ce mode de diffusion ne fait pas double emploi avec le portail propos, car il communique tous lanalyse
gnrale (synthse de lensemble des informations stratgiques mises jour) alors que le portail autorise la
conduite des analyses plus profondes et mieux cibles sur les proccupations spcifiques de chaque
utilisateur.
La possibilit de pouvoir revenir lanalyse gnrale prsente aussi de nombreux avantages, car lutilisateur
peut confronter ses propres dcouvertes issues de son analyse dtaille celles plus globales et stratgique

Chapitre 4: Implantation et exprimentation 171


de la macro analyse initiale issue de la plateforme Ttralogie. En effet, une micro analyse isole peut tre
dangereuse voire errone car laspect stratgique issu du global est perdu de vue et ne sert plus de rfrence
pour lextraction et la comprhension de connaissances locales.

3.5.4 Analyse dtaille


La quatrime composante du menu principal du prototype dvelopp est l Analyse dtaille . Cest ce
niveau que nos travaux se sont le plus concentrs. Cette partie permet lutilisateur dexplorer les donnes
relationnelles mises en ligne pour un sujet danalyse donn. Elle est organise en deux sections :

Administration des donnes,

Analyse des donnes.

3.5.4.1 Administration des donnes


La premire concerne ladministration des donnes o lutilisateur peut effectuer des oprations de
visualisation, rajout, suppression et modification des donnes.

Figure 61 : Administration des donnes

Aussi, nous avons dfinie dans cette partie des indicateurs qui permettent de dcrire la base de donnes.
Ces indicateurs permettent aux utilisateurs davoir une vision gnrale des donnes analyser tel que :

Le nombre de champs contenus dans la base,

Le nombre denregistrement (items) pour chaque attribut,

Le nombre total des enregistrements pour lensemble des attributs,

Le nombre de relations de type cooccurrence trois dimensions.

Chapitre 4: Implantation et exprimentation 172

Figure 78 : Indicateurs de la base de donnes.

3.5.4.2 Analyse des donnes


3.5.4.2.1 Fonction de filtrage
Comment arriver slectionner, de faon interactive via le web, l'information pertinente pour l'utilisateur.
Nous proposons tout un ensemble d'outils de filtrage bass sur l'utilisation des dictionnaires (thmatiques,
synonymes, hirarchiques), des matrices (contingences, cooccurrences, prsence absence), des tableaux 3D
croisant le deux attributs et le temps. Nous pouvons activer un ou plusieurs filtres par champ afin de ne
garder que l'information ponctuelle utile pour l'utilisateur tout en lui permettant de la croiser avec d'autres
sur des volumes matrisables et compatibles avec les moyens classiques ou innovants des graphiques
statistiques et gographiques. Les filtres utiliss sont de deux types: unaires ils ne font intervenir que la
distribution du champ concern, binaires ils s'appuient sur les relations avec les autres informations du
corpus et font donc intervenir dans leur calcul des oprateurs complexes comme la connexit, les liens
transitifs, la consistance, l'quivalence, les concidences positives et ngatives, les distances et autres
mtriques.

Filtrage unaire

Filtrage binaire

Figure 63 : Filtrage des donnes.

3.5.4.2.2 Fonction danalyse


Pour extraire linformation stratgique de la base de donnes on a interrog la base en utilisant les
fonctions de requtage issues du langage SQL, en formulant des requtes selon les besoins de lutilisateur.
Chaque requte reprsente un indicateur gnrique.
Parmi ces requtes on peut citer :

Slection dun ou plusieurs champs danalyse,

Chapitre 4: Implantation et exprimentation 173

Indicateur univari
- Nombre doccurrence dun item,
- Frquence dun item,
- Slection des X meilleurs items,

Indicateur relationnel
- Slection de lvolution des x meilleurs items,
- Slection des X meilleurs pour une priode prcise,
- Slection de plusieurs items, et les comparer en fonction du temps pour tudier leur volution,
- Slection des occurrences dun item en fonction du temps pour tudier son volution,
- Slection des items de diffrents champs pour comparer un champ en fonction de plusieurs autres
afin de faire une analyse N-dimensionnelle,
- Slection de lenvironnement dun ou plusieurs items,
- Slection de lvolution de lenvironnement dun ou plusieurs items.

Figure 79: Indicateurs des X=10, 20, 30 meilleurs champ= auteurs et son volution.

3.5.4.2.3 Fonction de visualisation


Les fonctions de reporting sont essentielles pour russir la prsentation d'un travail de veille dans un
contexte dIE et pour convaincre les dcideurs par un document lisible, pertinent et concis. Outre les
grands classiques (histogrammes 2 et 3D, camemberts, tableaux, zoom de matrices, etc.), nous intgrons
des techniques de visualisation propres chaque type de requte comme (histogrammes dvolution 2D et
3D, histogrammes comparatifs ou cumulatifs 2D et 3D, graphes relationnels, etc.). Cet ensemble de
possibilits doit permettre chacun de trouver les bons rglages pour dcouvrir puis communiquer
l'information stratgique cible intgrer dans son rapport d'analyse personnalis.

Chapitre 4: Implantation et exprimentation 174

Indicateur uni-vari

Indicateur relationnels

Figure 65 : Les fonctions de visualisation.

3.6 Exprimentations
Dans le cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons
expriment le prototype Xplor sur une analyse stratgique de donnes portant sur le secteur des
biotechnologies agricoles en chine. Nadge Gunec, dans le cadre de sa thse CIFRE au sein de la socit
LIMAGRAIN, a jou le rle de lexpert (Biotechnologies et Langue Chinoise), et nous avons pris le rle
ddi lanalyste.

3.6.1 Enjeux et problmatique


LIE et les pratiques qui la caractrisent se dfinissent comme une analyse de lexistant en vue danticiper
les volutions possibles dans le but dorienter laction future [Martre, 1994]. La maitrise de linformation
est devenue un outil indispensable dans tous les domaines conomiques touchant aux technologies de
pointe : gnie gntique, chimie, physique, aronautique, nanotechnologie, etc. Selon [Gunec, 2009], les
chercheurs chinois, qui maitrisent correctement langlais, sont abonns au travers de leur laboratoire aux
grandes bases de donnes darticles scientifiques. Ils ont donc un accs et une viabilit sur lensemble des
travaux scientifiques au niveau mondial. Or, les chercheurs occidentaux nont aucun moyen daccder
linformation scientifique chinoise. Seules les publications chinoises dans les revues internationales sont
visibles.
Linformation scientifique et techniques est une composante aussi importante pour :

Le chercheur, dsirant de maintenir une veille scientifique jour et pertinente,

Les dcideurs privs et gouvernementaux lors de la conduite dune dmarche dIE, principalement
dans le cadre dapplications de linnovation.

Dans ce contexte de concurrence accrue, dans lequel les entreprises et les gouvernements sallient et
sengagent au cur de la recherche scientifique, il est ncessaire, voir indispensable, de disposer dun outil
danalyse pertinent permettant de capter linformation utile en temps record [Pierret, 2005]. Loutil
recherch, doit permettre deffectuer une exploration trs fine afin de mettre la disposition des dcideurs
des informations utiles et prcises et lui permettre daffiner sa propre analyse de lenvironnement
informationnel du domaine dtude [Gunec, 2008a]. Dans le cadre de cette collaboration, loutil vis doit
pouvoir traiter et analyser les sources dinformations chinoises.
tant donn linterdpendance des activits politiques, conomiques et scientifiques en Chine, notre
collaboration dans le contexte du GDR-IE consistait traiter et analyser un corpus darticles scientifiques
sur le secteur des biotechnologies agricoles en chine. Dans ce contexte, la difficult pose tait celle de

Chapitre 4: Implantation et exprimentation 175


ladaptation de la plateforme Ttralogie et du prototype Xplor au traitement des donnes chinoises. Dans
la section 4.6.3, nous prsentons notre proposition pour contourner cette problmatique.

3.6.2 Proposition
Nous proposons une adaptation de la plate-forme Ttralogie et du prototype Xplor au traitement de la
langue chinoise, dont le codage peut tre ramen au systme UNICODE UTF-8, en utilisant les capacits
de transcodage doutils comme MS-Word.
Une volution de la plateforme Ttralogie dans la phase de prtraitement a donc t le pralable de nos
travaux afin de ladapter lenvironnement linguistique du chinois dune part et la structure des sources
dinformations chinoises (CNKI, CQVIP). Etant donnes que ces sources sont structures, une fois le
traitement linguistique ralis, le lhomognisation et la structuration des documents devraient pouvoir
tre ralises de la mme manire que des documents en langue occidentales.
En se basant sur le codage informatique de la langue chinoise (UNICODE UTF8), nous pouvons dtecter
les entits nommes par le traitement de bases semi structures comme les publications scientifiques, les
brevets et la presse. Il est alors possible dtablir des dictionnaires assez complets de termes scientifiques et
technique (mots-cls, classifications, etc.), de noms dacteurs (auteurs, personnalits, entreprises,
organismes publics, laboratoires, etc.), de lieux gographiques, de dates et de les traduire dans la langue de
lutilisateur. Le croisement (cooccurrence, contingence, prsence-absence) de ces briques signifiantes de
texte doit nous conduire ltablissement des rseaux dacteurs et des rseaux smantiques qui expliquent
en grande partie les stratgies sous-jacentes du domaine. Si, de plus, le facteur temps est pris en compte
(volution des rseaux), nous pouvons alors avoir une vision prospective (tendances, trajectoires des
acteurs, type dvolution, etc.).

3.6.3 Besoin informationnel


La capacit danalyse relationnelle dun domaine donn partir des documents collects dune base
bibliographique chinoise tait la base des travaux de notre collaboration avec [Guenec, 2008a]. Le besoin
formul par [Gunec, 2009], dans le cadre des travaux de recherches tait de dfinir une approche
approfondie du secteur des biotechnologies agricoles en Chine (sujet danalyse). En effet, ses travaux se
situant dans une dmarche danalyse dun environnement conomique dans le but dapporter des
connaissances stratgiques visant notamment dgager des partenaires chinois ventuels et surveiller la
concurrence (thme danalyse).

3.6.3.1 Source dinformation


La source dinformation utilise pour lanalyse est CNKI (China National Knowledge Infrastructure).
Cest un portail dinformation construit pat luniversit Qinghua de Pekin et la Qinghua Dongfang
Internet Technologie Cie. Ltd. Le projet a commenc en juin 1996 avec la publication dun CD-Rom
recensant 2000 journaux acadmiques de chine [Guenec, 2008b]. en 2003, elle prend sa forme actuelle de
portail regroupant plusieurs BDD de ressources acadmiques chinoises avec des fonctionnalits de
recherches avances. Elle est aujourdhui utilise en Chine par plus de 5500 institutions : universits,
bibliothques, hpitaux, organismes gouvernementaux, etc. et ambitionne de devenir le plus gros portail
de ressources acadmiques du monde avec aujourdhui quelques 17 millions darticles.
Adresse : http://www.cnki.net/index.htm

Chapitre 4: Implantation et exprimentation 176

3.6.3.2 Indicateurs
Les indicateurs viss sont :

Dterminer les (10, 20, 50) principaux acteurs du domaine, leurs interactions et leur volution,

Dterminer les thmatiques de recherches et leur volution,

Dterminer les principaux journaux, et leurs thmatiques,

Dterminer les principaux organismes et lvolution des publications qui leurs sont associes,

Dterminer pour le ou les cinq principaux acteurs, leurs thmatiques, leurs organismes et
lvolution de leur environnement,

Priode danalyse 2002-2008.

Les attributs cibls sont alors : les auteurs, les organismes, les descripteurs et le temps.
Les valeurs associes lattribut Temps sont : 2002, 2003,,2008.
Relations entre attributs cibls et le temps :

Attributs
Auteurs
Organismes
Journal
Mots-cls
Mots-

Auteurs

Organismes

Journal

MotsMots -cls

x
x

x
x
x

x
x
x
x

Tableau 19 : Les relations des attributs cibls.

3.6.4 Collecte de document


La premire tape danalyse consiste collecter les donnes selon le besoin exprim. Cette collection de
donne va constituer le corpus cibl.
Ds la page daccueil du site CNKI, un moteur de recherche est disponible, il doit tre aliment par des
requtes en chinois qui peuvent tre traduites depuis langlais par les outils linguistiques de Google. Cet
outil utilise la technologie Systran qui est lun des meilleurs outils de traduction lheure actuelle.

Figure 80 : Les fonctions de visualisation.

Dans le cadre de lanalyse stratgique sur les biotechnologies, notre requte consiste rechercher tous les
articles o les mots Bl et strilit mal du bl apparait au niveau de lattribut ou champ Titre , doctobre
2002 octobre 2008.

Chapitre 4: Implantation et exprimentation 177


Une fois la requte formule, le systme retourne une liste de 1699 notices que nous pouvons collecter soit
par :
Un copier/coller vers MS-Word,
Utilisation du systme de tl-dchargement intgr dans le site,
Utilisation de robot de type aspirateur.

Figure 81 : Descriptif des attributs.

Voici le protocole de travail que nous prconisons pour raliser des analyses stratgiques depuis cette base
documentaire.

25

tablir une quation de recherche en anglais et la traduire en chinois [Google].

soumettre cette quation au moteur de recherche de la base cqvip.com,

pour chaque page de rsultat, la copier-coller dans MS-Word 2003 ou dans Open Office25,

enregistrer le fichier obtenu au format html,

louvrir avec Internet Explorer,

afficher le code source de la page,

lUNICODE apparat en mode texte ASCII sous la forme &#12345; ,

renregistrer le code source en format texte.

On se sert, ici, des capacits de transcodage de ces outils pour passer de polices chinoises diverses lUNICODE.
MS-WORD 2007 nest pas recommand car il sait travailler avec plus de polices, il ne fait donc plus le transcodage
voulu : qui peut le plus peut le moins .

Chapitre 4: Implantation et exprimentation 178

Figure 82 : Correspondance caractre chinois- UNICODE.

3.6.5 Structuration
Aprs avoir collect les 302 notices, nous avons dfini un programme permettant de rechercher
linformation utile lanalyse dans le fichier texte ASCII. Pour cela nous avons utilis le langage perl pour
pouvoir crer un fichier qui sera compatible avec la plateforme Ttralogie.
Plusieurs tapes sont identifiables dans ce programme (figure 62) :

Rcupration du code HTML,

Identification de linformation extraire,

Rcriture de linformation extraite dans le nouveau fichier.

Le but de cette tape est multiple :

liminer la mise en forme du texte (html) qui napporte rien au contenu, mais qui reprsente 90%
du poids du fichier,

reconstituer des chanes de texte qui sont spares en tronons par la mise en forme. Cette tape
est ncessaire car de nombreux mots cls, par exemple, sont coups (changement de police au
niveau html). Est-ce volontaire pour gner lanalyse automatique et lindexation ?

rebaliser le texte par des balises ASCII (du type : TI:, AU:, OR:, ) traduites des balises existantes
en chinois,

certaines balises et leur contenu ne sont pas visibles sur la page web, mais sont prsentes dans le
code source en ASCII (ex : KW:)

rajouter des balises inexistantes dans le texte en les crant partir de la mise en forme html : DP:,
NO:, VA:,

conserver les informations qui sont codes en caractres latins ou en chiffres arabes comme les
dates, les numros ou certains termes comme les auteurs occidentaux, les formules ou les lments
techniques,

viter les doublons dus la prsence simultane de deux versions du mme terme (ex : noms des
auteurs cliquables sur la page web).

Chapitre 4: Implantation et exprimentation 179

Identification

Rgles dextraction et
de rcriture

Corpus structur

Figure 83 : Identification et extraction de linformation utile.

3.6.6 Homognisation
Homognisation
Une fois la structuration termine, le corpus se trouve sous une forme analysable par Ttralogie au
mme titre quune base initialement code en ASCII comme PASCAL, FRANCIS, INSPEC ou SCI. Des
descripteurs de format spcifiques compatibles avec ce balisage vont permettre ensuite de piloter les
automates qui vont traiter le texte : extraction des items (valeurs) de tous les champs baliss (attributs),
puis le croisement des champs entre eux, afin dtablir des tableaux de cooccurrences trois dimensions.
Dans le Tableau 14 nous dcrivons les diffrentes informations dcrites par le descripteur de format
spcifique.
Nom du champ
Nom complet du
champ dans une
notice

Abrviation
Nom abrg du
champ dans une
notice

Champ
Nom du champ
dans la notice

Visible
Attribut qui permet
dafficher ou non un
champ dans les diffrents
outils de Ttralogie
TRUE = actif
FALSE = passif

Sparateurs
Les sparateurs permettent
disoler les mots ou groupes
de mots que lutilisateur
recherche.
Exemple : le contenu de la
balise Notice sera
dlimit par le sparateur :
b"

Tableau 20 : Les champs du descripteur de format spcifique.


Les descripteurs de formats spcifiques ( gauche de la figure 63) dcrivent le format obtenu.

Chapitre 4: Implantation et exprimentation 180

Corpus structur

Descripteur de format
spcifique

Figure 84 : Descripteur de format spcifique.

Dans la figure 63, nous pouvons remarquer que les attributs de chaque champ en ASCII et les valeurs
(contenu) en UNICODE. Dans la notice C2617138, le titre, le premier auteur, le journal et la date
forment un abrg en dbut de document, ces informations sont ensuite reprises dans les champs
correspondants : TI:, AU:, JN:, DP:. Le champ VA : ne sera donc pas utilis dans lanalyse.
Si nous analysons visuellement le document, il comporte 3 auteurs (de 3 idogrammes chinois = 3 codes),
un seul organisme, 8 mots cls (ici de 2 5 idogrammes) plus le journal et la date : 2006.
Ds que nous disposons du corpus reformat et de ses descripteurs de format, il est possible de lanalyser
par les mmes techniques que pour une source en alphabet latin, y compris raliser son traitement
smantique et proposer une indexation plus fine et rcente.
Afin de dcoder lUNICODE (et donc, ici, le chinois), nous avons tabli des dictionnaires de
correspondances entre les noms dauteurs en chinois et leur traduction en phontique (Pinyin) grce au
traducteur de Google. Mais dans ce cas, se posent deux problmes :

Google narrive pas traduire tous les noms et restitue alors lUNICODE (voir 7 auteur)

Plusieurs auteurs de codes diffrents peuvent avoir la mme correspondance, do une ambigut
trs nfaste ltablissement de rseaux

sociaux pertinents et la ncessit imprative de corriger ce problme.

Nous avons choisi, de garder les codes sans traduction.

3.6.7 Reprsentation
Reprsentation multidimensionnelle
Cette tape nous permet de dfinir et identifier les diffrentes corrlations existantes entre les attributs
dun mme document et leurs corrlations avec les autres documents du corpus cibl. Notons que ces
donnes vont permettre, la suite, lalimentation de la base de donnes du prototype dvelopp.

Chapitre 4: Implantation et exprimentation 181


Dans la Figure 85, nous prsentons linterface de la plate forme Ttralogie contenant les deux fonctions
dveloppes savoir :

Xplor Items (valeurs) et champs (attributs),

Xplor Cooccurrences.

Figure 85 : Interface de la plateforme Ttralogie.

3.6.7.1 La fonction Xplor Items et champs


Linterface associ la fonction Xplor Items et champs, permet lutilisateur de slectionner les attributs
cibls de lanalyse. Lobjectif est de gnrer : lensemble des attributs cibls et des valeurs qui leurs sont
associes.
Lorganisation de cette interface se prsente sous forme de tableau deux dimensions o chaque case peut
tre slectionne (Figure 86).

Les lignes du tableau correspondent aux diffrents attributs reprsentant le corpus homognis,

La premire colonne permet de slectionner les attributs (cibls) analyser,

La seconde permet deffectuer un filtre sur les frquences dapparition de chaque valeur associe
lattribut slectionn. Dans notre exprimentation, nous avons retenus toutes les valeurs associes
aux attributs cibls qui apparaissent au moins une fois dans un document (Frq=1).

Chapitre 4: Implantation et exprimentation 182

Figure 86 : Interface de la fonction Xplor-Items et champs.

Les rsultats de cette fonction sont les fichiers, Attribut et Valeur , dont nous dcrivons un extrait du
contenu dans la Figure 87.

Figure 87 : Extrait des fichiers Attribut et Valeur .

La Figure 88 correspond la traduction des valeurs extraites sous forme de caractre UNICODE. Cette
traduction est effectue pour vrifier si les informations extraites sont valides.

UNICODE
&#38472;&#29233;&#24179;
&#37045;&#24198;&#22343;

Caractre en Chinois

&#21016;&
21016;& #26342 ;&#33907;
33907 ;

Franais
CHEN Ai-Ping
SHAO Qing-jun
Xi Liu

Figure 88 : Correspendance de lUNICODE des valeurs- Chinois-Franais.

3.6.7.2 La fonction Xplor Cooccurrences


Linterface associe la fonction Xplor Cooccurrences, nous permet de slectionner les attributs cibls
croiser. Pour chaque croisement, la prise en compte de lattribut Temps est systmatique. Lobjectif de
cette fonction est de gnrer : lensemble des relations de type Attribut-Attribut-Temps . Cette relation
se base sur la mesure de cooccurrence. Nous rappelons que cette mesure consigne le nombre de documents
qui possdent simultanment les valeurs des trois attributs.

Chapitre 4: Implantation et exprimentation 183


Lorganisation de cette interface se prsente sous forme de tableau deux dimensions tel que :

Le cur du tableau est caractris par une matrice symtrique, tel que les lignes et les colonnes
correspondent aux diffrents attributs cibls. Chaque case de la matrice correspond une relation
de type attribut-attribut . Lutilisateur peut donc choisir les croisements quil veut analyser
selon ses besoins.

La dernire ligne du tableau permet de rfrencer le troisime attribut de lensemble des relations
slectionnes. Dans le cadre de nos travaux, cette rfrence correspond lattribut Temps .

La dernire colonne du tableau (Freq) permet deffectuer des filtres sur les occurrences de chaque
relation slectionne.

Figure 75 : Gnration de la base de donnes depuis Ttralogie.

Le rsultat de cette fonction est un fichier textuel nomm Cooccurrence , qui dcrit le contenu du
fichier gnr par la fonction Xplor Cooccurrences, o chaque ligne correspond une relation de type
Attribut-Attribut-Cooccurrence-Temps .
Aprs avoir gnr ces fichiers, nous exportons ces rsultats de la plateforme Ttralogie vers la base de
donnes du prototype Xplor.

3.6.8 Calcul dindicateur & Visualisation


Une fois que la base de donnes est gnre vient ltape dexploration et danalyse des donnes. Pour
satisfaire les besoins informationnels exprims, cette tape dexploration est guide par les indicateurs
proposs au niveau de la section 3.6.3.2.
Selon les indicateurs formuls, nous prsentons dans le Tableau 21 une synthse des fonctions calculer
via le prototype Xplor.

Chapitre 4: Implantation et exprimentation 184


Type Attribut
Auteur

Mots-cls

Journal

Organisme

I NDICATEURS UNI-VARIES
Identification des 10 principaux Type Attribut
du domaine
Identification des 20 principaux Type Attribut
du domaine
Identification
tion des 50 principaux Type Attribut
Identifica
du domaine
La part des publications pour chacun des 10
principaux Type Attribut du domaine
La part des publications pour chacun des 20
principaux Type Attribut du domaine
La part des
des publications pour chacun des 50
principaux Type Attribut du domaine
I NDICATEURS RELATIONNELS
RELATIONNELS
volution des publications des 10 principaux
Type Attribut du domaine sur la priode 200220022008
volution des publications des 10 principaux
prin cipaux
Type Attribut du domaine sur la priode 200220022008
volution des publications des 10 principaux
Type Attribut du domaine sur la priode 200220022008
Identification de lenvironnement des 5
principaux Type Attribut du domaine
domaine
Evolution de lenvironnement des 5 principaux
Type Attribut du domaine

Tableau 21 : Synthse des indicateurs calculer.

Notons que toutes les fonctions dfinies dans le prototype Xplor sont gnriques. Par exemple dans le
Tableau 21, Type Attribut est un champ gnrique qui peut prendre les valeurs : Auteur, Organisme,
Journal, Mots-cls.
Pour lindicateur (ou fonction) : Identification des 10 principaux Type Attribut du domaine
Si Type Attribut = Auteurs alors
La fonction nous retourne les valeurs des 10 principaux Auteurs contenus dans la base de donnes du
domaine.
Nous organisons ltape des calculs des indicateurs comme suit :

Analyse de la base de donnes,

Calcul des indicateurs uni-varis et visualisation,

Calcul des indicateurs relationnels et visualisation.

3.6.8.1 Analyse de la base de donnes

Le nombre de valeurs (items) de lensemble des attributs (champs) dans la base de donnes : 7138

Pour chaque attribut (champs) le nombre de ses valeurs (items),

Le nombre de fois o les valeurs apparaissent dans un croisement : 18637,

Chapitre 4: Implantation et exprimentation 185

Le nombre de fois o lensemble des valeurs (items) dun attribut (champ) apparaissent dans un
croisement.

Ces informations reprsentent une synthse des donnes sur lesquelles va se baser lanalyse.
Les rsultats des indicateurs sont reprsents dans la Figure 89.

Figure 89 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs).

3.6.8.2 Calcul des indicateurs uniuni-varis et visualisation


Lobjectif de lanalyse tant didentifier les partenaires potentiels et la stratgie des concurrents, il convient
dans un premier temps didentifier les 10 principaux auteurs, organismes du domaine du bl et strilit.

Figure 90 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs).

En raison des clauses de confidentialits avec la socit LIMAGRAIN, nous ne pouvons donner ici
linterprtation complte des rsultats obtenus par cette tude, mais nous pouvons tout de mme en
donner quelques illustrations qui refltent bien lintgration des idogrammes chinois aussi bien dans les
sorties textuelles que graphiques.
Nous rappelons que pour chaque type dindicateur, nous proposons un ensemble de sorties graphiques.

Chapitre 4: Implantation et exprimentation 186


Les dix principaux auteurs du domaine

Figure 77 : Exemples de sorties textuelles et graphiques intgrant les caractres chinois.

Figure 78 : Exemple dhistogramme intgrant les caractres chinois.

Chapitre 4: Implantation et exprimentation 187


Les dix principaux organismes du domaine

Traduction

Beijing Academy of Agriculture,


Forestry and Agricultural
1207
Biotechnology Research Center
Institute of Plant Protection,
Sichuan Academy of
519
Agricultural Sciences

Jiangsu Huai

464

Henan Luoning

449

Cytogntique Institute,
444
Nanjing Agricultural University
College of Agronomy, Shandong
Agricultural University, Key 422
Laboratory of Crop Biologie
Southwestern University cole
d'agronomie et de
418

biotechnologie

Taiyuan

326

Plant Cell and Chromosome


308
Engineering
Horticulture Research Institute
de Shanxi Academy of
284
Agricultural Sciences

Figure 79 : Histogrammes et tableaux des valeurs du top 10, traduction des termes chinois en anglais.

Chapitre 4: Implantation et exprimentation 188

Lvolution des dix principaux auteurs du domaine

Figure 80 : Exemple dhistogramme volutif et le tableau des donnes correspondantes.

Figure 80 : Exemple dhistogramme volutif et le tableau des donnes correspondantes.

Chapitre 4: Implantation et exprimentation 189

Levolution des dix principaux organismes du domaine

Figure 81 : Exemple dhistogramme intgrant les caractres chinois.

Figure 81 : Exemple dhistogramme intgrant les caractres chinois.

Chapitre 4: Implantation et exprimentation 190

3.7 Synthse
Un des objectifs initiaux dans la mise en uvre dXplor tait de fournir une interface facile apprhender,
notamment par des utilisateurs non informaticiens. Pour cela, nous avons orient notre choix vers une
interface web, dont lutilisation est relativement courante, pour nimporte quel utilisateur dordinateur. Ce
type dinterface, et lapproche de navigation hypertextuelle quelle propose de faon naturelle, est
particulirement adapt lexploration de donnes, en proposant des types daccs prdfinis pour
naviguer dans un corpus documentaire, ou ceux propos dans des rsultats produits par des outils d'analyse
de l'information. Lmergence de technologies web (typiquement PHP, ASP, MySQL, etc.) a facilit
laccs en ligne de nombreuses bases de donnes, incluant des oprations de plus haut niveau pour
exploiter les donnes, la vole. L'utilisation de ces techniques dans la mise en uvre dXplor a conduit
un systme trs facile utiliser. La construction du systme a ncessit de mettre en place les
fonctionnalits associes aux diffrentes tapes de slection, de traitement, et de visualisation des rsultats ;
mais galement de faciliter l'enchanement de ces tapes. La consultation de donnes ainsi que la slection
dun ensemble de donnes a lieu partir de liens hypertextes ; le dclenchement dune opration de
traitement se fait en slectionnant les donnes exploiter et loprateur appliquer. Le rsultat obtenu est
lui aussi explorable par navigation, des liens hypertextes permettent nouveau de slectionner des
ensembles de donnes en vue dune exploitation ultrieure. Ainsi, lutilisateur nest jamais limit dans
lexploitation et lanalyse de donnes ; le systme permet deffectuer une fouille effective des donnes et
non une pseudo-fouille de rsultats produits par des outils danalyse dinformation.
Lexprimentation effectue, nous a permis de valider en partie le modle danalyse exploratoire
multidimensionnelle propos au niveau du chapitre 3 de ce manuscrit.

Conclusion et perspectives 191

Conclusion gnrale & Perspectives

Synthse des travaux ..........................................................................................................................192


Perspectives ........................................................................................................................................194

De nos jours, lvolution des entreprises est fortement influence par les diffrentes facettes de leur
environnement extrieur. Dune part, chacun de ces derniers prsente de multiples dimensions dordre
conomique, politique, social et culturel interfrant entre elles. Dautre part, chaque problme relve la
fois des diffrents niveaux, local, national, mondial qui sont imbriqus. Face cette forte influence les
entreprises doivent tre plus attentives aux changements et aux volutions de leur environnement pour
maintenir leur prennit. Leur avantage concurrentiel sinscrit alors dans leur capacit dvelopper de
nouvelles connaissances en vue de produire, de manire continue, des innovations.
La dmarche dIE permet de rpondre cette problmatique par la cration de connaissances nouvelles sur
lenvironnement extrieur de lentreprise. Linformation scientifique et technologique constitue le facteur
cl de succs qui doit tre identifie et transforme en connaissance pour clairer lentreprise dans son
processus dcisionnel.
Actuellement dans la littrature dIE il nexiste pas de modle unique et fig chaque chercheur ajuste les
diffrentes actions de la dmarche selon son domaine de recherche (science de gestion, conomie
industriel, informatique, science de linformation, etc.). Le modle classique du cycle dIE se base sur un
processus ininterrompu constitu de cinq tapes : planification et orientation, activits de recherche,
analyse, diffusion et feedback. Ce cycle connu aussi sous le nom du cycle de renseignement reprsente un
guide mthodologique pour tous les experts. Il doit couvrir lensemble des tapes qui permet de
transformer les donnes en connaissances utiles pour la prise de dcision. Dans le cadre de nos travaux
nous identifions la dmarche dIE comme une coordination des processus danalyse stratgique et de veille.
Nous dfinissons lIE comme un processus informationnel volontariste par lequel lentreprise observe,
surveille et analyse les informations caractre stratgique dans le but dagir dans les dlais les plus brefs et
au moment opportun afin de saisir les opportunits ou de se prmunir des menaces.
Dans ce contexte, nous avons constat quune grande part de linformation porte stratgique prend
souvent une forme relationnelle : liens entre acteurs du domaine, rseaux smantiques, alliances, fusions,
acquisitions, collaborations, cooccurrences de tous ordres. partir de ce constat, nos travaux consistent
proposer un systme dinformation, adapt la dmarche dIE, et bas sur un modle danalyse
exploratoire multidimensionnelle (Xplor). Ce modle permet de recouvrir les quatre principales tapes du
processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse, La
restitution et interprtation des rsultats .

Conclusion et perspectives 192

Synthse des travaux


Les travaux proposs se situent lintersection de trois domaines savoir lIE, les systmes dinformation et
daide la dcision et la dcouverte de connaissances. Notre contribution repose sur la proposition de
mthodes de dcouverte de connaissances partir du texte pour satisfaire les besoins danalyse dans une
dmarche dIE.
Lobjectif de notre contribution consiste dfinir un modle danalyse exploratoire multidimensionnelle,
bas sur les mthodes proposes, qui permet dtudier un domaine dactivit sous toutes ses facettes. Le but
de ce modle est le calcul dindicateurs robustes partir de documents collects. Les indicateurs viss
sont de deux types : les indicateurs relationnels et les indicateurs uni-varis. Ces indicateurs permettent de
synthtiser lenvironnement informationnel dun problme dcisionnel pos afin dassurer lentreprise, en
temps voulu, une information pertinente sur les principaux acteurs du domaine tudi, leurs
collaborations, leurs thmatiques et comptences, leur volution etc.
Le but de nos travaux est de dtecter les diffrentes relations caractrisant lenvironnement dun domaine
dactivit donn. Il faut donc d'abord comprendre les mcanismes de formation et d'volution de ces
rseaux. La connaissance tout instant de lenvironnement dune entreprise et lanalyse de sa dynamique
devrait aussi permettre lentreprise dadapter sa stratgie de manire contrler sa position dans le rseau
[Gay, 2006].
Le modle danalyse exploratoire multidimensionnelle propos sappuie sur deux principaux modles :

Le modle de reprsentation multidimensionnelle des documents

Le modle de calcul dindicateurs

LE MODELE DE REPRESENTATION
REPRESENTATION MULTIDIMENSIONNELLE
MULTIDIMENSIONNELLE DES DOCUMENTS
Lobjectif de ce modle est d'obtenir, en final, une vue globale ou fdratrice des documents collectes qui
sera utilise tout au long du processus danalyse. Cette vue doit rpondre trois objectifs et doivent
correspondre :

une vue homogne, partage par les diffrentes donnes quelles que soient leurs sources,

une vue globale et rduite des informations. Pour faciliter et acclrer les traitements d'analyse, il
est prfrable de ne pas garder toute l'information mais simplement l'information utile. Ainsi
l'information brute doit subir des traitements de type filtrage et rduction avant d'tre stocke en
vue de son analyse ultrieure.

une vue unique dans toutes les tapes du processus pour faciliter les interactions entre les diffrents
traitements. Cette vue doit donc correspondre aux entres et aux sorties des diffrents tapes.

Nous avons choisi de dfinir deux modles de reprsentation des documents :

le modle deux dimensions bas sur des matrices de cooccurrence (voir section 2.5.4) et
prsence/absence (voir section 2.5.3). C'est en effet des formes basiques de reprsentation de
connaissances deux dimensions.

Le modle trois dimensions bas sur des matrices tendues qui nous permettent de reprsenter des
connaissances cubiques ( trois dimensions), la troisime dimension correspond le plus souvent au
temps.
LE MODELE DE CALCUL D INDICATEURS
partir de la reprsentation multidimensionnelle des documents, nous avons dfinis des fonctions de
manipulation et dagrgation qui permettent dexplorer les liens inter et intra documents. Par la
combinaison de ces fonctions lmentaires, nous pouvons construire des indicateurs uni-varis et
relationnels.

Conclusion et perspectives 193


La validation de cette proposition sappuie sur limplmentation de ce modle et une exprimentation
effectue via le prototype Xplor.
LE PROTOTYPE XPLOR
Mon quipe daccueil lInstitut de Recherche en Informatique de Toulouse a dvelopp une plate-forme
de veille stratgique Ttralogie , qui permet de gnrer, en utilisant des outils de structuration et
dhomognisation, toutes sortes de donnes relationnelles sous forme de matrices de croisement ou de
cubes. Ces structures sont en suite analyses via de nombreuses mthodes faisant intervenir la statistique,
lanalyse de donnes, les classifications, les graphes, les cartes gostratgiques, afin de produire des
synthses sur des sujets scientifique, techniques ou conomiques partir de toutes sources dinformation
lectronique.
Par la suite, le portail Xplor est venu complter loffre doutils ddis lIE par la possibilit de grer et
dexploiter, en ligne, ces donnes grce une navigation interactive en vue den extraire, plus prcisment,
les composantes stratgiques et de dtecter des mergences et de gnrer des indicateurs utiles la dcision.
Le travail de ma thse a t de finaliser ce projet en proposant deux sortes de modles informationnels, lun
bas sur lexploitation directe des cubes de donnes croisant deux variables et le temps, et un autre
recrant, de faon standardise et gnrique, toutes les units textuelles analyses avec prises en compte de
toutes leurs dimensions en sappuyant sur une granularit et une homognit favorisant leur analyse dans
un but stratgique et daide la dcision. Nous pouvons ainsi, dans un seul entrept, reprsenter de faon
simplifie mais particulirement bien adapte aux analyses en ligne, toutes collection de document quelque
soit sa provenance, son htrognit et son indexation initiale.
Lavantage de cette approche est de pouvoir mixer un ensemble de sources htrognes et den tirer le
meilleur parti au plan stratgique, sans tre chaque fois confront lexploitation dun format nouveau
ralisant le meilleur compromis possible. Cette dmarche de standardisation doit aboutir, terme, un
portail ddi la mise en ligne de structures informationnelles mise rgulirement jour et traitant de
sujets dactualit via lensemble des donnes textuelles qui y rfrent. Les outils de fouille tant communs
tous les corpus disponibles.
Paralllement mon travail de recherche, il ma t confi lencadrement de bureaux dtude pour des
tudiants de master. Dans ce cadre jai pu tester la ractivit de cette approche vis vis de la mise en ligne
de corpus importants traitant de sujet divers choisis par les tudiants.
Afin de diversifier les sources dinformation que permet de traiter notre plate-forme Ttralogie ddie
la veille stratgique, nous avons propos une adaptation au traitement de la langue chinoise en nous basant
sur son codage en UTF8. Il est alors possible de travailler sur des segments de texte reprs dans les
diffrents dictionnaires disponibles ou que nous pouvons tablir par le traitement de bases dinformation
semi structures et balises par des champs smantiques : auteurs, mots-cls, organismes, etc. Nous nous
intressons au chinois en raison de labondance des crits, aussi bien scientifiques que techniques, qui sont
mis progressivement en ligne sur des sites web publics (CNKI, Baidu, etc.) ou privs (CQVIP, etc.). Ces
crits reprsentent une part non ngligeable de la production mondiale et, pour la Chine, ils sont
majoritaires. Se priver des cette littrature nous fait courir le risque de passer ct dinnovations majeures
dans de trs grands domaines comme par exemple les biotechnologies. La chine vient, par exemple, de
mettre au point un vaccin innovant contre le virus de la grippe H1 N1, qui semble avoir une longueur
davance sur les vaccins achets par les pays occidentaux. Idem en agronomie avec un travail trs abouti sur
les crales hybrides ou laquaculture.
Dans le cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons
expriment le prototype Xplor sur une analyse stratgique de donnes chinoises, portant sur le secteur des
biotechnologies agricoles en chine.
Le Tableau 22 reprsente une valuation du prototype Xplor selon les critres dvaluation des outils dIE
prsents dans la section 1.6 du premier chapitre de ce manuscrit.

Conclusion et perspectives 194

Critres dvaluation
Expression du besoin
Une interface de gestion des droits daccs des utilisateurs
Une interface pour introduire et grer les orientations thmatiques des axes de recherches

Une interface de gestion des besoins informationnels lis une tude


Une interface dchange et de partage de donnes
Collecte dinformation publie
Les donnes internes de lentreprise : bases de donnes, documents de Microsoft Office,
rapports, emails, etc.
Les sources externes issues du web : pages web, sites internet, bases de donnes.
Dfinir un profil utilisateur pour la recherche dinformation (requtes, thmes, dates, etc.)
Surveiller les flux RSS
Une interface de requtes prdfinies
Stockage des donnes
Filtrage automatique des donnes collectes selon les critres de lutilisateur : concurrents,
source, dates, acteurs
Evaluation et validation des donnes collectes
Commentaires et annotation des donnes collectes
Classification et regroupement automatique des donnes collectes selon les critres de
lutilisateur

Prototype Xplor
oui
non
non
oui
oui
oui
non
non
oui
oui
oui
oui
non
oui

Collecte dinformation primaire


Recherche et collecte des donnes partir de groupe de nouvelles et des forums
Une interface pour saisir les informations informelles : entrevues, rapport, expertise, etc.

oui
non

Traitement et analyse
Trier les donnes selon des rgles dfinies par lutilisateur
Interface pour la visualisation de donnes collectes
Visualisation des modles : matrice SWOT, les cinq forces de Porter, etc.
Affichage des donnes dans un ordre chronologique
Extraction des relations existantes entre les diffrents acteurs, dates, lieu et autres
corrlations importantes
Les mthodes de Fouilles de donnes textuelles pour extraire et analyser les variables
slectionnes par lutilisateur
La capacit de rapporter les donnes qualitatives aux quantitatives
Visualisation des rsultats danalyse sous diffrents forme graphique

oui
oui
non
oui
oui
oui
oui
oui

Diffusion
Prise en compte dune charte graphique ou de normes de prsentation des rapports,
Exporter les rsultats sous Microsoft Office ou quivalent
Diffusion des rapports par mail, imprim, etc.

oui
oui
oui

Tableau 22 : Evaluation du prototype Xplor.

Perspectives
Il reste encore deux points importants traiter : un, la scurisation du systme aussi bien pour laccs aux
donnes primaires (les cubes ou les documents simplifis) que pour les rsultats des traitements oprs en
ligne (tops, tableaux dynamiques, graphiques, indicateurs, cartes, graphes, etc.) et deux, la possibilit de se
connecter ce portail via la tlphonie mobile qui est bien plus nomade que lordinateur portable et
certainement plus facilement scurisable quun wifi dhtel ou daroport.

Conclusion et perspectives 195


Enfin, nous avons pu aborder le traitement des langues non occidentales comme le chinois, le coren, le
japonais, larabe, nous avons pu montrer la faisabilit, mais il reste un travail important faire sur ces
langues notamment au niveau smantique (indexation, dtection des mergences smantiques, traitement
des noms, traduction amliore vers les autres langues).
Voici deux autres exemples de sources dont lanalyse peut tre mene par une mthode analogue celle
suivie pour le chinois [Dousset, 2009]. LUNICODE UTF-8 peut tre extrait depuis le code source des
pages html. Pour Al Jazeera, loriginalit est de pouvoir analyser les ractions des internautes aux articles
via le blog. Pour la base en coren, nous voyons que la plage des caractres rserve cette langue est
diffrente, mais le principe danalyse reste le mme. A chaque fois, la difficult est de trouver un balisage
suffisant permettant de catgoriser au mieux les informations avant analyse (acteurs, smantique, dates,
etc.). Des dictionnaires de mots-cls et dexpressions sont aussi trs utiles pour traiter le texte libre et y
dtecter linnovation.

Idogramme dun terme coren et


code UTF-8 correspondant

Figure 91 : site www.e-koreanstudies.com

Figure 92 : le site dAljazeera.net

Liste des Figures


Figure 1 : Organisation du mmoire. .............................................................................................................. 23
Chapitre 1.
Figure 2: Coordination des concepts lis lIE. ................................................................................................ 31
Figure 3: Le modle SWOT [Learned, 1965]. ................................................................................................ 34
Figure 4: Le Modle PORTER. ...................................................................................................................... 35
Figure 5: Le modle IDC. ............................................................................................................................... 36
Figure 6: Cycle du renseignement. ................................................................................................................... 38
Figure 7: Types de Veille. ................................................................................................................................ 39
Figure 8: Reprsentation systmique dune organisation [Mlse, 1972]........................................................... 43
Figure 9: Systme dinformation support au cycle du renseignement. ................................................................ 45
Figure 10 : Cycle dIE propos......................................................................................................................... 46
Figure 11: Typologie des niveaux dinformation. ............................................................................................. 49
Figure 12: Les acteurs de la dmarche dIE. .................................................................................................... 52
Figure 13: Passage dune structure fonctionnelle hirarchique vers une infrastructure globale dinformation. ... 56
Figure 14: Les diffrentes techniques du Buisines Intelligence. ......................................................................... 58
Chapitre 2.
Figure 15: Processus dECBD. ........................................................................................................................ 70
Figure 16: Architecture type dun systme dECBD [Han, 2000]. ................................................................... 71
Figure 17: Etapes de lECT et ses applications. ................................................................................................ 76
Figure 18 : Vues dun document lectronique. ................................................................................................. 77
Figure 19: Mtadonnes dans un document HTML........................................................................................ 80
Figure 20: Mtadonnes dans un document XML. .......................................................................................... 80
Figure 21: Exemple de notice bibliographique INSPEC. ................................................................................. 80
Figure 22: Descripteurs de format gnrique. .................................................................................................. 82
Figure 23 : Types de variables. ........................................................................................................................ 83
Figure 24 : Types de matrices. ......................................................................................................................... 86
Figure 25 : Classification des matrices. ............................................................................................................ 86
Figure 26 : Exemple de Matrice Prsence-Absence. .......................................................................................... 87
Figure 27 : Exemple de Matrice de Cooccurrence Simple................................................................................. 88
Figure 28 : Exemple de Matrice de Cooccurrence Simple Symtrique. ............................................................. 89
Figure 29 : Exemple de Matrice de Contingence. ............................................................................................ 89
Figure 30 : Exemple de Matrice de Cooccurrence Multiple. ............................................................................. 90
Figure 31 : Fonctions et techniques dexploration. ........................................................................................... 91
Figure 32: Les diffrentes sorties de la plateforme Ttralogie. ........................................................................... 97
Chapitre 3.
Figure 33: Couplage du processus de veille et de lECT. .................................................................................101
Figure 34 : Identification des cibles. ..............................................................................................................103
Figure 35: Hirarchie de concepts associes la spcification des besoins. .........................................................108
Figure 36: Exemple de la hirarchie de concepts associes au sujet Nanotechnologie. ........................................109
Figure 37 : Le fonctionnement gnral de lactivit planification . ............................................................110
Figure 38 : Procdure de lactivit Recherche et Collecte de documents. ........................................................112
Figure 39 : Le fonctionnement gnral de lactivit Recherche et collecte dinformation . ...........................114
Figure 40 : Dmarche dhomognisation des documents. ..............................................................................115
Figure 41: Processus informationnel ..............................................................................................................116
Figure 42: Traces de connexion. ....................................................................................................................117
Figure 43 : Exemple de rgle dextraction. .....................................................................................................117
Figure 44 : Le fonctionnement gnral de lactivit Homognisation et/ou structuration des documents. ...121
Figure 45 : Entrept de donnes. ...................................................................................................................122

Figure 46 : Classification des matrices. ..........................................................................................................122


Figure 47 : Relation de dpendance deux dimensions. ................................................................................123
Figure 48 : Relation de dpendance trois dimensions. .................................................................................123
Figure 49 : Le fonctionnement gnral de lactivit Reprsentation multidimensionnelle des documents . ...124
Figure 50 : Le fonctionnement gnral de lactivit Calcul des indicateurs et analyse. ................................126
Figure 51 : Modle de document contenu dans le corpus structur. ................................................................128
Figure 52 : Exemple de dpendance deux dimensions intra document. ........................................................132
Figure 53 : Tableau a deux dimensions.........................................................................................................133
Figure 54 : Exemple de relations NDoc-Chp. ..............................................................................................133
Figure 55 : Tableau deux dimensions du CorpusGlobal .............................................................................134
Figure 56 : Exemple de dpendance intra document trois dimensions et llment temporel. ........................135
Figure 57 : Cube de donnes. ........................................................................................................................135
Figure 58 : Matrice symtrique. ....................................................................................................................136
Figure 59 : Matrice asymtrique ...................................................................................................................136
Figure 60 : exemple de relations deux dimensions. ......................................................................................138
Figure 61 : Matrice du Corpusglobal ................................................................................................................138
Figure 62 : Exemple de restriction. ................................................................................................................140
Figure 63 : modle utilisateur. ......................................................................................................................146
Figure 64 : Modle profil utilisateur. ............................................................................................................147
Figure 65 : Modle historiques des interactions..............................................................................................148
Figure 66 : processus dapprentissage. ............................................................................................................150
Chapitre 4.
Figure 67 : Carte factorielle en 4D dune AFC Thmatique Auteurs..........................................................156
Figure 68: Exemple de matrice de cooccurrence Auteur-Auteur. ....................................................................158
Figure 69 : Liens bases - utilisateur. ..............................................................................................................162
Figure 70 : Modle de donnes. .....................................................................................................................162
Figure 71 : Les rsultats Ttralogie de la fonction Matrice de cooccurrence trois dimensions....................163
Figure 72 : Nouvelle structure des rsultats de la fonction Matrice de cooccurrence trois dimensions. ......164
Figure 73 : architecture dimplantation. .......................................................................................................166
Figure 74 : Page daccueil du prototype XPLOR............................................................................................167
Figure 75 : Concepts IE et Veille. ..................................................................................................................168
Figure 76 : Fonction de tlchargement de lanalyse issue de Ttralogie. .........................................................170
Figure 77 : Diffusion de lanalyse gnrale. ...................................................................................................170
Figure 78 : Indicateurs de la base de donnes. ...............................................................................................172
Figure 79: Indicateurs des X=10, 20, 30 meilleurs champ= auteurs et son volution. ....................................173
Figure 80 : Les fonctions de visualisation. .....................................................................................................176
Figure 81 : Descriptif des attributs. ...............................................................................................................177
Figure 82 : Correspondance caractre chinois- UNICODE. ..........................................................................178
Figure 83 : Identification et extraction de linformation utile. .......................................................................179
Figure 84 : Descripteur de format spcifique. ................................................................................................180
Figure 85 : Interface de la plateforme Ttralogie. ..........................................................................................181
Figure 86 : Interface de la fonction Xplor-Items et champs. ...........................................................................182
Figure 87 : Extrait des fichiers Attribut et Valeur ...............................................................................182
Figure 88 : Correspendance de lUNICODE des valeurs- Chinois-Franais. .................................................182
Figure 89 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs). ................................185
Figure 90 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs). ................................185
Figure 91 : site www.e-koreanstudies.com .....................................................................................................195
Figure 92 : le site dAljazeera.net ..................................................................................................................195

Liste des Tables


Chapitre 1.
Tableau 1: Les Fonctions associes la notion dIE. ........................................................................................ 31
Tableau 2: Une typologie de la veille [Bulinge, 2001]..................................................................................... 41
Tableau 3 : Analyse de lenvironnement. ......................................................................................................... 47
Tableau 4 : Matrice SWOT. .......................................................................................................................... 48
Tableau 5: Sources dinformation formelles. .................................................................................................... 50
Tableau 6: chelle dvaluation. ..................................................................................................................... 60
Tableau 7: Comparatif des outils de lIE 2008-2009...................................................................................... 61
Tableau 8: Historique des principaux axes de lIE. .......................................................................................... 62
Chapitre 2.
Tableau 9: Elments du Dublin Core. ............................................................................................................ 79
Chapitre 3.
Tableau 10 : Exemple dindicateurs relationnels. ..........................................................................................104
Tableau 11 : Exemple dindicateurs relationnels de tendance. .......................................................................104
Tableau 12 : Exemple dindicateurs uni-varis. ............................................................................................105
Tableau 13 : Les questions 5W-1H...............................................................................................................106
Tableau 14 : Les produits de lactivit planification. .....................................................................................106
Tableau 15 : Structure du contenu de la collection traces de connexion . ...................................................117
Tableau 16 : Matrices utiles du tableau de Burt. ..........................................................................................129
Tableau 17 : Impact des mesures en fonction des matrices. ............................................................................131
Tableau 18 : Exemple de combinaison de fonctions pour le calcul dindicateurs. ............................................143
Chapitre 4.
Tableau 19 : Les relations des attributs cibls. ...............................................................................................176
Tableau 20 : Les champs du descripteur de format spcifique. .......................................................................179
Tableau 21 : Synthse des indicateurs calculer. ...........................................................................................184
Tableau 22 : Evaluation du prototype Xplor. ................................................................................................194

Cette thse a donn lieu la publication de 20 articles dont :

2 articles de revue internationale


GHALAMALLAH I., LOUBIER E., DOUSSET B. , Business intelligence_a proposal for a tool
dedicated to the analysis relational. SciWatch Journal, hexalog, Barcelona - Spain, Vol. 3, (en ligne), 2008.

1 article de revue nationale


GHALAMALLAH I., GRIMEH A., DOUSSET B. , Processing data stream by relational analysis. Data
mining, statistique et analyse de donnes, INRIA, MODULAD, Vol. 36, (en ligne), juillet 2007.

3 articles de confrences et workshops internationaux


GHALAMALLAH I., LOUBIER E., DOUSSET B.,
B. Competitive Intelligence: Approaches and proposal
of a tool specific to relational analysis. Colloque europen d'intelligence conomique, Lisbonne,
27/03/2008-28/03/2008, support lectronique, 2008.
GUENEC N., LOUBIER E., GHALAMALLAH I., DOUSSET B.,
B. Management and analysis of
chinese database extracted knowledge. BCS IRSG Symposium: Future Directions in Information Access,
Londres, 22/01/2008, British Computer Society, (support lectronique), 2008.
GHALAMALLAH I., GRIMEH A., DOUSSET B. , Processing data stream by relational analysis. European
workshop on data stream analysis, Herms, p. 67-70, (en ligne), France, 2007.

8 articles de confrences et workshops nationaux


GHALAMALLAH I., DOUSSET B. , Modle danalyse multidimensionnelle ddie lIntelligence
Economique. Colloque Veille Stratgique Scientifique et Technologique (VSST 2009), Nancy,
30/03/2009-31/03/2009, IRIT, support lectronique, mars 2009.
GHALAMALLAH I., DOUSSET B. , Lintelligence conomique par lanalyse relationnelle : modlisation
de la pr-connaissance. Confrence internationale Systmes d'Information d'Intelligence Economique (SIIE
2008), Hammamet, 14/02/2008-16/02/2008, 2008.
GHALAMALLAH I., X-plor : le portail pour la diffusion de linformation stratgique sous forme
relationnelle. Colloque Veille Stratgique Scientifique et Technologique (VSST 2007), marrakech,
21/10/2007-25/10/2007, IRIT, (support lectronique), 2007.
GHALAMALLAH I., DOUSSET B. , Prconisation des bonnes pratiques en Intelligence Territoriale:
application une agglomration de taille moyenne. Colloque Veille Stratgique Scientifique et
Technologique (VSST 2007), Marrakech, 21/10/2007-25/10/2007, IRIT, (support lectronique), 2007.
GHALAMALLAH I., Lanalyse relationnelle en ligne au service de lintelligence conomique. Colloque
Veille Stratgique Scientifique et Technologique (VSST 2007), Marrakech, 21/10/2007-25/10/2007, IRIT,
(support lectronique), 2007.
GHALAMALLAH I., Extraction des connaissances par lanalyse relationnelle volutive. Congrs
Informatique des Organisations et Systmes d'Information et de Dcision (INFORSID 2007), PerrosGuirec, 22/05/2007-25/05/2007, Vol. 1, Herms, p. 53-68, 2007.
GHALAMALLAH I., Le passage oblig entre information et connaissance par les pr-connaissances.
Rencontres Inter-Associations (RIA'S 2007), Toulouse, 12/03/2007-13/03/2007, IRIT, (en ligne), 2007.

GHALAMALLAH I., GRIMEH A., DOUSSET B. , Les pr-connaissances: un passage oblig entre
information et connaissance. Journes Francophones Extraction et Gestion de Connaissances (EGC 2007),
Namur, Belgique, 23/01/2007-26/01/2007, Cpadus Editions, p. 43-54, 2007.

6 articles de confrence sans actes publis


GHALAMALLAH I., Les outils danalyses ddis lintelligence conomique. 2me Assises de
lIntelligence Economique, Alger, Novembre, 2008.
GHALAMALLAH I., LOUBIER E., DOUSSET B., Proposition doutils danalyse ddis lIntelligence
Economique : de la collecte au traitement de linformation. Journes Nationales du GDR en Intelligence
Economique CNRS, LORIA, Nancy, juin, 2008.
GUENEC N., GHALAMALLAH I., LOUBIER E., Traitement des BDDs chinoises par des outils
danalyses ddis la veille stratgique et lintelligence conomique. Journes Nationales du GDR en
Intelligence Economique CNRS, LORIA, Nancy, juin, 2008.
DOUSSET B. , GHALAMALLAH I., La culture et lintelligence conomique. Confrence dans le cadre
du lancement du portail MidiVeille (Toulouse), janvier, 2008.
GHALAMALLAH I., DOUSSET B., Prconisations des bonnes pratiques en Intelligence Economique :
application au Grand Tarbes. Projet avec la CCI de Tarbes, juin, 2007.
DOUSSET B. , GHALAMALLAH I., Inventaire de la recherche en France sur lintelligence conomique.
Journes Nationales du GDR en Intelligence Economique CNRS, Universit Paul Czanne, AixMarseille III, Marseille, dcembre, 2007.

Bibliographie

A
[AFNOR, 1998]
[Agrawal, 1993]
[Agrawal, 1994]
[Agrawal, 1995]

[Alabdulsalam, 2006]

[Ankerst, 2008]
[Ansoff, 1975]
[Ansoff, 1990]

[Anton, 1987]
[Arpagian, 2004]

Association Franaise de Normalisation.


Normalisation Prestations de veille et prestations de mise en place
dun systme de veille. Norme XP X 50-053, Norme exprimentale, AFNOR, Paris, 1998.
Agrawel R., Imielinski T., Swam A., Database mining: a performance in perspective. IEEE
transactions on knowledge and data engineering. Vol.5, N.6, pp 914-925, 1993.
Agrawal R., Srikant
Srikant R., Fast algorithms for mining association rules in large databases. 20th
Intl Conference on Very Large Databases, pp 478499, Santiago, Chile, 1994.
Agrawal R., Srikant R., Mining sequential patterns. In Philip S. Yu and Arbee L. P. Chen,
editors, Proceedings of the Eleventh International Conference on Data Engineering, IEEE
Computer Society, Taipei, Taiwan, pages 314. 1995.
Alabdulsalam M., Paturel R., Outil permettant aux pme/pmi laccs a la dmarche
dintelligence conomique. XVme Confrence Internationale de Management Stratgique
CIMS, Suisse, 2006
Ankerst M., Visual Data Mining. Thse de doctorat en Informatique de lUniversit LudwigMaximilians, Mnchen, 2000.
Ansoff, H.I., Managing strategic Surprise by Response to Weak Signals. Management
Review, V.XVIII, n2, page(s) 21-33, Etats Unis, 1975.
Ansoff H.I., Eppink J., Gomer H., Management of strategic surprise and discontinuity:
problem of managerial decisiveness. Sciences de Gestion, cahiers de l'I.S.M.E.A, srie SG, n1,
pp. 459-489, 1990.
Anton J.P., Contribution au dveloppement des systmes rideotext multimdia. Thse de
doctorat de l'universit Paul Sabatier, Toulouse III, France, 1987.
Arpagian N., Tavoillot P.A., Un moteur defficacit pour les entreprises. DSI, vol.10, 2004.

B
[Baumard, 1991]
[Bachimont, 2000]

[BaezaYates, 1999]
[Bai, 2006]

[Barbut, 1970]
[Baud, 2002]
[Bellot, 2004]
[Benali, 1989]

Baumard P., Stratgie et surveillance des environnements concurrentiels.. Masson Editions,


1991.
Bachimont
ont B., Engagement smantique et engagement ontologique : conception et
Bachim
ralisation dontologies en ingnierie des connaissances. Ingnierie des connaissances. Jean
Charlet, INRIA, 2000.
BaezaYates R., RibeiroRibeiro -Neto B., Modern information retrieval. Addison Wesley, ISBN 0201-39829-X, 1999.
Bai Y., LIntelligence Comptitive [IC] dans le cadre de la mondialisation influence des soft
technologies sur la mthodologie de lIntelligence Comptitive. Thse de doctorat de
luniversit Paul Cezanne, Aix-Marseille III, 2006.
Barbut M., Monjardet B., Ordre et Classification : Algbre et Combinatoire. Volume I &
II. Classique Hachette, Paris, 1970.
Baud J., Encyclopedie du renseignement et des services secrets.. Lavauzelle Edition, 2002.
Bellot P., Classification de documents et enrichissement de requtes. Mthodes avances pour
les systmes de recherche d'informations. Editions Hermes, Volume 2, 2004.
Benali H., Escofier B., Smooth factorial analysis and factorial analysis of local differences.

Multiway data analysis Coppi R. and Bolasco ed. [North-Holland]. pp 327-339, 1989.
[BenAmmar, 1999]

[Benzecri, 1973]

Ben Ammar A., Dousset B.


B Les mtriques et l'analyse relationnelle : Visualisation en quatre
dimensions. 7me Confrence sur les systmes d'information labore : Bibliomtrie Informatique stratgique - Veille technologique. Ile Rousse, 1999.
Benford S., Snowdon D., Greenhalgh C., Knox I., Brown C., VR-VIBE A Virtual
Environment for Co-operative Information Retrieval , EUROGRAPHICS '95, Eurographics
Association, Frits Post & Martin Gobel (Guest Editors), pp 349-360, 1995.
Benzecri J.P., L'analyse de donnes. Tome 1 et 2, Dunod Edition, 1973.

[Benzecri, 1992]

Benzecri J.P., Correspondence analysis handbook, Marcel Dekker Ed., New York 1992.

[Besson, 1996]

Besson B., Possin J.C., Du Renseignement l'Intelligence Economique. Dunod, Paris,


1996.
Besson B., Ponsin J.C., Laudit de lintelligence conomique. Mettre en place et optimiser
un dispositif coordonn dintelligence collective. ditions Dunod, Paris, 1998.
Bisson C., Application de mthodes et mise en place d'outils d'intelligence comptitive au
sein dune pme high tech. Thse de doctorat de luniversit de droit, dconomie et des
sciences dAix Marseille, 2003.
Bloch A., Intelligence Economique. Economica, Paris, 1996.
Bouaka N., Dveloppement dun modle pour lexplication dun problme dcisionnel : un
outil daide la dcision dans un contexte dIntelligence Economique. Thse de doctorat de
luniversit Nancy 2, 2004.
Boughanem M., Formalisation et specification de systemes de rechrche et de filtrage
d'information. Mmoire d'habilitation diriger des recherches, universit Paul Sabatier,
Toulouse III, 2000.
Soul-- Dupuy C., Tamine L. Connectionist
Boughanem M., Chrisment C., Mothe J., Soul
and genetic approaches to perform IR. F. Crestani and G. Pasi editors. Soft computing in
information retrieval: techniques and applications. Physica, Verlag, p. 173-198, Heidelberg,
2000.
Boughanem M., Dousset B. Relation entre le push adaptatif et l'optimisation des
abonnements dans les centres de documentation. Veille stratgique, scientifique et
technologique : VSST'01, p. 239-252, Tome 1, Barcelone, 2001.
Bournois F., Romani P.J, Lintelligence conomique, stratgique dans les entreprises
franaises. IHEDN, ditions conomica, Paris, 2000.
Bouroche J.M., Saporta G., Lanalyse des donnes, 1989.
Boutin E., Le traitement dune information massive par lanalyse rseau : mthode, outils et
applications. Thse en sciences de linformation et de la communication, Aix-Marseille,
(France),1999.
Bradford S.C, Sources of information on specific subjects.. Enginering, pp. 85-86, 1934.

[Benford, 1995]

[Besson, 1998]
[Bisson, 2003]

[Bloch, 1996]
[Bouaka, 2004]

[Boughanem, 1990]

[Boughanem, 2000]

[Boughanem, 2001]

[Bournois, 2000]
[Bouroche, 1989]
[Boutin, 1999]

[Bradfod, 1934]
[Breiman, 1984]
[Bright, 1970]
[Buigues, 1985]
[Bulinge, 2002]

Breiman, L., Freidman, J. H., Olshen, R. A., Stone, C. J., Classification and Regression
Trees. Wadsworth, 1984.
Bright J.R., Evaluating signals of technological change. Harvard Business Review, pp 62-70,
1970.
Buigues PA., Prospectives et comptitivit. McGraw-Hill, 1985.
Bulinge F.,
F. Pour une culture de linformation dans les petites et moyennes organisations : un
modle incrmental dintelligence conomique. Thse de Doctorat, Universit du Sud,
Toulon, 2002.

C
[Castellani, 2008]

[Chandler, 1962]
[Cherfi, 2004]
[Chowdhury, 2004]

Castellani U., GayGay-Bellile V., Bartoli A., Robust deformation capture from temporal range
data for surface rendering. Journal of Visualization and Computer Animation (JVCA), vol.
19, p. 591-603, 2008.
Chandler A.D., Strategy and Structure: Chapters in the History of American Industrial
Enterprise. MIT Press, USA, 1962.
Cherfi H., Etude et ralisation dun systme dextraction de connaissances partir de textes.
Thse de doctorat de luniversit Henri Poincar, Nancy 1, 2004.
Chowdhury G., Introduction to modern information retrieval. 2nd edition, Facet

Publishing, ISBN 1856044807, 2004.


[Chrisement, 1997]

[Chrisment, 2000]
[Church, 1990]
[Cigref, 2004]
[Clerc, 1997]

[Colas, 2004]
[Colletis, 2007]
[Colliat, 1996]
[Conesa, 2003]
[Croft, 1977]
[Crozier, 1989]
D
[Davenport, 1998]

Chrisment C., Dkaki T., Dousset B., Mothe J., Extraction et synthse de connaissances
partir de donnes htrognes. Ingnierie des Systmes d'Information, Herms Science
Publications, Vol. 5, N. 3, p. 367-400, 1997.
Chrisment C., Lemaitre J., Sdes F., Bases de donnes documentaires. Techniques de
l'ingenieur, Trait informatique H7248, 2000.
Church W. K., Hanks P.,
P. Word association norms, mutual information, and lexicography.
Computational Linguistics, volume 16, pages 2229, 1990.
Club Informatique des Gran
Grandes
des Entreprises Franaises,
Franaises Intelligence conomique et
stratgique. Rapport Cigref, 2004.
Clerc P., IE : enjeux et perspectives. Rapport mondial sur linformation, chapitre 22,
Accessible sur http://www.unesco.org.webworld/wirerpt, 2007,
Colas F., Introduction au renseignement extrieur.. Lesprit du livre Editions, 2004.
Colletis G., Intelligence conomique : vers un nouveau concept en analyse conomique ?.
Cahier du GRES, N.3, France, 2007.
Colliat C., OLAP, Relational, and multidimensional database system. ACM SIGMOD
Record, ACM Press, vol. 25, p. 6469, 1996.
Conesa P., Entreprises et intelligence conomique Quelle place pour la puissance publique.
Rapport du G.D.S N1, France, 2003.
Croft W.B., Clustering large files of documents using the single link method. Journal of the
American Society for Information Science. N. 28, p. 341-344, 1977.
Crozier M., L'Entreprise l'coute, Paris, Inter Editions, 1989.

Davenport, T.H., Putting the enterprise into the enterprise system. Harvard Business
Review, 1998...
[Davey, 1994]
Davey B.A., Priestley H.A., Introduction to Lattices and Order. Cambridge University
Press, 4th Edition, 1994.
[David, 2002]
David A., Thiery O., Application of EQuA2te Architecture. Economic Intelligence, 2002.
[Denjean, 1989]
Denjean P., Interrogation d'un systme Videotext arborescent : l'indexation automatique des
textes. Thse de doctorat de l'universit Paul Sabatier, Toulouse III, 1989.
[DeVasconcelos, 1999] de Vasconcelos C., L'intelligence conomique et la stratgie de dveloppement de la PME,
Thse pour le doctorat en Sciences de. Gestion, Grenoble, 1999.
[Dkaki, 1991]
Dkaki T., Dousset B., Koussoube
Koussoube S., Les apports de la reprsentation de la quatrime
dimension en analyse de donnes multidimensionnelles. Journes d'tudes sur les systmes
d'informations labores : Bibliomtrie - Informatique stratgique - Veille technologique. p
98-105, 1991.
[Dkaki, 1993]
Dkaki T., Outils informatiques et mthodes automatiques pour la veille technologique.
Thse de doctorat de luniversit Paul Sabatier, Toulouse III, 1993.
[Dkaki, 1995]
Dkaki T., Dousset B., Ttralogie: A new method for Competitive Intelligence. International
Conference on Industrial Engineering and Management (IEPM'95), Marrakech, 1995.
[Dkaki, 1996]
Dkaki T., Mothe J., Dousset B., Chrisment C., Extraction et synthse de connaissances
partir de bases de donnes htrognes. INFORSID96, pp. 287-308, Bordeaux, France, juin
1996.
[Dkaki, 1997]
Dkaki T., Dousset B., Mothe J., Recherche de l'information stratgique dans les bases de
donnes : veille scientifique et technique. 15me congrs INFORSID, INFORSID'97, p 673690, 1997.
[Dkaki, 1998]
Dkaki T., Dousset B., Mothe J., Analyse d'informations issues du Web avec Ttralogie.
Veille stratgique, scientifique et technologique : VSST'98, pp 159-170, Toulouse, France,
1998.
[Dkaki, 2000]
Dkaki T., Dousset B., Egret D., Mothe J., Information discovery from semi-structured
sources - Application to astronomical literature. Computer Physics Communication, 2000.
[Dobrowolski, 1964]
Dobrowolski Z., Etude sur la construction des systmes de classification. Prface d'Eric de
Grolier, Paris : Gauthier-Villars, 1964.
[Dou, 1994]
Dou H., Paoli C., Haon H., Dou J.M., Analyse des rfrences bibliographiques Japonaises
sans
traduction
pralable.
Prsent

Londres,
1994.
Source :

[Dou, 1995]
[Dou, 2004]

[Dousset , 1995]

[Dousset, 1987]
[Dousset, 1988]

[Dousset, 1989]

[Dousset, 1991]

[Dousset, 1993]

[Dousset, 1995]

[Dousset, 1998]
[Dousset, 2002]
[Dousset, 2003]

[Dousset, 2005]

[Dousset, 2006]

[Dousset, 2007]
[Dousset, 2009]
[Dublin Core, 2007]
[Dunning 1993]
[Dupr, 1997]

http://s244543015.onlinehome.fr/ciworldwide/wpcontent/uploads/2009/01/analyse_ref_japon-sans_traduc_prealable.pdf
Dou H., La veille technologique et comptitivit. Edition, Dunod, Paris, 1995.
Dou H., Benchmarking R&D and companies through patent analysis using free databases
and special software: a tool to improve innovative thinking. World Patent Information
Journal, n26, pp. 297309, 2004.
Dousset B., Rommens M., Sibu D., Application du logiciel de veille technologique
Ttralogie aux huiles de poissons. Symposium International, Omega-3, Lipoprotines et
athrosclrose, 1995.
Dousset B., Utilisation de systmes experts dans la gestion et la consultation bibliographique.
Publication dans les actes du colloque IA/Sant de Toulouse, pp 167-172, 1987.
Dousset B., Benjamaa T. Trilogie logiciel d'analyse de donnes. Journes d'tudes sur les
systmes d'informations labores : Bibliomtrie - Informatique stratgique Veille
technologique. Ile Rousse, 1988.
Dousset B., Cambus J.P., Bigaut Ph.,
Ph., Ralisation dune chane entirement automatise
dtude de la fibrinoformation et de la fibrinolyse. Journes dinformatique mdicale de
Toulouse, pp. 104-113, Toulouse, France, 1989.
Dousset B., Koussoub S., Gnestal M., Un systme expert daide la conduite et la
surveillance en ranimation. 11imes journes internationales sur les systmes experts et leurs
applications, vol 3, pp 151-160, Avignon, France, 1991.
Dousset B., Dkaki T.,
T. , Longevialle C., Qualit de linformation et analyse des donnes.
5imes journes d'tudes sur les systmes d'informations labores : Bibliomtrie Informatique stratgique - Veille technologique, Ile Rousse Corse France, 1993.
Dousset B., Rommens M., Sibue D., Application du logiciel de veille technologique
Ttralogie aux huiles de poissons. Symposium International, Omega-3, Lipoprotines et
athrosclrose, 1995.
Dousset B., Kanoun S.,
S. Optimisation du choix de la terminologie pour la reformulation de
requtes : cas des multi-termes. VSST'98, p. 107-119, 1998.
Dousset B., Karouach S., Collaboration interactive entre classifications et cartes thmatiques
ou gographiques. 9imes rencontres de la socit francophone de classification, 2002.
Dousset B., Intgration de mthodes interactives de dcouverte de connaissances pour la
veille stratgique. Habilitation diriger des recherches, Universit Paul Sabatier, France,
2003.
Dousset B., Karouach S., Manipulation de graphes de grande taille pour l'tude des rseaux
d'acteurs et des rseaux smantiques. 10imes journes d'tudes sur les systmes d'information
labore : Bibliomtrie - Informatique stratgique - Veille technologique, (Ile Rousse Corse
France), CD-ROM, 2005.
Dousset B., TETRALOGIE: a platform for scientific and technological survey. International
Workshop on Webometrics, Infometrics and Scientometrics & Seventh COLLNET Meeting,
Nancy, (confrencier invit), LORIA, 2006.
Dousset B., Karouach S., Apports de la classification dans l'analyse des graphes de grande
taille. VSST 2007, CD-ROM, 2007.
Dousset B., Extraction de l'information implicite par analyse textuelle de sites Internet en
UNICODE, VSST 2009, CD-ROM, 2009.
Dublin Core. Dublin core meta data element set version 1.1. Dublin Core Meta Data
initiative. http://dublincore.org/ Janvier 2009.
Dunning T., Accurate Methods for the Statistics of surprise and Coincidence.
Computational Linguistics, vol. 19, pages 61-74, 1993.
Dupr A., Duhard N., Les armes secrtes de la decision, la gestio de l'information au service
de la performance economique. Gualino editeur, Paris,

E-F
[Escofier, 1998]
[Favier, 1998]

Escofier B., Pags J., Analyses factorielles simples et multiples, objectifs, mthodes et
interprtation. Dunod, 1998.
Favier L., recherche et application d'une mthodologie d'analyse de l'information pour
l'intelligence conomique application un centre technique du secteur de la plasturgie. Thse

de doctorat de luniversit Lumire Lyon II, France, 1998.


[Fayyad, 1996]
[Feldman, 1995]

[Feldman, 2007]
[Fichet, 1987]

[Fichet, 1988]
[Fondin, 1998]
[Fowler, 1996]
[Frakes, 1992]
[Fuhr, 2000]
[Fuld, 1995]
[Fung, 1997]

Fayyad U., Piatetsky


Piatetsky--Shapiro G., Smyth P., From Data mining to Knowledge Discovery,
chapitre 1, 1996.
Feldman R., Dagan I., Knowledge Discovery in Textual Databases (KDT). Proc. of the 1st
Intl Conf. on Data Mining and Knowledge Discovery, pp 112117, Montral, Canada,
1995.
Feldman R., Hirsh H., Exploiting Background Information in Knowledge Discovery from
Text. Journal of Intelligent Information Systems, 9(1) :8397, 1997.
Fichet B., Roux M., Rotation procustenne pour la comparaison de schmas factoriels.
Journes d'tudes sur les systmes d'informations labores : Bibliomtrie - Informatique
stratgique - Veille technologique. Ile Rousse, 1987.
Fichet B., Rotation procustenne. Journes d'tudes sur les systmes d'informations labores
: Bibliomtrie - Informatique stratgique - Veille technologique. Ile Rousse, 1988.
Fondin H., Le traitement numrique des documents. Editions Herms, 1998.
Fowler R.H., Fowler W.A.L., Williams J.L., 3D Visualization of WWW Semantic
Content for Browsing and Query Formulation WebNet 96, San Francisco, CA, 1996.
Frakes W.B., Yates R.B., Information Retrieval data structures and algorithms. ISBN 0-13463837-9, Addison Wesley Publishing Company, 1992.
Fuhr N., Models in information retrieval. 3th European summer school (ESSIR'00), p. 2150, Italy, 2000.
Fuld L.M., The new Competitor Intelligence. John Wiley, Chichester, 1995.
K., A technical word and term translation aid using noisy parallel
Fung P., Mckeown K
corpora across language groups. machine translation, vol, 12, pp, 53-87, 1997.

G
[Gao, 2006]
[Garibaldi, 2001]
[Gay, 2006]
[Ghalamallah, 2007a]

[Ghalamallah, 2007b]

[Ghalamallah, 2007c]
[Ghalamallah, 2007d]

[Ghalamallah, 2008a]

[Ghalamallah, 2008b]

[Ghalamallah, 2008c]

[Ghalamallah, 2009e]

[Gilad, 1988]

Gao J., Revesz P., Visualization of Temporal-Oriented Datasets. GMAI 2006, pages 57-62,
2006.
Garibaldi G., L'analyse stratgique : comment concevoir les choix stratgiques en situation
concurrentielle. Les Editions d'Organisation, France, 2001.
Gay B., Dousset B., Ingnierie des Systmes d'Information Networking and Information
Systems. Revue des sciences et technologies de l'information, Vol 11/2, 2006.
Ghalamallah I., Grimeh A., Dousset B., Les pr-connaissances : un passage oblig entre
information et connaissance. Journes Francophones Extraction et Gestion de Connaissances
(EGC 2007), Herms, p. 55-64, Belgique, 2007.
Ghalamallah I., Grimeh A., Dousset B., Processing data stream by relational analysis.
European workshop on data stream analysis, Herms, p. 67-70, MODULAD n36 (en ligne),
France, 2007.
Ghalamallah I., Lanalyse relationnelle en ligne au service de lintelligence conomique.
Colloque Veille Stratgique Scientifique et Technologique (VSST 2007), Maroc, 2007.
Ghalamallah I., Prconisation des bonnes pratiques en Intelligence Territoriale : application
une agglomration de taille moyenne. Colloque Veille Stratgique Scientifique et
Technologique (VSST 2007), Maroc, 2007.
Ghalamallah I., Dousset B., Lintelligence conomique par lanalyse relationnelle :
modlisation de la pr-connaissance. 1re Confrence internationale intelligence conomique et
systmes dinformations SIIE2008, Tunisie, 2008.
Ghalamallah I., Loubier E., Dousset
Dousset B., Competitive Intelligence: Approaches and
proposal tool specific to relational analysis. 2me Colloque Europen dIntelligence
Economique, ATELIS / ISEG-CEGE, Portugal, 2008.
Ghalamallah I., Loubier E., Dousset B., Business intelligence a proposal for a tool
dedicated to the analysis relational. SciWatch Journal, Hexalog, Vol 3 (en ligne), Espagne,
2008.
Ghalamallah I., Dousset B., Modle danalyse multidimensionnelle ddie lIntelligence
Economique. Colloque Veille Stratgique Scientifique et Technologique (VSST 2009),
France, 2009.
Gilad B., Gilad T., The business intelligence system: a new tool for a competitive advantage.
AMACOM, New York, 1988.

[Gimeno, 2001]
[Godet, 1991]
[Gruber, 1993]
[Gunec, 2008a]

[Gunec, 2008b]

[Guilhon, 2003]

Gimeno R., Mitrano P.. Thorie cartographique et


http://www.sciences-po.fr/cartographie/cartographie_html, 2001.
Godet M., De l'anticipation l'action, Dunod, Paris, 1999.

smiologie

graphique.

Gruber T., A translation Approach to portable ontology specifications. Knowledge


Acquisition. Vol. 5, pages 199-220, 1993.
Gunec N., Dou H., Intrt et mthode dextraction de linformation scientifique chinoise.
Cahiers
de
la
Documentation
Belge,
n4,
2008.
Source :
http://s244543015.onlinehome.fr/ciworldwide/wpcontent/uploads/2009/01/cahiers_doc_belge_bd_chinoise_guenec_dou_2008.pdf
Gunec N., Loubier E., Ghalamallah I., Dousset B., Management and analysis of chinese
database extracted knowledge. BCS IRSG Symposium: Future Directions in Information
Access, British Computer Society, Londre, 2008.
Guilhon A., Le processus dIE et lidentit de la PME, lIE dans la PME : Visions parses,
paradoxes et manifestations, Editions Economica, 2003.

H
[Han, 1998]
[Haroussi, 2004]
[Hassid, 1997]
[Hearst, 1999]
[Herman, 2000]

[Huot, 1992]

[Hussein, 2004]

Han J., Towards on-line analytical mining in large databases. pp 97-107, SIGMOD Record,
ACM Press, N.1 Vol.27, 1998.
Haroussi S., Systme de veille stratgique bas sur un rseau dexperts : mthodes et outils.
Thse de doctorat de luniversit Aix-Marseille III, 2004.
Hassid L., Moinet N., Jacquegustave P., Les PME face au dfi de lintelligence
conomique. ditions Dunod, Paris, 1997.
Hearst M., Untangling Text Data Mining. Proc. of the 37th Annual Meeting of the
Association for Computational Linguistics, University of Maryland, 1999.
Herman I., Marshall M. S., Melanon G.,
G. Graph visualisation and navigation in
information visualisation: a survey. Ieee transactions on visualization and computer graphics
6(1), pages 24-43, 2000.
Huot C., Analyse relationnelle pour la veille technologique : vers l'analyse automatique des
bases de donnes. Thse Science de l'Information et de la Communication, (Aix-Marseille III
France), 1992.
Hussein S., Dfinition des besoins en Intelligence Economique par profils de PME. Thse de
doctorat de luniversit Sciences Sociales, Toulouse I, 2004.

I
[Inmon, 1996]
[ISO8879, 1986]

Inmon W.H. Building the Data Warehouse. 2nd Ed. New York : Wiley, 1996,
1996
International Standard ISO 8879,
8879 Information processing - Text and offices systems.
Standard Generalized Markup Language (SGML), 1986.

J
[Jacob, 2000]
[Jakobiak, 1991]
[Jakobiak, 2004]
[Juillet, 2005]
[Julien, 2003]

Jacob R., Turcot S., La PME apprenante, information, connaissance, interaction,


intelligence. Rapport de veille, Dveloppement Economique, Canada, 2000.
Jakobiak F., Pratique de la veille technologique. Les ditions dorganisation, 1991.
Jakobiak F., L'intelligence conomique : la comprendre, l'implanter, l'utiliser. Les ditions
dorganisation, 1991.
Juillet A., Commission nationale consultative de la formation de lIE. Rfrentiel de
formation en intelligence economique SGDN, Paris, 2005.
Julien P.A., Vaghely I., Carrier C., PME et contrle de linformation : le rle du troisime
homme. Colloque dAgadir, Maroc, 2003.

K
[Kadarsah, 2008]

[Karouach, 2003]

[Kedad, 1999]

Kadarsah S., Ceicalia T., Henri D., Product Innovation Decision Support Based on Online Patent Database. Asian Pacific Journal of Innovation and Entrepreneurship, Vol 2, n1,
pp.1-14, 2008
S., Visualisations interactives pour la dcouverte de connaissances : concepts,
karouach S.
mthodes et outils. Thse de Doctorat en informatique, Universit Paul Sabatier, France,
2003.
Kedad Z., Mtais E., Dealing with semantic heterogeneity during data integration. 18th
International conference on conceptual modeling (ER'99), Paris, p. 325-339, Paris, France,

1999.
[Khrouf, 2004]
[Kislin, 2007]
[Kodratoff, 1999]

Khrouf K., Entrepts de documents : de l'alimentation l'exploitation. Thse de doctorat de


luniversit Paul Sabatier, Toulouse III, France, 2004.
Kislin PH., Modlisation du problme informationnel du veilleur dans la dmarche
dintelligence conomique. Thse de doctorat de luniversit Nancy 2, France, 2007.
Kodratoff Y., Knowledge Discovery in Texts: A Definition, and Applications. Foundations
of Intelligent Systems. Proc. of the 11th Intl Symposium, ISMS99, Vol. 1609 de Lecture
Notes in Artificial Intelligence LNAI, pp 1629, Warsaw, Pol., 1999.

L
[Lafosse, 1985]
[Lafosse, 1990]
[Learned, 1965]
[Lebart, 1995]
[Lebart, 1998]
[Leitzelman, 1998]

[Lesca, 1986]
[Lesca, 1994]
[Lesca, 1997]

[Lesca, 2003]
[Levet, 1996]
[Levet, 2001]
[Liebowitz, 1998]
[Lin, 1998]

[Lointier, 2000]
[Loubier, 2007]

[Loubier, 2008]

[Loubier, 2009]

Lafosse R., Analyse procustenne de deux tableaux. Thse de doctorat de luniversit Paul
Sabatier, Toulouse III, France, 1985.
Lafosse R., Exemple d'tude de panel de deux tableaux. Publication des statistiques du
laboratoire de luniversit Paul Sabatier, Toulouse III, France, 1990.
Learned E., Christensen C., Andrews K., Guth
Gu th W., Business Policy: Text and cases. Irwin,
USA, 1965.
Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle. Dunod,
ISBN 2-10-002886-3, 1995.
Lebart L., Salem A., Berry L., Exploring textual data. Kluwer academic Publishers, ISBN 07923-4840-0, 1998.
Leitzelman M., Dou H., Typology of Information Systems Essai de typologie des Systmes
d'Informations. International Journal of Information Sciences for Decision Making, N2, pp.
55-73, 1998.
Lesca H., , 1986.
Lesca H., Veille stratgique pour le management stratgique, tat de la question et axes de
recherche. Economies et Socits, Srie Sciences de Gestion, SG n20, p.31-50, 1994.
Lesca
Lesca H., Veille stratgique : concepts et dmarche de mise en place dans l'entreprise. Guides
pour la pratique de l'information scientifique et technique. Ministre de l'Education
Nationale, de la Recherche et de la Technologie, 27 p., France, 1997.
Lesca H., Veille stratgique, la mthode L.E.SCAnning. Editions. Ems, Management et
Socit, 190 p, 2003.
Levet J.L., Paturel R., Lintgration de la dmarche dIE dans le management stratgique.
Acte de lAssociation Internationale de Management Stratgique, Lille, 1996.
Levet J.L., IE : mode de pense, mode daction. Economica, Paris, 2001.
Liebowitz J., Beckman T., Knowledge Organizations: What Every Manager Should Know.
St. Lucie Press, 1998.
Lin S.H., Shih C.S., Chang Chen M., Ho J.M., Ko M.T, Huang Y.M. Extracting
classification knowledge of Internet documents with mining term associations: a semantic
approach. pp 241-249, Proceedings of the 21st Annual International ACM SIGIR, 1998.
Lointier P., Les limites de lIE, commentaires de P. Lointier. La Revue de lAssociation des
Diplms de lIAE, 2000.
Loubier E., Bahsoun W.,
W. Dousset B.,
B. Visualization and analysis of large graphs. ACM
International Workshop for Ph.D. Students in Information and Knowledge Management
(ACM PIKM 2007), ACM, support lectronique, 2007.
Loubier E., Bahsoun W.,
W. Dousset B.,
B. VisuGraph : un outil pour la visualisation de donnes
temporelles. MAnifestation des Jeunes Chercheurs STIC (MajecStic 2008), Aline Cauvin,
Abbas Chamseddine, Nicolas Faessel, Sbastien Fournier (Eds.), Laboratoire des Sciences de
l'Information et des Systmes (LSIS), support lectronique, 2008.
Loubier E., VisuGraph : un outil pour lanalyse du relationnel. Colloque Veille Stratgique
Scientifique et Technologique (VSST 2009), IRIT, support lectronique, 2009.

M
[Magakian, 2007]
[Maniez, 1991]

Magakian JJ- L., Payaud MM-A., 100 fiches pour comprendre la stratgie de lentreprise.
Edition Bral, 2007.
Maniez J., Grolier E., A decade of research in classification. International Classification, Vol.
18, n 2, pp.73-77, 1991.

[Manning, 1999]
[Marcon, 2006]

Manning C.D., Schtze H.,


H. foundations of statistical natural language processing. the mit
press, massachusetts, 1999.
Marcon C., Moinet N.,
N. Lintelligence conomique. Editions Dunod, France, 2006.

[Marcotorchino, 1991] Marcotorchino F., L'analyse factorielle-relationnelle. Partie I et II. Centre Europen de
Mathmatique Appliques, 1991.
[Maron, 1960]
Maron M., Kuhns J., On relevance, probabilistic indexing and information retrieval. Journal
of the Association for Computing Machinery, pp. 216244, 1960.
[Marshall, 2001]
Marshal M., Methods and tools for the visualization and navigation of graphs. Thse,
Dpartement de mathmatiques et dinformatique, Universit de Bordeaux, France, juin
2001.
[Martinet, 1989]
Martinet B., Ribault J.M.,
J.M La veille technologique, concurrentielle et commerciale. les
Editions dorganisation, France, 1989.
[Martinet, 1995]
Martinet B., Marti YY -M., L'Intelligence Economique : les yeux et les oreilles de l'entreprise.
Organisation Editions, Entreprise-Gestion, 1995.
[Martre, 1994]
Martre H., IE et stratgie des entreprises. uvre Collective du Commissariat au Plan, la
documentation Franaise, France, 1994.
[Mass, 2000]
Mass G., Thibaut F.,
F. Intelligence conomique : Guide pour une conomie de lintelligence.
Editions De Boeck Universit, Belgique, 2000.
[Mlse, 1972]
Mlse J., L'analyse modulaire des systmes de gestion, AMS. Editions Hommes et
Techniques, Paris, 1972.
[Mohellebi, 2008]
Mohellebi D., Henri D., Les nouvelles technologies de linformation et de la
communication & la capitalisation des comptences internes de lentreprise. Informations,
Savoirs, Dcisions, Mdiations, Journal International des Sciences de l'Information et de la
Communication, n31, 2008.
[Morel-Pair, 2001]
MorelMorel-Pair C., Panorama : des mtadonnes pour les ressources lectroniques. Disponible sur
: http://hal.ccsd.cnrs.fr/docs/00/04/04/73/PDF/Metas_panorama_CMO.pdf, 2005.
[Morin, 1985]
Morin E., Lexcellence technologique. Edition Publi-Union, 1985.
[Mothe, 1994]
Mothe J., Modle connexionniste pour la recherche dinformations Expansion dirige de
requtes et apprentissage. Thse de doctorat de luniversit Paul Sabatier, Toulouse III, 1994.
[Mothe, 2000]
Mothe J., Recherche et exploration d'informations -Dcouverte de connaissances pour l'accs
l'information. Habilitation diriger des recherches, Universit Paul Sabatier, Toulouse,
2000.
[Mothe, 2002]
Mothe J., Chrisment C., Alaux J., Visualisation globale de collections de documents sous
forme d'hyper cube - Le systme DocCube. Journes francophones d'Extraction et de Gestion
des Connaissances, EGC2002, Herms, pp. 131-142, Montpellier, 2002.
[Mothe, 2003]
Mothe J., Chrisment C., Dousset B., Alaux J., DocCube: Multi-Dimensional Visualization
and Exploration of Large Document Sets. Journal of the American Society for Information
Science and Technology, JASIST, Special topic section: web retrieval and mining, Vol. 7 N.
54, p. 650-659, 2003.
[Mothe, 2006]
Mothe J., Chrisment C., Dkaki T., Dousset B., Karouach S., Combining mining and
visualization tools to discover the geographic structure of a domain. Dans : Computers,
Environment and Urban Systems, Elsevier, Numro spcial : Geographic Information
Retrieval, Vol. Hors-srie N. 4, p. 460-484, 2006.
N
[Ndiaye, 1995]
[Neches, 1991]
[Newell, 1972]
[Nivol, 1993]

[Nonaka, 1994]
O

Ndiaye S., LinkLink -Pezet J., Systme d'information stratgique pour le management, concepts
et modles. Colloque Ile Rousse 95, Corse, 1995.
Neches R., Fikes R., Finin T., Gruber T., Patil R., Senator T., Swartout W. R.,
Enabling Technology for Knowledge Sharing. AI Magazine. pp 36-56, 1991.
Newell A., Simon H.A.,
H.A. , Human Problem Solving. Prentice Hall, 1972.
Nivol W., Le traitement de linformation brevet : de linformation documentaire
linformation stratgique. Thse de doctorat de luniversit de la Mditerrane, Aix-Marseille
II, 1993.
Nonaka I., A dynamic theory of organizational knowledge creation. Editions Organization
Science, 1994.

[Oubrich, 2003]
[Orosco, 1997]
[Oury, 1983]
P-Q
[Paoli, 2003]
[Paturel, 1996]
[Pazienza, 1997]
[Pinczou du sel, 2006]
[Pinte, 2006]

[Polanyi, 1962]
[Porter, 1980]
[Porter, 1986]
[Quinlan, 1986]
R
[Ravat, 2007]

[Razouk, 1990]
[Reinert, 1996]
[Reix, 2000]
[Revelli, 1998]
[Rijsbergen, 1979]
[Rocchio, 1971]
[Rockart, 1979]
[Romagni, 1998]
[Rostaing, 1996]
[Rouibeh, 1998]

Oubrich M., La cration des connaissances dans un processus dIntelligence Economique.


Thse de doctorat de luniversit de la Mditerrane, Aix-Marseille II, 2003.
Orosco R., AutoFocus: user assistance in information visualization. Hypertext-Information
retrieval-Multimdia, HIM, Dortmund, october 1997.
Oury J.M, Thorie conomique de la vigilance.. Calmann-Lvy, 1983.
Paoli C., Dou H., Dou J.M., Maninna B., La constitution dindicateurs brevets par
domaines technologiques. Cahiers de la Documentation Belge, n2, pp.45-59, 2003.
Paturel R., Panorama gnral et synthtique des thses franaises en management stratgique.
Actes de la journe FNEGE Recherche en Gestion, 1998.
Pazienza M.T., Information extraction - A multidisciplinary approach to an emerging
information technology. Springer Verlag, ISBN 3-540-63438-X, 1997.
Pinczou du sel P., Dumas P., Boutin E., Lutilisation des TIC en Intelligence
Economique : le revers de la mdaille, degrs, 2006.
Pinte J.P., La veille informationnelle en ducation pour rpondre au dfi de la socit de la
connaissance au XXI me sicle : Application la conception d'une plateforme de veille et de
partage de connaissance en ducation : Commun@utice. Thse de doctorat de luniversit
Marne la valle, France, 2006.
Polanyi M., The Tacit Dimension. Garden City, NY: Doubleday, 1966.
Porter M.F., An algorithm for suffix stripping. Program, Vol. 14, No. 3, p. 130-137, USA,
1980.
Porter M.F., Lavantage concurrentiel. Inter Editions, USA, 1986.
Quinlan J. R., Induction of Decision Trees. Machine Learning, 1 :81106, 1986.
Ravat F., Modles et outils pour la conception et la manipulation de systmes d'aide la
dcision. Mmoire d'habilitation diriger des recherches, universit Paul Sabatier, Toulouse
III, 2007.
Razouk R., Bases dinformations gnralises : Hypermdia et Classification. Thse de
doctorat de lUniversit Paul Sabatier, N791, Toulouse III France, dcembre 1990.
Reinert M., Un logiciel d'analyse lexicale : ALCESTE. Les cahiers de l'Analyse des Donnes,
4, pp 471-484, 1996.
Reix R., Systmes dinformation et management des organisations. Vuibert, 2000.
Revelli C., Intelligence stratgique sur Internet, comment dvelopper efficacement des
activits de veille et de recherche sur les rseaux. Dunod, Paris, 1998.
Rijsbergen C. Van, Information retrieval. Second Edition, Butterwoths, Londre, 1979.
Rocchio J., Relevance feedback in information retrieval. Prentice Hall Inc., Englewood
Cliffs, NJ, 1971.
Rockart H.C., Chief executive define their own data needs. Harvard Business Review, 1979.
Romagni, P., Wild V., L'Intelligence conomique au service de l'entreprise, ou l'information
comme outil de gestion. Les Presses du Management, 1998.
Rostaing H.,
H., La bibliomtrie et ses techniques. Sciences de la Socit Collection, 1996.
Rouibeh K., Veille stratgique : Vers un outil daide au traitement des informations
fragmentaires et incertaines. Thse de Doctorat de lcole suprieure des affaires, Grenoble,
1998.

S
[Salles, 1997]
[Salles, 1998]
[Salles, 2000]
[Salles, 2002]

Salles M., Alquier AA -M., Elments mthodologiques pour la conception de systmes. Les
systmes d'information labore, France, 1997.
Salles M., Zid T., Mthode de conception de produits de veille stratgique destins des
PME. Colloque VSST'98. Toulouse, France, 1998.
Salles M., Clermont Ph., Dousset B.,
B. Une mthode de conception de systme dIE.
Colloque IDMME2000, Canada, 2000.
Salles M., Projet MEDESIIE : Mthode MEDESIIE de dfinition du besoin en intelligence
conomique des PME, Universit Toulouse I.

[Salles, 2003]

[Salles, 2005]

[Salmon, 1997]
[Salton, 1971]
[Salton, 1989]
[Sauvagnat, 2005]
[Sdes, 1998]

[Seligmann, 1989]

[Sibson, 1973]
[Simon, 1960]
[Simon, 2000]
[Singh, 2006]
[Sokal, 1963]
[Soul-Dupuy, 1990]
[Soul-Dupuy, 2001]
[Stern, 1997]
[Sutton, 1988]
T
[Tournier, 07]
[Tuffery, 1984]

Salles M., Modlisation des situations de dcision dans une mthode d'ingnierie du besoin
en I.E. Confrence IERA, Intelligence Economique : Recherches et Applications, Nancy,
France, 2003.
Salles M., De l'analyse du besoin des PME en IE l'Intelligence Territoriale. Colloque
Europen d'Intelligence Economique, Poitiers Futuroscope, ESCEM Poitiers, p. 414-427,
Poitiers, France, 2005.
Salmon R., L'intelligence Comptitive. Economica, 1997
Salton G., A comparison between manual and automatic indexing methods. Journal of
American Documentation. p 6171, 1971.
Salton G., Automatic text processing: The transformation, Analysis and Retrieval of
information by computer. Addison Wesley Publishing Company, 1989.
Sauvagnat K., Modle flexible pour la recherche d'information dans des corpus de
documents semi-structurs. Thse de doctorat, Universit Paul Sabatier, Toulouse III, 2005.
Sdes F., Bases documentaires - hyperbases. Proposition d'un modle gnrique et
contribution la spcification d'un langage pour l'intgration de la manipulation de
linformation semi-structur. Mmoire d'habilitation diriger des recherches, universit Paul
Sabatier, Toulouse III, 1998.
Seligman P.S., Wijers G.M.,
G.M. Sol H.G.,
H.G. Analyzing the structure of I.S. methodologies, an
alternative approach. In proceedings of the Conference in information systems, The
Ntherlands, 1989.
Sibson R., SLINK: an optimally efficient algorithm for the single -link cluster method.
Computer Journal, Vol.16, p 30-34, 1973.
Simon H.A., The new science of management decision. Editions Harper & Row, 1960.
Simon A., Outils classificatoires par objets pour lextraction de connaissances dans les bases
de donnes. Thse de doctorat de l'universit Henri Poincar - Nancy 1, Nancy, 2000.
Singh M., Basu A., Mandal M., Temporal Alignment of Time Varying MRI Datasets for
High Resolution Medical Visualization. ISVC 2006, pages 222-231, 2006.
Sokal R.R., Principales of numerical taxonomy. Freeman and co., San Francisco, 1963.
SoulSoul-Dupuy C., Systmes de recherche d'information : Mcanismes d'indexation et
d'interrogation. Thse de doctorat de l'universit Paul Sabatier, Toulouse III, 1990.
SoulSoul-Dupuy C., Bases d'informations textuelles : des modles aux applications. Mmoire
d'habilitation diriger des recherches, universit Paul Sabatier, Toulouse III, 2001.
Stern Y., les quatre dimensions du document. Document numrique, Vol 1(1), Editions
Herms, 1997.
Sutton H.,
H., Competitive Intelligence. New York: The conference Board, Inc, 1988.
Tournier R., Analyse en ligne (OLAP) de documents. Thse de doctorat de luniversit Paul
Sabatier, Toulouse III, 2007.
Tuffery M., Systme documentaire, base de donnes textuelles : le projet Etoile. Thse de
doctorat de l'universit Paul Sabatier, Toulouse III, 1984.

V
[Van Dongen, 2000]
[Vronis, 2003]
[Vronis, 2004]
[Villain, 1990]
[Voorhees , 1986]

Van Dongen S., Graph Clustering by Flow Simulation. Thse de l'universit dUltrecht,
Allemagne, May 2000.
Veronis j.,
j. Cartographie lexicale pour la recherche dinformation. actes de taln 2003, pages
265-274, 2003.
Vronis j.,
j. Hyperlex : lexical cartography for information retrieval. Computer, speech and
language. volume 18/3, pages 223-252, 2004.
Villain J., Lentreprise aux aguets. Masson Edition, 1990..
Voorhees E.M., Implementing agglomerative hierarchic clustering algorithms for use in
information retrieval. Information Processing & Management, Vol. 22, p. 465-476, 1986.

W
[W3C, 1999]
[W3C, 2000]

W3C., HTML 4.01 Specifications. W3C recommendation, 1999.


W3C., eXtensible Market Langage (XML) 1.0. W3C recommandation, 2000.

[Wilensky, 1967]

Wilensky H.L., Organizational intelligence: knowledge and policy in government and


industry. Editions Basic Books, USA, 1967.

GLOSSAIRE

Glossaire

Adit

Afdie

Agent

Agent intelligent

Analyse concurrentielle

analyse de liens

analyse des donnes

Analysediscriminante
dcisionnelle
Analyse en composantes
principales

Analyse factorielle des


correspondances

Analyse factorielle
discriminante
Analyse relationnelle

216

Agence pour la diffusion de l'information technologique est un


tablissement public caractre industriel et commercial, plac sous la
double tutelle du ministre des affaires etrangres et du ministre de la
recherche et aux nouvelles technologies. L'adit a notamment pour mission
de collecter, traiter et diffuser les informations technologiques et
conomiques internationales issues du rseau mondial des services
scientifiques des ambassades de france. [www.adit.fr].
Association franaise pour le dveloppement de lintelligence economique
dont l'objet est de constituer et d'animer une communaut nationale et
europenne mobilise autour d'une dmarche d'intelligence economique.
Logiciel envoy sur un rseau pour effectuer une tche la place de
lutilisateur et sans son intervention. Un agent est dit intelligent lorsquil
utilise les techniques de lintelligence artificielle.
Objet utilisant les techniques de l'intelligence artificielle : il adapte son
comportement son environnement et en mmorisant ses expriences, se
comporte comme un sous-systme capable d'apprentissage : il enrichit le
systme qui l'utilise en ajoutant, au cours du temps, des fonctions
automatiques de traitement, de contrle, de mmorisation ou de transfert
d'information.
Elle a pour objectif d'identifier les forces et les faiblesses des diffrents
concurrents sur un projet donn. Elle relve du diagnostic stratgique
externe que doit raliser toute entreprise. [norme afnor xp x 50-053]
dtermine des relations entre les champs dans une base de donnes [the
kkd process for extracting usefull knowledge from volumes. Of data, u.
Fayyad, g. Piatetsky-shapiro, p. Smyth, cacm, vol. 39 num.11, pp 27-34,
novembre 1996.]
En statistique, mthodes dveloppes dans les annes 1930 et dont le succs
actuel est du l'essor des ordinateurs qui permettent d'automatiser les
calculs. "les mthodes d'analyse des donnes permettent une tude globale
des individus et des variables en utilisant gnralement des reprsentations
graphiques suggestives". [l'analyse des donnes de j-m. Bouroche et g.
Saporta, puf, qsj numro.1854, p3]
Elle permet de prvoir les modalits du caractre expliquer partir des
valeurs prises par les caractres explicatifs. [l'analyse des donnes de jmbouroche et g. Saporta, puf, qsj numro.1854, p109].
Acp. "description des donnes contenues dans un tableau individuscaractres numriques (...) Ces derniers jouant tous le mme rle".
"mthode de rduction du nombre de caractres permettant des
reprsentations gomtriques des individus et des caractres" dans un espace
de dimension rduite. [l'analyse des donnes de j-m. Bouroche et g.
Saporta, puf, qsj numro.1854, pp 17 et 21]
Ou afc. Propose par jp benzcri dans les anne 60, elle permet l'analyse des
donnes qualitatives (tableaux de contingence, de prsence-absence,
disjonctifs, d'enqutes). C'est en fait une acp sur les profils, dont les
interprtations trs riches sont particulirement apprcies dans le
traitement des donnes textuelles.
Elle permet, l'aide d'une visualisation dans un espace factoriel de
dimension rduite, de dcrire les liaisons entre les caractres expliquer et
les caractres explicatifs.
elle permet d'analyser les matrices de variance-covariance ou de corrlation
(tableaux de burt et condorcet) issues du croisement de deux informations

Glossaire

Analyse statistique

Anticipation
Apprentissage non supervis
Apprentissage supervis

Arist
Aspirateur de site

Audit

Audit de veille

Avantages concurrentiels

Axe de surveillance
Base de connaissances

Base de donnes

Bibliomtrie

217

non indpendantes et conduit le plus souvent une classification qui les


partitionne.
elle permet, grce aux mthodes et aux reprsentations graphiques de le
statistique traditionnelle, de dcrire les donnes textuelles (frquences,
corrlations, dispersion, cooccurrences, etc).
Dpartement spcialis des chambres de commerce et dindustrie dans le
domaine de l'innovation et de l'information stratgique.
les modles sont obtenus automatiquement par analyse des rgularits dans
les donnes.
les modles de reprsentation des informations sont obtenus en utilisant un
chantillon d'exemples connus priori. A partir de ces cas, la gnralisation
pour des informations non connues est possible.
Dpartement spcialis des chambres de commerce et dindustrie dans le
domaine de l'innovation et de l'information stratgique.
Logiciel qui en transfrant les donnes sur le disque dur de son utilisateur,
permet de visualiser des pages html hors connexion. Le paramtrage permet
de dfinir la profondeur de laspiration qui peut aller jusquau site entier.
Examen mthodique d'une situation relative un produit, un processus ou
une organisation, ralis en coopration avec les intresss en vue d'assurer
la conformit de cette situation aux dispositions prtablies et l'adquation
de ces dernires l'objectif recherch. [norme afnor z 61-102]
Analyse ralise dans une organisation pour dfinir le champ
informationnel qu'elle doit couvrir pour pouvoir ragir et pouvoir anticiper.
Cet audit doit faire un bilan sur les circuits d'informations existants dans
l'organisation, sur le systme de collecte, d'analyse et de synthse. L'audit
s'attache tout particulirement la diffusion de l'information ainsi collecte
et aux freins qui peuvent gner cette diffusion. [norme afnor xp x 50-053]
Sur chaque couple produit-march, lentreprise devra rechercher des
avantages concurrentiels en dautres termes dvelopper certaines
caractristiques de son offre qui lui permettront de rivaliser ou de surpasser
ses concurrents. M. Porter (1982) met en avant trois formes davantages
concurrentiels : la domination par les cots, la diffrenciation et la
focalisation.
Description ou caractrisation de thmes dinformation. [norme afnor xp x
50-053]
(knowledge base) partie d'un systme expert contenant l'ensemble des
informations, en particulier des rgles et des faits, qui constituent le
domaine de comptence du systme. [commission ministrielle de
terminologie informatique]
(data base) ensemble de donnes organis en vue de son utilisation par des
programmes correspondant des applications distinctes et de manire
faciliter l'volution indpendante des donnes et des programmes.
[commission ministrielle de terminologie informatique]
"ensemble des mthodes et techniques quantitatives - de type
mathmatiques / statistiques - susceptibles d'aider la gestion des
bibliothques et d'une manire trs gnrale des divers organismes ayant
traiter de l'information". [les sciences de l'information -bibliomtrie,
scientomtrie, infomtrie - sous la dir. De j-m. Noyer, pur, rennes, 1995, p
175].
"la bibliomtrie est un outil de mesure auquel on fait appel pour aider la
comparaison et la comprhension d'un ensemble d'lments

Glossaire

Capital intellectuel

Capteur

Cd-rom
Co-citation

Co-occurrence
Corpus
Corrlation
Co-signature

Data mining

Datawarehouse

Descripteur

Diffusion slective de
l'information
Environnement

Facteurs cls de succs

218

bibliographiques". [dfinition de h. Rostaing, cit par f. Jakobiak,


l'information scientifique et technique, qsj numro. 3015, 1995, p 89].
ensemble des actifs, biens ou valeurs, incorporels, comme le savoir-faire
technologique, la fidlit du client, l'originalit et la fiabilit des processus
oprationnels, etc., sur lesquels reposent de plus en plus la survie et le
dveloppement d'une entreprise. [office qubcois de la langue franaise
2003]
elment humain ou technique dun systme de veille charg de collecter et
transmettre des signaux correspondant gnralement un axe de
surveillance identifi. [norme afnor xp x 50-053]
Compact disc - read only memory
En scientomtrie, mthode qui permet d'identifier "les publications
auxquelles se rfrent le plus les scientifiques". "le calcul des co-citations va
lisser les citations en liminant celles qui sont isoles". [j-p. Courtial,
introduction la scientomtrie, anthropos, paris, 1990, p 52].
Dsigne la prsence simultane dans certains documents d'un corpus
homogne d'lments d'information que l'on veut mettre en relation.
Ensemble d'informations issu de l'interrogation sur un thme donn d'une
ou plusieurs bases
Coefficient de corrlation linaire : "mesure l'intensit de la liaison entre 2
caractres quantitatifs". [p12]
Rdaction et publication en commun d'un article ou d'un document de
travail... Par plusieurs auteurs. L'analyse statique des co-signatures permet
de dterminer les diffrents collaboratoires d'un domaine, l'analyse
dynamique conduit l'tude de l'volution des quipes et de leurs
collaborations.
ensemble des technologies avances susceptibles d'analyser l'information
d'un datawarehouse pour en tirer des tendances, pour segmenter
l'information ou pour trouver des corrlations dans les donnes. [j. M.
Franco et eds-institut promthus 1997]
(centrale de donnes) ensemble des donnes collectes parmi les donnes
oprationnelles de lentreprise, ventuellement compltes par des donnes
externes, organis pour tre mis la disposition de ses dcideurs.
[association des informaticiens de langue franaise]
mot ou locution contribuant caractriser l'information contenue dans un
document et en faciliter la recherche. [commission ministrielle de
terminologie informatique]
fourniture systmatique et personnalise d'informations des usagers
caractriss par leur profil d'intrt (profil documentaire). [afnor vocabulaire de la documentation]
lenvironnement de lentreprise est constitu par lensemble des lments
qui sont en relation avec elle sans pour autant tre directement impliqus
dans son fonctionnement interne. Lenvironnement de lentreprise
comprend aussi bien des acteurs que des structures conomiques et sociales.
Il comprend en particulier des acteurs conomiques, des structures
gographiques et dmographiques, des structures sociales et conomiques,
un cadre juridique, un environnement technologique, des comportements
et des cultures. Tous ces facteurs voluent, changent dorientation, parfois
trs rapidement. Lenvironnement actuel des entreprises est complexe et
incertain.
les fcs sont des lments de loffre (savoir-faire au sens large) qui

Glossaire

Forum

Gestion de l'information

Gestion des connaissances

Gestion stratgique

Gestion stratgique de
linformation

Html

Indexation

Indicateur
Infomtrie

Information
Information blanche
Information formelle
Information grise

219

contribuent dgager un avantage concurrentiel. Seule la mise en vidence


de ces facteurs cls permettra de positionner lentreprise sur ces diffrents
domaines dactivit stratgique (concept voisin de celui de mtier) la suite
du diagnostic organisationnel.
service permettant discussions et changes sur un thme donn chaque
utilisateur peut lire tout moment les interventions de tous les autres et
apporter sa propre contribution sous forme darticles. [dlgation gnrale
la langue franaise]
dans un systme de traitement de l'information, ensemble des fonctions
permettant de grer l'acquisition, l'analyse, la mmorisation, la recherche et
la diffusion de l'information. [nf z 61-001 - technologies de l'information]
gestion, par des moyens informatiques, des informations significatives qui
sont acquises par une entreprise et qui y circulent, ainsi que du savoir-faire
dvelopp par le personnel, de manire crer un systme interactif de
formation maison continue qui dbouche sur une meilleure qualit des
produits et services, ainsi que sur une plus grande comptitivit de
l'entreprise. [office de la langue franaise 2001]
dmarche globale qui inclut une anticipation de l'volution des marchs et
de la concurrence et qui, dans les activits de planification, d'organisation,
d'impulsion et de contrle menes par la direction gnrale, consiste
dfinir les orientations stratgiques de l'entreprise, dterminer des
objectifs explicites et mettre en uvre les actions et les moyens appropris
pour y faire face, grce l'amlioration et l'utilisation des comptences de
l'entreprise. [office de la langue franaise, 1998]
gestion de l'information dans laquelle l'information est considre comme
l'lment essentiel de la stratgie d'une entreprise qui dsire optimiser son
fonctionnement, assurer sa prosprit et occuper une place de choix dans
son domaine, par rapport ses concurrents. [office de la langue franaise,
1999]
(hypertext markup language) langage de description de page avec lequel
sont conues les pages du www. Il sert dcrire la prsentation de la page,
et surtout les liens avec d'autres documents (textes, pages, etc.) Situs sur le
rseau. [dlgation gnrale la langue franaise]
processus destin reprsenter par les lments d'un langage documentaire
ou naturel des donnes rsultant de l'analyse du contenu d'un document ou
d'une question. On dsigne galement ainsi le rsultat de cette opration.
[afnor - vocabulaire de la documentation]
variable ayant pour objet de mesurer ou apprcier un tat, une volution
conomique. [le petit robert 1993]
"dsigne l'ensemble des activits mtriques relatives l'information et au
secteur de la documentation. [terme ] aussi utilis pour indiquer l'extension
du champ d'application de ces mthodes et techniques un domaine
beaucoup plus vaste de recherches, d'activits, un domaine plus vaste de
matriaux, d'indices." [j-m.noyer, les sciences de l'information, p10].
signification que l'homme attribue des donnes l'aide des conventions
employes pour les reprsenter. [afnor - vocabulaire de la documentation]
information aisment et licitement accessible. [norme afnor xp x 50-053]
donne qui a t rdige ou diffuse sur un support (papier, multi mdia,
son, image...). [norme afnor xp x 50-053]
information licitement accessible, mais caractrise par des difficults dans
la connaissance de son existence ou de son accs. [norme afnor xp x 50-

Glossaire

Information informelle
Information noire
Information stratgique

Information utile
Innovation

Intelligence artificielle

Internet

Intranet

Liste de diffusion

Lobbying

Mmoire dentreprise

Menace

Meta moteur

220

053]
donne recueillie auprs d'une source orale ou n'ayant pas t
explicitement mise en forme pour publication. [norme afnor xp x 50-053]
information diffusion restreinte et dont l'accs ou l'usage est
explicitement protg. [norme afnor xp x 50-053]
information contenant des lments susceptibles de contribuer la
dfinition, linflchissement ou la remise en cause de la stratgie de
lorganisation. [norme afnor xp x 50-053]
information directement exploitable par son destinataire. [norme afnor xp
x 50-053]
terme dsignant la fois le processus de cration par lentreprise dune offre
considre comme nouvelle et le rsultat de ce processus un nouveau
produit, un nouveau service ou un nouveau procd de fabrication.
(artificial intelligence) discipline relative au traitement par l'informatique
des connaissances et du raisonnement. [commission ministrielle de
terminologie informatique]
rseau mondial associant des ressources de tlcommunication et des
ordinateurs serveurs et clients, destin lchange de messages
lectroniques, dinformations multimdias et de fichiers. Il fonctionne en
utilisant un protocole commun qui permet lacheminement de proche en
proche de messages dcoups en paquets indpendants. Lacheminement est
fond? Sur le protocole ip (internet protocol), spcifi par linternet society
(isoc). Laccs au rseau est ouvert tout utilisateur ayant obtenu une
adresse auprs dun organisme accrdit. La gestion est dcentralise en
rseaux interconnects. [dlgation gnrale la langue franaise]
rseau de tlcommunication et de tlinformatique destin lusage
exclusif dun organisme et utilisant les mmes protocoles et techniques que
linternet. [dlgation gnrale la langue franaise]
dans les groupes de discussion fonctionnant par courrier lectronique,
systme permettant de diffuser un message, un article, une question, etc. A
un grand nombre de personnes pralablement inscrites sur une liste.
[dlgation gnrale la langue franaise]
terme anglais qui provient de lobby (groupe de pression) et qui fait appel
la pratique d'une pression exerce sur les parlementaires et par extension
aujourd'hui sur les diffrents acteurs du systme dcisionnel pouvant agir
sur l'environnement d'une organisation. Ces pressions peuvent prendre des
formes multiples (information, argumentation, conseil, appel l'opinion
publique, diffusion de livre blanc...). [norme afnor xp x 50-053]
somme des informations, des connaissances, des ides, du savoir et du
savoir-faire accumuls dans une entreprise au fil du temps, qui est recueillie
par des moyens informatiques ou lectroniques et qui est conserve dans des
bases de donnes ou sur des supports lectroniques destins cet effet.
[office de la langue franaise]
circonstance inopportune (irruption des concurrents sur le march,
volution des gots des consommateurs, nouvelle loi, etc.) A prendre en
compte dans la dfinition d'une stratgie.
un mtamoteur lance la recherche sur plusieurs moteurs et annuaires de
sites et affiche les rsultats fournis par les instruments de recherche qu'il a
utiliss. L'interrogateur formule sa recherche l'aide de mots sans savoir,
dans le cas o des moteurs et des annuaires seraient simultanment
sollicits, s'ils sont contenus dans les fichiers ou seulement dans leur

Glossaire

Mot-cle
Moteur de recherche

Notice bibliographique

Objectif stratgique
Observatoire

Opportunit

Plan de recherche

Planification stratgique

Position concurrentielle
Proprit industrielle

Prospective

Pull

Push

Renseignement

221

description tablie dans un annuaire. Le rsultat consiste en listes de pages


et/ou de sites. [association des bibliothcaires franais]
(keyword) descripteur extrait du texte qu'il caractrise ou d'un thsaurus.
[commission ministrielle de terminologie informatique]
(search engine) systme dexploitation de banque de donnes et, par
extension, serveur spcialis permettant daccder sur la toile des
ressources (pages, sites, ) partir de mots cls. [dlgation gnrale la
langue franaise]
Ensemble de donnes organises sous forme de champs et qui dcrivent un
document (champ auteur / champ titre / champ anne et lieu de
publication / champ mot-cl...)
objectif dont la ralisation s'tend sur plusieurs annes. [meta, journal des
traducteurs 1966]
centre de regroupement et danalyse de donnes qualitatives et
quantitatives relatives une problmatique particulire pour en suivre les
volutions. [norme afnor xp x 50-053]
circonstance opportune prendre en compte dans la dfinition d'une
stratgie concurrentielle. Il peut s'agir, par exemple, d'une innovation
technologique, d'une nouvelle perception du comportement des
consommateurs, du dveloppement d'une application nouvelle pour un
produit existant.
fera la synthse de l'ensemble des tches raliser pour recueillir
l'information et l'expertise manquante. Bien sr, le plan de recherche
prvoit une rpartition des rles pour renforcer la collaboration entre des
personnes ayant des proccupations diffrentes (bureau d'tude,
production, finance, commercial, etc.). [arist rhne-alpes]
constitue la phase qualitative qui nest pas emprisonne dans un processus
rigide, cest la planification du changement. Cette phase na pas pour objet
la rdaction dun plan, son but est deffectuer le choix des options
stratgiques et de sassurer de la cohrence des options retenues.
place dtenue par une entreprise sur le march en tenant compte de ses
concurrents.
droits relatifs aux inventions, aux dessins ou aux modles industriels, aux
marques de fabrique ou de commerce, aux marques de service, aux noms
commerciaux, aux indications de provenance ou aux appellations d'origine,
ainsi que certaines rgles visant rprimer la concurrence dloyale. [norme
afnor z 40-001 1979]
evaluation des futurs possibles, inscrits dans une vision globale, qualitative,
volontariste et multiple (les scnarios). Elle est plus un art quune
technique, et appelle plus une attitude quun savoir universel.
technologie fonde sur l'architecture client-serveur, qui est utilise
ordinairement dans le web lorsque l'internaute recherche de l'information
et qui exige de lui une dmarche active par l'intermdiaire de son
navigateur qui lui prsentera ensuite le rsultat de cette recherche. [office de
la langue franaise 2000]
technologie base sur la webdiffusion (webcasting) qui n'exige pas de
dmarche active de la part de l'internaute, puisqu'il lui suffit de s'abonner
une ou plusieurs chanes thmatiques pour recevoir l'information dsire.
[office de la langue franaise 2000]
dsigne des connaissances de tous ordres sur un adversaire potentiel, utiles
aux pouvoirs publics, au commandement militaire. () il sagit dune

Glossaire

Rseaux

Robot de collecte
d'information
Robot de recherche

Scientomtrie

Scurit du systme de
traitement de donnes

Segment stratgique
Serveur

Signal dalerte
Signal faible

Signal fort
Sql

Systeme dinformation

Systeme de veille
Systme d'information
stratgique

222

somme dinformations labores, vrifies et synthtises, destines un


groupe restreint dindividus. Le renseignement a pour finalit de protger
les valeurs morales publiques, de canaliser les tendances spontanes de
chacun poursuivre des intrts particuliers, de permettre au pouvoir
politique dexercer, de faon responsable, ses prrogatives.
ensemble fluctuant et multiforme dentits individuelles ou collectives
impliques dans un objectif commun et mises en relation les unes avec les
autres. Le rseau associe des entits la fois autonomes et lies, possde ses
propres rgles de fonctionnement et se transforme en fonction des objectifs
poursuivis.
Ils permettent, en tche de fond, de rcuprer toutes les pages w3 ayant
rpondu un robot de recherche interactive, ils sont le plus souvent
programms dans des langages disponibles en free ware sur le rseau.
Sur internet ils permettent de rcuprer, en mode interactif, les pages w3
qui correspondent une quation de recherche dfinie par l'utilisateur ou
une thmatique donne dj indexe. Les plus connus sont: alta vista,
yahoo, magellan, lycos, ...
Discipline qui se rattache au courant conomtrique de mesure de l'activit
scientifique et de son valuation [d'aprs j-p. Courtial, introduction la
scientomtrie, de la bibliomtrie la veille technologique, anthropos, 1990,
p 7].
ensemble de mesures techniques et administratives appliques un systme
de traitement de donnes pour protger le matriel, le logiciel et les donnes
contre toute modification, destruction ou divulgation par accident ou
malveillance. [iso 1986]
ensemble de produits ou services se caractrisant par une mme
combinaison de facteurs cls de succs.
systme informatique destin fournir des services des utilisateurs
connects et, par extension, organisme qui exploite un tel systme. Un
serveur peut par exemple permettre la consultation et lexploitation directe
de banques de donnes. [dlgation gnrale la langue franaise]
information critique qui gnre le dclenchement dune analyse
stratgique. [norme afnor xp x 50-053]
information qui annonce le changement d'une tendance et doit dclencher
un travail de recherche d'informations complmentaires pour la confirmer
et permettre le dclenchement d'une analyse stratgique. [norme afnor xp x
50-053]
information qui confirme une tendance actuelle et qui permet de btir une
stratgie de rponse adquate. [norme afnor xp x 50-053]
Language standardis dvelopp par ibm et qui a pour fonction la
dfinition, la manipulation et le contrle des donnes d'une base de
donnes relationnelle.
ensemble des moyens (organisation, acteurs, procdures, systmes
informatiques) ncessaires au traitement et lexploitation des informations
dans le cadre dobjectifs dfinis au niveau de la stratgie de ltablissement,
des mtiers, de la rglementation. [cnrs]
ensemble structur runissant les comptences rpondant des besoins de
veille. [norme afnor xp x 50-053]
systme structur qui permet de recueillir l'information sur
l'environnement de l'entreprise susceptible d'impacter de faon favorable
ou dfavorable l'avenir et qui doit fournir l'information ncessaire pour

Glossaire

Ttralogie

Traitement du langage
naturel
Veille

Veille

Veille active
Veille active
Veille commerciale

Veille concurrentielle

Veille juridicorglementaire

Veille passive
Veille socitale

Veille technologique

Veille territoriale

223

btir la stratgie. [norme afnor xp x 50-053]


Logiciel de VT dvelopp l'IRIT (Toulouse) et disponible sur le rseau. Il
est bas sur l'analyse exploratoire des donnes et les mthodes de
classification automatique. Il permet d'extraire de bases bibliographiques ou
de donnes issues d'internet les informations endognes qu'elles
contiennent. Un tableur 3d spcifique, des cartes factorielles en 4d et des
arbres de classification permettent de naviguer de faon interactive dans les
analyses.
discipline tudiant les techniques permettant une machine d'analyser et
de comprendre le langage humain.
Lobservation de lenvironnement suivi de la diffusion bien cible des
informations analyses, slectionnes et traites utiles la prise de dcision
stratgique. [f. Jakobiak]
lobservation de lenvironnement suivi de la diffusion bien cible des
informations analyses, slectionnes et traites utiles la prise de dcision
stratgique. [f. Jakobiak]
Surveillance de l'environnement focalis sur ce que l'on suppose a priori
important et stratgique pour l'entreprise. [norme afnor xp x 50-053]
surveillance de l'environnement focalis sur ce que l'on suppose a priori
important et stratgique pour l'entreprise. [norme afnor xp x 50-053]
elle porte essentiellement sur les clients et les fournisseurs de lentreprise, et
galement sur les sous-traitants et les partenaires de celle-ci. Elle permet
didentifier les capacits ou les difficults des fournisseurs et sous-traitants,
dtre lcoute des attentes et des besoins des clients, . [cdies]
elle cherche identifier la concurrence actuelle ou venir, dune manire
conomico-financire (chiffre daffaire, effectifs, investissements, ). Cest
par cette veille que lentreprise peut sorganiser par rapport ses forces et ses
faiblesses. Lobjectif est didentifier clairement la stratgie des concurrents
pour anticiper les actions de ceux-ci et agir de manire oprationnelle sur
lavenir de lentreprise sur son march. [cdies]
elle doit permettre lentreprise de prendre connaissance des volutions
rglementaires au niveau national et europen, en ce qui concerne les
normes, les lois (propositions, jurisprudence, dcrets, ) et
rglementations (fiscalit, ). Concrtement, la veille juridique permet
lentreprise danticiper les changements lis ladoption dun texte de loi et
de concourir lgalement sur un march tranger. [cdies]
ecoute de tous les signaux de l'environnement sans axe prcis. [norme
afnor xp x 50-053]
cette veille est lie aux aspects socio-conomiques, politiques, gopolitiques
et socioculturels de la socit. Elle permet de surveiller lvolution des
mentalits et des comportements des consommateurs, les risques lis
lenvironnement, les mouvements sociaux, . [cdies]
elle a pour objectif de devancer les changements technologiques,
dapprhender les innovations techniques et de promouvoir la politique de
recherche et de dveloppement de lentreprise. Elle cherche identifier les
produits, les technologies et les procds de fabrication mis en uvre par les
clients, les fournisseurs et les concurrents de lentreprise, afin de suivre les
volutions du march, de se rorienter en fonction des changements
technologiques, et de mettre en place des procdures de protection
industrielle. [cdies]
elle est une volution de la culture locale, base sur la collecte et le

Glossaire

Web invisible

Xml

224

traitement des signaux destins aux donneurs dordre pour lui fournir au
moment opportun, linformation judicieuse. [cdies]
partie du web correspondant l'ensemble des documents web qui ne sont
pas indexs par les outils de recherche traditionnels. [office de la langue
franaise 2003]
(ou extensible markup language) est le langage universel pour les bases de
donnes utilises sur le web. Il dfinit les proprits des donnes tandis que
le protocole html explique comment les afficher. [microsoft laboratoire
des technologies]

You might also like