Professional Documents
Culture Documents
En vue de l'obtention du
JURY
Corine CAUVET
Claude CHRISMENT
Bernard DOUSSET
Pr ESCORSA
Andr FLORY
Michel LAMURE
Maryse SALLES
Rapporteur
Prsident du jury
Directeur de Thse
Examinateur
Rapporteur
Examinateur
Examinateur
Ilhme GHALAMALLAH
d'analyse
yse multidimensionnelle dans un contexte
Proposition d'un modle d'anal
d'Intelligence Economique.
Directeur de thse :
Bernard Dousset, Professeur l'Universit Toulouse III - Paul Sabatier
Rsum
La russite dune entreprise est souvent conditionne par sa capacit identifier, collecter, traiter et diffuser
de l'information des fins stratgiques. Par ailleurs, les technologies de linformation et de la connaissance
apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation
beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'tre submerg par cette
information et de ne plus pouvoir distinguer l'essentiel du ngligeable. En effet, avec lavnement de la
nouvelle conomie domine par le march, la problmatique industrielle et commerciale de lentreprise est
devenue trs complexe. Dsormais, pour tre comptitive, lentreprise doit savoir grer son capital
immatriel. Lintelligence conomique (IE) est une rponse aux bouleversements de lenvironnement
global des entreprises et plus largement de toute organisation. Dans une conomie o tout se complexifie
et bouge rapidement, la gestion stratgique de l'information est devenue l'un des moteurs essentiels de la
performance globale des entreprises. LIE est une dmarche et un processus organisationnel qui permet
d'tre plus comptitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte,
nous avons constat quune grande part de linformation porte stratgique vient du relationnel : liens
entre acteurs du domaine, rseaux smantiques, alliances, fusions, acquisitions, collaborations,
cooccurrences de tous ordres.
Nos travaux consistent proposer un modle danalyse multidimensionnelle ddie lIE. Cette approche
repose sur lextraction de connaissances par lanalyse de lvolution des donnes relationnelles. Nous
proposons un modle permettant de mieux comprendre lactivit des acteurs dun domaine donn, leurs
interactions mais aussi leur volution et leur stratgie, ceci dans une perspective dcisionnelle. Cette
dmarche repose sur la conception dun systme dinformation gnrique danalyse en ligne permettant
dhomogniser et dorganiser les donnes textuelles sous forme relationnelle et, de l, en extraire des
connaissances implicites dont le contenu et la mise en forme sont adapts des dcideurs non spcialistes
du domaine de lextraction des connaissances.
Ilhme GHALAMALLAH
Abstract
A successful business is often conditioned by its ability to identify, collect, process and disseminate
information for strategic purposes. Moreover, information technology and knowledge provide constraints
that companies must adapt : a continuous stream, a circulation much faster techniques increasingly
complex. The risk of being swamped by this information and no longer able to distinguish the essential
from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of
industrial and commercial enterprise is become very complex. Now, to be competitive, the company must
know how to manage their intangible capital.
Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more
broadly to any organization. In an economy where everything moves faster and more complex,
management
Strategic Information has become a key driver of overall business performance. CI is a process and an
organizational process that can be more competitive, by monitoring its environment and its dynamics. In
this context, we found that much information has strategic significance to the relationship: links between
actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all
kinds.
Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is
based
on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for
understanding the activity of actors in a given field, but also their interactions their development and
strategy, this decision in perspective.
This approach is based on the designing a system of generic information online analysis to homogenize
and organize text data in relational form, and thence to extract implicit knowledge of the content and
formatting are adapted to non-specialist decision makers in the field of knowledge extraction.
Ilhme GHALAMALLAH
Proposition d'un modle d'analyse multidimensionnelle dans un contexte d'Intelligence
Economique.
Mots-cls
Remerciements
Dans le cadre de ma thse, nombreux sont ceux qui mont apport une contribution scientifique,
logistique ou morale. Que chacun trouve dans laccomplissement de cette thse lexpression de ma
reconnaissance pour sa contribution quelle quelle soit.
Cependant je voudrais exprimer ma gratitude messieurs Gilles Zurflhu et Claude Chrisment, directeurs
de lquipe des Systmes dInformation Gnraliss pour mavoir accueillie. Je remercie tout
particulirement Monsieur Claude Chrisment pour sa patience et sa disponibilit. Il a toujours t l pour
me guider et mencourager avec beaucoup de rigueur. Cest un honneur pour moi davoir travaill avec lui.
Je tiens donc, ici, le remercier particulirement pour sa patience et ses qualits humaines. Il a toujours su
utiliser les mots justes, mcouter dans les moments difficiles et me guider dans mes travaux avec beaucoup
de pdagogie.
Je tiens tout particulirement remercier les professeurs Corine Cauvet et Andr Flory de mavoir fait
lhonneur dtre rapporteurs de ce mmoire.
Jexprime toute ma reconnaissance mon directeur de thse, le professeur Bernard Dousset. Il a su depuis
le dbut de ma thse, tre l aux moments dcisifs. Son optimisme naturel, son humanisme, sa sagesse, son
esprit visionnaire, son sens du consensus, mont permis dvoluer dans un environnement stable et mont
donn des repres prcieux.
Je souhaite remercier vivement mesdames Maryse Salles-Colletis et Josiane Mothe pour leurs
disponibilits, leurs conseils, pour toutes les runions qui ont permis de redonner un deuxime souffle
mes travaux.
Merci Eloise Loubier et Anass Elhaddadi pour avoir gay lambiance du bureau durant nos
collaborations studieuses ou encore autours dun bon caf. Mes penses vont aussi pour tous les membres
de lquipe avec qui jai pu travailler ou encore simplement partager de bons moments.
Pendant ces annes de thse, jai donn galement des cours qui mont permis dacqurir de lexprience,
de prendre du recul par rapport la thse et surtout de rencontrer des gens extraordinaires. Je tiens
remercier Bernard Dousset pour mavoir fait confiance et donn lopportunit denseigner pour la
premire fois. Un merci sans limite Alain Berro et Nathalie Valls pour leur soutien et pour la bonne
ambiance quils ont instaur durant les enseignements de C2i. Je remercie galement David Panzoli pour
son aide pendant ma premire anne dATER.
Toute mon amiti va vers les doctorants, actuels ou anciens, de lquipe et en particulier Dana Kunhkun,
Bouchera Soukkarieh , Ronan Tournier, Dsir Kaompar, Estella Antoni, Nissou,
Je remercie galement les ex-IRIT, Nadhem, Nico, Mehdi, Olfa et Elie pour leur grain de folie.
Je remercie ma famille et mes amis, qui nont jamais cess de me soutenir et de me faire confiance. Merci
tous mes copains, parpills aujourdhui, Asma, Mounia, Farida, Nadge et Syrine pour tous les moments
fous quon a pass ensemble et qui me redonnaient la force de travailler. Un merci infini mes parents, ma
sur et mon frre, et syrine. Rien de ce que je pourrai crire, ni dire ne pourra exprimer ma gratitude.
Merci syrine davoir t l chaque instant, davoir partag mes peines, mon stress, mes joies, mes
espoirs, mes rves, etc. Merci mes parents, ma sur et mon frre, davoir cru en moi, pour mavoir
donn autant damour et avoir tout fait pour me donner les moyens et le courage de mener mes tudes
jusquau bout.
FFF
Introduction gnrale
Contexte de travail
.............................................................................................................................. 19
Problmatiques
.............................................................................................................................. 20
Contributions
.............................................................................................................................. 21
Organisation du mmoire ......................................................................................................................... 23
2.2.2
2.2.3
2.2.1.2
2.2.1.3
2.2.1.4
2.2.1.5
La veille ................................................................................................................................... 37
2.2.2.1
2.2.2.2
2.2.2.3
2.2.2.4
2.3.2
Intelligence collective.............................................................................................................. 51
2.4.2
2.5 Un systme dinformation adapt aux besoins dune dmarche dIE ............................................ 55
2.6 Evaluation des outils dIE ............................................................................................................... 58
2.6.1
2.6.2
2.6.3
2.6.4
2.6.5
Diffusion ................................................................................................................................. 60
2.6.6
Evaluation ............................................................................................................................... 60
Spcifications .......................................................................................................................... 69
3.1.2
3.1.3
3.1.4
3.1.5
3.1.4.1
3.1.4.2
3.3.2
3.5.2
3.5.2.2
3.5.3
3.5.4
3.5.4.2
3.5.4.3
3.5.4.4
3.6.2
3.6.3
3.6.1.2
Association .............................................................................................................................. 92
3.6.2.1
3.6.2.2
Squences ................................................................................................................................ 93
3.6.3.1
3.6.3.2
3.8.2
3.8.2.1
3.8.2.2
Spcification .........................................................................................................................102
4.2.1.1
4.2.1.2
4.2.2
4.2.3
Planification ..........................................................................................................................105
4.2.4
4.2.5
4.2.6
4.2.3.1
4.2.3.2
4.2.4.2
4.2.4.3
4.2.5.2
4.2.5.3
4.2.6.2
4.2.8
4.2.7.2
4.2.7.3
4.3.2
4.3.1.2
4.3.1.3
4.3.1.4
Principe ..................................................................................................................132
4.3.2.2
4.3.3
Principe ..................................................................................................................135
4.3.3.2
4.4.2
4.4.3
Slection .................................................................................................................139
4.4.1.2
Restriction ..............................................................................................................139
4.4.1.3
Seuil ........................................................................................................................140
4.4.1.4
Ordre ......................................................................................................................140
4.4.1.5
Environnement .......................................................................................................140
4.4.1.6
Evolution ................................................................................................................141
4.4.1.7
Document ..............................................................................................................142
Somme ....................................................................................................................142
4.4.2.2
Minimum ...............................................................................................................142
4.4.2.3
Maximum ...............................................................................................................142
4.4.2.4
Comptage ...............................................................................................................142
4.4.2.5
Moyenne .................................................................................................................143
4.4.2.6
Frquence ...............................................................................................................143
4.5.2
4.5.3
4.5.2.2
Objectifs .................................................................................................................148
4.5.3.2
5.2.1.2
5.2.1.3
5.2.2
5.2.3
Objectifs ...............................................................................................................................159
5.3.2
5.5.2
5.5.3
5.5.4
5.5.4.2
5.6.2
Proposition ...........................................................................................................................175
5.6.3
5.6.3.2
Indicateurs ..............................................................................................................176
5.6.4
5.6.5
Structuration .........................................................................................................................178
5.6.6
Homognisation .................................................................................................................179
5.6.7
5.6.8
5.6.9
5.6.7.1
5.6.7.2
5.6.8.2
Introduction gnrale
.........................................................................19
Problmatiques
.........................................................................20
Contributions
.........................................................................21
Organisation du mmoire ......................................................................23
Contexte de travail
Contexte de travail
Avec louverture plus large des frontires, se sont intensifis, lchelle mondiale, les changes de toutes
sortes : capitaux, marchandises, services, technologies, personnes, informations, savoirs, etc. Favorise par
les moyens universels de communication, les interdpendances croissantes des tats dans les domaines
conomique, politique, social, culturel, scientifique et technologique ont transform le monde en un vaste
systme o tout vnement qui survient un point du globe a des rpercutions au point oppos. Dans un
univers de complexit et de comptition, o les flux et les rseaux explosent, le savoir, linformation et la
communication se situent au cur de la gouvernance de toutes les organisations. Ils reprsentent des
atouts stratgiques pour lentreprise comme pour les institutions de ltat et de la socit civile.
En plus de la complexit, la nouvelle socit fonde sur linformation et le savoir se caractrise par le
rythme exponentiel des progrs scientifiques et technologiques. Ceux-ci branlent en permanence les
organisations, y introduisant des changements discontinus, des ruptures, des acclrations soudaines qui
rendent lavenir hautement imprvisible. La masse des informations saccroit inluctablement avec la
capacit de stockage des donnes que permettent les dernires technologies de linformation et de la
connaissance. Le risque pour lentreprise est dtre surinforme, submerge par lacclration des flux
continus de donnes parses et multiformes, sans pouvoir sy retrouver. Le problme est celui de la
navigation dans un ocan dinformations en perptuel mouvement tout en rcuprant linformation utile
la dcision. Il sagit dassembler les pices parses dun puzzle en vue den dcouvrir limage, donc de
reprer et mettre en relation des signaux forts, des signaux faibles, des relations cachs dans la masse des
donnes disponibles et construire progressivement la connaissance de lenvironnement de lorganisation.
La matrise de lavenir dune entreprise est conditionne par sa capacit collecter, interprter, protger,
diffuser et utiliser linformation des fins stratgiques. Cest cette union entre linformation et la stratgie
qui est au centre de la notion dIntelligence Economique (IE). Ainsi que le dcrivent Christian Marcon et
Nicolas Moinet : Quil sagisse de surveiller son champ concurrentiel, de protger ses informations
stratgiques, de capitaliser ses connaissances ou dinfluencer son environnement, la question est bien celle
de lutilisation stratgique de linformation [Marcon, 2006]. LIE intgre ainsi la notion dintelligence
collective parce quelle fait travailler en rseau les divers acteurs concerns par chacune des tapes, de la
collecte lutilisation de linformation, faisant converger leurs activits dans une mme vision stratgique.
En ce sens, le vocable "systme d'intelligence conomique" dsigne l'ensemble coordonn des pratiques et
des stratgies d'utilisation de l'information utile dployes par une organisation [Martre, 1994]. A lchelle
de ltat, le systme dIE se dfinit par la coordination et lharmonisation, aux diffrents niveaux du pays,
de la gouvernance et de la gestion stratgique de linformation des diverses organisations qui sy activent.
Dans le contexte actuel, toute organisation doit voluer et sadapter trs vite aux changements de son
environnement. Lentreprise qui est en intelligence avec son environnement prend lavantage sur ses
concurrents qui le sont moins. En ce sens, elle doit surveiller les indicateurs de bonne sant leur niveau
interne et externe (march) pour dtecter les crises et les dfaillances ou les opportunits du systme. Do
le problme majeur de la maitrise et de la qualit de linformation. Linformation est devenue un actif
extrmement riche et complexe sur lequel se fondent les dcisions et laudit. Si cet actif nest pas soumis
des rgles visant augmenter sa fiabilit et sa traabilit, alors lopacit des prises de risques, quel que soit
le secteur dactivit, ne fera que crotre et les crises se succderont.
La mise en place dun systme dinformation dIE reprsente, pour lorganisation, la rponse indispensable
aux dfis dun environnement mondialis, de plus en plus complexe et imprvisible. Les systmes
dinformation pour laide la dcision vont permettre lentreprise dtre non seulement ractive mais
aussi proactive. Ractive, celle-ci visera sadapter avec davantage de clrit que ses concurrentes aux
changements de son environnement. Proactive, elle cherchera adopter une attitude anticipatrice, mieux
apprhender le sens de la dynamique de lenvironnement. Elle identifiera les menaces actuelles ou
potentielles pour sen prmunir ainsi que les opportunits saisir.
Problmatiques
La dmarche dIE permet de fournir lentreprise, ou dans un sens plus large lorganisation, une
comprhension fine de son environnement, travers les informations internes et externes auxquelles elle a
accs. Cette comprhension de lenvironnement est destine aider les dcideurs dans leurs choix de
stratgies que ce soit court, moyen ou long terme.
Dans ce contexte, une grande part de linformation porte stratgique prend souvent une forme
relationnelle : liens entre acteurs du domaine, rseaux smantiques, alliances, fusions, acquisitions,
collaborations, cooccurrences de tout ordre. La pertinence des connaissances extraites, partir des donnes
disponible, dpend trs souvent de la prise en compte de lvolution des donnes mais aussi de celles de
leurs interactions. La gestion et la mise disposition des informations et des connaissances extraites,
peuvent tre ralises au moyen dun systme dinformation. Cet outil, permet aux dcideurs davoir une
vision globale sur les activits dune entreprise par un accs rapide et interactif un ensemble de vues des
donnes organises. Ces vues permettent de reflter laspect multidimensionnel de lenvironnement de
lentreprise [Colliat, 1996].
En se basant sur le constat de la trs forte implication du relationnel dans la prospective, nos travaux se
situent linterface de ces deux domaines, afin dlaborer un modle danalyse multidimensionnel
permettant la comprhension des activits humaines, de leurs interactions mais aussi de leur volution,
dans une perspective dcisionnelle. Son intrt rside dans sa capacit :
prendre en compte les diffrentes informations disponibles sous toutes leurs dimensions,
orient spcifiquement vers lanalyse stratgique. Le systme dinformation vis doit pouvoir homogniser
avec la bonne granularit et dduire de faon automatique des informations synthtiques caractre
stratgique partir de bases de donnes ouvertes, en rapport avec lenvironnement dune organisation.
Contributions
Contribution s
Dans notre dmarche, nous avons recours aux techniques dextraction de connaissances partir de corpus
textuels pour tudier, dans un contexte dIE, des donnes relationnelles volutives issues de
lenvironnement informationnel dune entreprise.
Cette thse a t soutenue par lquipe des Systmes dInformations Gnraliss (SIG), plus
particulirement les membres de lquipe dExploration et de Visualisation dInformation (EVI) de
lInstitut de Recherche en Informatique de Toulouse (IRIT).
Les domaines abords dans le cadre de nos travaux concernent lIE et la veille stratgique, la fouille de
texte, lextraction de connaissance, la bibliomtrie, les systmes dinformation.
Notre dmarche cible lanalyse des informations relationnelles volutives reposant sur un systme
dinformation adapt aux besoins de lutilisateur voulant effectuer une analyse stratgique dun domaine
spcifique dans un contexte dIE.
Le systme dinformation vis repose sur un modle danalyse exploratoire multidimensionnelle, bas sur
des mthodes dextraction, dhomognisation, de croisement et dexploration des donnes textuelles.
Nous dfinissons, pour cela, un modle gnrique de cration et de gestion de connaissances aliment par
les sources lectroniques textuelles ouvertes quelles soient structures ou semi structures. Ce type de
donnes est le plus riche puisquil concerne 80% des informations servant de rfrentiel aux dcisions.
Palliant la lourdeur et linadaptation aux besoins de lIE des systmes dinformations actuels, qui traitent ce
type de donnes, notre modle va permettre lentreprise dtre plus comptitive grce une meilleure
maitrise de linformation sur son environnement et sur la dynamique de celui-ci.
Le modle propos va couvrir les diffrentes tapes de traitement, danalyse et de visualisation des donnes.
Lapproche adapte consiste appliquer les techniques bibliomtriques la dmarche dIE. Lobjet
principal de la bibliomtrie consiste analyser, laide de mthodes statistiques et mathmatiques, un
corpus documentaire, afin den extraire des relations significatives entre ses divers lments. Elle a aussi
pour objet dtudier les livres ou revues scientifiques quant leur usage et leur production. Dans un
premier temps, la bibliomtrie tait destine rpondre des besoins purement documentaires. Dans un
second temps, les sociologues ont utiliss ces techniques statistiques pour comprendre les phnomnes de
la connaissance scientifique. Et ce nest qu partir des annes 80 que les techniques bibliomtriques ont
commences avoir des retombes au niveau industriel par ladaptation de ces techniques notamment aux
bases de brevets.
Lapplication des techniques bibliomtriques dans une dmarche dIE permet de dgager des indicateurs
de tendances partir de notices bibliographiques darticles scientifiques ou de brevets. Ces indicateurs vont
offrir aux dcideurs une vision synthtique de lenvironnement dun domaine donn en refltant l'autoorganisation de ses communauts, de ses rseaux de publications, de ses acteurs, etc.
Nous dfinissons deux classes dindicateurs :
Des indicateurs uni-varis permettant des comparaisons quantitatives entre des ensembles de
publications caractriss,
Des indicateurs relationnels destins cartographier, de faon fige ou volutive, les domaines
couverts par des ensembles de publications.
Le modle danalyse exploratoire multidimensionnelle propos sappuie sur deux principaux modles :
Dautre part, dans le contexte de veille stratgique, Ttralogie [Dousset, 2003] est un outil
particulirement bien adapt aux analyses macroscopiques car il permet de dgager les signaux forts, les
signaux faibles et les tendances partir d'un corpus de documents collects sur un sujet prcis.
L'information labore, qui en est issue, reprsente une synthse obtenue par diverses mthodes danalyse
de donnes et diffuse via des visualisations graphiques. Mais l'issue des trs nombreuses analyses
stratgiques que nous avons dj ralis avec ce logiciel, il est apparu que les utilisateurs finaux des analyses
produites veulent, en complment de l'aspect global et stratgique (connaissances gnrales), des zooms
plus prcis sur certains points et ce afin de satisfaire leurs besoins spcifiques (connaissances cibles)
d'information sur des lments qu'ils ont dj identifis (concurrence, marchs, nouveaux produits ou
procds, partenaires potentiels, etc.) ou afin den dcouvrir dautres. A posteriori, de nombreux experts ou
dcideurs sont demandeurs de plus de dtails dans sur les lments traditionnels de leur environnement.
Notamment, pour tout ce qui concerne leur vocabulaire spcifique, les acteurs qu'ils ctoient, les marchs
qu'ils convoitent, les alliances qu'ils projettent.
Nous proposons donc de continuer valider le modle propos et de complter les analyses
macroscopiques par un systme de navigation en ligne au cur de l'information relationnelle obtenue par
des recoupements statistiques, des classifications ou des analyses multidimensionnelles. Le but tant de
privilgier l'extraction d'information en fonction du contexte gnral et non exclusivement par dcryptage
du contenu de quelques documents pris sparment. Il devient ainsi possible de retrouver, partir d'un
lment connu (acteur, mot cl), toute ou partie de l'information qui lui est connexe (quipes,
collaborations, concepts, mergences, mots associs, etc.) et ce par l'utilisation de nombreux oprateurs
d'association ou de filtrage et de fonctions de reporting pertinentes.
Ce prototype est destin restituer les rsultats dune tude stratgique. Nous avons privilgi diffrents
niveaux, synthtiques, cartographiques, reprsentant les principaux thmes et acteurs. Le dcideur
constitue ses propres filtres de sorte que ses modes de lecture puissent rpondre des questions aussi bien
dordre stratgique que tactique ou oprationnel, etc.
Le prototype dvelopp permet d'effectuer des analyses stratgiques sur des corpus d'information textuelle
issus des sources les plus diverses comme les bases en ligne (publications scientifiques, brevets, portails,
annuaires), les Cd, le Web visible et invisible, les news, la presse, les traces de connexions aux sites, les
bases internes, et donne la possibilit aux dcideurs de mener par eux mme leurs investigations sans la
participation dun analyste confirm ou dun expert.
Ses applications sont trs diverses :
facteur temps est pris en compte (volution des rseaux), une vision prospective se dgage aisment
(tendances, trajectoires des acteurs, type dvolution, ruptures technologiques, etc.).
Organisation du mmoire
m moire
Ce mmoire est compos de quatre chapitres, ordonns selon notre dmarche d'analyse, comme le montre
la Figure 1.
Les deux premiers chapitres dcrivent l'existant dans le domaine dIE et de la dcouverte de connaissance.
Notre contribution porte sur la proposition dun modle danalyse exploratoire multidimensionnelle dans
un contexte dIE.
Le dernier chapitre prsente limplantation et les exprimentations effectues pour valider notre modle.
Chapitre 1
Intelligence Economique
Chapitre 2
La dcouverte de connaissance
Analyse stratgique,
Veille stratgique,
Processus et modles dIE,
Systme dinformation dIE.
Processus de lECBD,
Structure de document,
Techniques de la Fouille de Texte,
Plateforme Ttralogie.
Chapitre 3
Proposition dun modle danalyse multidimensionnel
Indicateurs uni-varis
Indicateurs relationnels
Processus danalyse exploratoire multidimensionnelle
Modle de reprsentation multidimensionnelle des
documents
Modle deux dimensions
Modle trois dimensions
Modle de calcul dindicateurs
Chapitre 4
Implantation & Validation
Architecture du prototype Xplor,
Fonctionnalits,
Exprimentation,
Validation.
Lobjectif du premier chapitre est de prsenter le contexte gnral de nos travaux. Au cours de ce chapitre,
nous prsentons les origines et lvolution du concept dIE ainsi que ses objectifs et ses diffrents besoins.
LIE va permettre aux entreprises une organisation structurelle et informationnelle pour faire face aux
nouveaux dfis (menaces et opportunits) de la mondialisation. Cette dmarche offre une nouvelle vision
de lorganisation de lentreprise qui est principalement orient vers une organisation base sur la maitrise
de linformation. Les besoins de la dmarche dIE sont centrs vers la connaissance de lenvironnement de
lentreprise dans un contexte dcisionnel. Nous identifions le processus dIE travers les diffrentes tapes
de la dmarche et les diffrents niveaux dvolution de linformation vers la connaissance et lintelligence
ainsi que les acteurs impliqus. Nous nous intressons aussi comment rorienter les systmes
dinformations vers une meilleure maitrise des connaissances et une meilleure circulation des informations
aussi bien au niveau interne et quexterne. Au cours de ce chapitre, nous prsentons une valuation des
diffrents outils dIE utiliss par les entreprises. Cette valuation est base sur un ensemble de critres,
dfinis sous forme de fonctionnalits, que les outils dIE doivent satisfaire.
Afin de rpondre aux besoins danalyse, nous proposons de coupler les besoins des tapes du processus dIE
avec les principes et techniques issues du domaine de la dcouverte des connaissances partir du texte.
Dans ce contexte, nous prsentons, dans le chapitre 2 de ce manuscrit, le domaine de la dcouverte des
connaissances et les techniques de la Fouille de Texte.
Nos travaux vont ds lors consister dfinir un modle de traitement et de gestion des donnes dans le
contexte du processus dIE en y intgrant deux dimensions incontournables que sont le relationnelle et le
temporelle. Ainsi notre modle danalyse multidimensionnelle, va se baser sur les quatre principales tapes
du processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse,
La restitution et interprtation des rsultats . Dont lobjectif principal est la cration de nouvelles
connaissances souvent totalement implicites et vise stratgique, qui se dduisent le plus souvent de
lanalyse de lvolution des rseaux dacteurs (auteurs, inventeurs, socits, villes, rgions, pays, journaux,
etc.), des rseaux smantiques (mots-cls, free-terms, multi-termes, ontologies, etc.) et des interactions
(acteur smantique).
Dans le troisime chapitre, nous prsentons le modle danalyse exploratoire multidimensionnelle Xplor
bas sur la prise en compte de laspect temporel au sein de lanalyse. Il repose sur lextraction des
connaissances partir des donnes textuelles par lanalyse des donnes relationnelles volutives.
Le modle danalyse exploratoire multidimensionnelle propos sappuie sur deux principaux modles :
.....................................................................................................................................27
1.1 Introduction
1.2 Intelligence conomique : gense, volution et lucidation........................................................................ 28
1.2.1
1.2.2
1.2.3
1.3
Analyse stratgique........................................................................................................................... 32
1.2.1.1
1.2.1.2
1.2.1.3
1.2.1.4
1.2.1.5
La veille ........................................................................................................................................... 37
1.2.2.1
1.2.2.2
1.2.2.3
1.2.2.4
1.3.1
1.3.2
1.4
1.4.1
1.4.2
1.5
1.6
1.6.1
1.6.2
1.6.3
1.6.4
1.6.5
Diffusion ......................................................................................................................................... 60
1.6.6
Evaluation ....................................................................................................................................... 60
1.7
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
1.1 Introduction
A linstar de la constellation des autres notions qui lui sont associes (celles de gouvernance, veille
technologique, intelligence collectives, etc.), lIntelligence conomique (IE) est apparue au fil des
transformations sociales, induites par le processus de globalisation de lconomie de march et par le
dveloppement spectaculaire des technologies de linformation et de la communication (TIC). Laube du
XXI sicle marque, en effet, un changement dre pour lhumanit, le passage de la socit industrielle la
nouvelle socit de linformation et de la connaissance. Ce passage dmontre aujourd'hui que la richesse la
plus importante nest plus matrielle, ni physique. Elle est dsormais fonde sur limmatriel et conduite
par le savoir [Pinte, 2006].
Au-del, la comptitivit et linnovation sont devenues les clefs de voute pour toute organisation
ambitionnant la russite et la maitrise de sa prennit. La nouvelle comptitivit des organisations se fonde
de plus en plus sur leur capacit valoriser les savoirs externes et revaloriser leurs savoirs internes en vue
de produire, de manire continue, des innovations de produits et de procds. En consquence, pour
maintenir la comptitivit dans cette conomie mondialise, les organisations doivent relever
imprativement le dfi de linnovation. Dans ce contexte, le contrle de linformation stratgique et sa
transformation en savoir et savoirfaire constituent un impratif majeur pour lentreprise [Julien, 2003].
Ce qui rend incontournable le fait pour les organisations de disposer dun mcanisme de dtection des
tendances et enjeux de lvolution de leur environnement [Jacob, 2000]. LIE permet datteindre cet
objectif.
En effet, la mise en uvre dune dmarche dIE offre aux organisations lopportunit de capitaliser leurs
connaissances, sur leurs environnements interne et externe, et de dcupler leurs capacits dapprentissage.
Des outils, tels que la veille ou laudit, permettent doptimiser au mieux leurs processus dinnovation, de
recherche et dveloppement, afin daccder rapidement aux marchs cibls et de choisir judicieusement
partenaires et sources de financement. Linformation sous toutes ses formes est devenue une matire
premire indispensable pour assurer la survie, le pilotage, le dveloppement et la comptitivit pour une
entreprise, une communaut, un territoire ou une Nation. La matrise de lavenir dune organisation est
alors conditionne par sa capacit collecter, interprter, protger, diffuser et utiliser linformation des
fins dcisionnelles. La gestion stratgique de l'information est devenue l'un des moteurs essentiels de la
performance globale des organisations [Martre, 1994].
Dsormais, la conduite de lanalyse stratgique repose sur la capacit des organisations accder aux
informations valeur ajoute pour mieux anticiper les volutions et les tactiques des concurrents. Cest
cette union entre linformation et la stratgie qui caractrise la notion dIE.
Dautre part, lentre dans la socit de la connaissance reprsente pour beaucoup une plonge dans un
ocan dinformation. Les organisations sont presque satures par linformation. Lessor des technologies
connexes, avec lavnement dinternet et des rseaux, a accru les volumes disponibles. Les organisations se
heurtent aux problmatiques lies la gestion et lexploitation de ces ressources dans un but de cration de
connaissance. Les systmes dinformation permettent aux organisations de rpondre ces problmatiques.
En effet, un systme dinformation peut tre considr comme un ensemble de ressources humaines (le
personnel), de ressources matrielles et de procdures et mthodes permettant dacqurir, de stocker, de
traiter et de diffuser les informations caractres stratgiques au sein dune organisation.
Le systme dinformation se trouve alors au cur de la dmarche dIE, par ses fonctions de stockage,
danalyse, de traitement et de diffusion des donnes. Il ne sagit plus aujourdhui simplement de brasser
linformation sur internet, mais plutt dintgrer cette dernire dans des savoirs, des savoirs dans des
connaissances et des connaissances dans des cultures [Mass, 2000].
Ce premier chapitre vise un double objectif :
27
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le premier consiste offrir une vision synthtique des pratiques de la dmarche dIE en tant que
matrise de l'information stratgique pour une entreprise, ou plus largement une organisation,
dans un but de gestion et de cration de connaissance.
Le second objectif est de dgager une vision gnrale des systmes dinformations sur lesquelles
pourra sappuyer une telle dmarche.
Ce chapitre est organis en cinq sections. Dans la premire section (1.2) nous dfinissons tout dabord les
fondements de la dmarche dIE savoir lanalyse stratgique, la veille et les systmes dinformation. Cette
section va permettre de les identifier et mettre en avant le rle de chacun. Dans la seconde section (1.3),
nous proposons une dfinition de la dmarche dIE selon un processus coordonnant lensemble de ses
fondements. Nous dtaillerons, dans cette section, les diffrents niveaux dvolution des donnes vers les
connaissances et les rseaux dacteurs qui constituent lintelligence collective de la dmarche. Dans la
troisime section (1.4), nous prsentons deux modles danalyses dans un contexte dIE. Ces derniers sont
issus des principaux travaux de recherches universitaires franais. Cest trois premires sections vont donc
exprimer notre vision de la dmarche dIE dans le cadre de nos travaux.
La quatrime section (1.5) de ce chapitre a pour objectif didentifier les caractristiques des systmes
dinformation permettant de supporter et rpondre aux besoins de la dmarche dIE. La cinquime section
(1.6) consiste dgager une reprsentation synthtique des principaux outils dIE utiliss dans le monde
industriel. Enfin, nous concluons ce chapitre par une synthse sur le contexte gnral de nos travaux.
1
Thucydide, homme politique et historien athnien, auteur de lHistoire de la guerre du Ploponnse, qui retrace
lorigine du conflit en sattachant rechercher les causes derrires les faits.
2
Machiavel, est un penseur italien de la Renaissance, thoricien de la politique, de l'histoire et de la guerre. Il montra
dans son ouvrage prince comment manipuler les opinions et en utilisant la force te la ruse, il tait possible de se faire
aimer par la foule.
28
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Une tude des origines du concept dIE montre quil relve dune construction complexe. En effet,
lmergence du concept et sa comprhension font appel de multiples champs scientifiques. Il se rattache
aux sciences de la sociologie des organisations, sciences politiques, sciences de linformation, technologies
de linformation et de la communication et aux sciences de gestion de linformation et des connaissances.
LIE est alors un champ de recherche extrmement vaste et prometteur.
La jeunesse du concept et linstabilit des connaissances, tant thoriques que pratiques, des terminologies
expliquent le caractre polysmique de lIE. Au problme de divergence dauteurs, sajoute celui de la
traduction des expressions anglo-saxonnes en leurs quivalents francophones. En effet, le terme
d Intelligence prsente un double sens. Selon la signification anglo-saxonne, Intelligence signifie
recherche dinformations ou activit de renseignement. On parle ainsi d Intelligence service , rseau
constitu par les spcialistes du renseignement des fins militaires ou conomiques. Mais l Intelligence
cest aussi la capacit pour une entreprise danticiper les changements, de sadapter, dtre capable de
rpondre rapidement aux sollicitations qui lui sont faites. Selon Larousse, l Intelligence est :
La facult de comprendre, de donner un sens ; laptitude sadapter une situation, choisir en fonction
des circonstances ; la capacit comprendre telle ou telle chose ; laptitude rsoudre des problmes
[Larousse, 2004].
Lintelligence de lentreprise sous entend la mise en uvre et lutilisation dun Systme nerveux constitu
de rseaux de communication interdpendants qui la rendent plus ractive, mieux informe et en
dfinitive plus comptitive [Mass, 2000]. La gestion de cette forme dintelligence, quil sagisse de la
collecte dinformations ou de la gestion des connaissances est ainsi devenue un des lments stratgiques de
la vie dune entreprise moderne. Lintelligence est alors la facult de sinformer et de comprendre son
environnement. Si la stratgie militaire est l'art de diriger les moyens en vue de la victoire, la stratgie
conomique pour une entreprise doit tre l'art de diriger les moyens dont elle dispose en vue d'assurer sa
russite. Pour diriger, il faut :
Aprs avoir cern, dans un premier temps, la notion d Intelligence , il convient dans un second temps
dapprocher les contours de lIE en indiquant ce quil convient den exclure et ce quil convient dy inclure.
Pour Leonard M. Fuld3, lIE ne doit pas tre substitue :
De lespionnage, ce qui implique des activits illgales alors que lIE est une dmarche qui se base
sur des donnes disponibles lgalement.
Une boule de cristal ou une science exacte prdisant lavenir dune entreprise. Or lIE vise
dtecter les menaces et les opportunits issues de son environnement.
Une activit de recherche sur les bases de donnes, les bases de donnes noffrent rien dautre que des
donnes. LIE consiste analyser ces donnes afin doffrir une meilleure vision du march et des
concurrents de lentreprise.
De la recherche sur Internet ou la chasse aux rumeurs, Internet est avant tout un moyen de
communication et non un fournisseur dintelligence. Les donnes sont brutes et ne peuvent tre
interprtes quaprs avoir t analyses.
Le travail dune personne, une personne seule ne peut accomplir toute lactivit dIE. Au mieux,
elle coordonne lensemble de lactivit. La dmarche dIE se base sur un rseau dacteurs interne et
Prsident du cabinet FULD & COMPAGNY. Source : www.fuld.com (accs le 15 fvrier 2009)
29
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
parfois externe lentreprise qui coordonne les actions de traitement, danalyse et de diffusion des
informations utiles.
Une invention du vingtime sicle, lIE a toujours existe. Son apparition dans les entreprises date
du dbut des annes 80 aux Etats Unis. Mais le concept existait auparavant, surtout dans le
domaine militaire.
Un travail fait par des logiciels, on ne peut rduire lIE la simple utilisation des logiciels. Ils sont
les outils au cur de la dmarche mais ils ne peuvent remplacer lexpertise des intervenants.
La notion dIE est alors une notion aux frontires peu stables. En effet, ces dernires annes ont vu les
dfinitions de lIE se multiplier et voluer. Le rapport du Commissariat gnral du plan Intelligence
conomique et stratgie des entreprises , document de rfrence, donne lIE une dimension nationale
globale qui dpasse les frontires de l'entreprise. Il a t conu comme un ensemble de repres sur lequel
repose le socle thorique de lIE en France. Selon le rapport [Martre, 1994]:
Lintelligence conomique peut tre dfinie comme l'ensemble des actions coordonnes de recherche, de traitement et
de distribution, en vue de son exploitation, de l'information utile aux acteurs conomiques. Ces diverses actions sont
menes lgalement avec toutes les garanties de protection ncessaires la prservation du patrimoine de l'entreprise,
dans les meilleures conditions de dlais et de cots. Linformation utile est celle dont ont besoin les diffrents niveaux
de dcision de lentreprise ou de la collectivit, pour laborer et mettre en uvre de faon cohrente la stratgie et les
tactiques ncessaires latteinte des objectifs dfinis par lentreprise dans le but d'amliorer sa position dans son
environnement concurrentiel. Ces actions, au sein de l'entreprise, sordonnent autour dun cycle ininterrompu,
gnrateur dune vision partage des objectifs de l'entreprise.
LIE dcoule dune intention stratgique et fait interagir lensemble des acteurs conomique dune
entreprise, une communaut, un territoire, nationaux, transnationaux, tats. Cette dfinition permet de
dgager une vision globale des environnements dactions dans lesquelles lIE doit merger. La coordination
de ces actions offre en particulier lentreprise une visibilit sur ses diffrentes relations avec son
environnement par une observation permanente des comportements de leurs concurrents et des ralits des
marchs. La prise en compte de ces actions au niveau de llaboration des stratgies va permettre aux
entreprises de maitriser leurs positions concurrentielles.
La dfinition officielle du rapport Martre nest donc pas trs loigne de celle de Wilensky. Elle y ajoute la
notion de coordination, au sens le plus large (entre divisions, entre entreprises, entre acteurs de diffrents
niveaux : entreprises et collectivits locales), qui sera dveloppe dans les travaux de [Colletis, 2007].
Avec lavancement des travaux de recherche, une nouvelle gnration de dfinitions a merg au cours des
annes 2000, en favorisant une approche pluridisciplinaire dans la perspective dune conomie fonde sur
la connaissance. De dfinitions quasi exclusivement centres sur la description des processus et des
techniques de lIE, elles sont passes des dfinitions incluant des objectifs stratgiques puis, depuis peu
des dfinitions incluant les fonctions de gestion des connaissances, dapprentissage collectif et de
coopration [Salles, 2000]. Cette vision valorise lintelligence en rseau en passant dune entreprise
hirarchise, isole face son environnement, lentreprise rseau insre dans son environnement. Nous
retrouvons travers ces diffrentes dfinitions, un ensemble de fonctions qui sont associes la notion
dIE, nous les rsumons dans le Tableau 1.
30
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Fonctions
Auteurs
Le concept dIE est aujourdhui sorti de sa phase dmergence mais, nanmoins, Il est encore ncessaire de
produire un cadre rfrentiel sappuyant sur une rflexion pluridisciplinaire [Favier, 1998], [Larivet,
2001], [Alabdulsalam, 2006]. Dans le cadre de nos travaux, nous coordonnons la dmarche dIE autour
des trois concepts savoir analyse stratgique, veille et systme dinformation. La Figure 2 reprsente un
plan qui illustre la coordination de ces trois concepts, ce qui permet davoir un point de vue global de ces
trois concepts, qui constituent chacun une partie de cette section :
Analyse stratgique
Veille
Systme d
d information
Figure 2: Coordination des concepts lis lIE.
Lanalyse stratgique (1.2.1) permet de dgager les besoins informationnels de lentreprise, portant
sur son environnement, en vue de diminuer lincertitude et de faciliter la prise de dcision,
La veille (1.2.2) va guider et piloter le processus de collecte, traitement, analyse et diffusion des
informations afin de rpondre aux besoins informationnels exprims,
Le systme dinformation (1.2.3) sert de support aux diffrentes actions, allant de la collecte
jusqu lanalyse et la diffusion.
31
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Les activits spcifiques de l'entreprise, c'est--dire les couples marchs / produits ou les tripls
produits / marchs / technologies sur lesquels l'entreprise concentrera ses efforts. Elle consiste
donc dfinir le portefeuille d'activit de l'entreprise qu'il convient d'quilibrer en terme de
rentabilit, de risque et de perspective de dveloppement.
Les choix stratgiques doivent tre guids par la recherche de synergie entre les activits de l'entreprise.
Lanalyse stratgique est un processus de rflexion qui travers ltude de lenvironnement et notamment
de la concurrence, de la position concurrentielle dune entreprise travers son portefeuille stratgique,
permet didentifier les itinraires qui autorisent une entreprise passer, de la position concurrentielle
prvisible terme, la position voulue par ses dirigeants [Garibaldi, 2001].
Lanalyse stratgique intgre les diverses caractristiques informationnelles et organisationnelles de
lentreprise et de son environnement. Llaboration des stratgies dune entreprise va se baser
essentiellement sur la prise en compte de ses interactions avec son environnement.
La conception de lenvironnement dans la pense stratgique peut varier, do cette rapide typologie qui va
permettre didentifier les principaux modles danalyse stratgique :
32
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Un diagnostic externe, qui identifie les opportunits et les menaces prsentes dans
l'environnement. Celles ci peuvent tre dtermines l'aide d'une srie de modles d'analyse
stratgique, tel que lanalyse par les forces concurrentielles de Michael Porter (section 1.2.1.2). Il
peut s'agir par exemple de l'irruption de nouveaux concurrents, de l'apparition d'une nouvelle
technologie, de l'mergence d'une nouvelle rglementation, de l'ouverture de nouveaux marchs,
etc.
Un diagnostic interne, qui identifie les forces et les faiblesses du domaine d'activit stratgique.
Celles-ci peuvent tre dtermines l'aide d'une srie de modles d'analyse stratgique, tels que
Benchmarking. Il peut s'agir par exemple du portefeuille technologique, du niveau de notorit,
de la prsence gographique, du rseau de partenaires, de la structure de gouvernement
d'entreprise, etc.
Lanalyse SWOT permet de dterminer si la combinaison des forces et des faiblesses de lorganisation est
mme de faire face aux volutions de lenvironnement, ou sil est possible didentifier ou de crer de
nouvelles opportunits qui permettraient de mieux tirer profit des ressources uniques ou des comptences
fondamentales de lorganisation.
C'est la confrontation entre les rsultats du diagnostic externe et ceux du diagnostic interne qui permet de
formuler des options stratgiques. Cette formulation d'options stratgiques constitue l'intrt de l'analyse
SWOT. Elle est conditionne de quatre critres savoir Forces/ opportunits, Forces/ Menaces, Faiblesses/
Opportunits, Faiblesses/ Menaces.
Forces/ Opportunits : consiste identifier les forts axes de comptences de lentreprise pour dfinir
de nouvelles opportunits extrieures pour la ralisation de la stratgie,
Forces/ Menaces : dfinie et assemble les savoir-faire interne lentreprise pour affronter les
menaces extrieures,
Faiblesses/ Opportunits : permet de rvler les faiblesses interne dune entreprise et dexploiter les
opportunits externes afin damliorer ses points faibles,
Faiblesses/ Menaces : elle permet de dfinir une stratgie pour une entreprise consciente de ses
faiblesses afin de se protger des menaces extrieures.
La matrice SWOT n'apporte cependant une aide pertinente que dans la mesure o les questions initiales
sont convenablement poses, que l'on puisse y rpondre, et que l'on a bien analys chaque domaine en
termes de performance mais aussi d'importance.
Nous dcrivons dans la Figure 3, lanalyse stratgique selon le modle SWOT.
33
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Buts
Diagnostic
Opportunits
Forces
Environnement
Entreprise
Menaces
Faiblesses
Choix stratgique
Domaines d
d activits
Plan d
dactions
Objectifs
Ce modle lavantage dtre attractif en raison de sa logique cartsienne. Il peut sappliquer une
situation simple en permettant lextraction dinformations quantifies. Il permet surtout en situation
complexe de concevoir une schmatisation rapide, claire et prcise dune ralit [Magakian, 2003].
L'environnement est vu comme une entit faite de menaces et d'opportunits que l'on dtecte partir de
faits et d'observations quantifies (bilans, parts de marchs, etc.) et auquel fait face l'entreprise [Favier,
1998].
Le pouvoir de ngociation des clients et des fournisseurs, le pouvoir de chaque client et fournisseur
dpend dun nombre de caractristiques du march et de limportance relative des ventes et des
achats pour lindustrie et lactivit en gnral.
La menace d'entrants potentiels, sexplique par le fait que les nouveaux entrants apportent de
nouvelles capacits, le dsir de conqurir des parts de marchs et de crer une nouvelle
concurrence.
L'objectif de ce modle est d'identifier les facteurs cls de succs de l'environnement, c'est--dire les
lments stratgiques qu'il convient de matriser afin d'obtenir un avantage concurrentiel. Pour cela, il est
34
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
ncessaire de hirarchiser les 5 forces, afin de dterminer quelles actions stratgiques doivent tre menes
en priorit. C'est ce modle de la stratgie qui a servi de rfrence ceux [Martinet, 1989] qui ont
introduit la notion de "veille" en France.
Dans la Figure 4, nous dcrivons les interactions entre les diffrentes caractristiques du modle PORTER.
Entrants potentiels
Concurrents
Clients
Rivalits
Fournisseurs
Substituts
Son environnement et son contexte pour dgager une vision claire de la dcision,
imaginer les diffrents scnarios ou solutions possibles associs au problme pos, et les analyser,
Les problmes dcisionnels poss aux dcideurs diffrents niveaux de lentreprise peuvent selon Simon, se
catgoriser en problmes structurs ou programms. Le modle Simon propose une apprhension de ces
problmes en trois tapes :
35
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le choix, renvoie au choix de la solution retenue. Ce choix se fera sur des critres de satisfaction et
non plus sur loptimisation de la solution.
Deux phases supplmentaires Action et Evaluation ont t proposes par Maryse Salles [Salles, 1998], qui
permettent la confrontation de laction avec ses rsultats qui peut amener le dcideur revoir son
processus.
Ces phases ne se droulent pas de faon squentielle, elles font lobjet de retours en arrire, dajustements,
de corrections, de reprises de rsultats antrieurs.
Ainsi nous prsentons dans la Figure 5 les diffrentes tapes du processus IDC.
Intelligence
Conception
Choix
Actions
Validation
Ce processus permet dtudier, pour un problme dcisionnel, son environnement et son contexte pour
dgager une vision claire de la dcision, dimaginer les diffrents scenarios ou solutions possibles associ au
problme pos, et de les analyser afin de choisir le scenario le mieux adapter la situation. Il attire
lattention sur la ncessit dune prvision partielle des solutions et dune comprhension globale de
lenvironnement. La phase de transition entre ltape intelligence et Conception , est fondamentale
dans le modle Simon.
Lanalyse de Simon dfinit le rle de lactivit de renseignement dans la prise de dcision stratgique alors
que lanalyse prcdente (lanalyse concurrentielle) faisait du renseignement un simple instrument au
service de la stratgie.
Pour Salles [Salles, 2003], le modle IDC reste encore aujourdhui une rfrence, notamment dans le
domaine de la conception de systme dinformation daide la dcision. Il est particulirement adapt aux
types de dcisions prioritairement vises par lIE (dcision stratgiques, et tactiques), et leur contexte
informationnel.
36
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
alliances, des fusions, et dacquisitions, accentue la difficult de dcryptage de lenvironnement. Cette
volution influence le processus dacquisition dinformations et, en consquence, le mcanisme
dcisionnel. En effet, la comptitivit dune entreprise, et donc sa prennit, dpend de plus en plus
troitement de sa capacit dadaptation et de sa vitesse de raction. Il faut savoir la bonne information au
bon moment. Cette adaptabilit exige lanticipation travers la surveillance systmatique et rationalise de
lenvironnement global (on parle ds lors de veille stratgique). Il faut considrer lenvironnement comme
une variable stratgique en permanente reconfiguration et sur laquelle lentreprise peut agir, voire mme le
transformer, via la matrise de linformation. Or, cest la fonction mme de lIE que de traiter les
informations et de crer de la connaissance efficace.
Ainsi la dmarche dIE travers le prisme de lanalyse stratgique permet aux entreprises de mieux cerner
les contraintes sexerant sur les diffrents domaines caractrisant leur environnement. Do la ncessit de
la mise en place dun systme dinformation orient sur lenvironnement concurrentiel afin dassurer
lentreprise, en temps voulu, une information pertinente sur:
Ses principaux concurrents, leurs allis, dterminer la manire dont ils peuvent affecter les intrts
courants de lentreprise,
Le but de nos travaux est de dtecter les diffrentes relations caractrisant lenvironnement de lentreprise.
Il faut donc d'abord comprendre les mcanismes de formation et d'volution de ces rseaux. La
connaissance tout instant de lenvironnement dune entreprise et lanalyse de sa dynamique devrait aussi
permettre lentreprise dadapter sa stratgie de manire contrler sa position dans le rseau [Gay, 2006].
1.2.2 L a veille
La veille merge en France la fin des annes 80, au carrefour du concept de vigilance [Oury, 1983] et des
thories de la comptitivit [Buigues, 1985], [Porter, 1986] qui sinscrivent dans une volution radicale
des thories du management, portes par le courant des mutations technologiques [Morin, 1985]. La veille
est donc un concept import des Etats-Unis o elle merge du modle de renseignement amricain. Elle se
rfre en France la notion de gestion concurrentielle, fonde en particulier sur les travaux de [Porter,
1986]. A partir des travaux [Ansoff, 1975], introduisant la notion de surprise stratgique, se dveloppent
les concepts de surveillance de lenvironnement, de vigilance et de veille [Oury, 1983], [Crozier, 1989],
[Villain, 1990], [Baumard, 1991], [Godet, 1991] et paralllement le concept de management stratgique
de linformation [Lesca, 1986].
Humbert Lesca dfinit la veille stratgique comme :
Le processus informationnel par le quel lentreprise se met lcoute anticipative des signaux faibles et de
son environnement dans le but cratif de dcouvrir des opportunits et de rduire son incertitude [Lesca,
1994].
Nous retenons la dfinition de la veille propose par lAFNOR (Association Franaise de Normalisation)
comme:
Une activit continue et en grande partie itrative visant une surveillance active de lenvironnement
technologique, commercial, etc, pour anticiper les volutions [AFNOR, 1998].
La veille repose sur lanticipation ou plutt la dtection des changements et notamment dventuelles
ruptures, elle concerne les informations caractre anticipatif. Ce sont des informations qui permettent de
dtecter ou signaler des mutations significatives dans lenvironnement de lentreprise. Elles doivent fournir
des informations sur le futur [Lesca, 1997], Lesca distingue deux approches pour ce type dinformations :
37
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Une premire approche consiste accumuler des informations sur le pass et effectuer des
extrapolations. Elle permet davoir une vision sur le futur dans le rtroviseur . Elle nest pas
approprie anticiper les changements surprenants et encore moins les ruptures.
Une seconde faon consiste rechercher des informations susceptibles dannoncer lavance des
changements fortes influences, appeles Signaux faibles .
Un signal faible, ou comme le dsigne Ansoff weak signal , est dfini comme tant le point de dpart
dune amplification propos de laquelle seulement une information partielle est disponible au moment o
la rponse doit tre fournie et qui doit au besoin tre complte avant que des impacts sur lentreprise ne
commencent se manifester [Ansoff, 1990].
Humbert Lesca dfinit quatre missions pour la veille :
Dtecter le plutt possible les informations relatives aux changements qui peuvent sy produire,
Analyser et filtrer les informations susceptibles daffecter la mise en uvre des diverses
composantes de la stratgie de lentreprise,
Mmorisation et
Diffusion
Traitement &
Analyse
38
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Concurrentiel actuellement (veille sur les forces de la concurrence prsente dans le ou les secteurs
d'intervention de l'entreprise) et futur (surveillance des entrants potentiels),
Commercial (examen et risque d'volution des autres forces de la filire : clients et fournisseurs),
Technologique (regard et prvision se rapportant aux substituts venir ; les substituts prsents
faisant partie de l'environnement concurrentiel, conformment la dfinition du secteur de M.
Porter, 1980).
L'environnement peut encore tre constitu de facteurs sur lesquels l'entreprise n'a pas de possibilit
d'action directe (sauf lobbying ventuel). Dans ce cas, le systme de veille devient environnemental et
possde des volets politique, juridique, conomique, sociologique, psychologique, international, climatique
etc. suivant l'activit de lentreprise.
La veille est alors une expression gnrique qui englobe plusieurs types de veilles spcifiques selon ses
domaines dapplication. Cest le modle de Porter qui a engendr une nouvelle rflexion sur la pense
stratgique et sur les praticiens de la veille un peu partout travers le monde [Sutton, 1988]. C'est ainsi
que plusieurs types de veille se sont dvelopps. La Figure 7, reprsente une classification des types de
veille.
Veille Stratgique
Veille Technologique
Veille Scientifique
Scientifique
Veille Concurrentielle
Veille Commerciale
Veille Socitale
Veille Juridique
Veille Culturelle
Veille Territoriale
39
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
En 1989, Bruno Martinet et Jean Michel Ribault [Martinet, 1989] proposent, tout dabord, quatre
principaux types de veilles, qui se rsument en :
La veille brevets et proprit industrielle : cest le moyen par lequel lentreprise surveille
rgulirement les brevets dposs, la fois pour que ses concurrents nutilisent pas les
procds quelle a dvelopps, et pour tre informe des nouveaux brevets dposs.
La veille de produits innovants : cest le moyen par lequel lentreprise veille et anticipe la
mise sur les marchs de produits nouveaux ou de produits de substitutions de faon
distancer les concurrents et baisser les cots de production.
La veille socitale, qui stend aux autres domaines de lenvironnement de lentreprise. Il sagit
dune surveillance de la socit dans son ensemble qui permet, travers lanalyse des signaux
faibles, dobserver lvolution des comportements, des modes de vie et didentifier leur volution
possible.
Salmon et Delinares [Salmon, 1997], Jakobiak [Jakobiak, 2004] et les diffrents auteurs du domaine,
dtaillent la veille socitale (environnementale) en plusieurs types de veille selon son domaine
dapplication. Nous retrouvons :
La veille culturelle, sous entend lenvironnement culturel de lentreprise, elle tudie les acteurs lis
lentreprise par leur culture, leur comportement, leur niveau social, leurs besoins, ...
40
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
plus oprationnels pour mieux grer leurs territoires. Les objectifs de ce type de systmes sont
varis :
La veille stratgique va coordonner lensemble des veilles afin den fournir une synthse aux dcideurs. Elle
a principalement un caractre anticipatif. Elle fournit des informations sur les tendances et
lenvironnement pour enrichir la vision stratgique globale de lentreprise.
Veille
Niveau
Passif
Champs
Ractifactif -P roactif
Proactif
Sans restriction
(concurrentiel, technologique, juridique, commercial, etc.)
Priodicit
Permanente
Sources
Frquente
Ponctuelle
Ouvertes
Techniques ; Textuelles ; Informelles
Acteurs
Mthode type
Tous
Veilleurs
Spcialistes
Revue de presse
Recherche-Internet
La veille passive, est une activit naturelle puisquelle relve dune attitude quotidienne de
rception dinformations. Elles sont en mmoire et exploites de faon routinire.
La veille Ractive-Proactive correspond une dynamique de collecte oriente. Les acteurs qui se
rendent dans les foires et les salons ou qui cherchent des informations pertinentes sur Internet. Ce
sont des pratiques qui caractrisent cette activit.
41
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
42
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Systme oprant, consiste transformer les flux primaires (matires, fiance, personnel, etc.) pour
rpondre aux besoins des clients.
Systme de pilotage, regroupe lensemble du personnel dencadrement qui effectue les tches de
rgulation, de pilotage et dadaptation de lorganisation son environnement [Mlse, 1972].
Systme dinformation, permet de collecter, mmoriser, traiter et restituer les diffrentes donnes de
lorganisation afin de permettre au systme de pilotage deffectuer ses fonctions tout en sassurant
son couplage avec le systme oprationnel [Nanci, 2001].
Lactivit du systme oprationnel produit des informations stockes dans le systme dinformation ; aprs
traitement la transmission de ces informations vers le systme de pilotage permet ce dernier de connaitre
lactivit du systme oprant (flches informations dans la Figure 8). Les dcisions du systme de
pilotage seront rpercutes vers le systme dinformation puis vers le systme oprant pour permettre au
systme de pilotage den contrler le fonctionnement (flches dcisions dans la Figure 8).
Systme de
de pilotage
Coordination, objectifs
(Membres de la direction, etc)
Dcisions
Informations externes
Systme dinformation
-
Collecte
Mmorisation
Traitement
Transmission
Transmission
des donnes
(informations
)
Informations
collectes
Environnement Exterieur
Informations
traites
Systme oprant
Flux
entrants
Production, action
(Ensemble du personnel excutant)
Flux
sortrants
Nous retenons la dfinition donne, en 2000, par Robert Reix des systmes dinformations, qui est
inspire des auteurs des thories de management [Reix, 2000]:
43
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Ensemble organis de ressources : matriel, logiciel, personnel, donnes, procdures, etc. permettant
dacqurir, de traiter, de stocker des informations (sous forme de donne, textes, images, sons) dans et entre
des organisations.
Apporter un soutien aux processus de travail dans lorganisation selon trois modalits principales : fournir
de linformation, assister le travail humain et automatiser le travail.
Ainsi lauteur dfini les systmes dinformations comme support aux tches de traitement de linformation.
Il prsente une vision tridimensionnelle des systmes dinformations allant dune dimension
informationnelle, une dimension technologique puis une dimension organisationnelle.
La dimension informationnelle, qui concerne les diffrents niveaux de reprsentations des donnes
dans les systmes dinformations, allant des donnes ouvertes titre collectives aux donnes
fermes titre stratgique.
La dimension technologique, concerne les moyens techniques dploys pour couvrir les tapes de
collecte, traitements, diffusion et mmorisations des donnes.
Dans un contexte dcisionnel, les dcideurs ont besoin dune vision synthtique et globale des
informations circulant dans leur organisation afin de guider et dadapter leur prise de dcision. Pour
faciliter ce processus, ils emploient les systmes dinformations. Ces outils permettent aux dcideurs davoir
une vision globale sur les activits dune entreprise par un accs rapide et interactif un ensemble de
donnes organises pour reflter laspect multidimensionnel des donnes de lentreprise [Colliat, 1996].
Pour rpondre aux besoins des dcideurs, il est ncessaires de synthtiser, rorganiser et historier les
donnes de production du systme dinformation afin den dterminer une sous partie relative laide la
dcision. Dans ce contexte [Ravat, 2007] propose une dfinition du Systme dInformation dAide la
Dcision (SIAD) :
Un SIAD est la partie dun systme dinformation permettant daccompagner les dcideurs dans le
processus de prise de dcision. Les fonctions dun SIAD permettent de :
De nos jours lensemble des outils informatiques permettant de supporter un SIAD est qualifi de Busines
Intelligence (BI) ou de Systme dAide la Dcision (SAD). Un SAD regroupe lensemble des outils
informatiques (matriels et logiciels) permettant :
de manipuler ces donnes au travers doutils danalyse ou dinterrogation destins au pilotage des
organisations.
Laccomplissement de ces fonctions est devenu complexe aujourdhui dans la mesure o ces informations
utiles apparaissent en des instants diffrents, en des lieux diffrents et sous des formes diffrentes. Les
principales difficults surmonter sont alors lies laccs linformation et aux donnes. Il faut pouvoir
identifier :
44
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Comment y accder ?
De nos jours, les entreponts de donnes constituent une solution adquate pour construire un systme
daide la dcision [Widom, 1995], [Inmon, 1996]. Un entrept de donnes est dfini comme tant une
collection de donnes intgres, orientes sujet, non volatiles, historises, rsumes et disponibles pour
linterrogation et lanalyse [Inmon, 1996].
Un des points centraux de lentreprise est alors son systme dinformation. En effet, informatis ou non il
est devenu le support de toute circulation dinformation et de toute dcision.
Or, lIE a pour objectif de permettre aux dcideurs de lentreprise de disposer dune information de valeur,
laquelle ils puissent se fier dans le cadre de leurs prises de dcision. Pour cela, il sagit de produire de
linformation pertinente et forte valeur ajoute. Cette exigence doit se retrouver travers des quatre
phases de la dmarche : collecte de linformation, traitement et diffusion (Figure 9). Ce sont les systmes
dinformation qui vont permettre de rpondre ces exigences. Les systmes dinformations sont alors au
cur de la dmarche dIE. Lobjectif de nos travaux consistent dfinir un systme dinformation daide
la dcision orient environnement pour soutenir la dmarche dIE.
Memmorisation et
Diffusion
Systme
dinformation
Recherche &
Collecte des donnes
Traitement &
Analyse
Figure 9: Systme dinformation support au cycle du renseignement.
45
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le processus dIE est alors une coordination des processus danalyse stratgique et de veille base sur les
systmes dinformations. Nous le prsentons dans la Figure 10 en nous inspirons de la reprsentation
graphique propose par.
On retrouve dans cette prsentation schmatique, les quatre tapes essentielles du cycle du renseignement
savoir :
Comprhension du besoin,
Le traitement de linformation,
La diffusion de linformation.
Le passage de ces tapes au niveau du processus dIE leur a fait subir des transformations au niveau des
termes qui les dcrivent ainsi quune adaptation aux diverses situations :
La comprhension du besoin est nomme par plusieurs expressions synonymes selon les auteurs
savoir : Ciblage [Lesca, 1994], Expression du besoin, Orientation gnrale [De vasconcelos,
1999], Identification du problme dcisionnel et sa traduction en besoin informationnel [Bouaka,
2004].
Pour la recherche et la collecte dinformation nous retrouvons : traque [Lesca, 2003], trouver
[Fuld, 1995], acqurir [Dupr, 1997], recueil [Oberson, 1997] et recherche [Jacobiak, 2001].
Seule ltape de diffusion semble faire lunanimit bien quelle soit parfois ajoute au milieu du
processus.
Cycle
Intelligence Economique
Problme dcisionnel
Collecte
Environnement
Stratgie
Besoin informationnel
Cibles
Analyse
Diffusion
Plan dactions
Analyse stratgique
Veille stratgique
46
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Le cycle dbute par lidentification et la comprhension de lenvironnement dun problme dcisionnel pos.
Cette tape pour but danalyser le positionnement stratgique de lentreprise dans cet environnement.
Lentreprise peut avoir recoure diverses mthodes issues de lanalyse stratgiques. Lanalyse du
positionnent est bien entendu spcifique chaque entreprise concernant les mthodes utilises. Plusieurs
mthodes existent dans la littrature ; parmi elles LCAG6, matrice BCG7, Mc Kensey, PIMS8, SWOT.
Nous dveloppons dans la suite de cette tape la mthode SWOT (1.2.1.2) qui possde la particularit
dtre plus adapte lanalyse de lenvironnement. Cette mthode permet dorganiser et de synthtiser
lenvironnement informationnel de lentreprise selon le problme dcisionnel pos. Elle se base sur une
bonne connaissance de lenvironnement interne et externe lentreprise.
Lenvironnement interne, reprsente lensemble des informations concernant lentreprise tels que :
sa raison sociale, son implantation, son statut juridique, son secteurs dactivit, ses domaines de
comptences, ses ressources, etc. Lanalyse de lenvironnement interne, permet de distinguer les
forces et faiblesses de lentreprise. Nous rappelons ici que les forces correspondent aux facteurs qui
permettent l'entreprise de mieux russir que ses concurrents. Les faiblesses dsignent les
domaines o l'entreprise est susceptible d'afficher des difficults par rapport la concurrence.
Lenvironnement externe, reprsente toutes les donnes produites par les diffrents domaines
(conomique, juridique, politique, culturelle, technologique) et acteurs (concurrents, fournisseurs,
partenaires, etc. et les thmes tels que nouveaux produits, procds novateurs, etc) qui sont en
interaction avec lentreprise.
Ces donnes sont susceptibles dinfluencer la stratgie de lentreprise.
Lanalyse de l'environnement externe, permet didentifier les opportunits et les menaces. Elle peut
tre dtermine laide du modle Porter (1.2.1.3). Ce modle consiste mesurer lattractivit du
march li un domaine donn par lidentification des groupes dacteurs et de thmes potentiels.
Lanalyse et la hirarchisation de ces groupes va permettre de dgager les opportunits et menaces
maitriser pour obtenir un avantage concurrentiel. Les opportunits correspondent des tendances
favorables conduisant de nouvelles perspectives de dveloppement et dont l'entreprise pourrait
tirer profit. Les menaces dsignent des problmes poss par une transformation de l'environnement
qui, en l'absence d'une rponse stratgique approprie, peuvent dtriorer la position de l'entreprise.
Afin dobtenir une vue synthtique de lenvironnement du problme dcisionnel pos, la matrice SWOT se
reprsente par une matrice dcoupe en quadrants (Tableau 3). Elle va permettre didentifier les facteurs
positifs : forces et opportunits et les facteurs ngatifs : faiblesses et menaces.
Positif
Ngatif
Environnement
Enviro nnement interne
Environnement externe
Une fois lenvironnement analys, la matrice SWOT (Tableau 5) va pouvoir dterminer si la combinaison
des forces et faiblesses de lentreprise est mme de faire face aux menaces et opportunits de
47
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
lenvironnement. La confrontation de lanalyse de lenvironnement interne et externe va permettre de
dgager quatre types de stratgies.
Forces
Faiblesses
Opportunits
Stratgie
Forces-Opportunits
Stratgie
Faiblesses-Opportunits
Menaces
Stratgie
Forces- Menaces
Stratgie
Faiblesses-Menaces
Stratgie Forces-Opportunits, consiste exploiter les forces internes pour poursuivre les
opportunits de lenvironnement.
Stratgie Forces- Menaces, consiste utiliser les forces internes pour se protger des menaces de
lenvironnement. Ou convertir les menaces en opportunits en investissant les ressources
ncessaires.
Stratgie Faiblesses-Menaces, Consiste minimiser les faiblesses de la firme pour la rendre moins
vulnrable aux menaces extrieures. Stratgie de repositionnement ou de diversification.
Llaboration de la stratgie va se baser sur les rsultats obtenus par la matrice SWOT. Une fois la stratgie
est labore, il convient de dterminer les domaines d'activits stratgiques maintenir, dvelopper ou
abandonner.
En fonction de cibles identifies, il va sagir de rechercher les informations les plus pertinentes, lintrieur
et lextrieur de lentreprise. La premire tape consiste identifier les sources dinformations qui sont
susceptibles de contenir ces informations. A partir de ces sources les informations utiles vont tre extraites
et values. Il existe deux types dinformations qui sont ncessaires llaboration de la stratgie :
Linformation utile qui peut tre directement utilise ; et linformation labore qui rsulte de lanalyse et
le traitement des informations utiles. Ltape de traitement et danalyse est soutenue par les mthodes et les
outils de fouilles de donnes qui permettent de rvler les informations cache, et souvent statistiques
partir des informations utiles.
La dernire phase du cycle, consiste restituer les rsultats jugs pertinents aux utilisateurs potentiels qui
vont tablir et dfinir les actions stratgiques en se basant sur le degr de fiabilit des rsultats obtenus.
Cette phase peut engendrer une redfinition ou un rajustement de la cible, le cycle devient alors itratif.
Lexpression du besoin consiste traduire les cibles identifies dans ltape prcdente en questionnement
oprationnelles. Cette tape doit tre dtermin de faon trs prcise afin de bien pouvoir cibler la collecte,
lanalyse et de retourner des rponses pertinentes. Il est ncessaire de formaliser cette tape en dressant un
plan de veille qui dcline chaque domaine dactivit en un ensemble de questions prcises.
La collecte dinformation repose essentiellement sur la connaissance et la matrise des sources
dinformation. Cest une activit continue qui demande dtre en permanence lafft dinformations
importantes pour lentreprise. Il faut pour cela identifier de manire prcise, exhaustive et en toute lgalit
les sources internes et externes lentreprise susceptible de fournir des informations permettant une
meilleure prise de dcision.
48
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Toute fois en raison, dune part de la diversit et de la dispersion des sources dinformations, dautre part
du volume important des informations disponible, il est indispensable de dfinir un ensemble de sources
dinformations consulter en priorit en fonction de types dinformations recherchs : scientifiques,
technologiques, juridiques, etc.
Une fois la collecte des informations pertinentes est ralise et valide, il faudra procder leur traitement
et analyse pour transformer linformation en connaissance. En fonction du type dinformation, il ressort
trois types de traitement :
Signalement explicite, certaines informations se suffisent elles mmes, il suffit donc, aprs validation, de
les mettre en forme et de les analyser. Le traitement est simplement, ici, dordre signaltique en prenant en
compte la notion de priorit de lalerte.
Recoupement, dans ce cas, linformation doit tre rendue comprhensible par rapprochement avec dautres
informations de mme nature. Le traitement est alors le plus souvent dordre statistique (comparaison
des donnes chiffres spatiales ou temporelles) qui permet dexprimer une qualit ou une tendance. Le
recoupement dinformations permet aussi de vrifier la cohrence avec des informations similaires. Le
choix des sources et lvaluation de leur fiabilit sont ici des lments primordiaux, car linformation
obtenue est le plus souvent explicite et peut donc tre manipule ou intentionnellement biaise. Les
informations directes (explicites) sont bien entendu plus faciles obtenir et assimiler, mais il est difficile
de leur accorder une confiance absolue car elles sont trs souvent le fruit dune synthse individuelle ou
collective qui peut ne pas tre totalement objective ou trompe elle-mme par dautres informations
directes peu fiables.
La diffusion au sein de lentreprise constitue une phase importante du processus de veille. Elle consiste
valoriser les rsultats danalyse sur le plan stratgique. Afin den assurer la bonne exploitation linformation
pertinente doit tre restitue la bonne personne et au bon moment. Lobjectif du processus de veille
stratgique est de produire, sur des supports adapts, les informations stratgiques et tactiques cls en
rponse aux besoins informationnels exprims.
Nous notons, que la protection de linformation est un processus qui sinstaure en parallle du cycle de lIE
et sapplique toutes ces tapes.
Lensemble de ces tapes peuvent tre soutenues par lutilisation des systmes dinformation.
5
Connaissances
4
Informations Elabores
2
3
Informations Utiles
1
Donnes
1 : Evaluer & Collecter, 2 : Valider & Diffuser, 3 : Analyser, 4 :
Interprter & Diffuser, 5 : Appliquer
49
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Donnes, ce sont les donnes sur lesquelles va se baser la collecte dinformation, elles sont issues de
deux types de sources : formelles et informelles. Les travaux dIE diffrencient les informations
formelles et informelles, afin dorganiser un plan de collecte dissociant les diffrentes sources
disponibles.
Les sources formelles : linformation formelle est une information disponible dans la presse,
les bases de donnes documentaires, les brevets, les textes de loi, les normes, les tudes
ralise par des prestataires publics ou privs, internet. Pour [Martinet, 1995],
linformation formelle existe sur un support papier, filmographique, informatique. Elle
peut tre structure ou non. Nous rsumons dans le Tableau 1-3 les principales sources
formelles dans un contexte dIE.
Structure
Type
Oui
Texte
Peu
Texte
Groupes de discussions
Traces de connexions
Support
CD-ROM,
Web, Serveurs
CD-ROM,
Web, Serveurs
Web
Serveurs
Peu
Non
Presse en ligne
Web
Peu
Blog
Web
Peu
Portail
Web
Peu
Texte
Texte
Texte, Video,
Image
Texte, Video,
Image
Texte
Bases documentaires
Brevets
Informations utiles, rsultent d'une premire opration de collecte partir des donnes. C'est celles
qui n'ont subit aucun traitement. Elles sont peu fiables, elles doivent tre values avant de les
diffuser. Elles ne peuvent acqurir de la valeur et devenir des informations labores qu'aprs
plusieurs traitements. Appele aussi : informations Exognes.
Informations labores, sont celles qui sont directement utilisables dans la prise de dcision. Elles
sont ce qu'on appelle les informations caractre stratgique et dcoulent des recoupements et
rapprochements avec d'autres informations. Grce des mthodes mathmatiques et statistiques,
on arrive tirer des conclusions indites et intelligentes par juxtaposition de donnes brutes.
Connaissances, ce sont les rsultats dinterprtation des informations utiles et labore retenues.
Dans ce contexte, nous retenons la dfinition propose par [Davenport, 1998] qui dfinissent la
connaissance comme une information valorise par lexprience, le contexte, linterprtation et la
rflexion.
Le passage de linformation la connaissance peut tre schmatis par lquation suivante :
50
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Informations
Informat ions utiles/ labores + Interprtations = Connaissances
Cette quation explique que la connaissance se construit au fur et mesure que les informations sont
intgres et assimiles au sein dun cadre de connaissance qui assure la cohrence et la structuration de la
base de connaissance accumule [Oubrich, 2003].
Intelligence, lorsque la connaissance est produite, elle peut servir de base une rflexion
stratgique. Selon Besson Bernard et Jean-Claude Possin "L'intelligence conomique peut tre
dfinie comme la capacit d'obtenir des rponses des questions en dcouvrant des intelligences
entre deux ou plusieurs informations pralablement mmorises".
Dcideurs, ces acteurs interviennent en amont et en aval da la dmarche dIE. Les dcideurs vont
traduire leurs problmes dcisionnels en un ensemble de cibles hirarchises, qui vont le
transmettre la cellule de veille. Une fois quils acquirent les connaissances sur leurs cibles, ils
interviennent dans le choix des scenarios retenir et les dcisions prendre.
Cellule de veille, cette cellule est sous le contrle du responsable de la veille. Il se charge de la mise
en place du systme de veille et de coordonner la circulation des informations et leurs gestion. Il a
le rle danimateur du rseau de veille. Il est responsable des acteurs de cette cellule qui sont de
trois types :
Le veilleur, ce sont les acteurs qui soccupent de la tche quotidienne de lexcution des
processus de recherche et collecte des donnes utilisant via les systmes dinformations.
Son rle principal est de rechercher les informations utiles et de les valider. Il travaille en
troite collaboration avec la cellule de documentation et le ou les analystes.
51
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Les analystes, sont chargs du traitement et de lanalyse des donnes collectes par le
veilleur. Leur travail consiste appliquer les techniques de fouilles de donnes et les
mthodes dtude bibliomtrique afin de raliser des analyses statistiques permettant de
dgager des indicateurs de tendances.
Les experts, sont des acteurs qui ont des comptences ou des savoir-faire spcifiques un
ou plusieurs domaines, ils interviennent pour donner leur expertise sur la qualit des
donnes identifies. Les experts peuvent travailler en collaboration avec dautres experts
externes lentreprise mais qui possdent des comptences diffrentes. Cette collaboration
se fait dans une structure organise appele Rseau Externe , qui a pour but de favoriser
les changes de flux de connaissances ainsi que la cration de connaissance [Haroussi,
2004].
Centre de documentation, est sous la responsabilit de lanimateur du centre. Il gre les stratgies de
collecte dinformations et coordonne le rseau des documentalistes.
Les Documentalistes, soccupent de collecter les informations formelles et informelles qui
portent sur lenvironnement interne et externe de lentreprise. La recherche et la collecte
dinformations sont leurs taches quotidiennes. Ils soccupent aussi valider et structurer
les informations informelles provenant des acteurs de lentreprise. Toutes les informations
collectes vont tre mmoris dans la base de donnes de lorganisation qui contient la
matire premire du processus de veille.
IC Externe
Rseau dacteurs externe
Dcideur
IC
Interne
Cellule de Veille
Experts
Analyste
Centre de documentation
Veilleur
Documentalistes
La dimension environnement dune entreprise qui regroupe les lments pouvant influencer dune
manire directe ou indirecte lvolution stratgique dune entreprise. Elle est caractrise par les
partenaires, les concurrents, les marchs, les clients, etc.
52
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
La dimension humaine qui englobe les acteurs impliqus dans une dmarche dIE, quils soient
internes ou externe lentreprise. Elle est caractrise par les rseaux de collaborations,
dinteractions et de communication entre les diffrents acteurs impliqus dans cette dmarche.
La dimension technologique, rassemble toutes les mthodes, outils et techniques utiliss pour
rpondre aux besoins informationnels dans une dmarche dIE, par les procdures de recherche,
collecte, traitements et diffusion de linformation.
La prise en compte de lune ou plusieurs de ces dimensions permet de concevoir divers modles servant
danalyse (conceptuelle ou pratique) de lIE. Nous avons retenu deux modles universitaires btis sur ces
dimensions : le modle MEDESIIE, le modle SITE.
1.4.1 La mthode
mthode danalyse MEDESIIE
La dmarche dIE propos par Maryse Salles dans le cadre du projet MEDESIIE9 est consacre
entirement l'analyse du besoin en IE des PME.
MEDESIIE considre le systme dIE comme le systme de reprsentation des connaissances de
l'entreprise, concernant les relations, relles ou potentielles, qu'elle entretient avec son environnement. Un
tel systme d'I.E a pour vocation premire d'apporter une aide la dcision, pour toutes les dcisions qui
affectent les relations de l'entreprise avec son environnement, de quelque manire que ce soit et avec
quelque intensit que ce soit10.
Larchitecture conceptuelle de ce systme sinspire de la dfinition propose par [Seligmann, 1989] pour la
conception des systmes dinformations. Seligmann dcrit une mthode comme constitue
obligatoirement de quatre composants, quil designe comme des "manires de" (way of) [Salles, 2003]: le
way of thinking (le paradigme, le point de vue), le way of modelling (les modles construire), le way of
organising (la dmarche suivre), le way of supporting (un support rassemblant les outils).
MEDESIIE [Salles, 2005], propose des modles pour dcrire : lentreprise, sa stratgie, son
environnement, son besoin relevant de lIE et ses Produit/services.
Un modle dentreprise, est dcrit selon ses diffrentes fonctions (productive, conomie/lien au
march, financire et dinnovation/systme dinformation). Chaque fonction est elle-mme
compose dun ensemble de sous-fonctions de management.
Un modle de stratgie, est reprsent par un ensemble de choix stratgiques structurels et daxes
de dveloppement (recherche dindpendance, croissance de ses activits, augmentation de ses
profits, etc.) ;
Un modle denvironnement, qui est dcrit, dans un premier temps, par les fonctions de
lentreprise et des relations quelle dveloppe avec son environnement ; dans uns second temps,
par lenvironnement exogne lentreprise, selon 8 grands dterminants (la gomtrie spatiale des
marchs, la demande, la technologie, la concurrence, le rgime financier, les conditions doffre, le
cadre rglementaire, lenvironnement politique et gopolitique).
Projet MEDESIIE (Mthode de dfinition de systme d'information pour l'intelligence conomique), consacr entirement
l'analyse du besoin en intelligence conomique (i.e.) des PME, et financ par la Rgion Midi-Pyrnes.
10
Source : http://ieut1.irit.fr/introduction/intro2.htm ( Projet MEDESIIE)
53
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
dunit de besoin est dcrit en fonction de trois dimensions : le niveau de pilotage de la dcision
pour lequel lunit est exprime (sa valeur : oprationnelle, tactique ou stratgique), la phase du
processus de dcision IDC associ lunit et son contenu informationnel (identification de sa
valeur et de sa fonction).
1.4.2 Les
Les modles SITE
Le modle SITE regroupe les diffrents modles dIE propos par lquipe de recherche SITE qui est
dirige par A. David et rattach au laboratoire LORIA. La problmatique de l'quipe est dtudier la
modlisation et le dveloppement de systmes dinformations stratgiques dans le cadre de lIE.
Ces modles se basent sur la mise en relation de trois espaces : lespace des problmes dcisionnels, lespace
des problmes informationnels et lespace des mdiations qui les relient par lintermdiaire des changes
entre les deux types dacteurs (dcideur et veilleur).
Les travaux de lquipe ont en commun la prise en compte de lutilisateur dans les systmes dinformation.
Ils proposent des modles permettant de dfinir les diffrents acteurs, leurs interactions et leurs
positionnements dans le processus dIE.
Nous retenons trois modles savoir : EquAte11, MEPD12, WISP13.
Le modle EquAte [David, 2002], reprsente une situation de recherche dinformation qui implique les
phases cognitives suivantes :
Le modle MEPD [Bouaka, 2004], consiste dfinir les diffrentes facettes dun problme dcisionnel. Il
se base sur :
La modlisation du dcideur, par son identit, les traits de sa personnalit, son style cognitif et son
exprience,
La modlisation de lorganisation, par lenvironnement, son signal, les hypothses que le dcideur
peut dduire de la dtection des signaux recueillis.
Le modle WISP [Kislin, 2007], est associ au modle MEPD dans lequel il sinsre en lui empruntant
quelques paramtres. Le modle WISP est un modle tridimensionnel, multi facette, qui intgre la notion
de point de vue :
11
54
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Une dimension mthodologique qui est constitue, un premier niveau, par les comptences de
traduction du problme dcisionnel en problme informationnel et un second niveau par les
stratgies de recherche par lesquelles linformation est identifie et les connaissances sont acquises.
Une dimension oprationnelle qui correspond la slection des plans daction et la mise en place
des diffrentes tapes de rsolution de la mthodologie associe au modle WISP.
Traiter les donnes, cest la fonction la plus importante du systme dinformation car il entrane la
cration dinformations directement utilisables par les dcideurs.
Les systmes dinformations actuels ne sont pas adapts pour grer la dynamique du march. Ils sont
essentiellement conus pour des environnements stables et maitriss et sont btis essentiellement sur des
schmas organisationnels verticaux qui sont de plus en plus complexe. Ce type de systme dinformation
ne permet pas de rpondre aux besoins dune dmarche dIE. Il est donc essentiel de concevoir des
systmes dinformations permettant aux organisations une meilleure gestion de linformation et doffrir
une base de coordination des actions entre les diffrents acteurs. Cette coordination transversale est
soutenue par les motivations suivantes :
Les objectifs dune dmarche dIE sont inter-relis. Ils ne peuvent tre traits sparment.
Do limportance, dvoluer dune architecture verticale des systmes dinformation vers une architecture
transversale qui permettra une gestion globale de linformation.
55
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Figure 13: Passage dune structure fonctionnelle hirarchique vers une infrastructure globale dinformation14.
Larchitecture transversale est base sur une architecture modulaire et volutive structure autour des
projets de lentreprise, linfrastructure globale dinformation va permettre selon [Cigref, 2004] :
Une prise de conscience collective, chacun comprenant les enjeux de sa contribution au dispositif.
Porter la connaissance de tous, les thmes non confidentiels de veille et leur actualisation.
Donner une identification des acteurs et de leur rle en matire de projets et de gestion de
linformation.
PARTAGE DE LINFORMATION
Crer des flux plutt que des stocks dinformations vers des destinataires susceptibles den tirer
profit.
14
Inspir de : de Systmes dinformation et comptitivit, Baumard Philippe et Benvenuti Jean-Andr, InterEditions, 1998.
Intelligence conomique et stratgique, Rapport Cigref, 2004.
56
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Personnalisation de linterface (info du jour, par thme, moteur de recherche, etc.) accs rapide
linformation.
Remonte rapide des sources informelles (clients, fournisseurs, commerciaux, rseaux personnels,
etc) via certains outils (assistants numriques, courrier lectronique, tlphone mobile, internet,
etc.).
Cration dannuaires de liens Internet pour lensemble des membres dun rseau.
Archivage spcifique des informations utiles aux dcideurs en fonction de leur dure de vie
(validit).
DIFFUSION
Groupe de discussion avec droits daccs, change et partage de linformation ; chacun profite des
informations rcoltes par les autres.
Ciblage par rapport aux axes de dveloppement de lentreprise, suivi des acteurs, thmes les plus
actifs et sources surveilles.
Pilotage temps rel de lactivit de veille, grce des tableaux de bords permettant de contrler et
rorienter lactivit en fonction des objectifs.
Profiling des utilisateurs en fonction des thmes consults adquation entre informations
collectes et informations recherches.
Le couplage des besoins identifis dans une dmarche dIE avec les diffrentes techniques existantes de
travail collaboratif ou de Business Intelligence tels que : workflow, groupware, datawarehouse, data
mining, text mining, gestion lectronique des documents, visualisation, etc. permet doptimiser chaque
tape du cycle de lIE. La Figure 14 rsume lensemble de ces techniques pour chaque tape de la dmarche
dIE. La phase de collecte se fait gnralement par lutilisation des bases de donnes, Internet, agents de
recherche, moteurs de recherche, ltape de traitement et danalyse peut tre supporte par les outils de
visualisation, la bibliomtrie, lanalyse statistique, entrept de donnes, etc. ltape de diffusion peut
sappuyer sur les agents push-pull, les courriers lectroniques, etc.
57
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Expression du besoin
Collecte
Diffusion
Bases de donnes
Visualisation
Visualisation
Workflow
Internet, Moteurs de
recherche, metamoteurs,
annuaires, etc.
Analyse smantique,
statistique, linguistique
Courrier lectronique
Bibliomtrie
Forum,
Mailing list
Datawarehouse
Agents intelligents
Agents de recherche
Agents danalyse
Agents push,
push pull
Une interface pour introduire et grer les orientations thmatiques des axes de recherches,
58
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Une interface qui permet aux intervenants dintroduire et grer les diffrents besoins
informationnels lis une tude,
Une interface dchange et de partage de donnes dans le cadre dune tude pour permettre une
collaboration entre les diffrents intervenants.
Les donnes internes de lentreprise : bases de donnes, documents de Microsoft Office, rapports,
emails, graphiques et intranet,
Les sources externes issues du web : pages web, sites internet, bases de donnes : Interroger
simultanment plusieurs moteurs de recherches (requtes inter-langues),
Dfinir un profil utilisateur pour la recherche dinformation (requtes, thmes, dates, etc.),
Filtrage automatique des donnes collectes selon les critres de lutilisateur : concurrents, source,
dates, acteurs clsetc.,
1.6.3 Collecte
Collecte dinformation
di nformation primaire
Concerne la collecte dinformation informelle, auprs des acteurs internes lentreprise.
Critres : lvaluation des savoir-faire de lentreprise se base sur les points suivants :
Une interface pour saisir les informations informelles : entrevues, rapport, expertise, etc.
RSS dsigne une famille de formats XML utiliss pour la syndication de contenu Web.
Ce standard est habituellement utilis pour obtenir les mises jour d'informations dont la nature change frquemment.
Typiquement cela peut tre des listes de tches dans un projet, des prix, des alertes de toutes nature, des nouveaux emplois
proposs, les sites d'information ou les blogs. (Source : Wikipedia)
15
59
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Visualisation des modles : matrice SWOT, les cinq forces de Porter, etc.
Extraction des relations existantes entre les diffrents acteurs, dates, lieu, vnements et autres
corrlations importantes,
Les mthodes de Fouilles de donnes textuelles pour extraire et analyser les variables slectionnes
par lutilisateur,
1.6.5 Diffusion
Va porter sur les techniques utilises pour exporter et diffuser les rsultats obtenues.
Critres :
1.6.6 Evaluation
Evaluation
Treize outils ont t slectionns parmi les 480 recenss. Ce sont des outils qui recouvrent une grande
partie de la totalit des tapes du processus de lIE. Chacun des outils, est donc valu selon les critres
associs ces cinq tapes. Chaque tape est note sur une chelle de 1 5 (Tableau 6).
5
4
3
2
1
Excellent
Trs bon
Bon
Juste
Pauvre
Le rapport comporte le comparatif des outils retenus selon le processus classique de traitement de
linformation (Tableau 7).
Les outils valus ne couvrent pas de faon optimale toutes les tapes du cycle. Le pourcentage de
couverture du cycle est en moyenne entre 50% et 80%. Ces outils se basent essentiellement sur les
techniques de recherche dinformation sur le web en utilisant les agents intelligents, seulement quatre
dentre eux (QL2 Software, Temis, Cymfony, Traction software) sappuient sur les techniques de Text
Mining et deux outils (Brimestone, Cymfony et Netro-City) sur les techniques de visualisation et de
Reporting.
60
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
Evaluation des
Outils IE 2008-2009
Expression
du besoin
Brimstome
Cipher
Comergence
Comintell
Cymfony
Global Intelligence
KB Intelligence
Netro-City
QL2 Software
Strategy Software
Temis
Traction Software
Wincite
4
5
5
3
4
3
1
1
3
5
3
3
5
Collecte
dinformation
Formelle Informelle
3
3
3
4
3
5
3
3
5
5
2
3
2
1
3
4
3
3
3
5
2
2
4
3
3
2
Traitement
et
Diffusion
Analyse
4
3
3
4
2
4
2
2
4
5
2
2
1
1
3
3
2
1
2
4
2
2
1
4
2
4
Moyenne du
Cycle
3,4
3,8
3,8
2,6
4,6
2,4
1,2
2,8
2,4
3,8
2,2
3
3,2
61
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
x
x
Comprendre, Adapter
x
x
x
x
x
x
Environnement
x
x
Immdiate
Ultrieure
Menaces, Opportunits
2005
Juillet
x
x
2003
2002
Paturel
Guilhon et Manni
2001
Diffusion, Distribution
Interprtation, Analyse, Production
1999
Levet
1997
SavoirSavoir-faire, Acteurs
1998
1996
De Vasconcelos
Colletis
1995
1998
Levet et Paturel
1994
Revelli
Martinet et Marti
1991
Besson et Possin
Baumard
Martre et AL
1967
Annes
Concepts
Wilensky
Auteurs
Continue
Anticiper
Au bon moment
Crativits,
Crativits,
Comptences nouvelles
Protection
x
x
x
x
x
Dans le contexte de notre approche, nous retenons la notion dIE telle quelle a t dfinit par Henri
Martre [Martre, 1994], cest--dire en tant qu'ensemble des actions coordonnes de recherche, de
traitement et distribution de l'information utile aux acteurs pour permettre l'action et la prise de dcision.
Ceci dpasse les actions partielles dsignes sous le nom de documentation, de veille (scientifique et
technologique, concurrentielle, financire, juridique, territoriale et rglementaire) et invite de surcrot
"passer d'un traitement individuel de l'information la gestion de l'information et un processus d'actions
collectives".
Notre vision de lIE est minemment stratgique, cest une dmarche d'anticipation et de projection dans
le futur, par la mise en vidence des liens unissant les acteurs dans un mme secteur d'activits. LIE repose
sur une dmarche d'anticipation individuelle et collective, une profonde connaissance de l'environnement
et des rseaux existants afin de pouvoir agir et ragir en fonction de leur volution. La coordination des
actions dans le cas d'une stratgie commune requiert une forte capacit saisir les variations et les ractions
environnementales chaque tape de la dmarche afin de reprer les facteurs de changement et den tenir
compte par des corrections appropries.
La majeure partie des informations lectroniques utiles la dcision se trouve encore sous forme textuelle
et bien souvent sous forme de texte libre. Lanalyse des textes reste donc la cl de toute dmarche dIE.
Deux coles se sont penches sur ce problme : la linguistique et la statistique ce qui a donn naissance
de nombreuses disciplines annexes comme lanalyse du discours, le rsum automatique, lanalyse du
62
Chapitre 1. Intelligence Economique & Stratgique : Les systmes dinformation au cur de la dmarche
contenu, la recherche de concepts, la dcouverte de connaissance ou la recherche de signaux faibles
[Pazienza, 1997]. Le but tant toujours de pouvoir traiter, assimiler et synthtiser le contenu
informationnel de trs grandes collections de documents.
Nos travaux vont ds lors consister dfinir un modle de traitement et de gestion des donnes dans le
contexte du processus dIE en y intgrant deux dimensions incontournables que sont le relationnelle et le
temporelle. Ainsi notre modle danalyse multidimensionnelle, va se baser sur les quatre principales tapes
du processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse,
La restitution et interprtation des rsultats . Dont lobjectif principal est la cration de nouvelles
connaissances souvent totalement implicites et vise stratgique, qui se dduisent le plus souvent de
lanalyse de lvolution des rseaux dacteurs (auteurs, inventeurs, socits, villes, rgions, pays, journaux,
etc.), des rseaux smantiques (mots-cls, free-terms, multi-termes, ontologies, etc.) et des interactions
(acteur smantique).
Notre dmarche consiste alors dfinir un systme daide la dcision dans lobjectif est de pouvoir :
supporter les diffrentes tapes de la dmarche en offrant les diffrentes fonctionnalits prsentes
dans les sections 1.4 et 1.5,
extraire et traiter les donnes textuelles issues des sources formelles identifies dans la section
1.3.1,
rpondre aux besoins danalyse de la dmarche dIE en offrant des connaissances synthtiques de
lenvironnement informationnel de lentreprise, sur un domaine donn,
Afin de rpondre ces besoins danalyse, nous proposons de coupler les besoins des tapes du processus
dIE avec les principes et techniques issues du domaine de la dcouverte des connaissances partir du
texte. Dans ce contexte, nous prsentons, dans le chapitre 2 de ce manuscrit, le domaine de la dcouverte
des connaissances et les techniques de la Fouille de Texte.
63
2.1 Introduction............................................................................................................................................. 69
2.1.1 Spcifications ................................................................................................................................... 69
2.1.2 Extraction de connaissances partir de bases de donnes .................................................................. 69
2.1.3 Architecture dun systme type dECBD .......................................................................................... 70
2.1.4 De la Fouille de donne la Fouille de texte .................................................................................... 71
2.1.4.1
Approche linguistique ....................................................................................................... 71
2.1.4.2
Approche statistique.......................................................................................................... 72
2.1.5 Domaine dapplication : lanalyse bibliomtrique ............................................................................. 72
2.2 Etapes dextraction de connaissances partir du texte ............................................................................... 74
2.3 Document lectronique ............................................................................................................................ 76
2.3.1 Structure logique dun document ..................................................................................................... 78
2.3.2 Exemples de structure logique .......................................................................................................... 79
2.4 Des documents lentrept de document ................................................................................................. 81
2.5 Mthodes de reprsentation multidimensionnelle rduite des documents.................................................. 83
2.5.1 Units textuelles............................................................................................................................... 83
2.5.2 Mesures de dpendances .................................................................................................................. 84
2.5.2.1
Variables quantitatives ...................................................................................................... 84
2.5.2.2
Variables qualitatives ......................................................................................................... 85
2.5.3 Matrice de Prsence-Absence ........................................................................................................... 87
2.5.4 Matrice de Cooccurrence ................................................................................................................. 88
2.5.4.1
Matrice de cooccurrence simple ........................................................................................ 88
2.5.4.2
Matrice de Cooccurrence Simple Symtrique .................................................................... 88
2.5.4.3
Matrice de Contingence .................................................................................................... 89
2.5.4.4
Matrice de Cooccurrence Multiple .................................................................................... 89
2.6 Mthodes de fouilles de texte.................................................................................................................... 90
2.6.1 La classification et le regroupement .................................................................................................. 91
2.6.1.1
La classification ascendante hirarchique (CAH) ............................................................... 91
2.6.1.2
La Classification Par Partition (CPP) ................................................................................ 91
2.6.2 Association ...................................................................................................................................... 92
2.6.2.1
Lanalyse en composante principale (ACP) ........................................................................ 92
2.6.2.2
Lanalyse factorielle des correspondances (AFC) ................................................................ 92
2.6.3 Squences ........................................................................................................................................ 93
2.6.3.1
Lanalyse factorielle multiple (AFM) ................................................................................. 93
2.6.3.2
Lanalyse procustenne...................................................................................................... 93
2.7 La restitution ............................................................................................................................................ 93
2.8 Les outils dextraction de connaissances partir du texte........................................................................... 94
2.8.1 Les solutions intgres ...................................................................................................................... 94
2.8.2 Les outils ECT dvelopp au sein de lquipe SIG-IRIT ................................................................... 96
2.8.2.1
La Plateforme Ttralogie ................................................................................................... 96
2.8.2.2
Le systme Doc Cube ....................................................................................................... 97
2.9 Fouille de Texte : Synthse ....................................................................................................................... 97
2.1 Introduction
2.1.1 Spcifications
Les principes de lextraction de connaissances partir de bases de donnes (ECBD) sont introduits afin
d'aider les dcideurs dans l'analyse des informations issues des sources lectroniques. Diffrentes
techniques automatiques sont proposes pour infrer de nouvelles connaissances, potentiellement utiles,
partir de gros volumes de donnes. Ces connaissances correspondent des modles ou des relations priori
inconnues mais qui existent de faon implicite dans les donnes. Lintrt des connaissances extraites est
valid en fonction du but de lapplication. Seul lutilisateur peut dterminer la pertinence des rsultats
obtenus par rapport ses objectifs.
LECBD fait appel des disciplines aussi diverses que les statistiques, lintelligence artificielle,
lapprentissage automatique, la reconnaissance des formes, la linguistique, les bases de donnes, les
techniques de visualisation [Kodratoff, 1999]. Son but est dautomatiser ou daider lextraction de
nouvelles connaissances pertinentes partir des grandes masses dinformations internes ou externes.
Dans le contexte dIE, environ 80% des sources de donnes sont textuelles. Pour satisfaire le besoin
danalyse de ce type dinformation, il est utile dtendre les techniques de dcouvertes de connaissances aux
documents textuels. Cette extension repose sur les principes de la Fouille de Texte.
Nos travaux se basent sur lhypothse quun document textuel, peut contenir deux types de connaissance :
des connaissances explicites, comme son sens et sa terminologie (mots cls, individus, organismes, lieux,
temps, etc.) et des connaissances implicites lorsquon lassocie dautres textes similaires afin den dduire
des structures synthtiques comme des rseaux smantiques, des rseaux dacteurs, des graphes de
collaborations, des matrices de cooccurrences ou autres, des signaux faibles. La Fouille de Texte nous
permet une meilleure reprsentation des connaissances explicites afin den faciliter lexploitation dans le
but de rvler ces connaissances implicites contenues dans les corpus textuels.
Lobjectif de ce chapitre est de prsenter les principaux concepts et techniques de la dcouverte de
connaissances partir du texte.
69
Donnes transformes
Modles
Fouille
de donne
70
Connaissances
Evaluation
Interprtations
Transformation
Prtraitement
Donnes prtraites
Donnes cibles
Slection
Base de donnes
Le prtraitement, vise enlever le bruit et dfinir une stratgie pour traiter les donnes
manquantes,
La transformation, o lon recherche les meilleures structures pour reprsenter les donnes en
fonction de la tche,
Il existe souvent une confusion entre les concepts Fouille de Donnes (FD) et lECBD, certains auteurs les
considrent comme synonymes. Or, la FD nest quune des tapes du processus dECBD. Elle correspond
lapplication des mthodes et techniques dextraction de connaissances.
Une ou plusieurs bases de donnes et leurs systmes de gestion, pour le traitement des masses de
donnes volumineuses.
Une base de connaissances qui permet la fois la gestion des connaissances et la rsolution des
problmes lis au domaine des donnes. Le systme utilise une base de connaissances (par exemple
une ontologie du domaine) qui est enrichie grce aux nouvelles connaissances infres par le
systme.
Un systme FD pouvant sappuyer sur des techniques symboliques comme lextraction des rgles
dassociation [Agrawal, 1994], la classification par treillis de Galois [Barbut, 1970], [Davey, 1994]
ou linduction par des arbres de dcision [Breiman, 1984], [Quinlan, 1986].
Et une interface se chargeant des interactions avec lanalyste et de la visualisation des rsultats.
Lanalyste et lexpert sont chargs de guider les recherches et de valider les connaissances extraites.
71
Interface utilisateur
Fouille de Donnes
Systmes de gestion des BD ou DW
Bases de donnes
(BD)
Base de
connaissances
Entrept de
donnes (DW)
2.1.4 De la Fouille
Fouille de donne la Fouille de texte
La Fouille de Texte (FT) est introduite, par Feldman and Degan en 1995 sous le terme Knowledge
Discovery in Textual Databases (KDT) [Feldman, 1995], ou Text Data Mining (TDM) par Marti A.
Hearst en 1999 [Hearst, 1999], et traduit en franais par [Kodratoff, 1999] en Extraction des
Connaissances partir de Textes (ECT).
Feldman et Degan, dcrivent la Fouille de Texte comme un processus danalyse exploratoire qui permet de
rvler des informations exploitables du texte. Ainsi la FT peut tre aussi dfinie comme un processus de
dcouverte de connaissances qui consiste extraire des informations utiles partir des donnes textuelles
par des outils danalyses [Feldman, 2007]. Le but dun processus de FT est de trouver des relations
intressantes impossibles ou difficiles dtecter par une analyse squentielle de linformation [Kodratoff,
1999].
Nous considrons lECT comme un paradigme de lECBD au sens o le processus dECT prend modle
sur celui de lECBD, cest--dire que cest une instance de lECBD applique aux textes [Cherfi, 2004]. Et
la fouille de texte ne reprsente quune tape du processus dECT.
Compare la Fouille de Donnes (FD), qui permet lextraction automatique de connaissances partir de
donnes structures, lobjectif de la FT est dextraire de linformation labore partir dinformations
textuelles peu ou mal structures. [Feldman, 2007] indiquent que les rsultats de la FT reprsentent
gnralement les caractristiques des documents plutt que les documents eux-mmes.
LECT est lintersection de deux disciplines savoir la statistique et la linguistique. Ces deux disciplines
sont fondamentalement diffrentes dans leurs principes et dans leur histoire [Lebart, 1998], [Mothe,
2000], la linguistique ne sintressant quau langage utilis pour constituer les textes. Dans lanalyse de
texte les diffrents niveaux suivants sont considrs [Lebart, 1998], [Pazienza, 1997].
Lanalyse syntaxique qui permet de dfinir les units textuelles de base et qui sintresse la place
relative de chaque mot. Certaines mesures utiles en sont issues : plac avant, aprs, tant de mots
maximum, dans la mme phrase, dpend de, etc.
Lanalyse lexicale sintresse la terminologie (origines des mots, relations, inclusions, synonymies,
etc.) [Reinert, 1996].
Lanalyse morphologique soccupe des variations dans la forme des mots (orthographes, radicaux,
suffixes, prfixes, troncatures, inflexions, etc.). Elle manipule les morphmes (mots simples,
radicaux, drivations, racines anciennes : grec, latin).
Lanalyse smantique sintresse la notion de contenu donc au sens, aux concepts vhiculs par les
textes et aux rseaux qui les unissent [Lin, 1998].
Une approche descriptive issue de la statistique descriptive, de lanalyse des donnes et des
reprsentations graphiques.
Une approche structurante se basant sur les mthodes de classification automatique supervises
(classes prdfinies, reprsentants de classes) ou non supervises (hirarchies, regroupements), sur
la reconnaissance des formes et lapprentissage automatique [Razouk, 1990].
Une approche explicative qui permet de faire le lien entre faits expliquer et variables explicatives
(analyses multidimensionnelles [Benzecri, 1973], [Benali, 1989]) et permet aussi de catgoriser de
nouveaux lments en fonction de classes prdfinies.
Une approche prdictive qui est tourne vers lavenir, la composante temps y jouant parfois un rle
important. Elle conduit la recherche de squences [Agrawel, 1995] (volutions absolue ou
relative, trajectoires, stratgies, ) par lanalyse factorielle multiple (AFM) [Escofier, 1998] ou
lanalyse procustenne [Fichet, 1987], [Fichet, 1988], [Lafosse, 1990] et la prdiction de certains
comportements (achat, panne, dveloppement, rupture, ) par la recherche dassociations
[Agrawal, 1993].
72
Llaboration dindicateurs uni varis, cest--dire de mesures purement quantitatives bases sur du
simple dnombrement ou des calculs de ratio partir des diffrents lments bibliographiques : la
date de publication, les revues, les auteurs, les organismes les pays, les thmes, etc.
73
La modlisation de la diffusion des connaissances : lois sur la circulation des ouvrages et thories de la
communication.
Les trois premires techniques mentionne ci-dessus sont abordes dans ce chapitre. La dernire ne sera pas
voque car ces mthodes statistiques sont plus particulirement dveloppes pour des problmatiques
propres aux sciences de la communication.
En ce qui concerne lapplication des trois premires techniques bibliomtriques, deux domaines sont
concerns :
Adoptes initialement par les institutions acadmiques des fins dvaluation du rendement (science
policy er research management), les mthodes issues de la bibliomtrie voient aujourdhui leurs domaines
dapplication dborder vers le secteur priv et se rpandre en tant quoutils danalyse dans :
Lapplication des techniques bibliomtriques dans le domaine de la veille a pour principal objectif de
dgager un ensemble dindicateurs de tendance grce lanalyse de notices bibliographiques collectes
partir des bases de donnes. Ces indicateurs de tendances sont destins aider les dcideurs anticiper et
pouvoir prendre des dcisions en prenant en compte les lments stratgiques ncessaires. Les informations
collectes peuvent tre destines des tudes de veille scientifique, il sagit donc de notices
bibliographiques darticles scientifiques ou alors pour des tudes de veille technologiques et
concurrentielles, dans ce cas il sagira de notices de type brevet.
Actuellement, des solutions logicielles incorporant les concepts propres lanalyse de citation ou de
cooccurrence dlments bibliographiques des modules de visualisation sont disponibles sur le march.
Nous ciblons dans ce chapitre lapplication des mthodes de la bibliomtrie aux domaines de lanalyse de
lenvironnement scientifique et technique et la veille technologique et concurrentielle.
Cette phase de recherche dinformation (RI) est primordiale. Elle consiste rechercher puis
identifier les sources les plus pertinentes, en ciblant, sur chaque source, toute linformation utile
par des requtes adaptes. Ensuite, il convient de collecter linformation dtecte sous le meilleur
format et au meilleur cot et de la valider par chantillonnage, tri et valuation de pertinence.
74
Extraction et analyse.
Il faut alors rechercher des classes, des associations ou des squences temporelles [Agrawal, 1993]
afin de mettre en vidence les structures existantes aussi bien au niveau des acteurs que des
concepts, den comprendre les mcanismes et les enjeux et den dduire leur volution.
Dans ce cadre, les techniques danalyse de donnes prennent souvent pour point de dpart une
reprsentation de l'information labore sous une forme matricielle. Ces matrices se dcomposent
gnralement en deux classes. Dun cot, les matrices reprsentant les relations entre entits issues du
mme type de donnes comme les auteurs, les mots cls ou des concepts, des sites Web, etc. De lautre
ct (cas plus complexe), les matrices reprsentent les relations entre deux entits diffrentes. Il peut sagir
alors de connexions documents-termes, auteurs-termes, auteurs-affiliations, etc.
Depuis le milieu des annes 90, les tapes de prparation et danalyse ont t privilgies (70% de
leffort global) au dtriment des deux autres et ont conduit de nombreux checs dimplantation
du processus de veille dans les entreprises essentiellement dus une grave carence en information
utile ou une mauvaise communication des conclusions [Dousset, 2003].
La visualisation des connaissances peut tre reprsente par diffrentes formes graphiques selon la
mthode danalyse choisie. En proposant, sur des supports de diffusion lectroniques, des
documents de synthse interactifs et des reprsentations graphiques adaptes chaque destinataire
(reporting). Cette tape est elle aussi fondamentale, mais elle ne reprsente que 20% de leffort
consenti.
Le processus dECT ne peut tre complet que si les connaissances infres peuvent tre exploites par
lutilisateur. Ainsi les informations induites l'tape prcdente doivent tre prsentes dans un format
directement exploitable.
Ce processus peut ensuite dboucher sur la gestion des connaissances (Knowledge Management : KM) en
compltant les dispositifs dj existants pour capitaliser et partager les connaissances et les comptences
dans lentreprise. Dans la suite de ce document, nous allons nous attacher dvelopper ces phases,
voques ci-dessus, dans le cadre de linformation scientifique et technique. Le dveloppement de chacune
de ces phases ( Etapes ECT dans Figure 17) va se baser sur les applications de la mthodologie de la
plateforme la plateforme de veille scientifique et stratgique ( application dans Figure 17), Ttralogie,
[Dousset, 1988], [Dkaki, 1995], [Dousset, 1995], [Dousset, 2006], [Dousset, 2009] dveloppe au sein de
lquipe des Systmes dInformation Gnraliss de lInstitut de Recherche en Informatique de Toulouse
(IRIT).
Toutefois, le principe gnral que nous allons prsenter est parfaitement transposable aux domaines
connexes que sont les mondes conomique, juridique, rglementaire ou mme politique et social.
75
Etapes de lECT
Application
Rechercher, identifier,
collecter et valider
Document lectronique
Section 2.4
Prparer, homogniser,
organiser
Extraction
Analyse et restitution
Entrept de document
Section 2.5
Reprsentation
multidimensionnelle
rduites des documents
Section 2.6
Fouilles de texte
Section 2.7
Restitution
Section 2.8
Le contenu du document,
La structure physique du document qui dcrit le format (taille, mise en page, formatage) de
restitution physique dun document sur support (papier, cran). Elle est base sur la
dcomposition de son contenu en blocs dinformation et une arborescence de ceux-ci pour la
reprsentation visuelle du document.
La structure logique du document, qui permet didentifier les granules dinformation dun
document et de dfinir un dcoupage de linformation dun point de vue hirarchique. Une
structure logique peut tre dcompose en structure gnrique et spcifique. La structure
gnrique exprime lorganisation gnrique commune toute une classe de documents. La
structure spcifique dun document est une instance dune structure gnrique.
76
77
Document
Titre
Auteur1, Auteur2
Mail1, Mail2
Adresse
Introduction
.
Document
Titre
Titre
Auteur1
Auteurs+
Auteur2
Mails+
Mail1
Adresses+
Mail2
MC+
Adresse1
Rsum
Adresse2
...
Contenu
Section *
Structure Logique
Contenu
Structure
Structure Physique
La dfinition du concept de structure logique fait apparaitre trois types de documents : les documents
non structurs (ne contenant pas dinformations de structure) ; les documents semi-structurs (contenant
peu dinformation sur la structure du document) ; et les documents structurs (contenant lensemble des
informations sur la structure du document).
Les sources que nous retenons dans le contexte de nos travaux, sont uniquement des sources lectroniques
(sources formelles section 1.3.1) contenant des documents lectroniques de type structurs ou peu
structurs, ainsi nous dfinissons deux types de sources de donnes :
Sources de donnes structures : les bases bibliographiques, les bases de brevets, (aussi bien sur
serveurs en ligne que sur cd-rom),
Sources de donnes peu structures : flux RSS, site web, page web, traces de connexions, groupes de
discussions, presse en ligne.
Une DTD (Document Type Definition) o la structure logique du document est exprime en
termes dlments que le document devra contenir,
Du texte.
HTML (HyperText Markup Language) est un langage de balisage driv de SGML. Ce langage a t
largement exploit pour la cration des pages Web. Tous les documents HTML sont en fait des
documents conformes une seule DTD : la DTD HTML [W3C, 1999].
Le dernier-n, XML (eXtensible Markup Language), est un langage de description et dchange de
documents structurs. Il est le rsultat de la coopration dun grand nombre dentreprises et de chercheurs
partenaires du W3C (World Wide Web Consortium) [W3C, 2000]. XML distingue deux classes de
documents :
Les documents bien forms sont ceux qui obissent aux rgles syntaxiques du langage XML,
Les documents valides sont des documents bien forms et obissent en outre une structure type,
dfinie explicitement dans une DTD.
Les ressources tant gnralement partages, plusieurs normes reposant sur les structures de documents ont
t dfinies pour permettre leur description l'aide des mtadonnes. La plus populaire est le Dublin Core
qui est un standard de description bibliographique cre en 1995. Il fait l'objet de la norme internationale
ISO 15836, disponible en anglais et en franais depuis 2003. Il est employ par l'Organisation Mondiale
de la Sant, ainsi que d'autres organisations intergouvernementales. Le Dublin Core a un statut officiel au
78
Identifiant
Dfinition
Titre
Title
Crateur
Creator
Sujet et Motsclefs
Description
Subject
Description
Editeur
Publisher
Contributeur
Contributor
Date
Date
Type
Format
Identifiant
Type
Format
Identifier
Source
Source
Langue
Relation
Couverture
Language
Relation
Coverage
Droits
Rights
16
La syntaxe HTML permet d'inclure des lments Dublin Core directement dans un document
HTML (ou XHTML) en utilisant les balises "META".
http://www.dublincore.org
79
La syntaxe XML/RDF permet des constructions plus complexes pouvant tre incluse directement
dans les documents qu'elle qualifie mais galement utilise pour exprimer des mtadonnes
portant sur des documents externes.
Les travaux de [Dousset, 2003] dans le cadre de lECT se sont essentiellement bass sur les documents
lectroniques issus des bases de donnes bibliographiques. Ce type de base de donnes est une collection de
notices bibliographiques dcrivant des documents de type scientifique en fonction de leurs thmatiques.
Chaque notice bibliographique est structure en un ensemble de champs dtermins rpondant des rgles
de forme et de contenu prcis tel que : Titre, Auteur, Pays, Organisme, etc. La figure suivante prsente un
exemple de notice issue de la base INSPEC.
Title: Information superhighway and the digital global library: Realities and challenges
Authors: Ching-Chih Chen
Affiliation: Graduate Sch. of Libr. & Inf. Sci., Simmons Coll., Boston, MA, USA
Journal: Microcomputers for Information Management Vol: 11 Iss: 3 p. 143-55
Date: Sept. 1994
Abstract: The fast technological developments in recent years, particularly in the area of
telecommunications, and [....]
Thesaurus: Information dissemination; Information networks; Library automation
Country of Publication: USA
Figure 21: Exemple de notice bibliographique INSPEC.
Ces notices sont des reprsentations intermdiaires permettant de reflter aussi fidlement que possible le
contenu smantique des documents de la collection. Ces informations bibliographique sont gres
sparment des documents qui leurs sont associs. Contrairement aux mtadonnes construis partir des
langages XML et HTML qui sont directement inclus dans les documents.
80
81
82
Descripteur gnrique
..
..
Mtadonnes du corpus 1
D1
..
Dm
Mtadonnes du corpus n
D1
..
Dp
Chaque ensemble de documents issus de la mme source possde un format spcifique. Chaque format est
ensuite dcrit par des descripteurs de format spcifique qui analysent finement sa structure et dcomposent
son contenu en unit smantiques pour dfinir les modes dextraction les mieux adapts chaque
ensemble. Un descripteur de format gnrique va tre dfini pour permettre le regroupement des units
smantiques selon leurs contenus. Ces descripteurs servent dinterface pour lapplication des mthodes
didentification, dextraction et de dnombrement des informations utiles.
Ces solutions reposent sur les systmes de rcritures qui sont utiliss pour la recherche de motifs et de
signatures, la conversion de format, le balisage, la gnration de liens, lindexation automatique, etc.
Le descripteur de format spcifique repose sur des rgles de conversion (de type rgles de
production des grammaires transformationnelles) pour transformer le balisage initial en un
balisage spcifique, respectant le formalisme de la reprsentation-pivot.
Le descripteur de format gnrique repose sur la spcification des rgles de rcriture qui permet
dunifier les diffrents balisages spcifiques.
Lobjectif de la rcriture est de parcourir des flux dentre et de les rcrire en sortie. La rcriture est
programme en spcifiant une liste ordonne de rgles appliquer sur le flux en entre (texte,
document,...). Cette liste constitue un filtre qui contient les motifs capturer, pour les liminer ou les
transformer. Si la comparaison est positive, loutil rcrit le motif associ.
A partir des rsultats du descripteur gnrique, des rgles dextraction sont dfinies pour permettre disoler
linformation partir des documents traits. Ainsi, chaque champ est distinguable et surtout peut tre
facilement extrait. Linformation explicite est directement lisible.
Les rgles de transformation ou rgles de rcriture rgles dextraction sont exprimes partir
dexpressions rgulires, qui spcifient les motifs capturer et rcrire. Elles possdent un
fonctionnement pipe-line , chacune recevant un flux, le traitant et le transmettant ventuellement la
suivante.
83
Lensemble des units textuelles reprsente une population dindividus sur laquelle va porter lanalyse. Et
les variables tudies vont reprsenter les caractristiques des individus. Une variable peut tre associe
alors aux balises (auteurs, pays, titre, descripteurs, ) dans le cas dun individu qui reprsente un
document de type notice bibliographique. Le but dune analyse est soit de classer les individus en fonction
dune ou plusieurs variables, soit de rechercher les corrlations entre les diffrentes variables sur la totalit
de la population ou sur des parties significatives. Il existe deux grands types de variables Qualitatives et
Quantitatives. Chaque type de variable peut tre subdivis en catgories plus fines :
La figure 23 rsume ces deux types de variables :
Variables
Qualitatives
Ordinales
Nominales
Quantitatives
Hirarchiques
Continue
Discrtes
Variables quantitatives,
quantitatives contiennent des valeurs mesurables. La valeur mesure sur un individu est
reprsente par une quantit. Il existe deux types de variables quantitatives discrtes et continues. Les
variables quantitatives discrtes sont associes aux valeurs que lon peut numrer. Elles ne peuvent prendre
que des valeurs discrtes, cest--dire spares les unes des autres. Cest le cas par exemple pour le nombre
Les variables qualitatives ordinales, sont associes des valeurs de type numrique ou assimil et
mesures sur chaque individu (parfois qualifie de catgorie). On peut alors classer les individus
par valeurs croissantes ou dcroissantes17. Nous retrouvons par exemple lanne de publication,
lanne de dpt, le jour de la semaine ou du mois, ...
Les variables qualitatives nominales, prennent des valeurs qui sont des lments dune catgorie non
hirarchique, cest--dire, ses lments ne peuvent pas tre rangs dans une gradation logique ce
sont des modalits. Exemple : noms des auteurs, des revues, des pays,
Les variables qualitatives hirarchiques, correspondent aux valeurs qui sont associes aux lments
dune catgorie hirarchique. La valeur mesure sur un individu est ordonnables selon une
granularit. Nous retrouvons ainsi les zones gographiques, les inclusions smantiques, les
priodes, etc.
Uni-modale : cette variable ne prend quune seule modalit pour mesurer un individu. Exemple :
anne de publication ou de dpt, revue, langue, type de document, source, 1 auteur, etc. Une
seule modalit est alors requise obligatoirement pour chacun de ces champs dinformation.
Multimodales modalits exclusives : cette variable peut prendre simultanment plusieurs modalits
diffrentes pour dcrire un individu. Exemple : auteurs (un article peut tre sign par plusieurs
auteurs, tous diffrents mais napparaissant quune seule fois), dposants, mots-cls, classifications,
citations, adresses, etc.
Multimodales modalits non exclusives : cette variable peut prendre la mme modalit plusieurs
fois. Exemple : pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cits, revues
cites, termes issus du texte libre (titre, rsum, texte intgral), etc.
notes
La mise en vidence de dpendance entre ces deux variables permet de rduire lespace informationnel afin
de mieux le matriser. De mme il est possible dliminer des lments totalement indpendants du
contexte. Ainsi, seules les relations les plus significatives seront conserves.
17
Source : http://fr.wikipedia.org/wiki/Variable_ordinale
84
85
La contingence est issue du croisement de deux variables uni-modales. La somme des lments de
la matrice est alors gale au nombre de documents possdant simultanment les deux modalits.
Les croisements peuvent tre de type Journaux
documents
Annes ou encore N de
Types de documents .
La cooccurrence est la prsence simultane de deux units linguistiques (deux mots par exemple ou
deux codes grammaticaux) au sein dun mme contexte linguistique (le champ balis, le champ
textuel, le paragraphe ou la phrase). Les cooccurrences rsultent du croisement de deux variables
qualitatives dont au moins lune nest pas uni-modale, modalits multiples, exclusives ou non.
La proximit, qui tudie en termes de distance deux variables. Pour le texte libre, il est possible
de ne prendre en compte que les concidences des modalits physiquement proches ( ct, dans la
mme phrase, n mots de, etc.).
La prsence/ absence, Il existe au moins un document du corpus qui contient simultanment les
deux modalits.
Ces mesures donnent des visions diffrentes mais complmentaires dune mme ralit. Dans le contexte
de ce chapitre, nous ciblons le croisement de variables qualitatives. On gnre ainsi une matrice dont le
nombre de lignes est gal au nombre de modalits de la premire variable et le nombre de colonnes celui
de la seconde. Ces matrices serviront de bases aux techniques dextraction de connaissances.
Le tableau ci-dessous, rsume les diffrents formats de matrices selon le type de variables qualitatives.
Multi
Mu ltimodale
lti modale
modalits exclusives
UniUni - modale
UniUni - modale
Multimodale
Multi modale
modalits exclusives
86
Multimodale
modalits non
exclusives
Contingence
Prsence/ absence
Cooccurrences simples
Prsence/ absence
Cooccurrences simples
Cooccurrences multiples
Prsence/ absence
Multimodale
Multi modale
modalits non
exclusives
Les matrices symtriques, sont issues du croisement dune variable non exclusive avec elle-mme
(auteurs, pays, villes, citations, brevets cits, mots-cls, multi-termes). Les croisements effectus
permettent de mettre en avant les associations entre les modalits dune mme variable. Ainsi la
matrice symtrique, croisant des auteurs permet de rvler leur collaboration, leur stratgie et la
formation de leurs quipes de recherches.
Les matrices asymtriques, croisent deux variables diffrentes, ou alors la mme variable filtre par
deux ensembles diffrents de modalits. Leur analyse permet de rvler les corrlations croises
entre leurs modalits respectives. Cest un des lments cls de la dcouverte de connaissances
cachs dans les grands corpus dinformation textuelle.
Ainsi le croisement dune variable avec les documents est fortement utilis en Recherche dInformation
pour les calculs de pertinence, le filtrage de document etc. Le croisement dune variable avec le temps
permet de dtecter les tendances et les mergences. Les croisements entre des auteurs et des thmatiques
permettent de rvler les centres dtudes les plus importants, les concurrences, les collaborations relatives
un sujet spcifique etc.
Dans ce qui suit nous dtaillerons chaque classe de matrice :
87
La matrice Prsence-Absence est une reprsentation rduite des documents qui nous permet
dappliquer des indicateurs bibliomtriques robustes bass sur le qualitatif. La construction de ces
indicateurs prend comme point de dpart les marginales de la matrice et les autres cellules ne sont
pas prises en compte. Dans le cas dune veille scientifique sur un domaine donn nous pouvons
valuer par ces indicateurs : lindice de notorit dun auteur ou dun journal, le nombre de
journaux o un auteur a publi, etc.
La matrice Cooccurrence peut prendre plusieurs reprsentations selon lobjectif de lanalyse. Nous
utilisons la matrice Cooccurrence simple pour effectuer des analyses relationnelles quantitatives
telles que calculer le nombre de co-signature entre deux auteurs. Cette matrice se rduit la
matrice Contingence lorsque les deux variables qualitatives sont uni modales. La
Cooccurrence Multiple est utilise lorsque nous souhaitons tudier la frquence des concepts
dans un document, dans ce cas il suffit quil y ait au moins une des variables tudies qui soit
multimodales modalits non exclusives.
1
1
0
0
1
0
1
1
1
Marginale
Ligne
2
3
1
Sci-Watch
R&D&I Datametrics
Interprtations :
La marginale ligne, identifie le nombre de journaux dans lesquels a publi un auteur, ce qui nous
permet de dduire indirectement la finalit de recherches de cet auteur : il a t valu par autant
de comit de lecture.
La marginale colonne, rvle le nombre dauteurs qui ont sign au moins une publication dans le
journal correspondant, ce qui nous permet de dduire la taille de la communaut qui utilise ce
mdia pour communiquer ses travaux dans le domaine concern.
88
x Journaux
Auteurs
Dousset
Cavaller
Porter
Marginale Colonne
0
1
0
1
5
2
9
16
Marginale
Ligne
7
4
9
20
Interprtations :
La marginale colonne, identifie le nombre de signatures par journal, et non pas le nombre de
publications par journal.
89
Dousset
Cavaller
Porter
Interprtations :
2.5.4.3 Matrice
Matrice de Contingence
Si la mesure de cooccurrence sapplique deux variables qualitatives uni-modales, nous parlerons alors de
mesure de contingence. Cette mesure permet de croiser deux variables qualitatives uni-modales. Elle
consigne le nombre dindividus qui possdent simultanment une modalit de la premire variable et une
de la seconde. Ainsi un individu nest compt quune seule fois dans la matrice.
Exemple
Nous reprenons, lexemple de la matrice prsence-absence, dans le cas dapplication de la mesure de
dpendance contingence aux deux variables uni-modales Journaux-Dates, la mesure consiste calculer le
nombre de notices contenant simultanment une modalit de la variable Journaux et une seconde
associe la variable Dates . Nous obtenons alors, pour un item du champ Journaux, le nombre de
publications apparues pour un item du champ Dates. Comme les champs Dates et Journaux sont unimodaux, chaque publication (ou notice) nest compte quune fois.
x Dates
Journaux
Sci-Watch
R&D&I
Datametrics
Marginale Colonne
2005
2006 2007
85
65
32
182
91
77
28
196
43
31
12
86
Marginale
Ligne
219
173
72
464
Interprtations :
La somme de tous les lments reprsente leffectif global des notices du corpus analys.
90
la population. Pour ce type de reprsentation, il est intressant dtudier le cas o la premire variable est
lidentifiant dun document (individu) et la seconde est, soit les termes dans une phrase ou soit les pays
dans un champ dadresses multiples. Ce qui nous permet de dduire pour chaque ligne de la matrice le
vecteur des occurrences des modalits de la deuxime variable.
Ainsi, la cooccurrence multiple est principalement utilise en Recherche dInformation [Boughanem,
2001] afin de faire ressortir les documents les plus pertinents, cest dire ceux dans lesquels le terme
recherch apparait le plus souvent, de faon significative.
Elle est quivalente la cooccurrence simple dans le cas de deux variables multimodales modalits
exclusives ou dans le cas du croisement dune variable multimodale et une variable uni-modale.
Elle est identique la contingence, dans le cas de croisement de deux variables uni-modales.
Exemple
Soit un corpus (la population) contenant un ensemble de notices bibliographiques (les individus), un
individu est caractris par la variable qualitative modalit multiple et non exclusive Pays, et la variable
qualitative uni-modale N de notice.
Lapplication de la mesure de dpendance cooccurrence multiple aux deux variables N de notice - Pays,
consiste calculer le nombre de fois o la modalit de la variable Pays est prsente dans une notice. Et cela
pour toutes les modalits de la variable Pays et toutes les notices.
x Pays
Notice
Notice 1
Notice 2
Notice 3
Marginale Colonne
0
1
1
2
0
0
1
1
Marginale
Ligne
2
3
2
7
Interprtations :
La marginale ligne, identifie le nombre de fois o les modalits de la variable Pays sont cites dans
chaque notice,
La marginale colonne, rvle pour chaque modalit de la variable Pays le nombre de fois o elle
apparait dans le corpus.
2.6.1.1 La classification
classification ascendante hirarchique (CAH)
Elle considre initialement toutes les observations comme tant des clusters ne contenant qu'une seule
observation (singleton), et leur distance est alors le plus souvent dfinie comme tant leur distance
euclidienne. La premire tape consiste donc runir dans un cluster deux observations les plus proches.
Puis le principe de CAH continue, fusionnant chaque tape les deux clusters les plus proches au sens de
la distance choisie.
Le processus s'arrte quand les deux clusters restant fusionnent dans l'unique cluster contenant toutes les
observations. Les mthodes de ralisation de ces classifications sont relates dans [Dobrowolski, 1964],
[Bouroche, 1989], [Bellot, 2004] entre autres. Cette analyse classique base sur une matrice de distances
est entirement interactive, permettant, entre autres, le choix du niveau de coupure, lobtention du dtail
dune classe, lexportation de la classification vers le tableur, les cartes factorielles, ou encore les cartes
gostratgiques.
2.6.1.2 La classifi
classification
lassifi cation par partition
p artition (CPP)
Il nest plus question, ici, de proposer une hirarchie de classes imbriques autorisant parfois plusieurs
niveaux de coupure cohrents, mais de simplement dfinir une partition compose dun nombre
maximum de classes dfini lavance.
Cette mthode consiste alors choisir dabord un initiateur pour chaque groupe. Chaque lment est
ensuite rattach linitiateur le plus proche. De ce processus rsulte un ensemble de groupes disjoints. Le
91
2.6.2 Association
La recherche dassociations consiste dtecter les liens qui peuvent exister entre deux donnes de diffrents
types (par exemple entre les pays et les thmatiques de recherche ou entre les journaux et les laboratoires de
recherche).
92
2.6.3 Squences
Les squences peuvent tre dcouvertes au travers de tables de cooccurrences trois dimensions, cest dire
partir de sries temporelles de tables deux dimensions. Il sagit, dans un premier temps, de dcouvrir les
associations au sein de chacune des tables, puis de faire apparatre les volutions de ces associations. Cette
dcouverte de squences est base sur lAnalyse Factorielle Multiple [Benali, 1989] et sur lAnalyse
Procustenne [Lafosse, 1990]. La matrialisation de lvolution se fait par la visualisation des trajectoires,
2.7 La restitution
La restitution des rsultats danalyse peut seffectuer sous des formes trs diverses : fiche de synthse,
document hypertexte, prsentation multimdia, portail, etc. Mais lessentiel de la restitution de
linformation labore est bas sur des reprsentations graphiques en raison du trs grand pouvoir de
synthse des images et de leur comprhension quasiment intuitive. Ces reprsentations de linformation
ont en fait plusieurs fonctions bien distinctes :
La dcouverte de connaissances obtenue grce linteractivit avec les images produites par les
mthodes danalyse,
93
La diffusion des rsultats sous une forme aisment assimilable : images fixes rigoureusement
slectionnes par les analystes pour illustrer les documents papier,
La navigation grce des systmes dynamiques dillustration des rsultats chiffrs sappuyant sur
une interactivit forte avec lutilisateur final (cartes ou graphiques statistiques interactifs,
documents hypertextes, restitution sous forme de portails, ) et lui permettant de retrouver une
information cible.
Les graphiques statistiques classiques, qui, par lapport de linteractivit, restent trs attractifs pour
exprimer certaines distributions : frquences, rpartitions dans le temps, parts de marchs,
tendances, ruptures,
Les graphes relationnels, qui, lorsque leur trac est optimis, donnent une illustration intuitive aux
liens remarquables dtects par les analyses [Boutin, 1999], [Van Dongen, 2000], [Herman,
2000], [Marshall, 2001].
De nombreuses recherches sur la smiologie graphique sont en cours, car ce mode de restitution semble
tre le mieux adapt pour rechercher, manipuler, comprendre et synthtiser linformation plthorique qui
est mise notre disposition [Thomas, 2001], [Gimeno, 2001]. Une part de notre proposition concernera
la restitution graphique, la diffusion, la navigation et les diffrents modes dinteractivit.
94
95
Module de reprsentation rduite de donnes, qui permet de structurer selon les objectifs viss les
relations (prsence- absence, contingence, cooccurrence, cooccurrence multiple, etc.) existantes
dans le corpus analys [Dousset, 1987], [Dousset, 1988], [Dousset, 1989], [Dousset, 2005],
Module danalyse de donnes, qui recouvre toutes les techniques de classification, dassociation et
de squences (ACP, AFC, CAH, CPP, etc.) [Dousset, 1987], [Dousset, 1989], [Dousset, 1993],
[Dousset, 2006], [Dousset, 2007].
Module de visualisation, permet doffrir des rsultats graphiques sous forme de carte factorielle en
2D, 3D et 4D [Dousset, 1991], [Banammar, 1999], [Dousset, 2002], [Dousset, 2003].
Module danalyse de graphe, qui permet dexplorer lvolution des matrices par des graphes
volutifs [Karouach, 2003], [Dousset, 2005], [Loubier, 2007], [Loubier, 2008], [Loubier, 2009].
Larchitecture modulaire, qui est adopte, permet une adaptation fine des besoins spcifiques qui sont
essentiellement lis la taille des entreprises ou des organisations, leur secteur d'activit, leur type de
clientle, aux impratifs en termes de cot, de qualification, de ractivit et de vision prospective. Plusieurs
niveaux de comptences et de services sont proposs :
les scnarios d'analyse prfabriqus couvrant la majorit des besoins lmentaires en information
labore,
des stratgies d'analyse plus complexes mises au point par des spcialistes pour chaque source
spcifique d'information lectronique,
un logiciel interactif pour la ralisation d'analyses spcifiques trs dtailles pouvant tre conduites
de faon collgiale via Internet.
96
97
Rfrences bibliographiques : rsums et mots-cls trs gnraux, peu de technique, pas de texte
intgral.
Articles scientifiques : les recherches en cours et les projets les plus prometteurs ne sont pas
dvoils, linformation est souvent distille sur plusieurs articles.
Brevets : ils servent protger linvention et non pas aider autrui la prolonger.
Nous remarquons que sur lensemble de ces sources textuelles, se cachent des informations implicites
(appele endogne) que les rdacteurs eux mmes nont pas conscience davoir contribu mettre en
commun et la disposition de tous. Ce type de traitement permet alors de dgager des informations
portant par exemple sur :
Lvolution des collaborations entre organismes ou entreprises, ce qui permet de dduire leurs
stratgies.
La classification des brevets en fonction de leurs rfrences aux brevets antrieurs (co-citations
appliques aux brevets) permet de bien structurer un domaine technologique,
98
Spcification .........................................................................................................................102
3.2.1.1
3.2.1.2
3.2.2
3.2.3
Planification ..........................................................................................................................105
3.2.4
3.2.5
3.2.6
3.2.7
3.2.8
3.3.2
3.3.3
3.3.1.2
3.3.1.3
3.3.1.4
Principe ..................................................................................................................132
3.3.2.2
Principe ..................................................................................................................135
3.3.3.2
3.4.2
3.4.3
3.5.2
3.5.3
2.10
Introduction
Que cela soit au niveau dun individu, dune entreprise ou dune nation, surveiller et anticiper les
volutions de son environnement est vital pour maintenir ou dvelopper sa comptitivit. Linformation
reprsente la matire premire dune dmarche dIE. Au cours de la dernire dcennie, un grand nombre
de documents publics est disponibles sur Internet (dpches de presse, bases de donnes bibliographiques
scientifiques et techniques, etc.) ou en Intranet (mails, rapports techniques, rapports dtonnement)
contenant potentiellement de linformation utile la dcision. La capacit des entreprises recueillir et
stocker ces documents dpasser leur capacit les traiter, les analyser et les exploiter. Les entreprises
rclament donc des systmes dextraction et danalyse dinformation personnaliss et volutifs mettant
laccent sur des besoins relatifs des fonctions dexploration, sur des domaines prcis (agroalimentaire,
aronautique, pharmaceutique etc.), telles que : identifier des fournisseurs de technologies, des
concurrents, reprer les fusions/acquisitions dentreprises paraissant dans la presse conomique, etc.
Notre contribution consiste proposer un systme dinformation adapt aux besoins la dmarche dIE
(voir section 1.5). Lobjectif de ce systme est doffrir une rfrence mthodologique aux oprations de
collecte, de traitement et danalyse des informations. Il doit permettre dobserver et danalyser
lenvironnement informationnel dun problme dcisionnel sous toutes ses dimensions. Lapproche suivie
(voir Figure 33), repose sur le couplage des mthodes utilises au cours du processus dECT (section 2.2
du chapitre 2) avec les diffrentes tapes du processus de veille (voir section 1.2.2.1 du chapitre1).
Veille
Besoin informationnel
Extraction de Connaissances partir du Texte
Collecte
Collecte de documents
Homognisation et structuration
Reprsentation multidimensionnelle
Analyse
Synthse
Figure 33: Couplage du processus de veille et de lECT.
Laspect dynamique de lanalyse dinformation est vital toute activit de veille dans un contexte dIE.
Cette dynamique intgre la notion de surveillance continue de lenvironnement de lentreprise, afin de
pouvoir dtecter ses changements et ses volutions. Dans ce contexte une grande part de linformation
porte stratgique vient du relationnel et la pertinence des donnes extraites dpend fortement de le prise
en compte de leur volution mais aussi de celles de leurs interactions. Le recoupement entre plusieurs
informations permet ainsi une comprhension synthtique de lenvironnement informationnel de
lentreprise et de sa dynamique. Le systme dinformation propos, se base sur un modle danalyse
exploratoire multidimensionnelle, que nous nommons Xplor, qui permet de rpondre ces besoins par la
prise en compte, dune part de laspect relationnel, et dautre part de laspect temporel au sein de lanalyse.
Il repose sur lextraction des connaissances partir des donnes textuelles par lanalyse des donnes
Le futur par anticipation, pour tout ce qui concerne les organisations successives dun rseau, telles
que les collaborations, alliances, fusions, acquisitions, co-citations, co-signatures, cooccurrences de
tous ordres.
Spcification
Le processus propos sinsre au niveau du cycle dIE pour supporter les diffrentes tapes de veille
stratgique (voir Figure 10). Nous considrons que le dclanchement du processus propos est bas sur la
fin de ltape de ciblage du processus danalyse stratgique. Nous rappelons que le ciblage, permet
didentifier les domaines dactivits analyser. Cette activit a pour objectif de traduire le problme
dcisionnel pos en un problme informationnel.
Les indicateurs informationnels (2.1.5) qui permettent de les synthtiser et les reprsenter.
Domaine dactivit
Acteurs pertinents
Concepts pertinents
Nous notons que la mthode MEDESIIE (voir section 1.4.1) et les modles SITE (voir section 1.4.2)
permettent doffrir un cadre mthodologique pour lidentification des cibles surveiller.
Dans le contexte de nos travaux, nous supposons que les indicateurs peuvent se prsenter sous forme soit
dindicateur uni-vari, soit dindicateur relationnel (vois section 2.1.5).
18
La banque de donnes de lObservatoire des Sciences et des Technologies, dans son tat actuel, ne permet pas
l'utilisation de ces indicateurs en raison de l'absence de donnes sur les rfrences et les mots-cls.
Mots--cls
Mots
MotsMots- cls
Pays
Organisme
Auteurs
Rseaux
smantiques
Thmatiques
spcifiques des
pays
Thmatiques
spcifiques des
organismes
Collaborations
internationales
des organismes
Collaborations
entre les
organismes
Domaine de
comptence de
chaque auteur
Collaborations
internationales
des auteurs
Collaborations
entre auteurs et
organismes
Structure et
collaboration
des quipes
Collaborations
internationales
Pays
Organisme
Auteurs
Date
Evolution des
thmatiques
Evolution de
l'activit de chaque
pays
Evolution de
l'activit de chaque
organisme
Evolution de
l'activit des
auteurs
Dans le Tableau 11, nous prsentons les indicateurs relationnels de tendances qui permettent dtudier les
relations entre les diffrents lments dune notice bibliographique (voir Figure 21) par la prise en compte
de la dimension temporelle Date.
MotsMots- cls
Mots--cls
Mots
Pays
Pays
Organisme
Auteurs
Date
Date
Date
Date
Evolution des
rseaux
smantiques
Evolution des
thmatiques
spcifiques des
pays
Evolution des
thmatiques
spcifiques des
organismes
Evolution des
collaborations
internationales des
organismes
Evolution des
collaborations entre les
organismes
Evolution des
collaborations
internationales
Organisme
Auteurs
Auteurs
MotsMots-cls
Pays
Organisme
Auteurs
Date
Etendu de la
thmatique dun
auteur
Nombre de pays
avec lesquels a
collabor un
auteur
Nombre
dorganismes
avec lesquels
a collabor
un auteur
Nombre de
collaborateurs
dun auteur
La dure de la
carrire dun
auteur dans le
domaine tudi
Le systme dinformation propos consiste rpondre aux calculs de ces indicateurs. Notre objectif, est
doffrir un modle danalyse exploratoire multidimensionnelle gnrique, qui permet de calculer des
indicateurs de type uni-vari et relationnel de tendance. Nous notons que les exemples prsents peuvent
tre tendus dautres type de document tel que : les brevets, la presse, etc.
2.11.2
2.11.3
Planification
What
Why
Who
B. Godin, L'tat des indicateurs scientifiques et technologiques dans les pays de l'OCDE, (Document de travail, Projet
de remaniement des sciences et des technologies, Statistique Canada), 1996, 17.
Modalits daction
Tableau 13 : Les questions 5W-1H.
Le principe 5W-1H renferme ce que l'on appelle en rhtorique les circonstances : la personne, le fait, le
lieu, les moyens, les motifs, la manire et le temps. Ainsi, lentreprise peut dresser un plan danalyse dtaill
lui permettant de mener bien son projet dIE.
Dans le cadre de nos travaux nous adaptons ce principe pour dcrire le besoin informationnel pos et
orienter lanalyse exploratoire. Notre adaptation se positionne au niveau de la question How
(Comment). lorigine, lobjectif de cette question tait de dcrire les procdures, techniques et actions
mettre en place dans le cadre du projet tudi. Dans le contexte du processus propos, la question How
(Comment) va dcrire les indicateurs mettre en uvre pour satisfaire le problme informationnel pos.
En se basant sur le principe 5W-1H, nous proposons de dcomposer lactivit de la planification en 14
sous activits (Figure 37). Cette dcomposition va permettre de rpondre de faon claire et prcise
chaque question des 5W-1H.
Il est noter que le dclencheur de lactivit planification est le problme informationnel (Erreur
Erreur ! Source
du renvoi introuvable.)
introuvable. pos. Les produits de cette activit sont dcrits dans le Tableau 14.
What
Le sujet danalyse
Why
Who
When
La validation de lactivit dfinir les thmes danalyse conduit lutilisateur dfinir, pour chaque thme
identifi, deux activits principales comme lidentification des sources dinformations et la dfinition des
indicateurs danalyse.
2.11.3.2.1
2.11.3.2.2
Cette activit consiste dfinir les indicateurs calculer et valuer. Ces indicateurs ont pour objectif de
synthtiser et interprter lenvironnement informationnel du thme de lanalyse. Dans le Tableau 21, nous
dfinirons lensemble des indicateurs pouvant tre exprims dans le contexte de nos travaux.
A ce niveau dactivit, lutilisateur doit introduire les diffrents indicateurs associs chaque thme du
sujet danalyse. Chaque indicateur est analys de manire identifier ses attributs cibls, leur granularit,
leurs valeurs et leurs relations. Lobjectif de cette dcomposition est dorienter et dcrire les diffrentes
activits du processus propos.
SPECIFICATION
20
21
24
Niveau 0
Niveau 1
Niveau 2
Niveau 3
Niveau 4
Val1111
............
.....
Indn1
.....
.....
Indni
Valn11k
.....
Attnij
Val111k
..........................
.
.....
.....
.....
Thjn
Att11j
Ind1i
Thj1
Sujet
Ind11
.....
Att111
Valnijk
Exemple
Le besoin est dfini comme suit :
Bs = < SAs, ThAs, IndAs, AttAs, ValAs>
SAs = valuation de la recherche scientifique dans le domaine des Nanotechnologies
ObjAs = < Les collaborations, La production scientifiques, Les thmatiques de recherches>
IndAs = {< Les collaborations, < Les collaborations entre auteurs, Les collaborations entre organismes,
Les collaborations entre pays>>, < La production scientifiques, < Le nombre de publication,
Lvolution du nombre de publication>>, < Les thmatiques de recherches, <Lvolution des thmatiques
de recherches des auteurs>>}
AttAs = {< Les collaborations entre auteurs, < Auteur, Auteur >>, < Les collaborations entre organismes, <
Auteur, Organismes >>, < Les collaborations entre pays, < Auteur, Pays >>, < Le nombre de publication, <
Sujet
Thmes
Indicateurs
Les collaborations
entre auteurs
Les collaborations
valuation de la
Recherche Scientifique
dans le domaine des
Nanotechnologies
La production
Attributs
Auteur
Les collaborations
entre organismes
Organisme
Les collaborations
entre pays
Pays
Le nombre de
publication
Auteur
Evolution du nombre
de publication
Thmatiques de
recherche par auteurs
Les thmatiques
Evolution des
thmatiques de recherche
des auteurs
Valeurs
Auteur
Date
Auteur
Descripteur
Auteur
Descripteur
1999
2000
2001
Date
2002
2003
2004
Une fois que toutes les sous activits associes lactivit de la planification sont termins et valides, les
rsultats obtenus seront mmoriss pour une utilisation ultrieure.
La Figure 36, reprsente le fonctionnement gnral de lactivit planification.
2.11.4
Lobjectif de cette activit est de centraliser tous les documents susceptibles de contenir des informations
pertinentes rpondant aux besoins de lanalyse. Cette activit se base sur les produits issus de lactivit
planification. Nous retenons de cette dernire : la liste des sources dinformations formelles, le sujet, les
thmes et objectifs, la liste des attributs et leurs valeurs. Ces produits vont permettre de guider lactivit de
recherche dinformation pour construire le corpus cibl de lanalyse.
Le terme corpus dsigne gnralement de vastes ensembles de donnes textuelles semi ou totalement
structurs et sous forme lectronique. Un corpus est une collection de donnes langagires qui sont
slectionnes et organises selon des critres linguistiques explicites pour servir d'chantillon du langage,
selon [Habert, 2000]. De plus, un corpus lectronique est un corpus qui est encod de manire standardise
et homogne pour permettre des extractions non limites l'avance. L'origine et la provenance des
donnes langagires sont notes. En effet, la simple existence sur support lectronique ne fait pas d'un
ensemble de textes un corpus lectronique. Encore faut-il que ce document respecte des conventions de
reprsentation, de codage rpandues, voire consensuelles, qui permettent la transmission et la rutilisation
des donnes textuelles.
Sources de donnes structures : les bases bibliographiques, les bases de brevets, etc.
Sources de donnes semi ou non structures : Flux RSS, Page web, Traces de connexions, Groupes de
discussions, Presse en ligne, etc.
Dans la Figure 38, nous prsentons la procdure que nous retenons pour lactivit de recherche et collecte de
documents qui peuvent tre issus de sources htrognes. Le but de notre dmarche est de construire un
corpus cibl partir de toutes les collections de documents retourns par les diffrentes sources interroges.
Chaque collection est compose d'une slection d'informations textuelles brutes.
Sources htrognes
Flux
Systme PUSH
Robot Aspirateur
Collection 1
Collection 2
WWW
BDD
Systme de Tlchargement
Collection 3
Corpus Cible
Collection 4
Collection 4
La collecte de documents peut seffectuer par une simple recherche dinformation au sein des bases de
donnes de type bibliographique ou brevet. Cette recherche dinformations repose sur les Systmes de
Recherche dInformation qui intgrent un ensemble de modles et de processus permettant de slectionner
des informations pertinentes en rponse aux besoins identifis. Le processus de recherche dinformation
consiste mettre en correspondance les besoins identifis sous forme dun ensemble de mots cls (requte)
avec lensemble des descripteurs des collections de documents (ou de pages web). Ce processus restitue une
collection de documents selon leur pertinence ordonne dcroissante vis--vis de la requte formule. Cette
collection est collecte par lutilisation des systmes de tlchargements intgrs dans les systmes de
gestion des bases de donnes bibliographiques (brevet). Ces derniers permettent de rcuprer les rsultats
sous forme dun ensemble de documents textuels structurs.
Dans le cas dutilisation des systmes de recherche dinformation tels que : Google, Exalead, ou des
systmes qui noffrent pas la possibilit de tlcharger directement les rsultats, il est possible de collecter
les documents en utilisant des robots de type aspirateurs disponibles sur Internet : aspirateur dURL
(Wisigot, MmoWeb, Teleport pro), aspirateurs de site tels que MmoWeb ou Teleport pro permettant
de rcuprer lintgralit ou une partie des pages web retournes.
Il est galement possible de constituer des collections de documents en utilisant les systmes PUSH media
qui sont des systmes servant retourner des informations sur des thmatiques prcises et cela de faon
permanente et automatique selon les critres pralablement slectionns. Les rsultats obtenus sont des
pages web qui sont collectes par des robots aspirateurs. Ces derniers retournent des documents baliss tels
que des fichiers de type XML, HTML ou des documents de type texte non baliss par exemple les traces
de connexions.
Le rsultat de cette opration de collecte correspond au corpus cibl qui devient une nouvelle source
dinformation, cible. Les documents associs aux collections contenues dans le corpus cibl possdent le
mono-valeur ne pouvant avoir quune seule valeur possible, gnralement les attributs de type
Titre , Date sont mono-valeur.
multi-valeur en ayant plusieurs valeurs, comme par exemple plusieurs noms dauteurs pour un
article cocrit, dlimits par des sparateurs.
compos, certains attributs peuvent contenir des valeurs recouvrant plusieurs concepts. Cette
notion vient du fait que les bases dinformation ne sont en fait que semi-structures.
Par exemple : lattribut So: Computers-environment-and-urban-systems. 2006; 30 (4) : 460-484
peut se dcomposer en trois valeurs de types divers :
Les documents issus des sources assez bien structures sont gnralement prsents par un ensemble
dattributs (par exemple lauteur du document, sa date de cration, etc.) prdfini constituant dj une
notice bibliographique. Dans ces documents, les informations utiles associes aux attributs y sont
marques grce un langage de balisage. Ce balisage est non ambigu et rpond des rgles prcises qui
doivent tre strictement appliques pour que le document soit considr comme valide lors de sa cration.
Dans cette catgorie nous retrouvons, les documents tlchargs partir des bases de donnes
bibliographiques ou brevet et les documents de type SGML ou XML.
Dans le cas o les documents sont collects partir des sources peu ou mal structures, nous catgorisons
les contenus afin de redfinir une structure de type bibliographique. Nous retrouvons dans cette deuxime
catgorie : les documents HTML, les documents non baliss etc. Nos recherches nous ont emmens alors
dfinir des traitements permettant de structurer et dhomogniser les documents contenus dans le corpus
cibl.
Dans le cas des documents non structurs, nous considrons seulement les documents textuels dont la
structure est caractrise par des sparateurs. Notre approche ne stend pas aux documents de texte libre.
La premire phase de lactivit dbute par la cration dun corpus cibl vide. La seconde consiste
slectionner une source dinformation formelle parmi les sources retenues au niveau de lactivit
planification. Une fois la source dinformation slectionne suivra alors ltape didentification de son type.
Selon le type de la source lutilisateur formule et soumet la requte ou le critre. Chaque requte (ou
critre) est construite partir du sujet et thmes danalyse, des attributs cibls et de leurs valeurs. La
collection de documents retourne par la source sera ensuite analyse. Si les rsultats sont jugs pertinents
par lutilisateur, procdera alors lactivit de collecte de ces documents sinon la requte ou le critre seront
reformuls. Les documents retenus partir de la source dinformation slectionne seront rajouts au
2.11.5
Homognisation et/ou structuration des
documents
Dans la dmarche propose, nous supposons que les documents contenus dans le corpus cibl peuvent tre
issus de sources htrognes. Lhtrognit des sources peut tre de format, de langue, etc. Il sagit donc
de rsoudre des problmes de type smantique (conflit de nom dattribut ou de type, absence de valeur...),
mais galement de type structurel (documents non baliss, HTML) ou encore syntaxique. Pour y
rpondre, notre dmarche va se baser sur les principes dextraction dinformations dfinis par [Dkaki,
1996], [Chrisment, 1997]. Cette approche permet dextraire des informations prdfinies partir de
documents textuels o la localisation dinformations extraire est balise ou spares par des chanes de
caractres. Ces solutions permettent dans le contexte de notre proposition de :
dfinir une vue unifie des documents contenus dans le corpus cible,
grer les cas de valeurs multiples (un attribut marque plusieurs valeurs de mme type) et des
valeurs diverses (un attribut marque plusieurs valeurs de natures diverses),
grer les diffrents conflits smantiques et syntaxiques tels que la synonymie syntaxique, inclusion,
gnricit et spcificit.
La vue unifie associe au corpus cibl correspond une reprsentation logique, structure, prdfinie de
lensemble de ses collections. Cette reprsentation respecte le format dune notice bibliographique. Sa
dfinition se base sur la prise en compte des descripteurs de format spcifiques et des descripteurs de
format gnrique (Figure 40 : Dmarche dhomognisation des documents.).
Corpus Cibl
Descripteurs de
formats spcifiques
(1)
Descripteurs de
formats spcifiques
(2)
Descripteurs de
formats spcifiques
(3)
Descripteurs de
formats spcifiques
(4)
Vue unifie
Figure 40 : Dmarche dhomognisation des documents.
Descripteurs de
formats spcifiques
(5)
2.11.5.1.1
Structure dextraction
Chaque collection de document issue des sources de donnes structures est dfinie par un ensemble
dattributs ou champs baliss. Cet ensemble renseigne sur le type, la nature et la localisation de toutes les
informations lmentaires que chaque unit dinformations peut contenir. Cette structure peut tre
dduite par apprentissage ou en consultant la documentation du serveur. Elle correspond une mtainformation associe chaque collection.
Dans le cas o la collection de document est collecte partir dune source dinformation peu ou mal
structures nous devons localiser les informations utiles lanalyse et dfinir pour chaque nature
dinformation lattribut qui lui est associ. Ce traitement nous permet dfinir une structure des documents
de la collection sous forme de notice bibliographique.
Identification de la Structure
Rgles dextraction
Rgles de rcriture
Notices bibliographiques
Soit dans la Figure 41 un extrait du corpus de document collect partir des traces de connexions au site
atlas.irit.fr pour lanne 2007.
Lanalyse du contenu de la Figure 41 nous permet de dfinir les attributs cibls et les rgles de rcriture
des valeurs de ces attributs. Nous dcrivant dans le Tableau 15, les attributs cibls pouvant dcrire le
contenu de la Figure 41 sous forme de notice bibliographique.
Attributs
Numro
Date
Heure
Source
IP
Service
Destination
Valeurs
Valeur s
9328
5/05/2007
2/17/39
AOrleans-154-1-143-195.w90-20.abo.wanadoo.fr
127.0.0.1
Ftp
Atlas-dmz
2.11.5.1.2
Les rgles dextraction spcifiques permettent de dcrire la manire dont les informations utiles seront
extraites. Elles associent chaque lment de la structure lensemble des valeurs quelle extrait pour un
attribut cibl.
Les rgles dextraction peuvent se baser sur :
des rgles de dcoupage lorsquelles sont uniquement exprimes par des marqueurs
syntaxiques et des sparateurs comme les caractres de ponctuation. Cette catgorie de
rgles sera le plus souvent utilise dans le cas des attributs multi-valeurs.
En reprenant lexemple prcdent, la figure suivante dcrit la structure de la collection de
documents Trace de connexion et SExtract reprsente lensemble des attributs cibls
extraire pour une analyse donne.
La rgle dextraction appliquer repose sur lutilisation dun operateur dordre (ORDx).
SExtract = <Heure
<Heure,
Heure, Jour,
Jour, Mois >
Where (Heure) = Notice : ;ORD3 , indique que llment dinformation Heure provient du
troisime lment spar par ; avec la balise Notice :
Where (Jour) = Notice : ;ORD2
Where
Where (Mois) = Notice : ;ORD2
ORDx: oprateur dordre
Figure 43 : Exemple de rgle dextraction.
des rgles descriptives lorsquelles dcrivent les informations extraire. Nous utilisons cette
catgorie pour extraire les valeurs associes aux attributs de type compos. Ces rgles
consistent dcrire les informations extraire. Elles peuvent se prsenter sous forme dun
automate qui dtecte des squences types dans les valeurs dun attribut.
Par exemple la squence 19 XY MMM tel que MMM = {Jan, fev, , Dec} et 00 XY
99.
2.11.5.1.3
Transformateurs
Tran sformateurs smantiques spcifiques
synonymie,
inclusion,
gnricit-spcificit.
RELATION DE SYNONYMIE
Lunicit de la reprsentation des valeurs nest pas assure dans les collections collectes. En effet, les
attributs sont rarement standardiss aussi bien dans leur forme que dans leur contenu smantique. La
mme valeur peut avoir plusieurs reprsentations telles que lorthographe des auteurs ou conventions
dcriture des prnoms fluctuantes, homonymes, mots cls multiformes et de sens identiques, adresses
fantaisistes etc.
Nous traitons par les relations de synonymies les problmes de diffrences syntaxiques, les fautes de
transcriptions
Diffrences syntaxiques
Lomission de telles relations biaiserait les rsultats statistiques ainsi que les conclusions des mthodes qui
seront utilises en aval.
RELATION DINCLUSION
Les objectifs dune tude peuvent induire un degr dabstraction plus au moins grand pour certaines
valeurs. La relation dinclusion permet lutilisateur de choisir la granularit des valeurs de lanalyse ainsi
que leur homognisation. Par exemple, une relation d'ordre intressante concerne des informations
gographiques avec villes, dpartements, rgions, pays, continent...
Dans cette relation dordre x<y signifie que x est plus spcifique que y, et que la notion y recouvre la
notion x.
Exemple
Si un document est sign par un laboratoire parisien, alors ce document est franais et europen.
Paris => France => Europe
Californie => USA => Amrique
Barcelone => Espagne => Europe
Dpartement => rgion => Pays => Continent
L'utilisateur doit tablir une liste dcrivant la prcision du niveau dabstraction choisit, comme exemple
pour une analyse par continent : cela gnre une liste de synonymes tels que toutes les valeurs dun niveau
hirarchique inferieur au niveau France sont associ la valeur France et toutes les valeurs de niveau
suprieures sont ignores.
Un regroupement des valeurs peut donner naissance une classe en vue de raliser des analyses. Certains
dtails prsents dans le corpus peuvent tre reprsents par des concepts plus larges selon les besoins de
lutilisateur. Il sagit par exemple de regrouper tous les attributs associs au champ auteurs dune mme
quipe ou les pays dune mme culture ou dun mme profil conomique. Dans certains cas cest la seule
mthode qui permet de rduire efficacement le nombre de variables prises en compte dans lanalyse
multidimensionnelles.
Notons que nous prenons la relation gnricit-spcifit dans le sens utilis dans les thesauri, et non dans
celui lingnierie des connaissances. On peut donc rencontrer de vritables relations dhyperonymie mais
aussi des relations de mronymie.
Exemple
Classe G8 :
France => G8
Etats Unis => G8
Royaume Uni => G8
Japon => G8
Classe 2006-09:
2006 => 2006-09
2007 => 2006-09
2008 => 2006-09
2009 => 2006-09
une structure gnrique dextraction, qui devient alors la structure commune aux diffrentes
collections du corpus cibl.
Dkaki [Dkaki, 1996], propose une drivation de la structure dextraction globale partir des structures
dextractions associe chaque corpus collect.
Exemple de structure gnrique
Pour deux exemples de corpus collects partir des sources Pascal et Factiva, la structure globale
dextraction StructureGlobal Extrac et la fonction WhereG sont dfinies comme suit :
StructureGlobal Extrac = {Titre, Auteur, Affiliation, Confrence, Date, Pays, Descripteur, thme, Journal, Langue}
WhereG ([Auteur] ) = {(SPascal, AU), (SFactiva, BY) }
Exemple d e rgle dextraction gnrique
AU: MOTHE-Josiane; CHRISMENT-Claude; DKAKI-Taoufiq; DOUSSET-Bernard; KAROUACHSaid ( Pascal)
BY
ExtractR ( Val, [Auteur] , Rgle[Auteur] ) = ExtractR (Val, Auteur, Rgle Auteur) ={ MOTHE-Josiane,
CHRISMENT-Claude, DKAKI-Taoufiq, DOUSSET-Bernard, KAROUACH-Said, Franois
Courvoisier }
Avec : Rgle Auteur: est une rgle de dcoupage prenant en compte les sparateurs du champ associ Auteur
par la relation Wherepascal (Auteur) = AU et WhereFactiva (Auteur) = BY.
2.11.6
Notre proposition consiste dfinir une structure unique de donnes intermdiaires entre informations
brutes et pr-connaissances dduites, sous la forme dun entrept de donnes gnrique, qui contiendra
Vue unifie
Structure 3D
Structure 2D
Entrept de donnes
La reprsentation multidimensionnelle se base sur les matrices prsentes dans ltat de lart (2.5.2 Mesures
de dpendances).
Attributi
Attribut cibl
ID-Doc
Relation de dpendance
Attributi
Attributi
Attribut cibl
Relation de dpendance
Date
Figure 48 : Relation de dpendance trois dimensions.
Les valeurs contenues dans la matrice de cooccurrence 3D quantifient la relation de dpendance entre les
trois attributs croiss. La quantification rvle le nombre de documents dans lesquels on retrouve les trois
valeurs simultanment.
2.11.7
Nos travaux consistent proposer un ensemble de fonctions exploratoire. Dans ce contexte, nous
dfinissons deux types :
Fonctions de manipulation
Fonctions dagrgation
La fonction environnement : pour une valeur dattribut donne, affiche lensemble des attributs et
des valeurs cooccurrents dans lentrept.
La fonction volution : permet dexplorer lvolution dans le temps des rsultats des fonctions
prcdentes.
Somme,
Comptage,
Minimum,
Moyenne,
Maximum,
Frquence.
2.11.8
Validation et diffusion
Dune part chaque activit du processus (cf. les figures dcrivant le fonctionnement gnral de
chaque activit),
Modle de reprsentation
2.12
multidimensionnelle des documents
2.12.1
Considration gnrales
Lobjectif principal de cette tape est dextraire les relations de dpendances existantes entre les diffrents
lments de la structure dextraction globale du corpus structur. Le but est de rduire les informations
extraites afin de mieux les maitriser, en liminant les lments indpendants, pour ne garder que les
relations les plus significatives en termes danalyse.
Dans ce contexte, le corpus structur reprsente la population dindividus sur lesquelles va porter lanalyse.
Nous dfinissons une vue multidimensionnelle du corpus global et lensemble des lments de la structure
dextraction globale (< Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >) reprsente les dimensions (ou les
variables dans le domaine danalyse de donnes) de lanalyse, et les valeurs du corpus reprsentent (< {
valeur11G, , valeurk1G}, , { valeur1iG, , valeurliG}, , { valeur1jG, , valeurmjG} >) les attributs associs
aux dimensions (ou les modalits dans le domaine danalyse de donnes).
La vue est alors une modlisation des diffrentes corrlations entre variables sur la totalit de la population
(documents du corpus source) ou simplement une de ses parties significatives.
Les variables sont de plusieurs types [Dousset, 03]:
MultiMulti -modales modalits exclusives : anne, revue, langue, type de document, source, (une
seule modalit de cette variable est alors requise obligatoirement pour chaque document).
Multi
Multi -modales modalits multiples ventuellement redondantes:
redondantes mots du texte libre,
affiliations, pays et villes des auteurs dans le cas de plusieurs adresses, auteurs cits, revues cites,
(une mme modalit peut alors apparatre plusieurs fois dans le mme document).
Dans ce contexte, le modle gnrique de lensemble des documents du corpus global est dfini comme
suit : Chaque document du corpus source est dcrit par lensemble des lments de la structure
dextraction du corpus, et chaque document est identifi par un lment de la structure dextraction
nomm N Doc .
Exemple
Soit : StructureGlobal Extrac = < N Doc, Anne, Auteur, Revue, Pays, Mots C, Organisme >
La reprsentation des variables associe est comme suit :
Individus de la population
Document
Inclusion
Equivalence
N Doc
Anne
Multimodales
modalits exclusives
Auteur
Revues
Pays
Multimodales
modalits multiples
Mots C
Organisme
Multimodales modalits
multiples redondantes
Variables qualitatives
Dans le cas qualitatif, il est possible de croiser deux variables en prenant pour base la population globale ou
un extrait de celle-ci. Quelle que soit la mesure utilise, on gnre une matrice dont le nombre de lignes est
gal au nombre de modalits de la premire variable et le nombre de colonnes celui de la seconde. Ces
matrices serviront de base aux principales techniques dextraction de connaissance que nous avons
dveloppes dans le cadre de Ttralogie.
TH- thesaurus (qualitatif nominal modalits multiples mais non redondantes et le plus souvent
hirarchiques : cf Mesh).
PA- pays (qualitatif nominal modalits ventuellement multiples et/ou redondantes dans le cas
de plusieurs adresses).
Ceci nous conduit gnrer 25 matrices (5x5) qui nont pas toutes la mme utilit, les mmes
caractristiques et qui sont parfois redondantes entre elles ou avec dautres mesures plus simples obtenir.
Le tableau de Burt correspondant va donc avoir les caractristiques suivantes :
Burt*
JNJN-
AUAU-
THTH-
PAPA-
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
symtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
symtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
sple ou glob
symtrique
DPDPDP-
Diagonale**
Contingence
JNJN-
Contingence
Diagonale
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
simple
asymtrique
Cooccurrence
sple ou glob
asymtrique
AU-AU
THTH-
PAPA -
* Dans tous les cas, des matrices de prsence absence peuvent aussi tre gnres.
** Les matrices diagonales (modalits exclusives) nont pas dintrt puisque elles font double
emploi avec le dnombrement des modalits.
*** Les autres matrices barres nont pas de relle utilit puisque leurs transposes (matrices
hautes) offrent une alternative plus judicieuse pour les analyses factorielles.
Dans ce qui suit, nous allons donner des prcisions sur les caractristiques de ces matrices, sur leur utilit,
les mtriques utilises et sur les traitements possibles pour arriver en extraire de nouvelles connaissances.
Nous ne pouvons plus parler de contingence lorsquau moins une des deux variables peut simultanment
prsenter plusieurs modalits pour un mme document, car la matrice produite par croisement ne possde
plus les proprits remarquables voques ci-dessus. De nouvelles mesures de correspondance entre deux
modalits, une associe la premire variable et lautre la seconde, sont alors disponibles :
Prsence absence : il existe au moins un document du corpus qui contient simultanment les
deux modalits (concidence).
Cooccurrence simple: nombre de documents dans lesquels on retrouve simultanment les deux
modalits (identique la contingence si les modalits sont exclusives dans chaque variable).
Proximit : pour le texte libre, il est possible de ne prendre en compte que les concidences des
modalits physiquement proches ( ct, moins de n mots, dans la mme phrase, ) aprs ou
sans limination des mots vides.
Dans les trois derniers cas, il est possible de gnrer un compte fractionnaire afin que chaque document ou
unit textuelle nintervienne, dans la matrice, quavec le mme poids de 1. Il suffit pour cela de rpartir ce
poids sur lensemble des cellules qui correspondent aux cooccurrences constates. La matrice retrouve alors
les proprits dune matrice de contingence classique mais les lments de la matrice et les marginales ne
sont plus exprims par des valeurs entires. Un article scientifique sign simultanment par 450 auteurs
naffectera plus les cellules concernes que de +1/450ime dans une matrice de type Auteurs Journaux.
Mais cette technique est surtout applicable lorsque les documents analyss sont trs htrognes au niveau
de la taille (en particulier pour Internet). En effet, un document trs long, dcoup ou non en phrases,
gnre infiniment plus de cooccurrences quun document trs court, il est donc sur reprsent dans la
matrice ce qui peut fausser en partie lanalyse.
OURVIEILLE DE
JN-- OCL.
JN
OCL Olagineux, corps gras, lipides| (1 journal)
PD-- 1997|
PD
1997 (1 date)
EA-- La rsistance du tournesol aux maladies fait l'objet de recherches depuis de longues annes.
EA
Les acquis de ces travaux et la complexit des questions rsoudre ont motive la mise en place du
programme Cartisol dont on peut maintenant tirer un bilan. Ce programme a runi des
partenaires de la recherche publique, le CETIOM et des semenciers privs. Dans une premire
phase, une carte gntique du tournesol a t tablie par marqueurs RFLP. Durant la deuxime
partie du programme, le partenariat mis en place a permis de mettre en vidence des QTL de
rsistance a Sclerotinia, et d'identifier des rgions de la carte particulirement intressantes pour le
marquage de QTL ou de gnes de rsistance a des pathognes. Ce travail a abouti au dpt d'un
brevet et a la publication de plusieurs articles. Les acquis du programme constituent une base trs
utile pour poursuivre la mise au point de nouveaux outils molculaires d'aide a la slection.| (soit
environ 70 mots significatifs)
Modalits
exclusives
Modalits non
exclusives
Modalits
prsentes
plusieurs fois
FT(Cartisol) &
EA(resistance)
Modalits
prsentes
plusieurs fois
EA(QTL) &
EA(resistance)
Modalits
exclusives ou
redondantes
JN(OCL) &
EA(tournesol)
Champs et
modalits
croiss
Prsence absence
Cooccurrence
simple
Cooccurrence
globale
Proximit 2
mots
Pondration
fractionnaire
JN(OCL) &
PD(1997)
+1
si 0 avant
+1
AU(PINOCHE
T X) &
FD(DNA)
+1
si 0 avant
+1
+1
si 0 avant
+1
+1
si 0 avant
+1
+1
si 0 avant
+1
Sans intrt
Sans intrt
Sans intrt
(1x3)
soit +3
Sans intrt
(2x3)
soit +6
+1
(1 x 2)
soit +2
Sans intrt
Sans intrt
Sans intrt
(1x1)/(8x18)
soit +1/144
(1x3)(13x70)
soit +3/910
(2x3)(70x70)
soit +6/4900
(1x2)/(1x70)
soit +2/70
Dans les deux tableaux qui suivent, nous prcisons limpact du document prcdent sur la valeur dune
cellule de la matrice calcule dans diffrents cas :
Matrice croisant deux variables modalits exclusives : champ journal JN avec la modalit
OCL crois avec le champ date de publication PD et la modalit 1997 .
Matrices croisant deux variables modalits non exclusives : champ auteurs AU avec la modalit
PINOCHET X avec le champ descripteurs FD et la modalit DNA .
Matrices croisant deux variables modalits multiples et redondantes : champ titre FT avec la
modalit Cartisol crois avec le champ rsum EA et la modalit resistance ou champ
rsum EA crois avec lui mme pour les modalits QTL et resistance .
Matrice mixte croisant une variable modalits exclusives et une variable modalits multiples et
redondantes : champ journal JN modalit OCL crois avec rsum EA et sa modalit
tournesol .
A la vue de ces rsultats, nous pouvons remarquer quil est difficile dexprimer quantitativement des
relations qui sont essentiellement dordre qualitatif. Le choix des mesures est pourtant essentiel pour bien
mettre en vidence les informations convoites : signaux forts, signaux faibles, spcificits dun domaine,
La stratgie sera diffrente selon que le corpus tudi est homogne ou trs htrogne. Dans ce dernier cas
deux options sont possibles : pondrer ou revenir des units textuelles plus homognes comme le
paragraphe ou mme la phrase. Cette dernire technique nest applicable quaux auto croisements portant
sur le texte libre (mono et multi-termes) avec, ventuellement, lutilisation dun filtrage diffrent pour les
lignes et les colonnes.
2.12.2
Lobjectif de ce modle consiste reprsenter toutes les dpendances intra et inter documents prsents
dans le corpus cibl. Cette reprsentation est base sur une structure deux dimensions. Chaque
dimension est un attribut du document.
Pour un corpus de documents dont la structure dextraction est comme suit :
StructureGlobal Extrac = < N Doc, Date, Auteur, Revues, Pays, Mots C, Organisme >
Nous proposons de construire des tableaux deux dimensions, qui permettent de dfinir les relations
existantes entre llment de la structure dextraction Numro de document avec le reste des lments.
Document
Equivalence
N Doc
Auteur
Date
Organisme
Pays
Mots C
Revues
Relations de dpendances
2.12.2.1 Principe
La construction de la relation se base sur le principe de Prsence/Absence (voir section 2.5.3), qui consigne
lexistence dau moins un document contenant simultanment les modalits des deux variables tudies.
Pour un corpus structur dont la structure dextraction est dfinie comme suit :
StructureGlobal Extrac = < Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >,
Avec
ChpiGExtrac : correspond llment i de la structure dextraction global,
Le tableau de croisement deux dimensions est une matrice p lignes et q colonnes tel que nij prend la
valeur 1 si xi et yj et la valeur 0 sinon.
XxY
y1
y2
yj
yq
n1q
n2q
xi
n1j
n2j
n12
n22
n11
n21
x1
x2
ni1
ni2
nij
niq
xp
np1
np2
npj
npq
Lalimentation du corpus se base sur la prise en compte des relations de dpendances existant dans la
structure par suppression des lments indpendants. Ainsi, seules les relations les plus significatives sont
conserves.
Remarque : Nous considrons dans le corpus multidimensionnel chaque variable comme dimension, leurs
modalits et les valeurs du cube comme attributs.
Nous dfinissons le corpus multidimensionnel CM2Dassoci la modlisation deux dimensions comme
suit :
Soit la structure du corpus multidimensionnel (2 dimensions) SCM2D dfinie comme suit :
SCM2D = {< DimNDoc, Dimi >}
Le corpus multidimensionnel CM2D dfinie comme suit :
CM2D = {< AttyNDoc, Attxi >}
Avec
- AttyNDoc DNDoc lensemble des attributs {Att1NDoc, , AttqNDoc} de la Dimension j associ la
dimension DimNDoc,
- Attxi Di lensemble des attributs {Att1i, , Attpi} de la Dimension i Dimi .
CAS PARTICULIER
Dans le cas o lune des variables croises est de type identifiant de document, la matrice construite permet
de rvler les diffrentes inter-relations entre un document et ses diffrents attributs.
Dimensions
N Doc
Chp2GExtrac
X
ChpiGExtrac
X
ChpjGExtrac
X
Exemple
En reprenant le corpus structur de lexemple prcedant ( 3.2.3.1.), Nous reprsentons les diffrents
documents du corpus global associ par le tableau deux dimensions comme suit :
N
N
N
N
N
A
D
M
J
P
X
X
X
X
X
A a1 a2 a3 a4 D d1 d2 d3 J j1 j2 j3 j4 P p1 p2 p3 p4 M mc1 mc2 mc3 mc4
N
dc1
1 1
dc2
dc3
1 1
dc4
dc5
dc6
dc7
1 1
dc8
1
1
1
1
1 1
dc10
dc11
1 1
dc12
dc13
1
1
1
1
1
1
1
1
dc9
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2.12.3
Lobjectif de cette structure est de permettre ltude de lvolution des interactions entre variables afin de
raliser des projections dans lavenir, qui sont essentielles pour la prise de dcisions stratgiques. Notre
proposition consiste dfinir une structure unique de donnes intermdiaires entre informations brutes et
pr-connaissances dduites, sous la forme dun entrept de donnes gnrique, qui ne contiendra que des
pr-connaissances sous forme de relations volutives. Cette structure de corpus servira de support pour
lapplication des diffrentes fonctions de dcouverte de connaissances.
La structure du corpus multidimensionnel repose sur une modlisation trois dimensions. Cette dernire
permet de dfinir les diffrentes relations de dpendances entre les lments de la structure dextraction du
corpus structur (les variables du corpus) avec la prise en compte de la structure temporelle (la variable
temporelle) (voir figure).
Pour un corpus de notices dont la structure dextraction est comme suit :
StructureGlobal Extrac = < N Doc, Date, Auteur, Revue, Pays, Mots C, Organisme >
Nous proposons de construire des matrices trois dimensions, qui permettent de dfinir les relations de
dpendances existantes entre les variables du corpus en y intgrant systmatiquement la variable temporelle
cest--dire llment Date .
Document
Inclusion
Equivalence
N Doc
Auteur
Titre
+ Date
Organisme
Pays
Mots C
Revue
Relations de dpendances
2.12.3.1 Principe
Notre but est didentifier toutes les relations de dpendances existantes dans le corpus entre les diffrentes
variables de ltude (voir Figure). Ces relations sont dfinies par des matrices de co-occurrences. Ces
matrices indiquent la prsence simultane des modalits de deux variables qualitatives dans un document.
Nous adoptons ces matrices en y rajoutant une troisime variable comme suit :
Les deux premires variables sont les variables qualitatives associes au corpus multidimensionnel,
Et la troisime variable est toujours la variable temporelle (Data, anne, ) associe au corpus.
Ainsi, la matrice de co-occurrence consiste indiquer la prsence des modalits de ces trois variables dans
un document (structure trois dimensions). Nous nommons cette matrice Cube .
Variable1
Date
Variable 2
Le cube permet de regrouper les relations existantes dans un corpus en priodes. Nous identifions deux
types de forme de cube :
Cube sous forme de matrice symtrique : dans le cas o nous considrons la coprsence des
modalits dune mme variable et la variable temporelle dans un document.
Cube sous forme de matrice asymtrique : dans le cas o nous considrons la prsence des
modalits de deux variables distinctes et la variable temporelle dans un document.
Pour un corpus structur dont la structure dextraction est dfinie comme suit :
StructureGlobal Extrac = < Chp1GExtrac, , ChpiGExtrac , , ChpjGExtrac >,
Avec
ChpiGExtrac : correspond llment i de la structure dextraction global,
2.12.3.2.1
Matrice symtrique
La matrice asymtrique est une matrice r lignes et s colonnes qui a pour lment gnrique le
nombre nijk dindividus tel que xi et xj et tk
n11r
n21r
n1j1
n2j1
n1jr
n2jr
n1p1
n2p1
n1pr
n2pr
nijr
xp
np11
np1r
nij1
npj1
npjr
nip1
npp1
nipr
ni1r
ni11
xi
n111
n211
tr
xp
t1
tr
xj
t1
tr
x1
X
x1
x2
t1
X
T
XxXxT
nppr
2.12.3.2.2
Matrice asymtrique
La matrice asymtrique est une matrice r lignes et s colonnes qui a pour lment gnrique le
nombre nijk dindividus tel que xi et yj et tk
n11r
n21r
n1j1
n2j1
n1jr
n2jr
n1q1
n2q1
n1qr
n2qr
nijr
xp
np11
np1r
nij1
npj1
npjr
niq1
npq1
niqr
ni1r
ni11
xi
n111
n211
tr
yq
t1
tr
yj
t1
tr
y1
t1
X
x1
x2
Y
T
XxYxT
npqr
Remarque : Nous considrons dans le corpus multidimensionnel chaque variable comme dimension, leurs
modalits et les valeurs du cube comme attributs.
Nous dfinissons le corpus multidimensionnel associ au cube comme suit :
Soit la structure du corpus multidimensionnel (3 dimensions) SCM3D dfinie comme suit :
SCM3D = {< Dimi, Dimij, DimT, NbDocijT >}
Le corpus multidimensionnel CM3D dfinie comme suit :
CM3D = {< Attxi, Attyij, AttzijT, AttoijT >}
Avec
- Attxi Di lensemble des attributs {Att1i, , Attpi} de la Dimension i Dimi ,
- Attyij Dj lensemble des attributs {Att1j, , Attqj} de la Dimension j associ la dimension i
Dimij ,
- AttzijT DT lensemble des attributs {Att1T, , AttrT} de la Dimension temps DimT ,
- AttoijT NbD lensemble des attributs {Att1Nb, , AttlNb} du nombre de documents ou les trois
dimensions apparaissent simultanment.
AttoijT = Di x Dj x DT [Attxi, Attyij, AttzijT] et AttoijT >= 1
Exemple
Soit CorpusEStructu = {< StructureGlobal Extrac, CorpusGlobal >} compos de 13 documents.
StructureGlobal Extrac la structure globale dextraction est prsente comme suit :
StructureGlobal Extrac = < Numro, Auteur, Journal, Date, Mots C, Pays>
Nous considrons chaque lments de la structure dextraction StructureGlobal Extrac , comme dimension de
lanalyse multidimensionnelle.
Le corpus global CorpusGlobal est comme suit :
CorpusGlobal = < {dc1, a1, a2, d1, mc1, mc2, p1, p2}, {dc2, a1, j2, d1, mc1, mc2, p1}, {dc3, a1, a2, j3, d3, mc1, mc2,
p1, p2}, {dc4, a1, j1, d3, mc1, p1}, {dc5, j1, d1, mc2, p2}, {dc6, a2, j3, d1, mc1, mc2, mc3, p2},{dc7, a2, a3, d3, mc2,
mc3, p1, p2},{dc8, a2, a3, j1, d2, mc3, p3},{dc9, a3, a4, j4 d2, mc3, mc4, p3, p4},{dc10, a3, j3, mc2, mc3, d2,
p3},{dc11, a3, a4, j4, mc2, mc3, mc4, d3, p3, p4},{dc12, a4, j2, mc1, mc4, p4, d3},{ dc13, a4, j1, mc1, mc2, mc3, mc4,
d2,p4} >
Tel que :
{dc1, dc2, dc3, dc4, dc5, dc6, dc7, dc8, dc9, dc10, dc11, dc12, dc13} N et N reprsente lensemble des attributs
associs la dimension Numro .
{a1, a2, a3, a4} A et A reprsente lensemble des attributs associs la dimension Auteur.
{d1, d2, d3} D et D reprsente lensemble des attributs associs la dimension Date.
{j1, j2, j3, j4} J et J reprsente lensemble des attributs associs la dimension Journal.
{p1, p2, p3, p4} P et P reprsente lensemble des attributs associs la dimension Pays.
{mc1, mc2, mc3, mc4} M et M reprsente lensemble des attributs associs la dimension Mots C.
Ainsi, dans le contexte de lexemple, nous nous intressons aux relations volutives existantes entre les
couples de dimensions suivantes :
Auteur- Auteur, Auteur- Journal, Auteur- Mots C, Mots C- Mots C, Mots C- Journal, Mots C- Pays
Dimensions
Numro
Auteur
Journal
Mots C
Pays
Date
Numro
Auteur
Journal
Mots C
Pays
Date
Nous reprsentons ces diffrentes relations par le tableau trois dimensions comme suit :
AxAxD
A
D
A
a1
a2
a3
a4
AxJxD
J
D
d1
1
2
j1
d2
d1
a2
d2
d3
1
2
2
3
d3
d1
d3
d1
1
1
a3
d2
d3
1
2
2
2
j3
d2
d3
d1
d1
2
2
2
1
2
3
d1
mc3
d2
d3
1
3
2
1
1
1
2
1
1
2
2
1
1
d1
mc2
d2
d3
d1
mc3
d2
d3
3
4
1
2
1
3
1
1
1
1
2
4
2
3
d3
d1
j3
d2
d3
1
1
1
1
1
d1
d2
d3
1
3
1
1
1
1
mc1
d2 d3
mc2
d2 d3
a4
d2
d3
2
3
j4
d2
d3
1
1
1
1
mc4
d2
d3
mc4
d2
d3
1
1
d1
d1
d1
mc1
d2 d3
j2
d2
1
1
1
1
D
d3
d1
A
a1
a2
a3
a4
MxM xD
a1
d2
A
a1
a2
a3
a4
A x M xD
d1
d1
d1
mc1
mc2
mc3
mc4
MxJxD
J
D
d1
j1
d2
d3
d1
j2
d2
d1
1
1
2
2
1
2
j4
d2
d3
mc1
mc2
mc3
mc4
M xPxD
1
2
J
D
1
1
2
1
1
1
1
p1
d1
d2
p2
d3
d1
2
2
1
2
3
1
d2
1
2
1
p3
d3
1
2
2
p4
d1
d2
d3
1
1
2
2
1
1
1
2
mc1
mc2
mc3
mc4
2
2
1
2
1
SCM3DExple = {< Auteur, Auteur, Date, NbDocAAD >, < Auteur, Journal, Date, NbDocAJD >, < Auteur, Mots C,
Date, NbDocAMD >, < Mots C, Mots C, Date, NbDocMMD >, < Mots C, Journal, Date, NbDocMJD >, < Mots C,
Pays, Date, NbDocMPD >}
Et le corpus multidimensionnel associ est :
C M3D Exple = {<a1, a1, d1, 2>,, <mc4, p4, d3, 2> }
2.13
2.13.1
Fonctions de manipu
manipulation
2.13.1.1
Slection
La fonction fSelection consiste slectionner lensemble des instances du corpus o les attributs de la
dimension slectionne correspondent au prdicat de restriction.
2.13.1.2 Restriction
La fonction Restriction est employe pour rduire le nombre de donnes analyser. Lutilisateur peut
spcifier une restriction sur les valeurs dun attribut en dfinissant une restriction sous forme:
La fonction fRestriction consiste slectionner lensemble des instances du corpus o les attributs de la
dimension slectionne correspondent au prdicat de restriction.
Exemple
En reprenant lexemple prcdent ( 3.2.3.1.), lutilisateur peut choisir de restreindre la porte de son
analyse aux interactions de lauteur a1.
AxJxD
A
a1
a2
a3
a4
J
D
d1
1
2
j1
d2
d3
d1
j2
d2
1
1
1
d3
d1
1
1
j3
d2
d3
d1
j4
d2
d3
1
1
1
1
1
1
1
2.13.1.3 Seuil
La fonction Seuil a pour objectif de filtrer les relations en fixant un nombre minimum soit la valeur dun
attribut, soit au nombre doccurrences dune relation entre deux attributs.
Un exemple dutilisation est donn dans la section Erreur
Erreur ! Source du renvoi introuvable..
introuvable.
2.13.1.4 Ordre
La fonction Ordre permet de trier un ensemble de valeurs dun attribut ou un ensemble doccurrences
dune relation.
La fonction ordre fOrdre est dfinie comme suit :
fOrdre ({< Attxi S, Attyij, AttzijT, AttoijT >}, Tri) = {< Attxi S, Attyij, AttzijT, AttoijT >}Trier
Tri = {Croissant, Dcroissant}
Exemple
Soit lensemble dinstances C SM3DExemple = {< a1, a1, d1,2>, < a1, a1, d3,3>, < a1, a2, d1,1>, < a1, a2, d3,2>, ,
< a1, mc3, d1,1>}
S
Tri(C M3DExemple , (Tri= Dcroissant)) = {< a1, a1, d3,3>, < a1, a1, d1,2>, < a1, a2, d3,2>, < a1, a2, d1,1>, , < a1,
mc3, d1,1>}
2.13.1.5 Environnement
La fonction Environnement permet lutilisateur de visualiser les diffrentes interactions dun attribut ou
un ensemble dattributs. Elle consiste pour une valeur (ou un ensemble de valeurs) :
Identifier les attributs et leurs valeurs et calculer le nombre de document o ils apparaissent simultanment
avec la valeur tudie. Lutilisateur peut fixer un seuil au nombre de document pour restreindre ltendue
de lanalyse (par la combinaison avec la fonction Seuil).
Exemple
En reprenant lexemple prcdent ( 3.2.3.1.), lutilisateur peut identifier lenvironnement de lattribut
auteur dans le corpus:
AxAxD
A
a1
a2
a3
a4
a1
5
a2
3
6
a3
3
4
a4
AxJxD
2
4
A
a1
a2
a3
a4
j1
3
3
1
1
j2
2
1
j3
1
2
1
j4
AxMxD
2
2
A
a1
a2
a3
a4
mc1
mc2
mc3
mc4
4
3
4
5
2
2
1
3
4
4
2.13.1.6 Evolution
Cette fonction permet de dtailler lvolution des rsultats des autres fonctions. Lvolution se base sur
ltude des attributs temporels.
La fonction fEvol applique la fonction environnement
Env
Exemple
Grace la fonction Evolution, lutilisateur peut identifier la repartition par date des publications dun
auteur donn.
AxAxD
a1
A
a2
A
D
AxAxD
A
a2
d1
a1
d2
a2
a3
a4
d1
a3
d2
d3
d1
a2
d2
d3
d3
d1
a4
d2
d3
fEvol (A) = {< a2, d1, 2>, < a2, d2, 1>, < a2, d3, 3>}
2.13.1.7 Document
La fonction document diffre des prcdentes en ce sens quelle consiste seulement reconstruire les
documents dans lesquels apparat une valeur donne dun attribut donn. Rappelons que le passage du
corpus cibl vers la reprsentation multidimensionnelle fait disparaitre lunit des documents.
2.13.2
Fonctions dagr
dagrgation
agrgation
Les fonctions dagrgation sont principalement utilises dans le cas de calcul des indicateurs uni-varis.
2.13.2.1 Somme
La fonction Somme permet deffectuer des additions en se basant sur le nombre de cooccurrence de chaque
instance de relation.
2.13.2.2 Minimum
Cette fonction retourne la valeur minimale que peut prendre le nombre doccurrences des instances dune
relation.
2.13.2.3 Maximum
Cette fonction retourne la valeur maximale que peut prendre le nombre doccurrences des instances dune
relation.
2.13.2.4 Comptage
Cette fonction permet deffectuer des comptages soit sur les attributs soit sur les valeurs. Nous dfinissons
deux types de comptage :
Le nombre de valeurs dun attribut,
Le nombre dinstances dune relation.
La fonction comptage associe un attribut fComptage est dfinie comme suit :
fComptage (Atti) = Taillei
Taillei: le nombre de valeurs associes lattribut i,
Exemple
La comptage des attributs de lexemple prcedent ( 3.2.3.1.) donne les resultats suivants :
fComptage (A) = 4
fComptage (M) = 4
fComptage (P) = 4
fComptage (J) = 4
fComptage (D) = 3
Ainsi, lanalyse va porter sur ltude des diffrentes interactions existantes entre quatre auteurs, quatre mots
cls, quatre pays et quatre journaux et leurs volutions sur les trois priodes. Ces interactions sont dcrites
par 129 instances de relation.
2.13.2.5 Moyenne
Cette fonction permet de retourner la moyenne de nimporte quel ensemble de valeurs.
2.13.2.6 Frquence
Frquence
Cette fonction retourne la frquence de la valeur dun attribut sur un ensemble de valeurs.
2.13.3
Combinaison de fonctions
Toutes les fonctions prsentes dans la section prcdente peuvent tre vues comme des fonctions
lmentaires qui, combines entre elles, permettent de calculer un ensemble dindicateurs selon les besoins
exprims.
Dans le tableau suivant, nous prsentons quelques exemples de ces combinaisons de fonctions.
Fonctions
I NDICATEURS UNI-VARIES
Nombre de pays avec lesquels a collabor un auteur
au moins deux fois
Dure de la carrire dun auteur
SELECTION
SOMME
ENVIROENNEMENT
SELECTION
EVOLUTION
COMPTAGE
SELECTION
ENVIRONNEMNT
RESTRICTION
SELECTION
ENVIRONNEMNT
RESTRICTION
SEUIL
I NDICATEURS RELATIONNELS
RELATIONNELS
Structure et collaboration dune quipe
Evolution structure et collaboration dune quipe
EVOLUTION
2.14
Le profil des utilisateurs du processus
danalyse exploratoire multidimensionnelle
multidimension nelle
2.14.1
Considrations gnrales
La dmarche dIE intgre la notion dintelligence collective parce quelle fait collaborer en rseau les
diffrents acteurs impliqus par chacune des tapes du processus, de la formulation du besoin et la
planification jusqu la validation, diffusion et utilisation de linformation stratgique. Les diffrentes
activits de ces acteurs se coordonnent pour converger vers la mme vision stratgique. Comme nous
lavons prsent au niveau de la section 1.3.2 du premier chapitre de ce manuscrit, les acteurs impliqus
dans une telle dmarche sont identifis par leurs comptences et leurs expriences. Dans le cadre du
modle danalyse exploratoire multidimensionnelle propos, nous identifions cinq profils dutilisateur :
Utilisateur
Expert
Documentaliste
Analyste
Dcideur
Administrateur
la classification dj propose dans la section 1.3.2 nous rajoutons la classe administrateur. Ce profil
dutilisateur a pour rle de grer le systme et lespace de communication entre les diffrents profils.
Lorsque lon aborde la modlisation du processus danalyse exploratoire multidimensionnelle, sont les
problmes de communication entre les divers utilisateurs qui semblent le plus difficile grer :
Les metteurs de la demande (dcideurs) qui ne proposent souvent, comme point de dpart, que
quelques indicateurs trs personnels.
Les analystes (analystes, veilleurs) qui recherchent et valorisent, par tout un ensemble de mthodes
que nous contribuons dvelopper (reprsentation multidimensionnelle, calcul dindicateurs), les
informations potentiellement utiles la dcision et qui les mettent en forme pour lexpert.
Lexpert du domaine, qui recadre le sujet, valide certaines pistes pour lesquelles il demande des
prcisions et qui en supervise la synthse.
Le destinataire (dcideur), enfin, dont les besoins trs spcifiques induisent un rendu des rsultats
adapt sa fonction, sa psychologie, sa disponibilit et ses impratifs immdiats. Le plus souvent
la vue des conclusions, il rinjecte une nouvelle demande dans le processus, le rendant ainsi
itratif.
Un accs simultan (de deux acteurs ou plus, notamment dans le cas de formations) orchestr par
des possibilits dinterventions mutuelles sur le processus danalyse et des techniques permettant la
collaboration instantane et distance des utilisateurs et des mthodes.
Dialogue analyste expert du domaine pour la communication des rsultats techniques, leur
valuation, le choix des indicateurs (volution terminologique, nouveaux thmes, nouveaux
acteurs, prcision des termes composs), la slection des rsultats communiquer au dcideur et la
forme leur donner, la mise au point du document de synthse.
Dialogue expert (du domaine) dcideur afin dvaluer la porte stratgique de certains rsultats,
de prciser des lments techniques soulevs par lanalyse, dapprhender les scnarios possibles
dvolution du domaine, ventuellement de demander des complments dinformation ou des
zooms spcifiques.
Ce processus peut tre complt par des dialogues internes chaque mtier : documentalistes entre eux,
analystes et informaticiens, experts internes et externes.
2.14.2
Modle utilisateur
Un modle utilisateur est une reprsentation explicite des informations sur tous les aspects de lutilisateur
qui peuvent tre utiles au comportement du processus. Le processus danalyse exploratoire
multidimensionnelle que nous avons dfini ncessite la modlisation des connaissances sur un utilisateur.
Selon notre approche, le profil de lutilisateur est dcrit par cinq dimensions :
ses expertises.
Cet historique permet de dduire de nouvelles connaissances sur cet utilisateur. Ces cinq dimensions
voluent corrlativement au cours du temps. Notre modle est constitu de deux parties. La premire
partie concerne le profil de lutilisateur et la seconde partie est lhistorique de ses interactions.
Le deuxime espace est lespace des comptences de lutilisateur : ce sont des donnes qui permettent
didentifier le niveau de comptence de lutilisateur associs ses domaines dexpertises.
2.14.3
2.14.3.1 Objectifs
Le systme propos permet sur un sujet donn de mener des analyses par N utilisateurs. Chaque analyse
est identifie par son modle utilisateur. Ce partage de connaissances permet dinfluencer et orienter les
actions qui se poursuivent par des rseaux dacteurs dans un cadre danalyse portant sur le mme contexte.
Aussi, il peut conduire dans certains cas une confrontation des exceptions et de particularits qui sont
dtect par les utilisateurs et qui les partagent instantanment aux diffrents acteurs du rseau. Puisque le
comportement des utilisateurs change selon leurs besoins et leurs comptences. Lobjectif de la gestion des
confrontations nous mne rendre notre systme plus accessible et cooprative tout en y intgrant
lexpertise des diffrents acteurs impliqu c'est--dire les connaissances dduites par chaque utilisateur au
cours des diffrentes tapes danalyse.
La traabilit des besoins est un processus qui permet de tracer les diffrents besoins informationnels dun
utilisateur de leurs naissances leurs diverses expressions et des tapes successives de leurs volution, c'est-dire de capturer et de mmoriser itrativement la connaissance sur cet utilisateur et sur son contexte qui
permettra de mieux cerner les origines de ses besoins et den comprendre leur importances. Nous
tendrons ce concept une traabilit gnrale de lanalyse .
Dans ce contexte la traabilit gnrale de lanalyse se base sur une traabilit du profil utilisateur de ltape
de la formulation du besoin jusqu' la validation des rsultats selon ses diffrentes facettes savoir :
Grce ces diffrents points nous allons procder un apprentissage dans un but denrichissement des
fonctionnalits du modle, et dfinir des scenarios danalyses afin de guider et dorienter lutilisateur dans
son tude. Pour cela nous dfinissons une traabilit des analyses.
Dans le cadre de nos travaux, nous focalisons le mcanisme dapprentissage seulement au niveau de ltape
de calcul dindicateurs. Nous rappelons que le systme propos permet doffrir lutilisateur, dune part
des indicateurs prdfinis bass sur des combinaisons de fonctions, et dautres part un ensemble de
fonctions quil peut combiner pour construire des indicateurs qui ne sont pas prdfinis au niveau du
systme.
Ainsi, lobjectif de lapprentissage est de dtecter les diffrentes combinaisons de fonctions utilises par
lutilisateur pour atteindre son objectif danalyse. Si ces combinaisons ne sont pas dj dfinies au niveau
du systme, le mcanisme dapprentissage nous permet denrichir la base des indicateurs prdfinis en y
intgrant ces nouvelles combinaisons de fonctions.
2.15
Synthse
Au cours de ce chapitre, nous avons tout dabord prsent dans la section 2.11 le processus danalyse
exploratoire multidimensionnelle. Le processus propos a pour objectif de calculer des indicateurs qui
permettent de synthtiser lenvironnement informationnel dun problme dcisionnel pos. Dans ce
contexte, nos travaux distinguent deux types :
Au cours de cette section, nous avons dtaill pour chaque tape du processus lapproche adapte dans le
cadre de nos travaux. Ce processus repose sur deux modles qui reprsentent lessentiel de notre
contribution savoir :
Le modle de reprsentation multidimensionnelle des documents, au niveau de cette section nous avons
propos deux types de modlisation des dpendances intra et inter documents, la premire deux
dimensions et la seconde trois dimensions. La modlisation deux dimensions (section 2.11.6.1), nous
permet de dcrire les relations de dpendances bases sur des mesures de cooccurrences et de prsenceabsence. Ce type de reprsentation va nous permettre de synthtiser lensemble des liens statique dun
domaine donn. Quant la modlisation trois dimensions (section 2.11.6.2), nous a permis de dfinir et
reprsenter laspect dynamique des diffrents liens inter et intra documents du corpus cibl.
partir de cette reprsentation, nous avons dfinis le modle de calcul dindicateurs. Lobjectif de ce
modle est doffrir un ensemble de fonctions lmentaires, qui combines permettent de calculer de faon
gnrique un ensemble dindicateurs robustes.
Outre ces deux modles, nous proposons un modle de gestion et de partage dinformations (section
2.14.1.1) entre les diffrents acteurs impliqus dans le processus propos.
Afin damliorer et enrichir les combinaisons de fonctions proposes, nous dfinissons un processus
dapprentissage permettant doffrir au concepteur du systme dinformation des stratgies dintgration
dindicateurs et de combinaisons de fonctions.
Dans ce contexte, nous proposons dans le chapitre quatre une implmentation du systme propos. Cette
implmentation concerne plus prcisment :
Dans un souci de validation de cette implmentation, nous prsenterons dans le chapitre quatre une
exprimentation portant sur un cas rel.
4.2.2
4.2.3
Objectifs.................................................................................................................................159
4.3.2
4.5.2
4.5.3
4.5.4
4.6.2
Proposition ............................................................................................................................175
4.6.3
4.6.4
4.6.5
Structuration..........................................................................................................................178
4.6.6
Homognisation...................................................................................................................179
4.6.7
4.6.8
3.1 Introduction
Lobjectif de ce chapitre est dimplanter et exprimenter le modle danalyse multidimensionnel. Notre
contribution consiste proposer un systme danalyse et de navigation en ligne, que nous nommons
Xplor, exploitant systmatiquement les donnes relationnelles et leur volution. Notre approche consiste
privilgier l'extraction d'information en fonction du contexte gnral et non exclusivement par dcryptage
du contenu de quelques documents pris sparment. Il devient ainsi possible de retrouver, partir d'un
lment connu (acteur, mot cl), toute ou une partie de l'information qui lui est connexe (quipes,
collaborations, concepts, mots associs, etc.) ainsi que son volution (mergence, rupture, etc.).
Le prototype propos pour objectif d'aider l'utilisateur non initi dans sa navigation et sa qute de
nouveauts ou de complments d'information ainsi que dans la recherche d'lments de comparaison avec
des connaissances antrieurs. La possibilit qui leur est donne de pouvoir eux mmes naviguer sans
contrainte dans l'information labore est un plus indniable, car aucun analyste ne peut aller au devant de
l'ensemble des proccupations de chacun, ou alors il faut qu'il soit leur entire disponibilit, c'est dire
appartenir intgralement leur structure et trs bien connatre leurs problmatiques.
Notre dmarche cible lanalyse des informations relationnelles volutives reposant sur des interfaces de
visualisation pertinentes et des modes dinteraction adapts aux tches de lutilisateur. Elle repose sur les
quatre tapes bien connues de dcouverte interactive de connaissances proposes par [Newell, 1972] :
Nous prsentons, en section 4.2, les objectifs et lapproche, dans la section 3.3, adopte au niveau du
prototype Xplor. Dans un second temps, nous dfinirons son architecture (section 3.4) et en section ses
fonctionnalits (section 3.5).
Dans la section 3.6, nous prsentons lexprimentation effectue pour valider chaque tape du processus de
dveloppement du systme Xplor. Cette exprimentation a t effectue dans le cadre des travaux de
recherches du GDR-IE. Lexprimentation porte sur lanalyse des donnes issues de bases de donnes
scientifiques chinoises.
Enfin, une synthse, des exprimentations et une validation du systme Xplor sont proposes.
De plus, les qualits et les dfauts de cette structure sont maintenant connus.
Thme
interface
Thme
interface
Variation
continue de la
thmatique
Expert de
linterface
Mais l'issue de ces rsultats que nous avons raliss avec cette plateforme, il est apparu que les utilisateurs
finaux (analystes ou dcideurs) de lanalyse produite veulent, en complment de l'aspect stratgique global,
des zooms plus prcis sur certains dtails. Ce afin de satisfaire leur curiosit en matire d'information
labore autour d'lments qu'ils ont dj identifis. Parmi les exemples des besoins informationnels et
complmentaires recherchs nous retrouvons :
Le nombre de collaborations de chaque Expert, ainsi que leurs productivits et leur volution,
Les thmatiques associes chaque collaborateur dun expert choisi et son volution,
Les outils proposs jusque l se basent sur une notion de distance entre les donnes non jointes et non pas
en terme de jointure. Il est alors difficile dtudier les donnes relationnelles et leur volution.
Aussi, les modules de visualisation intgrs dans la plateforme Ttralogie proposent des cartes graphiques
deux, trois et quatre dimensions. Linterprtation de ces rsultats exige des connaissances dans les
domaines dextraction de connaissances et lanalyse de donnes. Or, les rsultats de lanalyse dans le
contexte dIE sont ddis des dcideurs qui ne sont pas forcment experts dans ces domaines.
Dautre part, au del des besoins informationnels, les utilisateurs expriment des besoins lis laccessibilit,
linteractivit et la navigation au sein de linformation relationnelle. Ils souhaitent de disposer :
Dun systme dextraction accessible via Internet ou Intranet, pour que les analyses soient leurs
dispositions au bon moment.
Des scenarios danalyse prdfinis bass sur des indicateurs informationnels, pour guider les
utilisateurs dans leurs analyses,
Une centralisation des analyses pour faciliter la gestion du partage et la scurit des donnes,
De nombreux analystes ou dcideurs ont donc besoin de plus de finesse dans l'approche des lments
constituant traditionnellement leur environnement immdiat. Notamment, pour tout ce qui concerne leur
vocabulaire spcifique, les acteurs qu'ils ctoient, les marchs qu'ils convoitent et les alliances qu'ils
projettent. Une analyse peut tre revisite par diffrents spcialistes du domaine et apporter chacun des
rponses prcises aux questions stratgiques et parfois confidentielles qu'il se pose. Le but est ici d'aider le
dcideur dans sa navigation et dans sa qute de nouveauts ou de complments d'information ainsi que
dans la recherche d'lments de comparaison avec des connaissances antrieurs. La possibilit qui lui est
donne de pouvoir lui mme naviguer sans contrainte dans l'information labore est un plus indniable,
car aucun analyste ne peut aller au devant de l'ensemble des proccupations de chacun, ou alors il faut
qu'il soit leur entire disponibilit, c'est dire appartenir intgralement leur structure et trs bien
connatre leurs problmatiques.
Le prototype vis doit offrir des possibilits d'exploration trs fine et des reprsentations synthtiques de
lenvironnement et son volution, des informations recueillies et des nouvelles connaissances dduites. Il
doit permettre une automatisation gnrique des indicateurs permettant aux dcideurs dapprhender les
donnes massives quils ont traiter. En amont, il doit assurer le recoupement des informations collectes,
la recherche, la slection et le filtrage de l'information labore disponible dans des bases spcialises
internes, externes et sur Internet, ainsi que la prise en compte des donnes informelles collectes, sur le
terrain, par les diffrents acteurs de la veille. En aval, pour la communication et la restitution des rsultats,
il doit privilgier l'ergonomie dans les fonctions de prsentation, d'exploration, de navigation et de
synthse.
3.2.2 Limites de
de la premire version du prototype Xplor
Le portail existant avec sa puissance et la multitude des oprations quil offre, a des inconvnients lis
surtout, au nombre important de tables dans la base de donnes, ce qui prsente des difficults par la suite
pour la mise jour de la base, des inconvnient lis larchitecture du site lui-mme, on est oblig de
parcourir plusieurs pages pour arriver au but.
Le portail Xplor avait pour objectif de reprsenter deux types dinformations sous forme de matrice
reprsentant :
les relations des units de mme nature. Elles peuvent reprsenter des associations de termes,
rseaux dauteurs, rseaux de mots cls ou de concepts, etc.
les relations entre deux entits diffrentes. Il peut sagir de reprsenter des rseaux documentstermes, auteurs-termes, auteurs-affiliations, etc.
Ces deux reprsentations permettent une analyse visuelle et exploratoire statique des relations explicites,
dans une optique de dcouverte de nouvelles relations implicites.
La version amliore que nous proposons doit, non seulement, simplifier considrablement le schma de la
base mais aussi y apporter une troisime dimension : le temps et ce systmatiquement au niveau de toutes
les relations prises en compte. Lanalyse nest ainsi plus simplement statique mais devient entirement
dynamique et tourne vers lvolution des relations.
3.2.3 Objectifs
Le processus dexploration propos au niveau du prototype Xplor est organis la base dun ensemble
dindicateurs quantitatifs et relationnels. Ces indicateurs permettent de synthtiser les donnes
relationnelles et den extraire les connaissances implicites afin de rpondre aux besoins de lutilisateur.
Lobjectif principal du prototype est doffrir aux utilisateurs non initis, au domaine de lextraction de
connaissance, une comprhension qualitative du contenu de linformation quils manipulent.
Le prototype Xplor a donc pour objectif doffrir aux utilisateurs (dcideurs) la possibilit de :
Visualiser les analyses stratgiques globales issues de la plateforme Ttralogie. Ces analyses sont
diffuses via le prototype Xplor sous forme hypertexte.
Transfrer et stocker lensemble des donnes relationnelles issues de la plateforme Ttralogie dans
la base de donnes du prototype Xplor.
Conduire leurs propres analyses en ligne en naviguant dans lensemble des relations proposes :
par une vue claire et comprhensible des principaux acteurs (auteurs, socits, inventeurs,
concurrents, pays) du domaine tudi,
en slectionnant les acteurs qui les intressent et ainsi connaitre leurs caractristiques et les
lments stratgiques qui les concernent.
conduire leurs analyses via des scenarios prdfinis sous forme dun ensemble dindicateurs de
tendances. Ces derniers ont pour objectifs de faciliter et guider lutilisateur dans son processus
dexploration.
visualiser les rsultats de leurs analyses sous forme de graphiques ergonomique et facile
interprter (Histogramme, tableaux, etc.).
Sources et traitement, ce niveau permet dalimenter lentrept de donne, partir des corpus de
donnes textuelles. Il permet le passage de la reprsentation des documents textuels (donnes
qualitatives) sous forme de donnes quantitatives. Il concerne le traitement de lhtrognit des
informations, dun point de vue : contenu smantique : scientifique, technique, etc., structurel :
fortement structur (brevet) non structur (e-mails), linguistique (multilinguisme) : chinois,
arabe, format du support : Word, html, pdf, etc., taille : dfinition de lunit dinformation
analyser (granularit de linformation). Pour cette partie du traitement, les techniques employes
sappuient sur les fonctionnalits du systme Ttralogie dvelopp antrieurement par les
membres de lquipe SIG-EVI. Ces composantes permettent de rpondre au problme
dhtrognit des documents analyser.
Entrept de donnes, est un espace de stockage qui premier niveau permet doffrir une vue unifi
du corpus cible, et au deuxime niveau permet lextraction et le stockage des donnes sources
structures sous forme dune reprsentation multidimensionnelle. Le second niveau porte sur les
Analyse et restitution, ce niveau permet deffectuer des analyses multidimensionnelles en ligne sur
les donnes issues de lentrept et restituer les rsultats lutilisateur par des fonctions de
reporting. Il comporte les fonctionnalits de navigation et danalyse en ligne. Ces fonctions sont:
administration des donnes, exploration des donnes relationnelles et visualisation des rsultats.
Chaque attribut peut tre filtr au moyen de fonctions relationnelles prdfinies en se servant des
liens complexes qu'il possde avec lui mme et les autres attributs de la base. Des statistiques
descriptives interactives sont alors disponibles pour chaque extrait (frquences, quivalences, etc.)
ainsi que sur lvolution de leurs relations. Des fonctions de reporting sont prdfinies pour
permettre la visualisation des rsultats.
Sources et
Traitements
Entrept de
donnes
Analyse et
Restitution
Stockage
Structure 3D
Analyse
Traitement du corpus
Vue unifie
Le modle de donnes est prsent dans la figure suivante, il tient compte de son implantation future dans
un serveur d'analyses accessible sur InterNet ou IntraNet. Comme le plus souvent, un rapport d'analyse
sous forme lectronique (.doc, .html) est associ une base de donnes, il est possible de crer des liens
entre les diffrents chapitres du rapport et les fonctions interactives de zoom et de reporting offertes par la
base. Cette mthode permet de dynamiser la lecture du rapport et de s'en approprier le contenu de faon
trs personnelle. Un mme sujet peut intresser plusieurs personnes, d'o l'ide du partage de certaines
analyses via le Web. Un corpus global pouvant tre revisit de plusieurs manires tout en gardant, comme
fil conducteur, la structure de l'analyse macroscopique dj ralise. C'est dans cette optique que nous
avons conu l'implantation des analyses dans un portail traitant de la veille et dans lequel se trouvent des
espaces publics et des espaces privs suivant les possibilits de partage et les contraintes de confidentialit
rencontres.
Auteur-Auteur-Temps
Auteur-Conference-Temps
Les resultats obtenus par ttralogie sont dcrits dans la Figure 71.
Aut.1
4
1
3
Aut.1
Aut.2
Aut.3
Aut.n
Aut.1
Aut.2
Aut.
2 3
Aut.
1
2 Aut.n
Aut.1
4
1
Aut.
3 3
3
1
6
Aut.1
Aut.2
Aut.2
Aut.3
1
2
Aut.n
Aut.1
Aut.2
Aut.3
4
1
3
1
2
Aut.3
Aut.n
3
6
3
1
1
Aut.
Conf.
1 Conf.2
6 n
1
3
1
21
8
1
2
1
Conf.
1
3
Conf.
8 3
6
12
1
Aut.n
1
2
1
1
2
1
Conf.
1 n
2008
1
Fichier 1
Conf.n
2006
20016
Fichier 3
Fichier 2
Ces rsultats ne sont pas adapts la structure de la base de donnes du prototype Xplor, pour y remedier,
nous proposons une fonction pour gnrer trois fichiers tels que :
Le premier fichier Attribut , va dcrire les attributs cibls. Chaque attribut est identifi par un
numro, un code et un type.
Le second fichier Valeur , reprsentera les valeurs de chaque attribut cibl. Chaque valeur est
identifie par son libell, son numro et le numro de son attribut.
Ces representations nous offrent une nouvelle structure qui permet de decrire de faon synthtique les
resultats de la compilation des matrices. Cette structure a t propose de faon a respecter le modle de
donnes associ la base de donnes du prototype Xplor. Ainsi, les donnes obtenues seront facilement
exportes vers le prototype.
La Figure 72, represente un exemple de la nouvelle structure des resultats de la fonction Matrice de
cooccurrence trois dimensions.
Type
Auteurs
Confrence
Fichier Attribut
Code
Aut
Conf
N Attribut
1
1
n
n+1
n+2
1
2
2
N Attribut
1
2
Numum -Valeur
1
2
Libell
Aut1
Aut2
Autn
Conf1
Conf2
Fichier 2Valeur
Temps
2006
2007
.
n+2
2006
n+m
2007
.
1
n
Cooccurrences
Cooccurrences
3
1
.
NumNum - Valeur
Val eur 2
1
2
.
NumNum - Valeur 1
1
1
n+m
Confm
Fichier Cooccurrence
Figure 72 : Nouvelle structure des rsultats de la fonction Matrice de cooccurrence trois dimensions.
Centralisation des ressources sur le serveur ; cest le serveur qui fournit le ou les services aux
nombreux clients prsents sur un rseau.
Scurit accrue due aux points dentre qui peuvent tre limits ou filtrs plus facilement.
Une administration simplifie puisquelle se fait uniquement sur le serveur, do aussi une scurit
accrue.
Le prototype Xplor vient complter la plateforme Ttralogie. Cette dernire fonctionne de manire
distribue au sein dun rseau. Aussi, elle passe par un systme de fentrage appel X Window. Celui-ci
crer et gre des fentres dans lesquelles il affiche du texte et du graphique. Le fonctionnement de X
Window est bas sur le modle Client / Serveur. Le serveur X et le client X sont deux processus distincts
qui communiquent entre eux par l'intermdiaire d'un protocole. Le serveur X est le programme qui assure
la gestion et le contrle des priphriques d'entres et de sorties. Le client X est le programme utilisateur
qui exploite les services du serveur X en lui soumettant des requtes d'affichage ou de dialogue.
Par rapport au modle client / serveur classique, dans lequel le serveur s'excute sur une machine
distance, tandis que l'application client rside sur la machine locale, X inverse gographiquement les rles.
Le serveur se trouve dans la machine locale (le terminal devant le quel se trouve l'utilisateur) tandis que X
peut s'excuter sur une machine distance. Cependant, les principes du modle client/serveur sont
respects. Le serveur X rpond aux requtes soumises par les clients X.
Module PHP
Serveur en ligne
Http : Apache
BDD MySQL
Clients : Navigateur
Web
Figure 73 : architecture dimplantation.
Le fonctionnement de lchange client/serveur est comme suit : le client envoie une requte au serveur sous
la forme d'une URL avec ventuellement un passage de paramtres (1). Le serveur commence par vrifier
si la page demand dpend du module PHP ou est statique (.htm, .html, ...) (2). Si il s'agit d'une page
PHP, le script est alors interprt par le moteur (3) qui peut ventuellement envoyer une requte vers le
serveur de base de donne MySQL (4) Celui-ci lui renverra alors les donnes demandes afin de terminer
l'interprtation du script (5). Au final, il gnrera une page statique (6) du mme type qu'une page html
pouvant tre interprte par le navigateur du client (7).
Les avantages de cette architecture sont :
Portabilit
PHP gre les sessions. On peut donner des droits d'accs diffrents selon les utilisateurs en
utilisant PHP session.
3.5 Fonctionnalits
Fonctionna lits du prototype XPLOR
Dans le cadre du travail mdiatis dutilisateurs non spcialistes de linformatique, il est primordial davoir
des fonctionnalits et un outil simple dutilisation. Lapplication Xplor est ainsi souple et sexcute
aisment sur toute machine. De mme, elle doit tre simple dutilisation et sintgrer aux pratiques de
lutilisateur. La page daccueil (Figure 55) du prototype saffiche au niveau du navigateur de lutilisateur
sous forme dun ensemble de liens hypertexte. Les menus du prototype Xplor sont reprsents sous forme
dun ensemble de liens qui sont suffisamment ars pour safficher dans des crans grands (PC) ou petits
(tlphonie portable).
Le menu de la page daccueil du prototype sarticule autour de quatre composantes principales :
Analyse Dtaille.
Dans la suite de cette section nous prsenterons le prototype xplor en dtaillons chaque composante.
Ce mode de diffusion ne fait pas double emploi avec le portail propos, car il communique tous lanalyse
gnrale (synthse de lensemble des informations stratgiques mises jour) alors que le portail autorise la
conduite des analyses plus profondes et mieux cibles sur les proccupations spcifiques de chaque
utilisateur.
La possibilit de pouvoir revenir lanalyse gnrale prsente aussi de nombreux avantages, car lutilisateur
peut confronter ses propres dcouvertes issues de son analyse dtaille celles plus globales et stratgique
Aussi, nous avons dfinie dans cette partie des indicateurs qui permettent de dcrire la base de donnes.
Ces indicateurs permettent aux utilisateurs davoir une vision gnrale des donnes analyser tel que :
Filtrage unaire
Filtrage binaire
Indicateur univari
- Nombre doccurrence dun item,
- Frquence dun item,
- Slection des X meilleurs items,
Indicateur relationnel
- Slection de lvolution des x meilleurs items,
- Slection des X meilleurs pour une priode prcise,
- Slection de plusieurs items, et les comparer en fonction du temps pour tudier leur volution,
- Slection des occurrences dun item en fonction du temps pour tudier son volution,
- Slection des items de diffrents champs pour comparer un champ en fonction de plusieurs autres
afin de faire une analyse N-dimensionnelle,
- Slection de lenvironnement dun ou plusieurs items,
- Slection de lvolution de lenvironnement dun ou plusieurs items.
Figure 79: Indicateurs des X=10, 20, 30 meilleurs champ= auteurs et son volution.
Indicateur uni-vari
Indicateur relationnels
3.6 Exprimentations
Dans le cadre de la collaboration du Groupe de Recherche en Intelligence Economique, nous avons
expriment le prototype Xplor sur une analyse stratgique de donnes portant sur le secteur des
biotechnologies agricoles en chine. Nadge Gunec, dans le cadre de sa thse CIFRE au sein de la socit
LIMAGRAIN, a jou le rle de lexpert (Biotechnologies et Langue Chinoise), et nous avons pris le rle
ddi lanalyste.
Les dcideurs privs et gouvernementaux lors de la conduite dune dmarche dIE, principalement
dans le cadre dapplications de linnovation.
Dans ce contexte de concurrence accrue, dans lequel les entreprises et les gouvernements sallient et
sengagent au cur de la recherche scientifique, il est ncessaire, voir indispensable, de disposer dun outil
danalyse pertinent permettant de capter linformation utile en temps record [Pierret, 2005]. Loutil
recherch, doit permettre deffectuer une exploration trs fine afin de mettre la disposition des dcideurs
des informations utiles et prcises et lui permettre daffiner sa propre analyse de lenvironnement
informationnel du domaine dtude [Gunec, 2008a]. Dans le cadre de cette collaboration, loutil vis doit
pouvoir traiter et analyser les sources dinformations chinoises.
tant donn linterdpendance des activits politiques, conomiques et scientifiques en Chine, notre
collaboration dans le contexte du GDR-IE consistait traiter et analyser un corpus darticles scientifiques
sur le secteur des biotechnologies agricoles en chine. Dans ce contexte, la difficult pose tait celle de
3.6.2 Proposition
Nous proposons une adaptation de la plate-forme Ttralogie et du prototype Xplor au traitement de la
langue chinoise, dont le codage peut tre ramen au systme UNICODE UTF-8, en utilisant les capacits
de transcodage doutils comme MS-Word.
Une volution de la plateforme Ttralogie dans la phase de prtraitement a donc t le pralable de nos
travaux afin de ladapter lenvironnement linguistique du chinois dune part et la structure des sources
dinformations chinoises (CNKI, CQVIP). Etant donnes que ces sources sont structures, une fois le
traitement linguistique ralis, le lhomognisation et la structuration des documents devraient pouvoir
tre ralises de la mme manire que des documents en langue occidentales.
En se basant sur le codage informatique de la langue chinoise (UNICODE UTF8), nous pouvons dtecter
les entits nommes par le traitement de bases semi structures comme les publications scientifiques, les
brevets et la presse. Il est alors possible dtablir des dictionnaires assez complets de termes scientifiques et
technique (mots-cls, classifications, etc.), de noms dacteurs (auteurs, personnalits, entreprises,
organismes publics, laboratoires, etc.), de lieux gographiques, de dates et de les traduire dans la langue de
lutilisateur. Le croisement (cooccurrence, contingence, prsence-absence) de ces briques signifiantes de
texte doit nous conduire ltablissement des rseaux dacteurs et des rseaux smantiques qui expliquent
en grande partie les stratgies sous-jacentes du domaine. Si, de plus, le facteur temps est pris en compte
(volution des rseaux), nous pouvons alors avoir une vision prospective (tendances, trajectoires des
acteurs, type dvolution, etc.).
3.6.3.2 Indicateurs
Les indicateurs viss sont :
Dterminer les (10, 20, 50) principaux acteurs du domaine, leurs interactions et leur volution,
Dterminer les principaux organismes et lvolution des publications qui leurs sont associes,
Dterminer pour le ou les cinq principaux acteurs, leurs thmatiques, leurs organismes et
lvolution de leur environnement,
Les attributs cibls sont alors : les auteurs, les organismes, les descripteurs et le temps.
Les valeurs associes lattribut Temps sont : 2002, 2003,,2008.
Relations entre attributs cibls et le temps :
Attributs
Auteurs
Organismes
Journal
Mots-cls
Mots-
Auteurs
Organismes
Journal
MotsMots -cls
x
x
x
x
x
x
x
x
x
Dans le cadre de lanalyse stratgique sur les biotechnologies, notre requte consiste rechercher tous les
articles o les mots Bl et strilit mal du bl apparait au niveau de lattribut ou champ Titre , doctobre
2002 octobre 2008.
Voici le protocole de travail que nous prconisons pour raliser des analyses stratgiques depuis cette base
documentaire.
25
pour chaque page de rsultat, la copier-coller dans MS-Word 2003 ou dans Open Office25,
On se sert, ici, des capacits de transcodage de ces outils pour passer de polices chinoises diverses lUNICODE.
MS-WORD 2007 nest pas recommand car il sait travailler avec plus de polices, il ne fait donc plus le transcodage
voulu : qui peut le plus peut le moins .
3.6.5 Structuration
Aprs avoir collect les 302 notices, nous avons dfini un programme permettant de rechercher
linformation utile lanalyse dans le fichier texte ASCII. Pour cela nous avons utilis le langage perl pour
pouvoir crer un fichier qui sera compatible avec la plateforme Ttralogie.
Plusieurs tapes sont identifiables dans ce programme (figure 62) :
liminer la mise en forme du texte (html) qui napporte rien au contenu, mais qui reprsente 90%
du poids du fichier,
reconstituer des chanes de texte qui sont spares en tronons par la mise en forme. Cette tape
est ncessaire car de nombreux mots cls, par exemple, sont coups (changement de police au
niveau html). Est-ce volontaire pour gner lanalyse automatique et lindexation ?
rebaliser le texte par des balises ASCII (du type : TI:, AU:, OR:, ) traduites des balises existantes
en chinois,
certaines balises et leur contenu ne sont pas visibles sur la page web, mais sont prsentes dans le
code source en ASCII (ex : KW:)
rajouter des balises inexistantes dans le texte en les crant partir de la mise en forme html : DP:,
NO:, VA:,
conserver les informations qui sont codes en caractres latins ou en chiffres arabes comme les
dates, les numros ou certains termes comme les auteurs occidentaux, les formules ou les lments
techniques,
viter les doublons dus la prsence simultane de deux versions du mme terme (ex : noms des
auteurs cliquables sur la page web).
Identification
Rgles dextraction et
de rcriture
Corpus structur
3.6.6 Homognisation
Homognisation
Une fois la structuration termine, le corpus se trouve sous une forme analysable par Ttralogie au
mme titre quune base initialement code en ASCII comme PASCAL, FRANCIS, INSPEC ou SCI. Des
descripteurs de format spcifiques compatibles avec ce balisage vont permettre ensuite de piloter les
automates qui vont traiter le texte : extraction des items (valeurs) de tous les champs baliss (attributs),
puis le croisement des champs entre eux, afin dtablir des tableaux de cooccurrences trois dimensions.
Dans le Tableau 14 nous dcrivons les diffrentes informations dcrites par le descripteur de format
spcifique.
Nom du champ
Nom complet du
champ dans une
notice
Abrviation
Nom abrg du
champ dans une
notice
Champ
Nom du champ
dans la notice
Visible
Attribut qui permet
dafficher ou non un
champ dans les diffrents
outils de Ttralogie
TRUE = actif
FALSE = passif
Sparateurs
Les sparateurs permettent
disoler les mots ou groupes
de mots que lutilisateur
recherche.
Exemple : le contenu de la
balise Notice sera
dlimit par le sparateur :
b"
Corpus structur
Descripteur de format
spcifique
Dans la figure 63, nous pouvons remarquer que les attributs de chaque champ en ASCII et les valeurs
(contenu) en UNICODE. Dans la notice C2617138, le titre, le premier auteur, le journal et la date
forment un abrg en dbut de document, ces informations sont ensuite reprises dans les champs
correspondants : TI:, AU:, JN:, DP:. Le champ VA : ne sera donc pas utilis dans lanalyse.
Si nous analysons visuellement le document, il comporte 3 auteurs (de 3 idogrammes chinois = 3 codes),
un seul organisme, 8 mots cls (ici de 2 5 idogrammes) plus le journal et la date : 2006.
Ds que nous disposons du corpus reformat et de ses descripteurs de format, il est possible de lanalyser
par les mmes techniques que pour une source en alphabet latin, y compris raliser son traitement
smantique et proposer une indexation plus fine et rcente.
Afin de dcoder lUNICODE (et donc, ici, le chinois), nous avons tabli des dictionnaires de
correspondances entre les noms dauteurs en chinois et leur traduction en phontique (Pinyin) grce au
traducteur de Google. Mais dans ce cas, se posent deux problmes :
Google narrive pas traduire tous les noms et restitue alors lUNICODE (voir 7 auteur)
Plusieurs auteurs de codes diffrents peuvent avoir la mme correspondance, do une ambigut
trs nfaste ltablissement de rseaux
3.6.7 Reprsentation
Reprsentation multidimensionnelle
Cette tape nous permet de dfinir et identifier les diffrentes corrlations existantes entre les attributs
dun mme document et leurs corrlations avec les autres documents du corpus cibl. Notons que ces
donnes vont permettre, la suite, lalimentation de la base de donnes du prototype dvelopp.
Xplor Cooccurrences.
Les lignes du tableau correspondent aux diffrents attributs reprsentant le corpus homognis,
La seconde permet deffectuer un filtre sur les frquences dapparition de chaque valeur associe
lattribut slectionn. Dans notre exprimentation, nous avons retenus toutes les valeurs associes
aux attributs cibls qui apparaissent au moins une fois dans un document (Frq=1).
Les rsultats de cette fonction sont les fichiers, Attribut et Valeur , dont nous dcrivons un extrait du
contenu dans la Figure 87.
La Figure 88 correspond la traduction des valeurs extraites sous forme de caractre UNICODE. Cette
traduction est effectue pour vrifier si les informations extraites sont valides.
UNICODE
陈爱平
邵庆均
Caractre en Chinois
刘&
21016;& #26342 ;葳
33907 ;
Franais
CHEN Ai-Ping
SHAO Qing-jun
Xi Liu
Le cur du tableau est caractris par une matrice symtrique, tel que les lignes et les colonnes
correspondent aux diffrents attributs cibls. Chaque case de la matrice correspond une relation
de type attribut-attribut . Lutilisateur peut donc choisir les croisements quil veut analyser
selon ses besoins.
La dernire ligne du tableau permet de rfrencer le troisime attribut de lensemble des relations
slectionnes. Dans le cadre de nos travaux, cette rfrence correspond lattribut Temps .
La dernire colonne du tableau (Freq) permet deffectuer des filtres sur les occurrences de chaque
relation slectionne.
Le rsultat de cette fonction est un fichier textuel nomm Cooccurrence , qui dcrit le contenu du
fichier gnr par la fonction Xplor Cooccurrences, o chaque ligne correspond une relation de type
Attribut-Attribut-Cooccurrence-Temps .
Aprs avoir gnr ces fichiers, nous exportons ces rsultats de la plateforme Ttralogie vers la base de
donnes du prototype Xplor.
Mots-cls
Journal
Organisme
I NDICATEURS UNI-VARIES
Identification des 10 principaux Type Attribut
du domaine
Identification des 20 principaux Type Attribut
du domaine
Identification
tion des 50 principaux Type Attribut
Identifica
du domaine
La part des publications pour chacun des 10
principaux Type Attribut du domaine
La part des publications pour chacun des 20
principaux Type Attribut du domaine
La part des
des publications pour chacun des 50
principaux Type Attribut du domaine
I NDICATEURS RELATIONNELS
RELATIONNELS
volution des publications des 10 principaux
Type Attribut du domaine sur la priode 200220022008
volution des publications des 10 principaux
prin cipaux
Type Attribut du domaine sur la priode 200220022008
volution des publications des 10 principaux
Type Attribut du domaine sur la priode 200220022008
Identification de lenvironnement des 5
principaux Type Attribut du domaine
domaine
Evolution de lenvironnement des 5 principaux
Type Attribut du domaine
Notons que toutes les fonctions dfinies dans le prototype Xplor sont gnriques. Par exemple dans le
Tableau 21, Type Attribut est un champ gnrique qui peut prendre les valeurs : Auteur, Organisme,
Journal, Mots-cls.
Pour lindicateur (ou fonction) : Identification des 10 principaux Type Attribut du domaine
Si Type Attribut = Auteurs alors
La fonction nous retourne les valeurs des 10 principaux Auteurs contenus dans la base de donnes du
domaine.
Nous organisons ltape des calculs des indicateurs comme suit :
Le nombre de valeurs (items) de lensemble des attributs (champs) dans la base de donnes : 7138
Le nombre de fois o lensemble des valeurs (items) dun attribut (champ) apparaissent dans un
croisement.
Ces informations reprsentent une synthse des donnes sur lesquelles va se baser lanalyse.
Les rsultats des indicateurs sont reprsents dans la Figure 89.
Figure 89 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs).
Figure 90 : Rsultat de lindicateur descriptif des valeurs (items) des attributs (champs).
En raison des clauses de confidentialits avec la socit LIMAGRAIN, nous ne pouvons donner ici
linterprtation complte des rsultats obtenus par cette tude, mais nous pouvons tout de mme en
donner quelques illustrations qui refltent bien lintgration des idogrammes chinois aussi bien dans les
sorties textuelles que graphiques.
Nous rappelons que pour chaque type dindicateur, nous proposons un ensemble de sorties graphiques.
Traduction
Jiangsu Huai
464
Henan Luoning
449
Cytogntique Institute,
444
Nanjing Agricultural University
College of Agronomy, Shandong
Agricultural University, Key 422
Laboratory of Crop Biologie
Southwestern University cole
d'agronomie et de
418
biotechnologie
Taiyuan
326
Figure 79 : Histogrammes et tableaux des valeurs du top 10, traduction des termes chinois en anglais.
3.7 Synthse
Un des objectifs initiaux dans la mise en uvre dXplor tait de fournir une interface facile apprhender,
notamment par des utilisateurs non informaticiens. Pour cela, nous avons orient notre choix vers une
interface web, dont lutilisation est relativement courante, pour nimporte quel utilisateur dordinateur. Ce
type dinterface, et lapproche de navigation hypertextuelle quelle propose de faon naturelle, est
particulirement adapt lexploration de donnes, en proposant des types daccs prdfinis pour
naviguer dans un corpus documentaire, ou ceux propos dans des rsultats produits par des outils d'analyse
de l'information. Lmergence de technologies web (typiquement PHP, ASP, MySQL, etc.) a facilit
laccs en ligne de nombreuses bases de donnes, incluant des oprations de plus haut niveau pour
exploiter les donnes, la vole. L'utilisation de ces techniques dans la mise en uvre dXplor a conduit
un systme trs facile utiliser. La construction du systme a ncessit de mettre en place les
fonctionnalits associes aux diffrentes tapes de slection, de traitement, et de visualisation des rsultats ;
mais galement de faciliter l'enchanement de ces tapes. La consultation de donnes ainsi que la slection
dun ensemble de donnes a lieu partir de liens hypertextes ; le dclenchement dune opration de
traitement se fait en slectionnant les donnes exploiter et loprateur appliquer. Le rsultat obtenu est
lui aussi explorable par navigation, des liens hypertextes permettent nouveau de slectionner des
ensembles de donnes en vue dune exploitation ultrieure. Ainsi, lutilisateur nest jamais limit dans
lexploitation et lanalyse de donnes ; le systme permet deffectuer une fouille effective des donnes et
non une pseudo-fouille de rsultats produits par des outils danalyse dinformation.
Lexprimentation effectue, nous a permis de valider en partie le modle danalyse exploratoire
multidimensionnelle propos au niveau du chapitre 3 de ce manuscrit.
De nos jours, lvolution des entreprises est fortement influence par les diffrentes facettes de leur
environnement extrieur. Dune part, chacun de ces derniers prsente de multiples dimensions dordre
conomique, politique, social et culturel interfrant entre elles. Dautre part, chaque problme relve la
fois des diffrents niveaux, local, national, mondial qui sont imbriqus. Face cette forte influence les
entreprises doivent tre plus attentives aux changements et aux volutions de leur environnement pour
maintenir leur prennit. Leur avantage concurrentiel sinscrit alors dans leur capacit dvelopper de
nouvelles connaissances en vue de produire, de manire continue, des innovations.
La dmarche dIE permet de rpondre cette problmatique par la cration de connaissances nouvelles sur
lenvironnement extrieur de lentreprise. Linformation scientifique et technologique constitue le facteur
cl de succs qui doit tre identifie et transforme en connaissance pour clairer lentreprise dans son
processus dcisionnel.
Actuellement dans la littrature dIE il nexiste pas de modle unique et fig chaque chercheur ajuste les
diffrentes actions de la dmarche selon son domaine de recherche (science de gestion, conomie
industriel, informatique, science de linformation, etc.). Le modle classique du cycle dIE se base sur un
processus ininterrompu constitu de cinq tapes : planification et orientation, activits de recherche,
analyse, diffusion et feedback. Ce cycle connu aussi sous le nom du cycle de renseignement reprsente un
guide mthodologique pour tous les experts. Il doit couvrir lensemble des tapes qui permet de
transformer les donnes en connaissances utiles pour la prise de dcision. Dans le cadre de nos travaux
nous identifions la dmarche dIE comme une coordination des processus danalyse stratgique et de veille.
Nous dfinissons lIE comme un processus informationnel volontariste par lequel lentreprise observe,
surveille et analyse les informations caractre stratgique dans le but dagir dans les dlais les plus brefs et
au moment opportun afin de saisir les opportunits ou de se prmunir des menaces.
Dans ce contexte, nous avons constat quune grande part de linformation porte stratgique prend
souvent une forme relationnelle : liens entre acteurs du domaine, rseaux smantiques, alliances, fusions,
acquisitions, collaborations, cooccurrences de tous ordres. partir de ce constat, nos travaux consistent
proposer un systme dinformation, adapt la dmarche dIE, et bas sur un modle danalyse
exploratoire multidimensionnelle (Xplor). Ce modle permet de recouvrir les quatre principales tapes du
processus dIE, savoir La formulation du besoin, La collecte et le traitement des donne, Lanalyse, La
restitution et interprtation des rsultats .
LE MODELE DE REPRESENTATION
REPRESENTATION MULTIDIMENSIONNELLE
MULTIDIMENSIONNELLE DES DOCUMENTS
Lobjectif de ce modle est d'obtenir, en final, une vue globale ou fdratrice des documents collectes qui
sera utilise tout au long du processus danalyse. Cette vue doit rpondre trois objectifs et doivent
correspondre :
une vue homogne, partage par les diffrentes donnes quelles que soient leurs sources,
une vue globale et rduite des informations. Pour faciliter et acclrer les traitements d'analyse, il
est prfrable de ne pas garder toute l'information mais simplement l'information utile. Ainsi
l'information brute doit subir des traitements de type filtrage et rduction avant d'tre stocke en
vue de son analyse ultrieure.
une vue unique dans toutes les tapes du processus pour faciliter les interactions entre les diffrents
traitements. Cette vue doit donc correspondre aux entres et aux sorties des diffrents tapes.
le modle deux dimensions bas sur des matrices de cooccurrence (voir section 2.5.4) et
prsence/absence (voir section 2.5.3). C'est en effet des formes basiques de reprsentation de
connaissances deux dimensions.
Le modle trois dimensions bas sur des matrices tendues qui nous permettent de reprsenter des
connaissances cubiques ( trois dimensions), la troisime dimension correspond le plus souvent au
temps.
LE MODELE DE CALCUL D INDICATEURS
partir de la reprsentation multidimensionnelle des documents, nous avons dfinis des fonctions de
manipulation et dagrgation qui permettent dexplorer les liens inter et intra documents. Par la
combinaison de ces fonctions lmentaires, nous pouvons construire des indicateurs uni-varis et
relationnels.
Critres dvaluation
Expression du besoin
Une interface de gestion des droits daccs des utilisateurs
Une interface pour introduire et grer les orientations thmatiques des axes de recherches
Prototype Xplor
oui
non
non
oui
oui
oui
non
non
oui
oui
oui
oui
non
oui
oui
non
Traitement et analyse
Trier les donnes selon des rgles dfinies par lutilisateur
Interface pour la visualisation de donnes collectes
Visualisation des modles : matrice SWOT, les cinq forces de Porter, etc.
Affichage des donnes dans un ordre chronologique
Extraction des relations existantes entre les diffrents acteurs, dates, lieu et autres
corrlations importantes
Les mthodes de Fouilles de donnes textuelles pour extraire et analyser les variables
slectionnes par lutilisateur
La capacit de rapporter les donnes qualitatives aux quantitatives
Visualisation des rsultats danalyse sous diffrents forme graphique
oui
oui
non
oui
oui
oui
oui
oui
Diffusion
Prise en compte dune charte graphique ou de normes de prsentation des rapports,
Exporter les rsultats sous Microsoft Office ou quivalent
Diffusion des rapports par mail, imprim, etc.
oui
oui
oui
Perspectives
Il reste encore deux points importants traiter : un, la scurisation du systme aussi bien pour laccs aux
donnes primaires (les cubes ou les documents simplifis) que pour les rsultats des traitements oprs en
ligne (tops, tableaux dynamiques, graphiques, indicateurs, cartes, graphes, etc.) et deux, la possibilit de se
connecter ce portail via la tlphonie mobile qui est bien plus nomade que lordinateur portable et
certainement plus facilement scurisable quun wifi dhtel ou daroport.
GHALAMALLAH I., GRIMEH A., DOUSSET B. , Les pr-connaissances: un passage oblig entre
information et connaissance. Journes Francophones Extraction et Gestion de Connaissances (EGC 2007),
Namur, Belgique, 23/01/2007-26/01/2007, Cpadus Editions, p. 43-54, 2007.
Bibliographie
A
[AFNOR, 1998]
[Agrawal, 1993]
[Agrawal, 1994]
[Agrawal, 1995]
[Alabdulsalam, 2006]
[Ankerst, 2008]
[Ansoff, 1975]
[Ansoff, 1990]
[Anton, 1987]
[Arpagian, 2004]
B
[Baumard, 1991]
[Bachimont, 2000]
[BaezaYates, 1999]
[Bai, 2006]
[Barbut, 1970]
[Baud, 2002]
[Bellot, 2004]
[Benali, 1989]
Multiway data analysis Coppi R. and Bolasco ed. [North-Holland]. pp 327-339, 1989.
[BenAmmar, 1999]
[Benzecri, 1973]
[Benzecri, 1992]
Benzecri J.P., Correspondence analysis handbook, Marcel Dekker Ed., New York 1992.
[Besson, 1996]
[Benford, 1995]
[Besson, 1998]
[Bisson, 2003]
[Bloch, 1996]
[Bouaka, 2004]
[Boughanem, 1990]
[Boughanem, 2000]
[Boughanem, 2001]
[Bournois, 2000]
[Bouroche, 1989]
[Boutin, 1999]
[Bradfod, 1934]
[Breiman, 1984]
[Bright, 1970]
[Buigues, 1985]
[Bulinge, 2002]
Breiman, L., Freidman, J. H., Olshen, R. A., Stone, C. J., Classification and Regression
Trees. Wadsworth, 1984.
Bright J.R., Evaluating signals of technological change. Harvard Business Review, pp 62-70,
1970.
Buigues PA., Prospectives et comptitivit. McGraw-Hill, 1985.
Bulinge F.,
F. Pour une culture de linformation dans les petites et moyennes organisations : un
modle incrmental dintelligence conomique. Thse de Doctorat, Universit du Sud,
Toulon, 2002.
C
[Castellani, 2008]
[Chandler, 1962]
[Cherfi, 2004]
[Chowdhury, 2004]
Castellani U., GayGay-Bellile V., Bartoli A., Robust deformation capture from temporal range
data for surface rendering. Journal of Visualization and Computer Animation (JVCA), vol.
19, p. 591-603, 2008.
Chandler A.D., Strategy and Structure: Chapters in the History of American Industrial
Enterprise. MIT Press, USA, 1962.
Cherfi H., Etude et ralisation dun systme dextraction de connaissances partir de textes.
Thse de doctorat de luniversit Henri Poincar, Nancy 1, 2004.
Chowdhury G., Introduction to modern information retrieval. 2nd edition, Facet
[Chrisment, 2000]
[Church, 1990]
[Cigref, 2004]
[Clerc, 1997]
[Colas, 2004]
[Colletis, 2007]
[Colliat, 1996]
[Conesa, 2003]
[Croft, 1977]
[Crozier, 1989]
D
[Davenport, 1998]
Chrisment C., Dkaki T., Dousset B., Mothe J., Extraction et synthse de connaissances
partir de donnes htrognes. Ingnierie des Systmes d'Information, Herms Science
Publications, Vol. 5, N. 3, p. 367-400, 1997.
Chrisment C., Lemaitre J., Sdes F., Bases de donnes documentaires. Techniques de
l'ingenieur, Trait informatique H7248, 2000.
Church W. K., Hanks P.,
P. Word association norms, mutual information, and lexicography.
Computational Linguistics, volume 16, pages 2229, 1990.
Club Informatique des Gran
Grandes
des Entreprises Franaises,
Franaises Intelligence conomique et
stratgique. Rapport Cigref, 2004.
Clerc P., IE : enjeux et perspectives. Rapport mondial sur linformation, chapitre 22,
Accessible sur http://www.unesco.org.webworld/wirerpt, 2007,
Colas F., Introduction au renseignement extrieur.. Lesprit du livre Editions, 2004.
Colletis G., Intelligence conomique : vers un nouveau concept en analyse conomique ?.
Cahier du GRES, N.3, France, 2007.
Colliat C., OLAP, Relational, and multidimensional database system. ACM SIGMOD
Record, ACM Press, vol. 25, p. 6469, 1996.
Conesa P., Entreprises et intelligence conomique Quelle place pour la puissance publique.
Rapport du G.D.S N1, France, 2003.
Croft W.B., Clustering large files of documents using the single link method. Journal of the
American Society for Information Science. N. 28, p. 341-344, 1977.
Crozier M., L'Entreprise l'coute, Paris, Inter Editions, 1989.
Davenport, T.H., Putting the enterprise into the enterprise system. Harvard Business
Review, 1998...
[Davey, 1994]
Davey B.A., Priestley H.A., Introduction to Lattices and Order. Cambridge University
Press, 4th Edition, 1994.
[David, 2002]
David A., Thiery O., Application of EQuA2te Architecture. Economic Intelligence, 2002.
[Denjean, 1989]
Denjean P., Interrogation d'un systme Videotext arborescent : l'indexation automatique des
textes. Thse de doctorat de l'universit Paul Sabatier, Toulouse III, 1989.
[DeVasconcelos, 1999] de Vasconcelos C., L'intelligence conomique et la stratgie de dveloppement de la PME,
Thse pour le doctorat en Sciences de. Gestion, Grenoble, 1999.
[Dkaki, 1991]
Dkaki T., Dousset B., Koussoube
Koussoube S., Les apports de la reprsentation de la quatrime
dimension en analyse de donnes multidimensionnelles. Journes d'tudes sur les systmes
d'informations labores : Bibliomtrie - Informatique stratgique - Veille technologique. p
98-105, 1991.
[Dkaki, 1993]
Dkaki T., Outils informatiques et mthodes automatiques pour la veille technologique.
Thse de doctorat de luniversit Paul Sabatier, Toulouse III, 1993.
[Dkaki, 1995]
Dkaki T., Dousset B., Ttralogie: A new method for Competitive Intelligence. International
Conference on Industrial Engineering and Management (IEPM'95), Marrakech, 1995.
[Dkaki, 1996]
Dkaki T., Mothe J., Dousset B., Chrisment C., Extraction et synthse de connaissances
partir de bases de donnes htrognes. INFORSID96, pp. 287-308, Bordeaux, France, juin
1996.
[Dkaki, 1997]
Dkaki T., Dousset B., Mothe J., Recherche de l'information stratgique dans les bases de
donnes : veille scientifique et technique. 15me congrs INFORSID, INFORSID'97, p 673690, 1997.
[Dkaki, 1998]
Dkaki T., Dousset B., Mothe J., Analyse d'informations issues du Web avec Ttralogie.
Veille stratgique, scientifique et technologique : VSST'98, pp 159-170, Toulouse, France,
1998.
[Dkaki, 2000]
Dkaki T., Dousset B., Egret D., Mothe J., Information discovery from semi-structured
sources - Application to astronomical literature. Computer Physics Communication, 2000.
[Dobrowolski, 1964]
Dobrowolski Z., Etude sur la construction des systmes de classification. Prface d'Eric de
Grolier, Paris : Gauthier-Villars, 1964.
[Dou, 1994]
Dou H., Paoli C., Haon H., Dou J.M., Analyse des rfrences bibliographiques Japonaises
sans
traduction
pralable.
Prsent
Londres,
1994.
Source :
[Dou, 1995]
[Dou, 2004]
[Dousset , 1995]
[Dousset, 1987]
[Dousset, 1988]
[Dousset, 1989]
[Dousset, 1991]
[Dousset, 1993]
[Dousset, 1995]
[Dousset, 1998]
[Dousset, 2002]
[Dousset, 2003]
[Dousset, 2005]
[Dousset, 2006]
[Dousset, 2007]
[Dousset, 2009]
[Dublin Core, 2007]
[Dunning 1993]
[Dupr, 1997]
http://s244543015.onlinehome.fr/ciworldwide/wpcontent/uploads/2009/01/analyse_ref_japon-sans_traduc_prealable.pdf
Dou H., La veille technologique et comptitivit. Edition, Dunod, Paris, 1995.
Dou H., Benchmarking R&D and companies through patent analysis using free databases
and special software: a tool to improve innovative thinking. World Patent Information
Journal, n26, pp. 297309, 2004.
Dousset B., Rommens M., Sibu D., Application du logiciel de veille technologique
Ttralogie aux huiles de poissons. Symposium International, Omega-3, Lipoprotines et
athrosclrose, 1995.
Dousset B., Utilisation de systmes experts dans la gestion et la consultation bibliographique.
Publication dans les actes du colloque IA/Sant de Toulouse, pp 167-172, 1987.
Dousset B., Benjamaa T. Trilogie logiciel d'analyse de donnes. Journes d'tudes sur les
systmes d'informations labores : Bibliomtrie - Informatique stratgique Veille
technologique. Ile Rousse, 1988.
Dousset B., Cambus J.P., Bigaut Ph.,
Ph., Ralisation dune chane entirement automatise
dtude de la fibrinoformation et de la fibrinolyse. Journes dinformatique mdicale de
Toulouse, pp. 104-113, Toulouse, France, 1989.
Dousset B., Koussoub S., Gnestal M., Un systme expert daide la conduite et la
surveillance en ranimation. 11imes journes internationales sur les systmes experts et leurs
applications, vol 3, pp 151-160, Avignon, France, 1991.
Dousset B., Dkaki T.,
T. , Longevialle C., Qualit de linformation et analyse des donnes.
5imes journes d'tudes sur les systmes d'informations labores : Bibliomtrie Informatique stratgique - Veille technologique, Ile Rousse Corse France, 1993.
Dousset B., Rommens M., Sibue D., Application du logiciel de veille technologique
Ttralogie aux huiles de poissons. Symposium International, Omega-3, Lipoprotines et
athrosclrose, 1995.
Dousset B., Kanoun S.,
S. Optimisation du choix de la terminologie pour la reformulation de
requtes : cas des multi-termes. VSST'98, p. 107-119, 1998.
Dousset B., Karouach S., Collaboration interactive entre classifications et cartes thmatiques
ou gographiques. 9imes rencontres de la socit francophone de classification, 2002.
Dousset B., Intgration de mthodes interactives de dcouverte de connaissances pour la
veille stratgique. Habilitation diriger des recherches, Universit Paul Sabatier, France,
2003.
Dousset B., Karouach S., Manipulation de graphes de grande taille pour l'tude des rseaux
d'acteurs et des rseaux smantiques. 10imes journes d'tudes sur les systmes d'information
labore : Bibliomtrie - Informatique stratgique - Veille technologique, (Ile Rousse Corse
France), CD-ROM, 2005.
Dousset B., TETRALOGIE: a platform for scientific and technological survey. International
Workshop on Webometrics, Infometrics and Scientometrics & Seventh COLLNET Meeting,
Nancy, (confrencier invit), LORIA, 2006.
Dousset B., Karouach S., Apports de la classification dans l'analyse des graphes de grande
taille. VSST 2007, CD-ROM, 2007.
Dousset B., Extraction de l'information implicite par analyse textuelle de sites Internet en
UNICODE, VSST 2009, CD-ROM, 2009.
Dublin Core. Dublin core meta data element set version 1.1. Dublin Core Meta Data
initiative. http://dublincore.org/ Janvier 2009.
Dunning T., Accurate Methods for the Statistics of surprise and Coincidence.
Computational Linguistics, vol. 19, pages 61-74, 1993.
Dupr A., Duhard N., Les armes secrtes de la decision, la gestio de l'information au service
de la performance economique. Gualino editeur, Paris,
E-F
[Escofier, 1998]
[Favier, 1998]
Escofier B., Pags J., Analyses factorielles simples et multiples, objectifs, mthodes et
interprtation. Dunod, 1998.
Favier L., recherche et application d'une mthodologie d'analyse de l'information pour
l'intelligence conomique application un centre technique du secteur de la plasturgie. Thse
[Feldman, 2007]
[Fichet, 1987]
[Fichet, 1988]
[Fondin, 1998]
[Fowler, 1996]
[Frakes, 1992]
[Fuhr, 2000]
[Fuld, 1995]
[Fung, 1997]
G
[Gao, 2006]
[Garibaldi, 2001]
[Gay, 2006]
[Ghalamallah, 2007a]
[Ghalamallah, 2007b]
[Ghalamallah, 2007c]
[Ghalamallah, 2007d]
[Ghalamallah, 2008a]
[Ghalamallah, 2008b]
[Ghalamallah, 2008c]
[Ghalamallah, 2009e]
[Gilad, 1988]
Gao J., Revesz P., Visualization of Temporal-Oriented Datasets. GMAI 2006, pages 57-62,
2006.
Garibaldi G., L'analyse stratgique : comment concevoir les choix stratgiques en situation
concurrentielle. Les Editions d'Organisation, France, 2001.
Gay B., Dousset B., Ingnierie des Systmes d'Information Networking and Information
Systems. Revue des sciences et technologies de l'information, Vol 11/2, 2006.
Ghalamallah I., Grimeh A., Dousset B., Les pr-connaissances : un passage oblig entre
information et connaissance. Journes Francophones Extraction et Gestion de Connaissances
(EGC 2007), Herms, p. 55-64, Belgique, 2007.
Ghalamallah I., Grimeh A., Dousset B., Processing data stream by relational analysis.
European workshop on data stream analysis, Herms, p. 67-70, MODULAD n36 (en ligne),
France, 2007.
Ghalamallah I., Lanalyse relationnelle en ligne au service de lintelligence conomique.
Colloque Veille Stratgique Scientifique et Technologique (VSST 2007), Maroc, 2007.
Ghalamallah I., Prconisation des bonnes pratiques en Intelligence Territoriale : application
une agglomration de taille moyenne. Colloque Veille Stratgique Scientifique et
Technologique (VSST 2007), Maroc, 2007.
Ghalamallah I., Dousset B., Lintelligence conomique par lanalyse relationnelle :
modlisation de la pr-connaissance. 1re Confrence internationale intelligence conomique et
systmes dinformations SIIE2008, Tunisie, 2008.
Ghalamallah I., Loubier E., Dousset
Dousset B., Competitive Intelligence: Approaches and
proposal tool specific to relational analysis. 2me Colloque Europen dIntelligence
Economique, ATELIS / ISEG-CEGE, Portugal, 2008.
Ghalamallah I., Loubier E., Dousset B., Business intelligence a proposal for a tool
dedicated to the analysis relational. SciWatch Journal, Hexalog, Vol 3 (en ligne), Espagne,
2008.
Ghalamallah I., Dousset B., Modle danalyse multidimensionnelle ddie lIntelligence
Economique. Colloque Veille Stratgique Scientifique et Technologique (VSST 2009),
France, 2009.
Gilad B., Gilad T., The business intelligence system: a new tool for a competitive advantage.
AMACOM, New York, 1988.
[Gimeno, 2001]
[Godet, 1991]
[Gruber, 1993]
[Gunec, 2008a]
[Gunec, 2008b]
[Guilhon, 2003]
smiologie
graphique.
H
[Han, 1998]
[Haroussi, 2004]
[Hassid, 1997]
[Hearst, 1999]
[Herman, 2000]
[Huot, 1992]
[Hussein, 2004]
Han J., Towards on-line analytical mining in large databases. pp 97-107, SIGMOD Record,
ACM Press, N.1 Vol.27, 1998.
Haroussi S., Systme de veille stratgique bas sur un rseau dexperts : mthodes et outils.
Thse de doctorat de luniversit Aix-Marseille III, 2004.
Hassid L., Moinet N., Jacquegustave P., Les PME face au dfi de lintelligence
conomique. ditions Dunod, Paris, 1997.
Hearst M., Untangling Text Data Mining. Proc. of the 37th Annual Meeting of the
Association for Computational Linguistics, University of Maryland, 1999.
Herman I., Marshall M. S., Melanon G.,
G. Graph visualisation and navigation in
information visualisation: a survey. Ieee transactions on visualization and computer graphics
6(1), pages 24-43, 2000.
Huot C., Analyse relationnelle pour la veille technologique : vers l'analyse automatique des
bases de donnes. Thse Science de l'Information et de la Communication, (Aix-Marseille III
France), 1992.
Hussein S., Dfinition des besoins en Intelligence Economique par profils de PME. Thse de
doctorat de luniversit Sciences Sociales, Toulouse I, 2004.
I
[Inmon, 1996]
[ISO8879, 1986]
Inmon W.H. Building the Data Warehouse. 2nd Ed. New York : Wiley, 1996,
1996
International Standard ISO 8879,
8879 Information processing - Text and offices systems.
Standard Generalized Markup Language (SGML), 1986.
J
[Jacob, 2000]
[Jakobiak, 1991]
[Jakobiak, 2004]
[Juillet, 2005]
[Julien, 2003]
K
[Kadarsah, 2008]
[Karouach, 2003]
[Kedad, 1999]
Kadarsah S., Ceicalia T., Henri D., Product Innovation Decision Support Based on Online Patent Database. Asian Pacific Journal of Innovation and Entrepreneurship, Vol 2, n1,
pp.1-14, 2008
S., Visualisations interactives pour la dcouverte de connaissances : concepts,
karouach S.
mthodes et outils. Thse de Doctorat en informatique, Universit Paul Sabatier, France,
2003.
Kedad Z., Mtais E., Dealing with semantic heterogeneity during data integration. 18th
International conference on conceptual modeling (ER'99), Paris, p. 325-339, Paris, France,
1999.
[Khrouf, 2004]
[Kislin, 2007]
[Kodratoff, 1999]
L
[Lafosse, 1985]
[Lafosse, 1990]
[Learned, 1965]
[Lebart, 1995]
[Lebart, 1998]
[Leitzelman, 1998]
[Lesca, 1986]
[Lesca, 1994]
[Lesca, 1997]
[Lesca, 2003]
[Levet, 1996]
[Levet, 2001]
[Liebowitz, 1998]
[Lin, 1998]
[Lointier, 2000]
[Loubier, 2007]
[Loubier, 2008]
[Loubier, 2009]
Lafosse R., Analyse procustenne de deux tableaux. Thse de doctorat de luniversit Paul
Sabatier, Toulouse III, France, 1985.
Lafosse R., Exemple d'tude de panel de deux tableaux. Publication des statistiques du
laboratoire de luniversit Paul Sabatier, Toulouse III, France, 1990.
Learned E., Christensen C., Andrews K., Guth
Gu th W., Business Policy: Text and cases. Irwin,
USA, 1965.
Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle. Dunod,
ISBN 2-10-002886-3, 1995.
Lebart L., Salem A., Berry L., Exploring textual data. Kluwer academic Publishers, ISBN 07923-4840-0, 1998.
Leitzelman M., Dou H., Typology of Information Systems Essai de typologie des Systmes
d'Informations. International Journal of Information Sciences for Decision Making, N2, pp.
55-73, 1998.
Lesca H., , 1986.
Lesca H., Veille stratgique pour le management stratgique, tat de la question et axes de
recherche. Economies et Socits, Srie Sciences de Gestion, SG n20, p.31-50, 1994.
Lesca
Lesca H., Veille stratgique : concepts et dmarche de mise en place dans l'entreprise. Guides
pour la pratique de l'information scientifique et technique. Ministre de l'Education
Nationale, de la Recherche et de la Technologie, 27 p., France, 1997.
Lesca H., Veille stratgique, la mthode L.E.SCAnning. Editions. Ems, Management et
Socit, 190 p, 2003.
Levet J.L., Paturel R., Lintgration de la dmarche dIE dans le management stratgique.
Acte de lAssociation Internationale de Management Stratgique, Lille, 1996.
Levet J.L., IE : mode de pense, mode daction. Economica, Paris, 2001.
Liebowitz J., Beckman T., Knowledge Organizations: What Every Manager Should Know.
St. Lucie Press, 1998.
Lin S.H., Shih C.S., Chang Chen M., Ho J.M., Ko M.T, Huang Y.M. Extracting
classification knowledge of Internet documents with mining term associations: a semantic
approach. pp 241-249, Proceedings of the 21st Annual International ACM SIGIR, 1998.
Lointier P., Les limites de lIE, commentaires de P. Lointier. La Revue de lAssociation des
Diplms de lIAE, 2000.
Loubier E., Bahsoun W.,
W. Dousset B.,
B. Visualization and analysis of large graphs. ACM
International Workshop for Ph.D. Students in Information and Knowledge Management
(ACM PIKM 2007), ACM, support lectronique, 2007.
Loubier E., Bahsoun W.,
W. Dousset B.,
B. VisuGraph : un outil pour la visualisation de donnes
temporelles. MAnifestation des Jeunes Chercheurs STIC (MajecStic 2008), Aline Cauvin,
Abbas Chamseddine, Nicolas Faessel, Sbastien Fournier (Eds.), Laboratoire des Sciences de
l'Information et des Systmes (LSIS), support lectronique, 2008.
Loubier E., VisuGraph : un outil pour lanalyse du relationnel. Colloque Veille Stratgique
Scientifique et Technologique (VSST 2009), IRIT, support lectronique, 2009.
M
[Magakian, 2007]
[Maniez, 1991]
Magakian JJ- L., Payaud MM-A., 100 fiches pour comprendre la stratgie de lentreprise.
Edition Bral, 2007.
Maniez J., Grolier E., A decade of research in classification. International Classification, Vol.
18, n 2, pp.73-77, 1991.
[Manning, 1999]
[Marcon, 2006]
[Marcotorchino, 1991] Marcotorchino F., L'analyse factorielle-relationnelle. Partie I et II. Centre Europen de
Mathmatique Appliques, 1991.
[Maron, 1960]
Maron M., Kuhns J., On relevance, probabilistic indexing and information retrieval. Journal
of the Association for Computing Machinery, pp. 216244, 1960.
[Marshall, 2001]
Marshal M., Methods and tools for the visualization and navigation of graphs. Thse,
Dpartement de mathmatiques et dinformatique, Universit de Bordeaux, France, juin
2001.
[Martinet, 1989]
Martinet B., Ribault J.M.,
J.M La veille technologique, concurrentielle et commerciale. les
Editions dorganisation, France, 1989.
[Martinet, 1995]
Martinet B., Marti YY -M., L'Intelligence Economique : les yeux et les oreilles de l'entreprise.
Organisation Editions, Entreprise-Gestion, 1995.
[Martre, 1994]
Martre H., IE et stratgie des entreprises. uvre Collective du Commissariat au Plan, la
documentation Franaise, France, 1994.
[Mass, 2000]
Mass G., Thibaut F.,
F. Intelligence conomique : Guide pour une conomie de lintelligence.
Editions De Boeck Universit, Belgique, 2000.
[Mlse, 1972]
Mlse J., L'analyse modulaire des systmes de gestion, AMS. Editions Hommes et
Techniques, Paris, 1972.
[Mohellebi, 2008]
Mohellebi D., Henri D., Les nouvelles technologies de linformation et de la
communication & la capitalisation des comptences internes de lentreprise. Informations,
Savoirs, Dcisions, Mdiations, Journal International des Sciences de l'Information et de la
Communication, n31, 2008.
[Morel-Pair, 2001]
MorelMorel-Pair C., Panorama : des mtadonnes pour les ressources lectroniques. Disponible sur
: http://hal.ccsd.cnrs.fr/docs/00/04/04/73/PDF/Metas_panorama_CMO.pdf, 2005.
[Morin, 1985]
Morin E., Lexcellence technologique. Edition Publi-Union, 1985.
[Mothe, 1994]
Mothe J., Modle connexionniste pour la recherche dinformations Expansion dirige de
requtes et apprentissage. Thse de doctorat de luniversit Paul Sabatier, Toulouse III, 1994.
[Mothe, 2000]
Mothe J., Recherche et exploration d'informations -Dcouverte de connaissances pour l'accs
l'information. Habilitation diriger des recherches, Universit Paul Sabatier, Toulouse,
2000.
[Mothe, 2002]
Mothe J., Chrisment C., Alaux J., Visualisation globale de collections de documents sous
forme d'hyper cube - Le systme DocCube. Journes francophones d'Extraction et de Gestion
des Connaissances, EGC2002, Herms, pp. 131-142, Montpellier, 2002.
[Mothe, 2003]
Mothe J., Chrisment C., Dousset B., Alaux J., DocCube: Multi-Dimensional Visualization
and Exploration of Large Document Sets. Journal of the American Society for Information
Science and Technology, JASIST, Special topic section: web retrieval and mining, Vol. 7 N.
54, p. 650-659, 2003.
[Mothe, 2006]
Mothe J., Chrisment C., Dkaki T., Dousset B., Karouach S., Combining mining and
visualization tools to discover the geographic structure of a domain. Dans : Computers,
Environment and Urban Systems, Elsevier, Numro spcial : Geographic Information
Retrieval, Vol. Hors-srie N. 4, p. 460-484, 2006.
N
[Ndiaye, 1995]
[Neches, 1991]
[Newell, 1972]
[Nivol, 1993]
[Nonaka, 1994]
O
Ndiaye S., LinkLink -Pezet J., Systme d'information stratgique pour le management, concepts
et modles. Colloque Ile Rousse 95, Corse, 1995.
Neches R., Fikes R., Finin T., Gruber T., Patil R., Senator T., Swartout W. R.,
Enabling Technology for Knowledge Sharing. AI Magazine. pp 36-56, 1991.
Newell A., Simon H.A.,
H.A. , Human Problem Solving. Prentice Hall, 1972.
Nivol W., Le traitement de linformation brevet : de linformation documentaire
linformation stratgique. Thse de doctorat de luniversit de la Mditerrane, Aix-Marseille
II, 1993.
Nonaka I., A dynamic theory of organizational knowledge creation. Editions Organization
Science, 1994.
[Oubrich, 2003]
[Orosco, 1997]
[Oury, 1983]
P-Q
[Paoli, 2003]
[Paturel, 1996]
[Pazienza, 1997]
[Pinczou du sel, 2006]
[Pinte, 2006]
[Polanyi, 1962]
[Porter, 1980]
[Porter, 1986]
[Quinlan, 1986]
R
[Ravat, 2007]
[Razouk, 1990]
[Reinert, 1996]
[Reix, 2000]
[Revelli, 1998]
[Rijsbergen, 1979]
[Rocchio, 1971]
[Rockart, 1979]
[Romagni, 1998]
[Rostaing, 1996]
[Rouibeh, 1998]
S
[Salles, 1997]
[Salles, 1998]
[Salles, 2000]
[Salles, 2002]
Salles M., Alquier AA -M., Elments mthodologiques pour la conception de systmes. Les
systmes d'information labore, France, 1997.
Salles M., Zid T., Mthode de conception de produits de veille stratgique destins des
PME. Colloque VSST'98. Toulouse, France, 1998.
Salles M., Clermont Ph., Dousset B.,
B. Une mthode de conception de systme dIE.
Colloque IDMME2000, Canada, 2000.
Salles M., Projet MEDESIIE : Mthode MEDESIIE de dfinition du besoin en intelligence
conomique des PME, Universit Toulouse I.
[Salles, 2003]
[Salles, 2005]
[Salmon, 1997]
[Salton, 1971]
[Salton, 1989]
[Sauvagnat, 2005]
[Sdes, 1998]
[Seligmann, 1989]
[Sibson, 1973]
[Simon, 1960]
[Simon, 2000]
[Singh, 2006]
[Sokal, 1963]
[Soul-Dupuy, 1990]
[Soul-Dupuy, 2001]
[Stern, 1997]
[Sutton, 1988]
T
[Tournier, 07]
[Tuffery, 1984]
Salles M., Modlisation des situations de dcision dans une mthode d'ingnierie du besoin
en I.E. Confrence IERA, Intelligence Economique : Recherches et Applications, Nancy,
France, 2003.
Salles M., De l'analyse du besoin des PME en IE l'Intelligence Territoriale. Colloque
Europen d'Intelligence Economique, Poitiers Futuroscope, ESCEM Poitiers, p. 414-427,
Poitiers, France, 2005.
Salmon R., L'intelligence Comptitive. Economica, 1997
Salton G., A comparison between manual and automatic indexing methods. Journal of
American Documentation. p 6171, 1971.
Salton G., Automatic text processing: The transformation, Analysis and Retrieval of
information by computer. Addison Wesley Publishing Company, 1989.
Sauvagnat K., Modle flexible pour la recherche d'information dans des corpus de
documents semi-structurs. Thse de doctorat, Universit Paul Sabatier, Toulouse III, 2005.
Sdes F., Bases documentaires - hyperbases. Proposition d'un modle gnrique et
contribution la spcification d'un langage pour l'intgration de la manipulation de
linformation semi-structur. Mmoire d'habilitation diriger des recherches, universit Paul
Sabatier, Toulouse III, 1998.
Seligman P.S., Wijers G.M.,
G.M. Sol H.G.,
H.G. Analyzing the structure of I.S. methodologies, an
alternative approach. In proceedings of the Conference in information systems, The
Ntherlands, 1989.
Sibson R., SLINK: an optimally efficient algorithm for the single -link cluster method.
Computer Journal, Vol.16, p 30-34, 1973.
Simon H.A., The new science of management decision. Editions Harper & Row, 1960.
Simon A., Outils classificatoires par objets pour lextraction de connaissances dans les bases
de donnes. Thse de doctorat de l'universit Henri Poincar - Nancy 1, Nancy, 2000.
Singh M., Basu A., Mandal M., Temporal Alignment of Time Varying MRI Datasets for
High Resolution Medical Visualization. ISVC 2006, pages 222-231, 2006.
Sokal R.R., Principales of numerical taxonomy. Freeman and co., San Francisco, 1963.
SoulSoul-Dupuy C., Systmes de recherche d'information : Mcanismes d'indexation et
d'interrogation. Thse de doctorat de l'universit Paul Sabatier, Toulouse III, 1990.
SoulSoul-Dupuy C., Bases d'informations textuelles : des modles aux applications. Mmoire
d'habilitation diriger des recherches, universit Paul Sabatier, Toulouse III, 2001.
Stern Y., les quatre dimensions du document. Document numrique, Vol 1(1), Editions
Herms, 1997.
Sutton H.,
H., Competitive Intelligence. New York: The conference Board, Inc, 1988.
Tournier R., Analyse en ligne (OLAP) de documents. Thse de doctorat de luniversit Paul
Sabatier, Toulouse III, 2007.
Tuffery M., Systme documentaire, base de donnes textuelles : le projet Etoile. Thse de
doctorat de l'universit Paul Sabatier, Toulouse III, 1984.
V
[Van Dongen, 2000]
[Vronis, 2003]
[Vronis, 2004]
[Villain, 1990]
[Voorhees , 1986]
Van Dongen S., Graph Clustering by Flow Simulation. Thse de l'universit dUltrecht,
Allemagne, May 2000.
Veronis j.,
j. Cartographie lexicale pour la recherche dinformation. actes de taln 2003, pages
265-274, 2003.
Vronis j.,
j. Hyperlex : lexical cartography for information retrieval. Computer, speech and
language. volume 18/3, pages 223-252, 2004.
Villain J., Lentreprise aux aguets. Masson Edition, 1990..
Voorhees E.M., Implementing agglomerative hierarchic clustering algorithms for use in
information retrieval. Information Processing & Management, Vol. 22, p. 465-476, 1986.
W
[W3C, 1999]
[W3C, 2000]
[Wilensky, 1967]
GLOSSAIRE
Glossaire
Adit
Afdie
Agent
Agent intelligent
Analyse concurrentielle
analyse de liens
Analysediscriminante
dcisionnelle
Analyse en composantes
principales
Analyse factorielle
discriminante
Analyse relationnelle
216
Glossaire
Analyse statistique
Anticipation
Apprentissage non supervis
Apprentissage supervis
Arist
Aspirateur de site
Audit
Audit de veille
Avantages concurrentiels
Axe de surveillance
Base de connaissances
Base de donnes
Bibliomtrie
217
Glossaire
Capital intellectuel
Capteur
Cd-rom
Co-citation
Co-occurrence
Corpus
Corrlation
Co-signature
Data mining
Datawarehouse
Descripteur
Diffusion slective de
l'information
Environnement
218
Glossaire
Forum
Gestion de l'information
Gestion stratgique
Gestion stratgique de
linformation
Html
Indexation
Indicateur
Infomtrie
Information
Information blanche
Information formelle
Information grise
219
Glossaire
Information informelle
Information noire
Information stratgique
Information utile
Innovation
Intelligence artificielle
Internet
Intranet
Liste de diffusion
Lobbying
Mmoire dentreprise
Menace
Meta moteur
220
053]
donne recueillie auprs d'une source orale ou n'ayant pas t
explicitement mise en forme pour publication. [norme afnor xp x 50-053]
information diffusion restreinte et dont l'accs ou l'usage est
explicitement protg. [norme afnor xp x 50-053]
information contenant des lments susceptibles de contribuer la
dfinition, linflchissement ou la remise en cause de la stratgie de
lorganisation. [norme afnor xp x 50-053]
information directement exploitable par son destinataire. [norme afnor xp
x 50-053]
terme dsignant la fois le processus de cration par lentreprise dune offre
considre comme nouvelle et le rsultat de ce processus un nouveau
produit, un nouveau service ou un nouveau procd de fabrication.
(artificial intelligence) discipline relative au traitement par l'informatique
des connaissances et du raisonnement. [commission ministrielle de
terminologie informatique]
rseau mondial associant des ressources de tlcommunication et des
ordinateurs serveurs et clients, destin lchange de messages
lectroniques, dinformations multimdias et de fichiers. Il fonctionne en
utilisant un protocole commun qui permet lacheminement de proche en
proche de messages dcoups en paquets indpendants. Lacheminement est
fond? Sur le protocole ip (internet protocol), spcifi par linternet society
(isoc). Laccs au rseau est ouvert tout utilisateur ayant obtenu une
adresse auprs dun organisme accrdit. La gestion est dcentralise en
rseaux interconnects. [dlgation gnrale la langue franaise]
rseau de tlcommunication et de tlinformatique destin lusage
exclusif dun organisme et utilisant les mmes protocoles et techniques que
linternet. [dlgation gnrale la langue franaise]
dans les groupes de discussion fonctionnant par courrier lectronique,
systme permettant de diffuser un message, un article, une question, etc. A
un grand nombre de personnes pralablement inscrites sur une liste.
[dlgation gnrale la langue franaise]
terme anglais qui provient de lobby (groupe de pression) et qui fait appel
la pratique d'une pression exerce sur les parlementaires et par extension
aujourd'hui sur les diffrents acteurs du systme dcisionnel pouvant agir
sur l'environnement d'une organisation. Ces pressions peuvent prendre des
formes multiples (information, argumentation, conseil, appel l'opinion
publique, diffusion de livre blanc...). [norme afnor xp x 50-053]
somme des informations, des connaissances, des ides, du savoir et du
savoir-faire accumuls dans une entreprise au fil du temps, qui est recueillie
par des moyens informatiques ou lectroniques et qui est conserve dans des
bases de donnes ou sur des supports lectroniques destins cet effet.
[office de la langue franaise]
circonstance inopportune (irruption des concurrents sur le march,
volution des gots des consommateurs, nouvelle loi, etc.) A prendre en
compte dans la dfinition d'une stratgie.
un mtamoteur lance la recherche sur plusieurs moteurs et annuaires de
sites et affiche les rsultats fournis par les instruments de recherche qu'il a
utiliss. L'interrogateur formule sa recherche l'aide de mots sans savoir,
dans le cas o des moteurs et des annuaires seraient simultanment
sollicits, s'ils sont contenus dans les fichiers ou seulement dans leur
Glossaire
Mot-cle
Moteur de recherche
Notice bibliographique
Objectif stratgique
Observatoire
Opportunit
Plan de recherche
Planification stratgique
Position concurrentielle
Proprit industrielle
Prospective
Pull
Push
Renseignement
221
Glossaire
Rseaux
Robot de collecte
d'information
Robot de recherche
Scientomtrie
Scurit du systme de
traitement de donnes
Segment stratgique
Serveur
Signal dalerte
Signal faible
Signal fort
Sql
Systeme dinformation
Systeme de veille
Systme d'information
stratgique
222
Glossaire
Ttralogie
Traitement du langage
naturel
Veille
Veille
Veille active
Veille active
Veille commerciale
Veille concurrentielle
Veille juridicorglementaire
Veille passive
Veille socitale
Veille technologique
Veille territoriale
223
Glossaire
Web invisible
Xml
224
traitement des signaux destins aux donneurs dordre pour lui fournir au
moment opportun, linformation judicieuse. [cdies]
partie du web correspondant l'ensemble des documents web qui ne sont
pas indexs par les outils de recherche traditionnels. [office de la langue
franaise 2003]
(ou extensible markup language) est le langage universel pour les bases de
donnes utilises sur le web. Il dfinit les proprits des donnes tandis que
le protocole html explique comment les afficher. [microsoft laboratoire
des technologies]