Professional Documents
Culture Documents
2008 2009
Rappel de probabilits Dnitions Le thorme de Bayes Rseaux baysiens Construire des rseaux baysiens Utilisations avances Conclusion
Probabilit
La probabilit P (a) dun vnement a est un nombre dans lintervalle [0, 1] P (a) = 1 si lvnement a est certain, P (a) = 0 sil est certain que a ne se produit pas Si a et b sont des vnements mutuellement exclusifs et couvrent tous les vnements possibles, on a P (a) + P (b) = 1 Si la probabilit dcrit les rsultats dun test pouvant tre rpt un grand nombre de fois, linterprtation/la dtermination de ces nombres est claire Dans des cas ne pouvant tre rpts, linterprtation/la dtermination de ces nombres est plus subjective.
Probabilit conditionnelle
Remarque : dans un certain sens, toute probabilit est toujours un peu conditionnelle
= 6) = 1 P (D e 6 Oui mais... condition que le d ne soit pas pip ! Et que. . . et que. . . et que. . .
1% des femmes de 40 ans participant un contrle de routine ont un cancer du sein. Lors dune mammographie
80% des femmes ayant un cancer du sein obtiennent un rsultat positif 9.6% des femmes nayant pas de cancer du sein obtiennent aussi un rsultat positif (faux positif)
Une femme de 40 ans a obtenu une mammographie positive Quelle est la probabilit quelle ait un cancer du sein ?
La majorit des mdecins rpond que la probabilit est entre 70 et 80% Seuls 15% des mdecins fournissent la rponse correcte : 7.8% Le nombre de rponses correctes monte 46% avec cette prsentation du problme :
100 femmes de 40 ans sur 10000 participant un contrle de routine ont un cancer du sein. Lors dune mammographie, 80 des 100 femmes ayant un cancer du sein obtiennent un rsultat positif. . . . . . et 950 des 9900 femmes sans cancer obtiennent aussi un rsultat positif.
Rseaux baysiens Rappel de probabilits Le thorme de Bayes
Le thorme de Bayes 1
Le raisonnement ci-dessus peut tre systmatis. Il est connu sous le nom de Thorme de Bayes P (b|a) = P (a|b)P (b) P (a)
Le thorme de Bayes 2
En utilisant lgalit P (a) = P (a|b) P (b) + P (a|b) (1 P (b)), on peut aussi crire P (b|a) = P (a|b)P (b) P (a|b) P (b) + P (a|b) (1 P (b))
Interprtation intuitive
Intuitivement : les probabilits conditionnelles poussent les probabilits a priori dans le sens indiqu
Les applets de http://yudkowsky.net/bayes/bayes.html permettent de visualiser ce phnomne
Indpendance conditionnelle
10
Indpendance conditionnelle Les vnements A et C sont dits indpendants tant donn lvnement B si la condition suivante est valable : P (A|B ) = P (A|B , C ) En particulier, A et C sont dits indpendants si P (A) = P (A|C ) La dnition a lair asymtrique. . . cependant, laide du thorme de Bayes, on peut montrer quelle est symtrique (ie P (A|B ) = P (A|B , C ) P (C |B ) = P (C |B , A)).
Rappel de probabilits Rseaux baysiens Dnition Indpendance conditionnelle Proprits Construire des rseaux baysiens Utilisations avances Conclusion
Graphes dirigs
12
Un graphe dirig est constitu dun ensembles de noeuds N et dun ensemble darcs A N N c d b a Un graphe dirig est dit acyclique sil nexiste aucun chemin (dirig) du type N1 N2 . . . N1
On dit parfois aussi DAG, pour directed acyclic graph
Contre-exemple
Un graphe dirig cyclique
13
Rseaux baysiens
14
Rseau baysien Un rseau baysien est compos dun ensemble de variables et dun ensemble darcs entre ces variables, tels que
Les variables et les arcs forment un graphe dirig acyclique Chaque variable possde un ensemble ni dtats mutuellement exclusifs chaque variable A ayant pour parents B1 , . . . , Bn est attache une table de probabilit P (A|B1 , . . . , Bn )
Exemple
15
A A
N 0.1 0.9
N 0.5 0.5
N N
0.5 0.5
Herbe mouille A P P 0.99 0.9 0.01 0.1 A P P 0.9 0.0 0.1 1.0
P P
N 0.8 0.2
N 0.2 0.8
H H
Remarques
16
Propagation de croyances
17
Les tables de probabilit donnes permettent de descendre dans le rseau : si on observe les causes, on peut dduire la probabilit des effets En utilisant le thorme de Bayes, on pourra aussi remonter : calculer la probabilit des causes partir de lobservation des effets On peut donc utiliser les rseaux baysiens pour adapter nos degrs de croyances en fonction des observations
On peut propager aussi bien vers le haut que vers le bas Par construction, les donnes seront cohrentes !
18
w1 w2 C ... wn
n causes indpendantes (ou presque !) 1 consquence (la classication) Exemple : ltre spam cf. par exemple http://divmod.org/trac/wiki/DivmodReverend
19
Filtres pourriel
Sachant quun pourriel a une probabilit donne de contenir certains mots, comment dduire la probabilit quun mail donn soit un pourriel ?
Traitement du langage
Dsambiguser le sens des mots en fonction du contexte
20
Commerce en ligne
Cibler des offres ayant de fortes chances dintresser un client donn. . .
Robotique
Construction de la reprsentation du monde la plus probable en fonction des observations
...
Dpendance conditionnelle
Considrons le rseau suivant : Pluie P P 0.8 0.2 Herbe mouille H H P 0.99 0.01
21
P 0.1 0.9
La table de droite nous dit que le fait dobserver quil pleut inuence sur la probabilit que lherbe soit mouille Bayes nous dit que linverse est vrai aussi :
P (P ) = 0.8 (H |P )P (P ) P (P |H ) = P (H |P )P (P P )+P (H |P )(1P (P )) = 0.975
0.990.8 0.990.8+0.10.2
=
Rseaux baysiens Rseaux baysiens Indpendance conditionnelle
Dpendance conditionnelle
Le cas linaire
22
De manire plus gnrale, dans une portion de graphe linaire, tous les noeuds sont dpendants
A B C
Dpendance conditionnelle
Le cas divergent
23
Dpendance conditionnelle
Le cas convergent
24
Dpendance conditionnelle
Le cas convergent avec descendant
25
Dans le cas convergent, si un descendant de lenfant commun est observ, cela suft rendre les parents dpendants !
A C B D
Pour mettre en vidence ce phnomne, on peut marquer spcialement les noeuds dont un descendant a t observ
A C B
Rseaux baysiens Rseaux baysiens Indpendance conditionnelle
26
Dpendance conditionnelle Deux variables A et B dun rseau baysien sont dites conditionnellement dpendantes (ou d -lies) sil existe un chemin (non-orient) de A B tel que, pour tout noeud C de ce chemin
Si C est linaire dans ce chemin, C na pas t observ Si C est divergent dans ce chemin, C na pas t observ Si C est convergent dans ce chemin, ou bien C ou bien un descendant de C a t observ
Si A et B ne sont pas conditionnellement dpendantes, elles sont dites conditionnellement indpendantes (ou d -spares)
Rseaux baysiens Rseaux baysiens Indpendance conditionnelle
27
Commencer par entourer en rouge tout les anctres dun noeud observ A et B sont d -lis si on peut les relier en combinant les lments suivants (avec une fentre glissante de trois noeuds) :
ou ou ou
Couverture de Markov
28
Couverture de Markov La couverture de Markov dune variable A est constitue des parents de A des enfants de A des variables partageant un enfant avec A Rsultat Si toutes les variables de la couverture de Markov de A sont observes, alors A est d -spare du reste du rseau
29
Si on a un ensemble de variables U = {A1 , . . . , An }, on peut sintresser toutes les combinaisons P (Ai |Aj1 , . . . , Ajk )
Autrement dit : comment adapter nos croyances en fonction de linformation disponible ?
On peut montrer quil suft de connatre la table complte P (A1 , . . . , An ) pour calculer toutes ces probabilits Oui mais. . . la taille de cette table augmente exponentiellement avec le nombre de variables (et de leurs valeurs)
Lourdeur des calculs Quantit de donnes ingrable !
30
Indpendance conditionnelle
31
Tout lintrt de la d -sparation tudie ci-dessus repose dans le rsultat suivant : Rseau baysien et indpendance Les variables A et C sont d -spares tant donnes les observations O P (A|C , O ) = P (A|O ) En dautres termes : deux variables sont d -spares si et seulement si elles sont conditionnellement indpendantes au sens de la thorie des probabilits.
Rappel de probabilits Rseaux baysiens Construire des rseaux baysiens Causalit et sens des ches Temporalit et d -sparation Variables intermdiaires Utilisations avances Conclusion
Le problme de la modlisation
Les rseaux baysiens fournissent un langage puissant pour modliser des situations prsentant un aspect incertain Cependant, mme pour des rseaux simples, ladaptation des probabilits en fonction des observations reprsente un calcul fastidieux Nous ne dtaillerons pas dans ce cours la manire deffectuer ces calculs
Nous nous contenterons dutiliser un logiciel qui les effectue pour nous
33
Il reste cependant une question centrale : comment construire un rseau reprsentant une situation donne ?
Rseaux baysiens Construire des rseaux baysiens
Modlisation et d -sparation
34
Si on cherche modliser une situation par un rseau baysien, de nombreux rseaux peuvent sembler faire laffaire Pour choisir le plus adapt, on suivra avec prot les deux rgles suivantes :
1
Les ches du rseau reprsentent la causalit directe et sont orientes de la cause leffet Les proprits de d -sparation du rseau doivent correspondre aux proprits dindpendance conditionnelle du domaine modlis
Rseaux baysiens Construire des rseaux baysiens Causalit et sens des ches
Situation
35
Je me rveille ce matin avec un mal de gorge Cela pourrait rsulter dun dbut de refroidissement ou dune angine Un refroidissement peut causer de la vre et des douleurs dans la gorge Une angine peut causer ces deux symptmes, et en plus des points jauntres dans la gorge
Rseaux baysiens Construire des rseaux baysiens Causalit et sens des ches
Le rseau
Cette modlisation ne pose pas de difcult majeure : il suft de mettre les ches dans le bon sens... Refr. Ang.
36
Fivre
MalG
Points
noter : dans ce rseau, le fait de savoir que lon a une angine spare le symptme points des autres symptmes
Cette proprit est vrier auprs dun spcialiste
Rseaux baysiens Construire des rseaux baysiens Causalit et sens des ches
Causalit
37
Dans lexemple ci-dessus, les liens de causalit sont assez vidents. . . . . . mais ce nest pas forcment toujours le cas !
Il est parfois trs difcile de distinguer une corrlation dune causalit !
Cause commune
38
Si A et B sont corrls mais aucun de cause lautre, il se peut quon ait oubli une variable : la cause commune de A et B Si on trouve un candidat C pour la cause commune, on peut vrier que A et B deviennent indpendant tant donn C : A C B
39
Une vache malade peut produire du lait infect On dispose dun test permettant de dtecter cette infection dans le lait
Le test prsente un certain taux de faux positifs et de faux ngatifs
Un temps discret
Si le fermier effectue un test chaque jour, on peut tenir compte de la temporalit dans le rseau : Inf1 Inf2 Inf3 Inf4 Inf5
40
Test1
Test2
Test3
Test4
Test5
Un tel rseau est dit markovien : la connaissance de ltat courant dtermine entirement lavenir
Testi est d -spar du reste du rseau lorsque Infi est observ
Un peu de mmoire. . .
41
Inf1
Inf2
Inf3
Inf4
Inf5
Test1
Test2
Test3
Test4
Test5
42
Inf1
Inf2
Inf3
Inf4
Inf5
Test1
Test2
Test3
Test4
Test5
Le problme
Six semaines aprs linsmination dune vache, on peut faire deux tests de grossesse : Un test sanguin et un test urinaire TS Gr TU Dans ce rseau, TS et TU sont spars tant donn G
On pose la question un expert : Supposons que lon sache que la vache est enceinte ; si on obtient un test sanguin ngatif, cela va-t-il inuencer nos croyances sur le rsultat dun test urinaire ? Il se trouve que la rponse est oui. . . ces variables ne devraient pas tre spares !
43
44
L encore, la connaissance de lexpert peut nous aider : les deux tests servent en fait dtecter des changements hormonaux On va donc introduire une variable supplmentaire, ou variable intermdiaire Ho TS Gr Ho TU
distribu sous licence creative common | dtails sur www.matthieuamiguet.ch
Autres possibilits
45
Quelques exemples de situations o une variable C peut rsoudre des corrlations non causales entre A et B : D A C C C D B
Rappel de probabilits Rseaux baysiens Construire des rseaux baysiens Utilisations avances Apprentissage et adaptation Graphes de dcision Conclusion
Problmatique
47
Dans certains cas, on dispose dj dune base de donnes permettant de dduire des probabilits
On peut alors chercher un rseau dont la structure rete au mieux la situation observe
Apprentissage
48
Le problme ci-dessus est donc un problme dapprentissage On distingue habituellement trois types dapprentissage dans les rseaux baysiens
Apprentissage par lots Adaptation Tuning
Tous ces algorithmes font encore lobjet de recherches actives et aucun ne peut tre considr comme standard
Nous ne verrons donc pas ces algorithmes en dtail !
49
On dispose dune grande base de donnes et on dsire construire un rseau baysien qui reprsente ces donnes au mieux
On connat dj les noeuds du graphe, mais on veut trouver les arcs (et en dduire les tables). . .
En principe, la thorie des probabilits nous donne facilement la rponse En pratique, les algorithmes directs sont largement trop lourds
Il sufrait de parcourir tous les graphes possibles et dtudier les consquences. . . mais il y en a beaucoup trop !
Rseaux baysiens Utilisations avances Apprentissage et adaptation
50
noter que ceci ressemble furieusement un problme de recherche dans un espace dtats ! (A*, . . . )
Adaptation
51
Dans dautres cas, on peut disposer dune structure de rseau connue, mais ne pas tre sr des valeurs des tables de probabilit
Souvent, on dispose plutt dune plage de valeurs possibles Par exemple dans le cas o un produit doit pouvoir sadapter diffrents contextes Cette incertitude est qualie dincertitude du second ordre
Un solution est de reprsenter explicitement le contexte par un nouveau noeud et dadapter au fur et mesure notre croyance sur ce noeud
Adaptation exemple
52
B A
B A Cas 1
B A Cas 2
Situation de dpart
Tuning
53
Le problme est alors de trouver les valeurs des paramtres qui collent le mieux aux valeurs connues On utilise des techniques de calcul diffrentiel pour se dplacer dans lespace des paramtres de manire minimiser la distance entre les probabilits connues et les probabilits calcules. . .
Graphes de dcision
Jusqu maintenant, nous avons considr des rseaux permettant de calculer les probabilits de diffrents vnements La question de savoir comment utiliser cette information pour prendre des dcisions restait une question meta :
La rexion sur les actions est une rexion sur le rseau, pas dans le rseau
54
noter quon peut distinguer (en tout cas) deux types de prise de dcision :
Une dcision de test : quel est le prochain test effectuer pour accrotre utilement ma connaissance ? Une dcision daction : comment vais-je agir dans le monde pour avoir une bonne probabilit dobtenir leffet recherch ?
Action et observation
Notons quon peut distinguer deux types dactions :
Les actions internes, qui modient ltat de certaines variables du rseau les actions externes, dont limpact nest pas modlis dans le rseau
55
Attention ! Il y a une diffrence capitale entre observation et action interne ! Une observation propage des nouvelles probabilits en aval et en amont du noeud observ Une action interne ne peut modier que des noeuds en aval du noeud affect.
Rseaux baysiens Utilisations avances Graphes de dcision
Action et observation
Un exemple
56
Somnolence
Grippe
Fivre
On sait que lobservation de Fivre modie les probabilits de Grippe et de Somnolence La prise dune aspirine diminuera directement la vre et aura donc une inuence sur la somnolence, mais pas sur la grippe Grippe Fivre Somnolence
Aspirine
Utilit
57
Pour quantier leffet des actions effectues dans un rseau baysien, on peut introduire des noeuds dutilit
Noeuds en forme de losange Les tats sont des valeurs numriques reprsentant lutilit de cet tat
Utilit attendue
Avec un seul noeud de dcision
58
Pour ramener la prise de dcision lintrieur du modle, on peut introduire la notion dutilit attendue (expected utility) dune dcision : Utilit attendue Soient X1 , . . . , Xn les utilits dun rseau baysien, D un noeud de dcision et O lensemble des observations effectues. Lutilit attendue de D est EU (D |e) = U1 (X1 )P (X1 |D , e) + . . . + Un (Xn )P (Xn |D , e)
X1 Xn
Arbres de dcision
59
Si on a plusieurs dcisions successives prendre, une solution est de les reprsenter sous forme darbre On peut alors propager les utilits attendues des feuilles vers la racine. . . . . . dans un algorithme qui ressemble beaucoup un Minimax probabiliste (mais o on maximise chaque tage) !
Rappel de probabilits Rseaux baysiens Construire des rseaux baysiens Utilisations avances Conclusion
Conclusion 1
61
Conclusion 2
62
Sources
63
Finn V. Jensen, Bayesian Networks and Decision Graphs, Springer, 2001 Judea Pearl, Causality / Models, Reasoning and Inference, Cambridge University Press, 2000 http: //www.cs.ubc.ca/~murphyk/Bayes/bnintro.html http://yudkowsky.net/bayes/bayes.html