Professional Documents
Culture Documents
Liva Ralaivola
liva@lif.univ-mrs.fr
Laboratoire dInformatique Fondamentale de Marseille UMR 6166 CNRS Universit de Provence http://www.lif.univ-mrs.fr
Contexte
Classication supervise (pattern recognition) S = {(x1 , y1 ), . . . , (x , y )} ensemble dapprentissage X = Rd , Y = {0, 1}m 0 0 1 xi de classe c yi = 0 1 en ceme position . . . 0 Utilisation temps dapprentissage long autoris et/ou apprentissage en ligne requis nombre de donnes assez grand interprtabilit du modle non ncessaire possible bruit sur les donnes Rseaux de neurones p.2
Plan
Historique Perceptron linaire Perceptron multi-couches
Historique (1/2)
Motivations biologiques systmes apprenants composs de rseaux connects de plusieurs units capacits de mmoire/adaptabilit de ces systmes
Historique (2/2)
Caractristiques rseau de neurones biologique nombre de neurones dans le cerveau : 1011 neurones chacun tant connect 104 autres neurones temps de transmission de linformation entre deux neurones du cerveau : 103 mais temps dactivation du rseau trs rapide : 101 secondes pour la reconnaissance dun proche connexions en boucles Caractristiques rseau de neurones articiels nombre de neurones : de lordre de quelques centaines au maximum avec quelques dizaines de connexions temps de transmission de linformation entre deux neurones : 1010 secondes difcult dapprentissage avec des connexions en boucle
x=
x1 x2
w0 w1 w2
d i=1 wi xi
+ w0 )
Extensions perceptron multi-couches kernel adatron [Friess et al., 1998] voted perceptron [Freund and Schapire, 1999]
(x) =
+1
1 1+exp(x)
Perceptron multi-couches
biais : activation = 1
x=
x1 x2
y1 y2
=y
Ep (w)
avec
1 Ep (w) = op yp 2
1 = 2
(opq ypq )2
q =1
t <
Exercices Montrer que pour assez petit la descente de gradient permet de diminuer chaque tape lerreur E De quelle forme peut tre t ?
Rtropropagation du gradient (j si, ai wji wkj sk , ak neurone cach, k neurone de sorj i k tie), activation logistique Ep Ep sj Ep drivation en chane : w = = sj wji sj ai = j ai ji Montrer que pour k et tous les neurones de la couche de sortie
Ep k = = (ypk ak )ak (1 ak ) sk
k wkj
0<1
acclre la convergence de lalgorithme na pas deffet sur la gnralisation Couches caches rtropropagation du gradient marche pour nimporte quel nombre de couches caches couche cache : changement de reprsentation (cf exercices)
Ep +
i,j
2 , wij
>0
pnalise les rseaux avec des poids importants exercice : r-crire lquation de mise jour de wij correspondante Entropy croise (cross-entropy), cas binaire yp {0, 1}, 1 neurone de sortie
E (w ) =
p=1
op = f (xp )
Conclusion
Perceptron linaire algorithmes dapprentissage limitation du perceptron linaire Perceptron multi-couches neurone formel avec activation sigmoidale calcul de gradient par rtropropagation qualit de lapprentissage malgr les minima locaux gradient stochastique choix de larchitecture rgularisation
Rfrences
[Bartlett, 1997] Bartlett, P. L. (1997). For valid generalization the size of the weights is more important than the size of the network. In Adv. in Neural Information Processing Systems, volume 9, page 134. [Cybenko, 1988] Cybenko, G. (1988). Continuous valued neural networks with two hidden layers are sufcient. Technical report, Department of Computer Science, Tufts University, Medford, MA. [Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 2 :303314. [Freund and Schapire, 1999] Freund, Y. and Schapire, R. E. (1999). Large Margin Classication Using the Perceptron Algorithm. Machine Learning, 37(3) :277296. [Friess et al., 1998] Friess, T., Cristianini, N., and Campbell, N. (1998). The KernelAdatron Algorithm : a Fast and Simple Learning Procedure for Support Vector Machines. In Shavlik, J., editor, Machine Learning : Proc. of the 15th Int. Conf. Morgan Kaufmann Publishers.