2. Plan
1. Contexte général
2. Réseaux de neurones naturels
3. Réseaux de Neurones Artificiels (RNAs)
4. Architectures des RNAs
5. Apprentissage des RNAs
6. Quelques modèles de RNAs
7. RNAs et réduction de dimensions non linéaire
2
3. Contexte général
Pourquoi les réseaux de neurones?
Caractéristiques de l’architecture du cerveau humain:
une architecture massivement parallèle
un mode de calcul et une mémoire distribués
une capacité d'apprentissage
une capacité de généralisation
une capacité d'adaptation
une résistance aux pannes
une faible consommation énergétique
3
4. Contexte général
Applications
Applications industrielles
Reconnaissance de codes postaux (AT&T, la Poste)
Contrôle de paramètres de processus de production
industrielle de pâte à papier (Siemens)
Prévision de consommation d’eau (Générale des eaux)
Logiciels d’aide à la décision
Prévisions météorologiques
4
5. Réseaux de neurones naturels
Cerveau, neurones et intelligence
Le cerveau humain est
constitué d’environ 1011
neurones.
En moyenne, chaque
neurone a de l’ordre de 104
connexions.
5
6. Réseaux de neurones naturels
Neurones biologiques
Les neurones forment des réseaux de communication
complexes, chaque neurone établissant de très nombreuses
connexions avec d'autres.
vibrisses du rat : neurones sensitifs => thalamus
(White et Peters ) neurones thalamiques => cortex
6
8. Première schématisation
du neurone (Dieters, 1865)
Enregistrement d’un neurone vivant :
micro-électrode de verre
Neuropuce (Infineon) : 16 384 capteurs au mm2
pour enregistrer tout signal électrique émis par
un neurone vivant, ici celui d’une “limace de boue”
[Lymnaea stagnalis]
Réseaux de neurones naturels
Neurones biologiques
8
9. Réseaux de neurones naturels
Neurones biologiques
Bien qu’il existe une
grande diversité de
neurones, ils fonctionnent
tous sur le même schéma.
Ils se décomposent en trois
régions principales :
Le corps cellulaire
Les dendrites
L ’axone
Dendrites : Signaux d’entrée
Axone : Signal de sortie
9
10. soma
axone
dendrites
connexion
synaptique
autre
dendrite
Réseaux de neurones naturels
Neurones biologiques
Schématiquement, un neurone biologique est constitué
d’un arbre dendritique, d’un soma et d’un axone.
Un neurone peut émettre des impulsions sur son axone.
Elles se propagent vers les dendrites des neurones
auxquels il est connecté, qui les transmettent au corps
cellulaire (ou soma), via des connexions pondérées par des
synapses.
10
11. Réseaux de neurones naturels
Fondements biologiques
Fonctionnement des neurones
L’influx nerveux est assimilable à un signal électrique se
propageant comme ceci :
Les dendrites reçoivent l’influx nerveux d’autres neurones.
Le neurone évalue l’ensemble de la stimulation reçue.
Si elle est suffisante, il est excité : il transmet un signal
(0/1) le long de l’axone.
L’excitation est propagée jusqu’aux autres neurones qui y
sont connectés via les synapses.
11
12. Réseaux de Neurones Artificiels
Domaines d’application
Utilisation des réseaux de neurones:
Classification
Catégorisation
Approximation de fonctions
Prédiction - prévision
Optimisation
12
13. Réseaux de Neurones Artificiels
Un domaine interdisciplinaire
STATISTIQUES,
analyse de données
OPTIMISATION
AUTOMATIQUE,
commande,
robotique
INTELLIGENCE
ARTIFICIELLE
Apprentissage
Artificiel
VISION
13
14. 1940
1950
1960
1970
1980
1990
2000
20...
Neurone formel de McCulloch & Pitts
Adaline de Widrow
Perceptron de Rosenblatt
Réseau de Hopfield
Réseaux RBF Moody & Darken
Cartes auto-organisatrices de Kohonen
Réseaux MLP Rumelhart et al.
Machines à Vecteurs de Support Vapnik
Loi de renforcement de Hebb } notions fondatrices
Réseaux de Neurones Artificiels
Historique
14
15. Réseaux de Neurones Artificiels
Neurone biologique vs neurone artificiel
RNA: système informatique dont la conception est
schématiquement inspiré des neurones biologiques.
15
16. y = 1 si Σwixi>θ
= 0 sinon
x1
xi
xn
Σ
w1
wi
wn
sommation, seuillage
θ
Réseaux de Neurones Artificiels
Neurones artificiels
Le premier modèle mathématique de neurone est le
neurone formel de McCulloch et Pitts (1943).
Loi du “tout ou rien” : le neurone émet ou non une
impulsion sur son axone, selon que la somme pondérée de
ses entrées dendritiques dépasse ou non son seuil θ.
16
19. Réseaux de Neurones Artificiels
Fonctions d’activation (ou fonctions de transfert )
(a) : seuil (fonction de Heaviside)
(b) : linéaire par morceaux
(c) : sigmoïde g(x) = (1 + e – βx) - 1
(d) : gaussienne
19
20. Réseaux de Neurones Artificiels
Fonctions d’activation
La fonction linéaire et la fonction à seuil
Output (sortie)
Activation de la cellule
Input (entrées)
Somme pondérée des entrées
minimum
maximum
L'activation augmente en même temps
que la somme pondérée des entrées. Elle
varie entre un minimum et un maximum
0
fonction linéaire du type
y = x
Output (sortie)
Activation de la cellule
Input (entrées)
Somme pondérée des entrées
minimum
maximum
0 seuil
L'activation passe brutalement de son
minimum à son maximum, une fois atteint
le seuil critique en entrée.
20
21. Réseaux de Neurones Artificiels
Fonctions d’activation
La fonction sigmoïde
i
t1
a
1
1 e
Xi Si
T
avec Xi Wij aj
t
21
23. Réseaux de Neurones Artificiels
Fonctionnement
Un réseau de neurones artificiels est un ensemble de
neurones formels, connectés entre eux selon une certaine
architecture / topologie.
Les activités se propagent de neurone en neurone selon
une certaine dynamique.
Les poids des connexions sont modifiés / adaptés par une
règle d’apprentissage, à partir d’exemples.
23
24. φ
RNA
X Y
vecteur d’entrée vecteur de sortie
Réseaux de Neurones Artificiels
Fonctionnement
On peut aussi voir un réseau de neurones artificiels
comme un outil de modélisation de type “ boîte noire ” :
Le RNA réalise une association d’un espace d’entrée X
vers un espace de sortie Y. La “fonction” φ est définie par
les poids du réseau. Ceux-ci sont ajustés au problème par
une règle d’apprentissage, à partir d’une base d’exemples
(xk,tk) [apprentissage supervisé, si tk est connu ]
24
25. Si Y est le vecteur des sorties et X le vecteur des entrées:
Y = FW(X)
FW : fonction d’activation du réseau
W : vecteur des « poids » des liaisons synaptiques
Apprentissage = détermination des poids permettant
d’obtenir une sortie proche d’une sortie Y0 voulue à partir
d’une entrée X.
Réseaux de Neurones Artificiels
Fonctionnement
25
26. Réseaux de Neurones Artificiels
Connexions synaptiques
Les poids synaptiques (artificiels) sont des nombres réels.
On associe habituellement les poids positifs à des
connexions excitatrices et les poids négatifs à des
connexions inhibitrices.
mais...
Les règles d’apprentissage des modèles connexionnistes
classiques peuvent modifier le signe d’un poids
synaptique donné, ce qui n’est guère réaliste, sur le plan
biologique.
26
28. Architecture des RNAs
Réseaux bouclés
Les neurones ne peuvent pas être ordonnés de sorte qu’il
n’y ai pas de connexion vers l’arrière
Exemple -> réseau entièrement connecté :
28
29. Architecture des RNAs
Réseaux « non bouclés » ou réseaux à couches
Les neurones peuvent être ordonnés de sorte qu’il n’y ai
pas de connexion vers l’arrière
Exemple -> réseau à une couche intermédiaire :
29
31. Architecture des RNAs
Structure d’interconnexion
Propagation avant (feedforward)
couche d’entrée
couche cachée
couche de sortie
réseau multicouche
réseau à connections locales
propagation des activations : de l’entrée vers la sortie
31
32. Architecture des RNAs
Structure d’interconnexion
Modèle récurrent (feedback network)
Propagation des activations :
synchrone : toutes les unités sont mises à jour simultanément
asynchrone : les unités sont mises à jours séquentiellement
32
34. Apprentissage des RNAs
Définition
L’apprentissage est une phase du développement d’un
réseau de neurones durant laquelle le comportement du
réseau est modifié jusqu’à l’obtention du comportement
désiré.
On distingue deux grandes classes d’algorithmes
d’apprentissage :
L’apprentissage supervisé
L’apprentissage non supervisé
Hybride
34
37. Quelques modèles de RNAs
Le perceptron
Le perceptron de Rosenblatt (1957) est le premier RNA
opérationnel.
C’est un réseau à propagation avant avec seulement deux
couches (entrée et sortie) entièrement interconnectées.
Il est composé de neurones à seuil.
L ’apprentissage est supervisé et les poids sont modifiés
selon la règle delta.
37
38. Quelques modèles de RNAs
Le perceptron
i
Wij
Entrée Sortie
ai {-1,+1 }
j=n
j=1
…
aj {1,0 }
Rétine
Traits significatifs Classification
38
39. Quelques modèles de RNAs
Limite du perceptron
Le perceptron est incapable de distinguer les patterns non
séparables linéairement [Minsky 69]
input P 0 1 0 1
input Q 1 0 0 1
ET 0 0 0 1
XOR 1 1 0 0 0
0
0
1
0
1 0
1
P
Q
fonction ET logique
patterns séparables linéairement
P
Q
fonction XOR (ou exclusif)
patterns non séparables linéairement
0
1
0
1
1
0
1
0
39
40. X Y
entrées sorties
désirées
sorties
obtenues
tm
k
t1
k
ym
y1
xn
x1
Généralisation, calcul du réseau :
• présenter les xi aux neurones d’entrée
• calculer les activités, de couche en couche, jusqu’aux sorties yj
Apprentissage, par rétro-propagation [ backprop ] :
xn
k
x1
k
y1
k
ym
k
erreur
neurone sigmoïde Nj : yj = σ ( Σwijxi - θj )
• initialiser les poids wij aléatoirement, sur chaque couche
• présenter les xi
k aux neurones d’entrée
• calculer les activités, de couche en couche, jusqu’aux sorties yj
k
• mesurer l’erreur entre sorties calculées yj
k et sorties désirées tj
k
• en sens inverse, calculer les gradients et modifier les poids wij
A
k
Quelques modèles de RNAs
Perceptron Multi-Couches (PMC/MLP)
40
41. Quelques modèles de RNAs
Perceptron Multi-Couches (PMC/MLP)
Apprentissage-Validation-Test
Apprentissage d’un PMC:
phase de calibrage durant laquelle les poids sont remis à jour
jusqu’à ce qu’ils permettent au PMC d’avoir des meilleurs
résultats.
Sur-apprentissage d’un PMC:
éviter ce cas en cherchant le minimum d’erreur de
généralisation sur un ensemble de validation , et en arrêtant
l’apprentissage avant la convergence du PMC.
Dimensionner un PMC:
déterminer le nombre de neurones dans chaque couche.
41
42. Quelques modèles de RNAs
Perceptron Multi-Couches (PMC/MLP)
Apprentissage-Validation-Test
42
43. Quelques modèles de RNAs
Apprentissage-Validation-Test
Alors que les tests concernent la vérification des
performances d'un réseau de neurones hors échantillon et
sa capacité de généralisation, la validation est parfois
utilisée lors de l'apprentissage (ex: cas du early stopping).
Une fois le réseau calculé, il faut toujours procéder à des
tests afin de vérifier que notre réseau réagit correctement.
43
44. RNAs et réduction de dimensions non linéaire
ACP vs ACP non-linéaire
ACP ACP non-linéaire
44
45. RNAs et réduction de dimensions non linéaire
Architecture auto-associative du RNA
45
46. Références
C. M. Bishop, Neural networks for pattern recognition,
Oxford university, 1995.
Fabien Moutarde, Apprentissage artificiel («Machine-
Learning»), Centre de Robotique (CAOR), MINES
ParisTech (Ecole des Mines de Paris), Mai 2011.
Hélène Paugam-Moisy, Réseaux de neurones temporels :
dynamique et apprentissage, Université Lyon 2, Institut
des Sciences Cognitives, Novembre 2005.
Manuel Clergue, Réseaux de Neurones
Artificiels, université Nice Sophia Antipolis.
46