Apprentissage du quantron
Un problème d’optimisation non différentiable
                       Simon de Montigny
         ...
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.




            ...
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.
                ...
Introduction

  Un réseau de neurones artificiels est un
  modèle simplifié du fonctionnement du
  cerveau.
                ...
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression,...
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression,...
Introduction

  Les réseaux de neurones sont surtout utilisés
  comme outil statistique pour effectuer de la
  régression,...
Introduction

              Rétro-propagation de l'erreur




                                                        Calc...
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.




                      ...
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.
  On minimise une fonction...
Introduction

  Les algorithmes d’apprentissages sont
  fondés sur des méthodes d’optimisation.
  On minimise une fonction...
Exemple : le perceptron

  Modèle de neurone :
  f (x1 , x2 ) = w1 x1 + w2 x2 + w3




                                   ...
Exemple : le perceptron

  Modèle de neurone :
  f (x1 , x2 ) = w1 x1 + w2 x2 + w3

           x1
                        ...
Exemple : le perceptron

  Tâche : reproduire la fonction
     (k) (k)
    x1 , x2    , d(k)
                        k=1,....
Exemple : le perceptron

  Tâche : reproduire la fonction
      (k) (k)
     x1 , x2    , d(k)
                           ...
Exemple : le perceptron

  Tâche : reproduire la fonction
      (k) (k)
     x1 , x2      , d(k)
                         ...
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
...
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
...
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
...
Exemple : le perceptron

  Puisque f est linéaire, la fonction d’erreur est
  convexe et l’apprentissage converge vers un
...
Que faire?

  Limitations des réseaux de perceptrons :




                                    Apprentissage du quantron. ...
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du rés...
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du rés...
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du rés...
Que faire?

  Limitations des réseaux de perceptrons :
    Il n’y a pas de règle magique pour choisir
    la taille du rés...
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmette...
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmette...
Le quantron

 Le quantron est un modèle analytique,
 biologiquement réaliste qui intègre la diffusion
 des neurotransmette...
Le quantron

 Une entrée du quantron représente le délai
 entre les arrivées des vagues de neuro-
 transmetteurs émises pa...
Le quantron

 Une entrée du quantron représente le délai
 entre les arrivées des vagues de neuro-
 transmetteurs émises pa...
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

               S(t) =      ...
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

               S(t) =      ...
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

                S(t) =     ...
Le quantron

 L’opération effectuée par le quantron est une
 sommation des potentiels reçus :

                S(t) =     ...
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude....
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude....
Le quantron

 Les paramètres du quantron influencent le
 temps de début et de fin des potentiels, ainsi
 que leur amplitude....
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.




           ...
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.
  Trouver une f...
Objectifs généraux de la recherche

  Développer un algorithme d’apprentissage
  efficace pour le quantron.
  Trouver une f...
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                  ...
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                  ...
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                  ...
Problème préliminaire

  Le modèle du quantron est une fonction non
  différentiable de ses paramètres.
                  ...
Problème préliminaire

  Nous allons développer :




                             Apprentissage du quantron. April 3, 200...
Problème préliminaire

  Nous allons développer :
    une approximation différentiable du
    maximum global de S(t)




 ...
Problème préliminaire

  Nous allons développer :
    une approximation différentiable du
    maximum global de S(t)
    u...
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                    ...
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                    ...
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                    ...
Approximation de max S(t)

  Approximation différentiable de max S(t) :
                            T
                    ...
Preuve de convergence

  Propriétés des fonctions de densité




                                    Apprentissage du quan...
Preuve de convergence

  Propriétés des fonctions de densité
      T     ecS(t)
     0    T cS(τ )      dt = 1
          0...
Preuve de convergence

  Propriétés des fonctions de densité
      T      ecS(t)
     0     T cS(τ )      dt = 1
         ...
Preuve de convergence

  Propriétés des fonctions de densité
       T     ecS(t)
      0    T cS(τ )      dt = 1
         ...
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.




                                     Apprentissage du...
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
  Si t∗ est fini, on a

                                 0...
Preuve de convergence

  Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}.
  Si t∗ est fini, on a

                                  ...
Preuve de convergence

  Xc converge en distribution vers X.




                                    Apprentissage du quan...
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]...
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]...
Preuve de convergence

  Xc converge en distribution vers X.
  S(·) continue et bornée ⇒
  E[S(Xc )] converge vers E[S(X)]...
Approximation de max S(t)

  S(t)
             5




             4




             3

         z



             2




 ...
Approximation de max S(t)

  S(t)




                        Apprentissage du quantron. April 3, 2008 – p. 21/?
Approximation de max S(t)

  fX1 (t)
            0,25




            0,20




            0,15




            0,10




 ...
Approximation de max S(t)

  fX2 (t)

            0,4




            0,3




            0,2




            0,1




    ...
Approximation de max S(t)

  fX3 (t)

            0,6




            0,5




            0,4




            0,3




    ...
Approximation de max S(t)

  fX25 (t)
             2,0




             1,5




             1,0




             0,5




...
Approximation de max S(t)

  fX100 (t)


              3




              2




              1




              0
     ...
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’i...
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’i...
Limites de ce résultat

  L’application de softmax à une fonction
  continue est limitée par la capacité de
  résoudre l’i...
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                  si 0        ≤t<s
        ...
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                      si 0        ≤t<s
    ...
Approximation de ϕ(t)

  Potentiels du quantron :
         
         wQ ln ω√                      si 0        ≤t<s
    ...
Approximation de ϕ(t)

               ∂ϕ(t;s)
 Exemple de      ∂s       (avec t fixé à 1) :
       0,7




       0,6




 ...
Approximation de ϕ(t)

  Représentation avec fonctions Heaviside :
                  √
   ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t ...
Approximation de ϕ(t)

  Représentation avec fonctions Heaviside :
                  √
   ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t ...
Approximation de ϕ(t)

  Problème:
                 √
   ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
                    √       ...
Approximation de ϕ(t)

  Problème:
                 √
   ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)]
                    √       ...
Approximation de ϕ(t)

  Approximation avec 5 évaluations

         0,4




         0,3




         0,2




         0,1...
Approximation de ϕ(t)

  Approximation avec 9 évaluations

         0,4




         0,3




         0,2




         0,1...
Approximation de ϕ(t)

  Approximation avec 13 évaluations

         0,4




         0,3




         0,2




         0,...
Approximation de ϕ(t)

  Approximation avec 17 évaluations

         0,4




         0,3




         0,2




         0,...
Approximation de ϕ(t)

  Approximation avec 21 évaluations

         0,4




         0,3




         0,2




         0,...
Approximation de ϕ(t)

  Approximation avec 25 évaluations

         0,4




         0,3




         0,2




         0,...
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier




                             ...
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme ...
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme ...
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme ...
Approximation de ϕ(t)

  d : nombre de pas de l’approximation par
  fonction en escalier
  Nous avons choisi a = 5d comme ...
Approximation de ϕ(t)

                                                     2d
  Approximation avec 9 évaluations, a =    ...
Approximation de ϕ(t)

                                                     20d
  Approximation avec 9 évaluations, a =   ...
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?




                           ...
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       5d
  a=   2s
           ...
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       2d
  a=   2s
           ...
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
       20d
  a=    2s

        ...
Approximation de ϕ(t)

  L’approximation semble bonne, mais
  qu’arrive-t-il à la dérivée?
  Le calcul de la dérivée est u...
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
...
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
...
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
...
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
...
En conclusion

  Les deux approximations différentiables
  présentées permettent d’aborder
  l’apprentissage du quantron.
...
Références

        ´
 M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London :
 Springer-Verlag, 200...
Prochain SlideShare
Chargement dans…5
×

Apprentissage du quantron : un problème d\’optimisation non différentiable

803 vues

Publié le

Présentation au séminaire de mathématiques appliquées du département de Mathématiques et de Génie Industriel (3 avril 2008, École Polytechnique de Montréal)

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
803
Sur SlideShare
0
Issues des intégrations
0
Intégrations
15
Actions
Partages
0
Téléchargements
15
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Apprentissage du quantron : un problème d\’optimisation non différentiable

  1. 1. Apprentissage du quantron Un problème d’optimisation non différentiable Simon de Montigny sous la direction de Richard Labib, Ph.D. ´ ´ ´ Departement de mathematiques et genie industriel ´ ´ Ecole Polytechnique de Montreal Apprentissage du quantron. April 3, 2008 – p. 1/?
  2. 2. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Apprentissage du quantron. April 3, 2008 – p. 2/?
  3. 3. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Neurones et synapses Entrées Sorties Apprentissage du quantron. April 3, 2008 – p. 2/?
  4. 4. Introduction Un réseau de neurones artificiels est un modèle simplifié du fonctionnement du cerveau. Un seul neurone Transformation des signaux Paramètres Apprentissage du quantron. April 3, 2008 – p. 2/?
  5. 5. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Apprentissage du quantron. April 3, 2008 – p. 3/?
  6. 6. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Un réseau doit être entraîné pour pouvoir effectuer une certaine tâche. Apprentissage du quantron. April 3, 2008 – p. 3/?
  7. 7. Introduction Les réseaux de neurones sont surtout utilisés comme outil statistique pour effectuer de la régression, de la classification et de l’estimation. Un réseau doit être entraîné pour pouvoir effectuer une certaine tâche. Le premier algorithme d’apprentissage développé pour les réseaux de neurones s’appelle "rétro-propagation de l’erreur" (Rumelhart et al., 1986). Apprentissage du quantron. April 3, 2008 – p. 3/?
  8. 8. Introduction Rétro-propagation de l'erreur Calcul de l'erreur du réseau Modification des paramètres Rétro-propagation de la partie de l'erreur due à chaque neurone de Modification la couche précédente des paramètres Apprentissage du quantron. April 3, 2008 – p. 4/?
  9. 9. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. Apprentissage du quantron. April 3, 2008 – p. 5/?
  10. 10. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. On minimise une fonction d’erreur qui caractérise la différence entre l’état actuel du réseau et l’état désiré. Apprentissage du quantron. April 3, 2008 – p. 5/?
  11. 11. Introduction Les algorithmes d’apprentissages sont fondés sur des méthodes d’optimisation. On minimise une fonction d’erreur qui caractérise la différence entre l’état actuel du réseau et l’état désiré. Les variables d’optimisation sont les paramètres du réseau. Apprentissage du quantron. April 3, 2008 – p. 5/?
  12. 12. Exemple : le perceptron Modèle de neurone : f (x1 , x2 ) = w1 x1 + w2 x2 + w3 Apprentissage du quantron. April 3, 2008 – p. 6/?
  13. 13. Exemple : le perceptron Modèle de neurone : f (x1 , x2 ) = w1 x1 + w2 x2 + w3 x1 v = w1x1 y(v) = v +w2x2 +w3 x2 w1 , w2 , w3 Apprentissage du quantron. April 3, 2008 – p. 6/?
  14. 14. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Apprentissage du quantron. April 3, 2008 – p. 7/?
  15. 15. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Erreur des moindres carrés : n 2 (k) (k) E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 ) k=1 Apprentissage du quantron. April 3, 2008 – p. 7/?
  16. 16. Exemple : le perceptron Tâche : reproduire la fonction (k) (k) x1 , x2 , d(k) k=1,...,n Erreur des moindres carrés : n 2 (k) (k) E(w1 , w2 , w3 ) = d(k) − f (x1 , x2 ) k=1 Descente du gradient : ∂E wj (t + 1) = wj (t) − η ∂wj |w1 (t),w2 (t),w3 (t) Apprentissage du quantron. April 3, 2008 – p. 7/?
  17. 17. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Apprentissage du quantron. April 3, 2008 – p. 8/?
  18. 18. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Apprentissage du quantron. April 3, 2008 – p. 8/?
  19. 19. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Mettre plusieurs perceptrons en réseau permet de faire de la régression non linéaire. Apprentissage du quantron. April 3, 2008 – p. 8/?
  20. 20. Exemple : le perceptron Puisque f est linéaire, la fonction d’erreur est convexe et l’apprentissage converge vers un minimum global (Haykin, 1999). Un seul perceptron effectue une régression linéaire. Mettre plusieurs perceptrons en réseau permet de faire de la régression non linéaire. L’apprentissage n’est plus garanti de converger vers un minimum global. Apprentissage du quantron. April 3, 2008 – p. 8/?
  21. 21. Que faire? Limitations des réseaux de perceptrons : Apprentissage du quantron. April 3, 2008 – p. 9/?
  22. 22. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Apprentissage du quantron. April 3, 2008 – p. 9/?
  23. 23. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Apprentissage du quantron. April 3, 2008 – p. 9/?
  24. 24. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Question : Comment peut-on obtenir un réseau plus puissant et de petite taille? Apprentissage du quantron. April 3, 2008 – p. 9/?
  25. 25. Que faire? Limitations des réseaux de perceptrons : Il n’y a pas de règle magique pour choisir la taille du réseau. Un réseau trop grand apprend lentement et généralise mal. Le perceptron est un modèle grossier des neurones biologiques. Question : Comment peut-on obtenir un réseau plus puissant et de petite taille? Solution : Améliorer le modèle de neurone utilisé. Apprentissage du quantron. April 3, 2008 – p. 9/?
  26. 26. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). Apprentissage du quantron. April 3, 2008 – p. 10/?
  27. 27. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). 5 4 3 z 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 10/?
  28. 28. Le quantron Le quantron est un modèle analytique, biologiquement réaliste qui intègre la diffusion des neurotransmetteurs (Labib, 1999). Apprentissage du quantron. April 3, 2008 – p. 10/?
  29. 29. Le quantron Une entrée du quantron représente le délai entre les arrivées des vagues de neuro- transmetteurs émises par un autre neurone. Apprentissage du quantron. April 3, 2008 – p. 11/?
  30. 30. Le quantron Une entrée du quantron représente le délai entre les arrivées des vagues de neuro- transmetteurs émises par un autre neurone. Apprentissage du quantron. April 3, 2008 – p. 11/?
  31. 31. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j Apprentissage du quantron. April 3, 2008 – p. 12/?
  32. 32. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée Apprentissage du quantron. April 3, 2008 – p. 12/?
  33. 33. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée S(t) est une fonction continue. Apprentissage du quantron. April 3, 2008 – p. 12/?
  34. 34. Le quantron L’opération effectuée par le quantron est une sommation des potentiels reçus : S(t) = ϕi,j (t) i,j i : indice des entrées j : indice des potentiels de chaque entrée S(t) est une fonction continue. S(t) = 0 en dehors de [0, T ], où T est la fin du dernier potentiel reçu. Apprentissage du quantron. April 3, 2008 – p. 12/?
  35. 35. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Apprentissage du quantron. April 3, 2008 – p. 13/?
  36. 36. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Si S(t) dépasse le seuil Γ, le quantron émet une vague de neurotransmetteurs. Sinon, il n’émet rien. Apprentissage du quantron. April 3, 2008 – p. 13/?
  37. 37. Le quantron Les paramètres du quantron influencent le temps de début et de fin des potentiels, ainsi que leur amplitude. Si S(t) dépasse le seuil Γ, le quantron émet une vague de neurotransmetteurs. Sinon, il n’émet rien. Nous allons aborder le problème d’apprentissage avec le modèle f = max S(t). Apprentissage du quantron. April 3, 2008 – p. 13/?
  38. 38. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Apprentissage du quantron. April 3, 2008 – p. 14/?
  39. 39. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Trouver une formule analytique adaptée à l’algorithme de rétro-propagation pour entraîner des réseaux de quantrons. Apprentissage du quantron. April 3, 2008 – p. 14/?
  40. 40. Objectifs généraux de la recherche Développer un algorithme d’apprentissage efficace pour le quantron. Trouver une formule analytique adaptée à l’algorithme de rétro-propagation pour entraîner des réseaux de quantrons. Évaluer les capacités et les limites du quantron comme outil de reconnaissance de formes et d’approximation de fonctions. Apprentissage du quantron. April 3, 2008 – p. 14/?
  41. 41. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Apprentissage du quantron. April 3, 2008 – p. 15/?
  42. 42. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Apprentissage du quantron. April 3, 2008 – p. 15/?
  43. 43. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Méthode des sous-gradient (Shor) et gradient généralisé (Clarke) Apprentissage du quantron. April 3, 2008 – p. 15/?
  44. 44. Problème préliminaire Le modèle du quantron est une fonction non différentiable de ses paramètres. n f (τ1 , . . . , τn ) = max gk (t)u(t − τk ) k=1 Deux principales approches à l’optimisation non différentiable (Elhedhli et al., 2001) : Méthode des sous-gradient (Shor) et gradient généralisé (Clarke) Approximation différentiable (Bertsekas) Apprentissage du quantron. April 3, 2008 – p. 15/?
  45. 45. Problème préliminaire Nous allons développer : Apprentissage du quantron. April 3, 2008 – p. 16/?
  46. 46. Problème préliminaire Nous allons développer : une approximation différentiable du maximum global de S(t) Apprentissage du quantron. April 3, 2008 – p. 16/?
  47. 47. Problème préliminaire Nous allons développer : une approximation différentiable du maximum global de S(t) une approximation différentiable de ϕ(t) Apprentissage du quantron. April 3, 2008 – p. 16/?
  48. 48. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Apprentissage du quantron. April 3, 2008 – p. 17/?
  49. 49. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Apprentissage du quantron. April 3, 2008 – p. 17/?
  50. 50. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Bornes : min S(t) ≤ softmax S(t) ≤ max S(t) Apprentissage du quantron. April 3, 2008 – p. 17/?
  51. 51. Approximation de max S(t) Approximation différentiable de max S(t) : T S(t)ecS(t) softmax S(t) = T dt 0 0 ecS(τ ) dτ Il s’agit d’une adaptation de la fonction softmax utilisée dans divers modèles de réseaux de neurones. (Peterson et Söderberg, 1989, Jacobs et al., 1991). Bornes : min S(t) ≤ softmax S(t) ≤ max S(t) Convergence : lim softmax S(t) = max S(t) c→∞ Apprentissage du quantron. April 3, 2008 – p. 17/?
  52. 52. Preuve de convergence Propriétés des fonctions de densité Apprentissage du quantron. April 3, 2008 – p. 18/?
  53. 53. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  54. 54. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ ecS(t) T cS(τ ) ≥0 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  55. 55. Preuve de convergence Propriétés des fonctions de densité T ecS(t) 0 T cS(τ ) dt = 1 0 e dτ ecS(t) T cS(τ ) ≥0 0 e dτ softmax S(t) = E[S(Xc )] où Xc est un temps aléatoire choisi dans l’intervalle [0, T ] selon la ecS(t) fonction de densité fXc (t) = T cS(τ ) . 0 e dτ Apprentissage du quantron. April 3, 2008 – p. 18/?
  56. 56. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Apprentissage du quantron. April 3, 2008 – p. 19/?
  57. 57. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Si t∗ est fini, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = c→∞ ∞ si t ∈ t∗ . Apprentissage du quantron. April 3, 2008 – p. 19/?
  58. 58. Preuve de convergence Soit t∗ = {t ∈ R : S(t) ≥ S(u) ∀u ∈ R}. Si t∗ est fini, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = c→∞ ∞ si t ∈ t∗ . Si t∗ est infini non dénombrable, on a 0 si t ∈ t∗ , / lim fXc (t) = fX (t) = 1 c→∞ µ(t∗ ) si t ∈ t∗ . Apprentissage du quantron. April 3, 2008 – p. 19/?
  59. 59. Preuve de convergence Xc converge en distribution vers X. Apprentissage du quantron. April 3, 2008 – p. 20/?
  60. 60. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). Apprentissage du quantron. April 3, 2008 – p. 20/?
  61. 61. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). limc→∞ softmax S(t) = E[S(X)] = max S(t) Apprentissage du quantron. April 3, 2008 – p. 20/?
  62. 62. Preuve de convergence Xc converge en distribution vers X. S(·) continue et bornée ⇒ E[S(Xc )] converge vers E[S(X)] (représentation de Skorokhod, convergence ´ dominée, e.g. Capinski et Kopp, 2005). limc→∞ softmax S(t) = E[S(X)] = max S(t) d Remarque : dc E[S(Xc )] = V [S(Xc )] ≥ 0 (passage de la dérivée sous l’intégrale) Apprentissage du quantron. April 3, 2008 – p. 20/?
  63. 63. Approximation de max S(t) S(t) 5 4 3 z 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  64. 64. Approximation de max S(t) S(t) Apprentissage du quantron. April 3, 2008 – p. 21/?
  65. 65. Approximation de max S(t) fX1 (t) 0,25 0,20 0,15 0,10 0,05 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  66. 66. Approximation de max S(t) fX2 (t) 0,4 0,3 0,2 0,1 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  67. 67. Approximation de max S(t) fX3 (t) 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  68. 68. Approximation de max S(t) fX25 (t) 2,0 1,5 1,0 0,5 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  69. 69. Approximation de max S(t) fX100 (t) 3 2 1 0 0 5 10 15 20 t Apprentissage du quantron. April 3, 2008 – p. 21/?
  70. 70. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. Apprentissage du quantron. April 3, 2008 – p. 22/?
  71. 71. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. L’intégrale se résout bien avec une approximation linéaire par morceaux de S(t). Apprentissage du quantron. April 3, 2008 – p. 22/?
  72. 72. Limites de ce résultat L’application de softmax à une fonction continue est limitée par la capacité de résoudre l’intégrale analytiquement. L’intégrale se résout bien avec une approximation linéaire par morceaux de S(t). L’implémentation informatique de cette formule demande une attention particulière. Apprentissage du quantron. April 3, 2008 – p. 22/?
  73. 73. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Apprentissage du quantron. April 3, 2008 – p. 23/?
  74. 74. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Q(·) : fonction de survie d’une loi N (0, 1) ω : largeur de la fente synaptique Apprentissage du quantron. April 3, 2008 – p. 23/?
  75. 75. Approximation de ϕ(t) Potentiels du quantron :  wQ ln ω√ si 0 ≤t<s   t ϕ(t) = w Q ln ω − Q √ ln √ ω si s ≤ t < 2s  s t−s  0  sinon Q(·) : fonction de survie d’une loi N (0, 1) ω : largeur de la fente synaptique Paramètres : w (amplitude), s (temps d’arrêt) Apprentissage du quantron. April 3, 2008 – p. 23/?
  76. 76. Approximation de ϕ(t) ∂ϕ(t;s) Exemple de ∂s (avec t fixé à 1) : 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 24/?
  77. 77. Approximation de ϕ(t) Représentation avec fonctions Heaviside : √ ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [u(t − s) − u(t − 2s)] Apprentissage du quantron. April 3, 2008 – p. 25/?
  78. 78. Approximation de ϕ(t) Représentation avec fonctions Heaviside : √ ϕ(t) =wQ(ln ω/ t) × [u(t) − u(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [u(t − s) − u(t − 2s)] La solution la plus simple serait de remplacer les fonctions Heaviside par des sigmoïdes : 1 σ(x) = 1 + e−ax Apprentissage du quantron. April 3, 2008 – p. 25/?
  79. 79. Approximation de ϕ(t) Problème: √ ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [σ(t − s) − σ(t − 2s)] est complexe pour t < s. Apprentissage du quantron. April 3, 2008 – p. 26/?
  80. 80. Approximation de ϕ(t) Problème: √ ϕ(t) =wQ ln ω/ t × [σ(t) − σ(t − s)] √ √ + w Q ln ω/ s − Q ln ω/ t − s × [σ(t − s) − σ(t − 2s)] est complexe pour t < s. Solution : Approximer le potentiel par une fonction en escalier, puis approximer les pas de la fonction en escalier par des sigmoïdes. Apprentissage du quantron. April 3, 2008 – p. 26/?
  81. 81. Approximation de ϕ(t) Approximation avec 5 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  82. 82. Approximation de ϕ(t) Approximation avec 9 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  83. 83. Approximation de ϕ(t) Approximation avec 13 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  84. 84. Approximation de ϕ(t) Approximation avec 17 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  85. 85. Approximation de ϕ(t) Approximation avec 21 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  86. 86. Approximation de ϕ(t) Approximation avec 25 évaluations 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 27/?
  87. 87. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Apprentissage du quantron. April 3, 2008 – p. 28/?
  88. 88. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Apprentissage du quantron. April 3, 2008 – p. 28/?
  89. 89. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Apprentissage du quantron. April 3, 2008 – p. 28/?
  90. 90. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Validation expérimentale par identification du minimum de l’erreur quadratique entre ϕ(t) et son approximation par sigmoïdes. Apprentissage du quantron. April 3, 2008 – p. 28/?
  91. 91. Approximation de ϕ(t) d : nombre de pas de l’approximation par fonction en escalier Nous avons choisi a = 5d comme paramètre 2s de forme de la sigmoïde. Ce choix donne une approximation "lisse". Validation expérimentale par identification du minimum de l’erreur quadratique entre ϕ(t) et son approximation par sigmoïdes. Un mauvais choix de a est néfaste. Apprentissage du quantron. April 3, 2008 – p. 28/?
  92. 92. Approximation de ϕ(t) 2d Approximation avec 9 évaluations, a = 2s 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 29/?
  93. 93. Approximation de ϕ(t) 20d Approximation avec 9 évaluations, a = 2s 0,4 0,3 0,2 0,1 0 1 2 3 4 t Apprentissage du quantron. April 3, 2008 – p. 29/?
  94. 94. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? Apprentissage du quantron. April 3, 2008 – p. 30/?
  95. 95. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 5d a= 2s 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  96. 96. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 2d a= 2s 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  97. 97. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? 20d a= 2s 3 2 1 0 0,4 0,6 0,8 1,0 1,2 1,4 s Apprentissage du quantron. April 3, 2008 – p. 30/?
  98. 98. Approximation de ϕ(t) L’approximation semble bonne, mais qu’arrive-t-il à la dérivée? Le calcul de la dérivée est utilisable, mais la présence de pics dans la dérivée de l’approximation pourrait être problématique pour effectuer la descente du gradient. Apprentissage du quantron. April 3, 2008 – p. 30/?
  99. 99. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Apprentissage du quantron. April 3, 2008 – p. 31/?
  100. 100. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Apprentissage du quantron. April 3, 2008 – p. 31/?
  101. 101. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Apprentissage du quantron. April 3, 2008 – p. 31/?
  102. 102. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Développement d’une forme alternative de calcul de la réponse du quantron. Apprentissage du quantron. April 3, 2008 – p. 31/?
  103. 103. En conclusion Les deux approximations différentiables présentées permettent d’aborder l’apprentissage du quantron. Les questions d’implémentation de ces méthodes sont primordiales. Suite des travaux : Développement d’une forme alternative de calcul de la réponse du quantron. Application des résultats obtenus à l’apprentissage en classification et en régression. Apprentissage du quantron. April 3, 2008 – p. 31/?
  104. 104. Références ´ M. Capinski et E. Kopp, Measure, Integral and Probability (2nd ed.). London : Springer-Verlag, 2005. S. Elhedhli, J.-L. Goffin et J.-P. Vial, "Nondifferentiable Optimization: Introduction, Applications and Algorithms", in Encyclopedia on Optimization, C. Floudas and P. Pardalos, editors, Kluwer Academic Publishers, 2001. S. Haykin, Neural networks : a comprehensive foundation (2nd ed.). Upper Saddle River, NJ : Prentice Hall, 1999. R.A. Jacobs, M.I. Jordan, S.J. Nowlan et G.E. Hinton, "Adaptative Mixture of Local Experts", Neural Computation, 3, 79-87, 1991. R. Labib, "New Single Neuron Structure for Solving Nonlinear Problems", Proceedings of the International Joint Conference on Neural Networks, 1, 617-620, 1999. C. Peterson et B. Söderberg, "A New Method for Mapping Optimization Problems onto Neural Networks", International Journal of Neural Systems, 1, 3-22, 1989. D.E. Rumelhart, G.E. Hinton et R.J. Williams, "Learning representations by back-propagation of errors", Nature, 323, 533-536, 1986. Apprentissage du quantron. April 3, 2008 – p. 32/?

×