SlideShare une entreprise Scribd logo
1  sur  142
Télécharger pour lire hors ligne
DAMASwww.damas.ift.ulaval.ca
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Contraintes et observabilité
dans les systèmes de Markov décentralisés
Camille Besse
Département d’Informatique et de Génie Logiciel
http://damas.ift.ulaval.ca
Septembre 2010
DAMASwww.damas.ift.ulaval.ca Camille Besse 1 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiques
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiques
est composée à 82.4% d’images et exemples
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiques
est composée à 82.4% d’images et exemples
se veut compréhensible par tous et toutes
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiques
est composée à 82.4% d’images et exemples
se veut compréhensible par tous et toutes
¯ Donc si vous avez des questions ...
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiques
est composée à 82.4% d’images et exemples
se veut compréhensible par tous et toutes
¯ Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :
Nourrir les poules
Traire les vaches
Arroser le potager
(etc ...)
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :
Nourrir les poules
Traire les vaches
Arroser le potager
(etc ...)
Ce robot n’est malheureusement pas parfait
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :
Nourrir les poules
Traire les vaches
Arroser le potager
(etc ...)
Ce robot n’est malheureusement pas parfait
¯ Les tâches qu’il réalise peuvent parfois prendre plus de temps
¯ Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :
Nourrir les poules
Traire les vaches
Arroser le potager
(etc ...)
Ce robot n’est malheureusement pas parfait
¯ Les tâches qu’il réalise peuvent parfois prendre plus de temps
¯ Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St
0
0
0
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
A
t
apoules
avaches
apotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
rt
rpoules
rvaches
rpotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St
0
0
0
apotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+1
0
0
1
apotager
rpotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+1
0
0
1
avaches
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+2
0
0
1
avaches
0
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Représentation graphique d’un Processus décisionnel de Markov
rt−1 rt rt+1 rT
St−2 St−1 St St+1 ST
A
t−1
A
t
A
t+1
A
T
T T T T
O O O O
R R R R
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Et en partiellement observable ?
St
0
?
?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Et en partiellement observable ?
St+1
?
?
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Représentation graphique en partiellement observable
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
A
1
A
2
A
3
A
T
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Et en multiagent ?
St
?
?
?
A
t
1
A
t
2
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Représentation graphique en multiagent
S0 S1 S2 S3 ST
O0
1
O0
2
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Légende
Modèle Existant
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Légende
Modèle Existant
Modèle Proposé
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
NEREUS
Légende
Modèle Existant
Modèle Proposé
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Patrouille
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Plan
1ere
Partie : Contraintes et Modèles de Markov
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
DAMASwww.damas.ift.ulaval.ca Camille Besse 5 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
5
3
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de Markov avec satisfaction de contraintes
Solutions
st+1 st+1 st+1
CSPt+1 CSPt+1 CSPt+1
st CSPt
a0 ... ai ... aσ
DAMASwww.damas.ift.ulaval.ca Camille Besse 8 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MDP classique
Pou, V, Pot
0, 0, 0
Pou, Pou
1, 0, 0 0, 0, 0
Pou, V
1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0
Pou, Pot
1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0
V, V
0, 1, 0 0, 0, 0
V, Pou
1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0
V, Pot
0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0
Pot , Pot
0, 0, 1 0, 0, 0
Pot , V
0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0
Pot , Pou
1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MDP classique
Pou, V, Pot
0, 0, 0
Pou, Pou
1, 0, 0 0, 0, 0
Pou, V
1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0
Pou, Pot
1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0
V, V
0, 1, 0 0, 0, 0
V, Pou
1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0
V, Pot
0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0
Pot , Pot
0, 0, 1 0, 0, 0
Pot , V
0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0
Pot , Pou
1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0
7 états possibles selon les probabilités
pour 9 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MaCSP avec allDiff
Pou, V, Pot
0, 0, 0
Pou, V
1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0
Pou, Pot
1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0
V, Pou
1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0
V, Pot
0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0
Pot , V
0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0
Pot , Pou
1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MaCSP avec allDiff
Pou, V, Pot
0, 0, 0
Pou, V
1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0
Pou, Pot
1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0
V, Pou
1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0
V, Pot
0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0
Pot , V
0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0
Pot , Pou
1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0
7 états possibles selon les probabilités
pour seulement 6 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain en
facteur de branchement de l’utilisation de la contrainte allDiff qui
imposent que toutes les ressources soient appliquées à des tâches
différentes est égal à :
Gain =
|T||X|
C
|X|
|T|
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain en
facteur de branchement de l’utilisation de la contrainte allDiff qui
imposent que toutes les ressources soient appliquées à des tâches
différentes est égal à :
Gain =
|T||X|
C
|X|
|T|
Complexité du modèle en pire cas
Trouver une politique pour un MaCSP, qui obtiendrait une récompense
espérée d’au moins C, est #P.
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain en
facteur de branchement de l’utilisation de la contrainte allDiff qui
imposent que toutes les ressources soient appliquées à des tâches
différentes est égal à :
Gain =
|T||X|
C
|X|
|T|
Complexité du modèle en pire cas
Trouver une politique pour un MaCSP, qui obtiendrait une récompense
espérée d’au moins C, est #P.
Mais cela fonctionne très bien en pratique puisque le nombre de
variables est très inférieur au nombre d’états.
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats empiriques
10
100
1000
10000
100000
1e+006
1 2 3 4 5 6 7 8
Time(ms)
Number of Tasks
MaCSP
MDP
DAMASwww.damas.ift.ulaval.ca Camille Besse 11 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Plan
2eme
Partie : Contraintes et Observabilité dans
les Modèles de Markov
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
Décentralisé
Quasi-Déterministe + Bornes PAC
Incendie
DAMASwww.damas.ift.ulaval.ca Camille Besse 12 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
A
1
1 A
2
1 A
3
1 A
T
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
b0
b1
b2
b3
A
1
1 A
2
1 A
3
1 A
T
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
(M)MDP∞
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
(M)MDP∞
(M)POMDP
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
(M)MDP∞
DEC-POMDP
(M)POMDP
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
(M)MDP∞
DEC-POMDP
(M)POMDP
UMDP
UMDP∞
DEC-MDP
Free Com.
DEC-MDP-COM
Free Com.
DEC-POMDP-COM
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selon
l’observabilité
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
Gap
(M)MDP∞
DEC-POMDP
(M)POMDP
UMDP
UMDP∞
DEC-MDP
Free Com.
DEC-MDP-COM
Free Com.
DEC-POMDP-COM
? ? ?
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
∃o1 ∈ Ω, ∀a ∈ A, ∀s ∈ So1
,
with So1
= {s ∈ S|∃o1 ∈ Ω, P(o1|s, a) > P(o|s, a), ∀o = o1},
then |Ω| = |S| and |So1
| = 1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o1|s1) = 0.8
P(o2|s1) = 0.1
P(o3|s1) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o1|s2) = 0.1
P(o2|s2) = 0.8
P(o3|s2) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o2|s3) = 0.1
P(o3|s3) = 0.8
P(o4|s3) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o3|s4) = 0.1
P(o4|s4) = 0.8
P(o5|s4) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o3|s5) = 0.1
P(o4|s5) = 0.1
P(o5|s5) = 0.8
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
Sous l’hypothèse d’observation bijective, l’état de croyance bk
est tel
que bk
(s) 1 − ε ssi
n
1
2 ln νθ
(1−θ)
ln
1 − ε
ε
1 + ν1− k
2 +
k
2
(1)
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 50
0
0.2
0.4
0.6
0.8
1
K
P(bK
>1−ε)
θ = 0.9
θ = 0.8
θ = 0.7
θ = 0.6
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 50
0
0.2
0.4
0.6
0.8
1
K
P(bK
>1−ε)
θ = 0.9
θ = 0.8
θ = 0.7
θ = 0.6
Réduction de la complexité en pire cas pour les POMDPs
Étant donné un POMDP à horizon infini avec actions déterministes et
respectant l’hypothèse d’observabilité bijective, trouver une politique
qui permette d’obtenir une récompense escomptée espérée donnée
avec une forte probabilité est ΣP
2k−1.
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 50
0
0.2
0.4
0.6
0.8
1
K
P(bK
>1−ε)
θ = 0.9
θ = 0.8
θ = 0.7
θ = 0.6
Réduction de la complexité en pire cas pour les DEC-POMDPs
Étant donné un DEC-POMDP à horizon infini avec actions
déterministes et respectant l’hypothèse d’observabilité bijective,
trouver une politique qui permette d’obtenir une récompense
escomptée espérée donnée avec une forte probabilité est PSPACE.
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
NonePartial
& Noisy
Joint
& Perfect
Complete
& Noisy
Complete
& Perfect
NEXP
EXP
ΣP
poly ⊆ PSPACE
ΣP
k
ΣP
1 = NP
P
Gap
Observability
Complexity
(M)MDP∞
(M)POMDP
DEC-POMDP
QDET-POMDP
QDET-DEC-POMDP
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
avec actions stochastiques
0 10 20 30 40 50
0
0.5
1
1.5
2
2.5
3
3.5
σa
2
= .05 σo
2
= 0.12892 θ = 0.92214
K
P(bK
>1−ε)
±2σ2
±σ2
Mean
DAMASwww.damas.ift.ulaval.ca Camille Besse 18 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Plan
3eme
Partie : Observabilité dans les modèles de
Markov décentralisés
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
Décentralisé
dRollout
Patrouille Déménageurs
DAMASwww.damas.ift.ulaval.ca Camille Besse 19 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O0
1
O0
2
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
b0
1
b0
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
b0
1
b0
2
b1
1
b1
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O1
1
O1
2
O2
1
O2
2
O3
1
O3
2
b0
1
b0
2
b1
1
b1
2
b2
1
b2
2
b3
1
b3
2
A
1
1
A
1
2
A
2
1
A
2
2
A
3
1
A
3
2
A
T
1
A
T
2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
aa
oa
ob
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
b1ba
1
b1bb
1
aa
oa
ob
ab
oa
ob
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
b1ba
1
b1bb
1
b1ca
1
b1cb
1
aa
oa
ob
ab
oa
ob
ac oa
ob
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
b1ba
1
b1bb
1
b1ca
1
b1cb
1
V(bTaa
1
)
V(bTab
1
)
V(bTba
1
)
V(bTbb
1
)
V(bTca
1
)
V(bTcb
1
)
aa
oa
ob
ab
oa
ob
ac oa
ob
H(b1aa
1 )
H(b1ab
1 )
H(b1ba
1 )
H(b1bb
1 )
H(b1ca
1 )
H(b1cb
1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
b1ba
1
b1bb
1
b1ba
1
b1bb
1
b1ca
1
b1cb
1
V(bTaa
1
)
V(bTab
1
)
V(bTba
1
)
V(bTbb
1
)
V(bTca
1
)
V(bTcb
1
)
V(bTba
1
)
V(bTbb
1
)
aa
oa
ob
ab
oa
ob
ab
oa
ob
ac oa
ob
H(b1aa
1 )
H(b1ab
1 )
H(b1ba
1 )
H(b1bb
1 )
H(b1ca
1 )
H(b1cb
1 )
H(b1ba
1 )
H(b1bb
1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b0
1
b1aa
1
b1ab
1
b1ba
1
b1bb
1
b1ba
1
b1bb
1
b1ca
1
b1cb
1
V(bTaa
1
)
V(bTab
1
)
V(bTba
1
)
V(bTbb
1
)
V(bTca
1
)
V(bTcb
1
)
V(bTba
1
)
V(bTbb
1
)
aa
oa
ob
ab
oa
ob
ab
oa
ob
ac
oa
ob
H(b1aa
1 )
H(b1ab
1 )
H(b1ba
1 )
H(b1bb
1 )
H(b1ca
1 )
H(b1cb
1 )
H(b1ba
1 )
H(b1bb
1 )
b0
2
b1aa
2
b1ab
2
b1ba
2
b1bb
2
b1ca
2
b1cb
2
V(bTaa
2
)
V(bTab
2
)
V(bTba
2
)
V(bTbb
2
)
V(bTca
2
)
V(bTcb
2
)
aa
oa
ob
ab
oa
ob
ac
oa
ob
H(b1aa
1 )
H(b1ab
1 )
H(b1ba
1 )
H(b1bb
1 )
H(b1ca
1 )
H(b1cb
1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentralisée
et sans communication
Observation la plus probable
oi ← oi , o−i
où o−i = arg max
o−i ∈Ω−i
O( oi , o−i |a, s )bt
i (s )
bt+1
i (s ) =
O(oi |a, s ) s∈S T (s |s, a)bt
i (s)
s,s ∈S O(oi |a, s )T (s |s, a)bt
i (s)
(1)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentralisée
et sans communication
Observation la plus probable
oi ← oi , o−i
où o−i = arg max
o−i ∈Ω−i
O( oi , o−i |a, s )bt
i (s )
bt+1
i (s ) =
O(oi |a, s ) s∈S T (s |s, a)bt
i (s)
s,s ∈S O(oi |a, s )T (s |s, a)bt
i (s)
(1)
Observation espérée ( )
bt+1
i (s ) =
o−i ∈Ω−i
O(o|a, s ) s∈S T (s |s, a)bt
i (s)
s,s ∈S O(o|a, s )T (s |s, a)bt
i (s)
, o = oi , o−i (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentralisée
et sans communication
Observation la plus probable
bt+1
i (s ) = max
o−i
bt+1
i (s ) (1)
Observation espérée ( )
bt+1
i (s ) =
o−i ∈Ω−i
O(o|a, s ) s∈S T (s |s, a)bt
i (s)
s,s ∈S O(o|a, s )T (s |s, a)bt
i (s)
, o = oi , o−i (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentralisée
et sans communication
Observation la plus probable
bt+1
i (s ) = max
o−i
bt+1
i (s ) (1)
Observation espérée ( )
bt+1
i (s ) = Eo−i
bt+1
i (s ) (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Résultats expérimentaux
Problème du déménageurs
+10 +100 +10
DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Résultats expérimentaux
Problème du déménageurs
-60
-40
-20
0
20
40
60
5 10 15
AAR
Horizon
MDP
MDP*
IMBDP
IMBDP*
Rollout
Rollout*
(a) Value vs Horizon
1
10
100
1000
10000
100000
5 10 15
Timeperstep(ms)
Horizon
MDP*
IMBDP*
Rollout*
(b) Time (s) vs Horizon
DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Plan
4eme
partie : Applications des outils développés
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
Quasi-Déterministe + Bornes PAC
PatrouilleDirigeable
DAMASwww.damas.ift.ulaval.ca Camille Besse 24 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Groupe de patrouille autonome – J.S. Marier
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Groupe de patrouille autonome – J.S. Marier
0.2
1.0
1.5
1.0
0.5
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Groupe de patrouille autonome – J.S. Marier
Les agents :
Sont contraints dans leurs actions par un graphe de localisations
à surveiller aussi souvent que possible ;
Observent avec certitude leur position et communiquent celle-ci
aux autre agents ;
Peuvent communiquer leur état local et leur politique locale avec
une fréquence suffisamment élevée ;
N’ont pas accès à l’information qu’ils surveillent.
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Groupe de patrouille autonome – J.S. Marier
(c) Wheel
0
(d) Cloverleaf (e) Cuboctahedron
(f) Map-A (g) Map-B
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Groupe de patrouille autonome – J.S. Marier
0
100
200
300
400
500
600
700
Wheel Clover Cubo Map-A Map-B
C-AEMS
Reactive
(h) AAR
1,00E-05
1,00E-04
1,00E-03
1,00E-02
1,00E-01
1,00E+00
1,00E+01
1,00E+02
Wheel Clover Cubo Map-A Map-B
C-AEMS
Reactive
(i) Time(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Apprentissage de POMDPs continus – P. Dallaire
L’agent :
Doit maintenir une hauteur relative de zero ;
Observe sa hauteur en continu additionnée d’un bruit Gaussien
(en cloche) ;
Choisis un action monter/descendre en continu ;
Ne connaît pas sa dynamique.
DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en cours
Apprentissage de POMDPs continus – P. Dallaire
10 20 30 40 50 60 70 80 90 100
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Hauteur(m)
Nombre de pas d’apprentissage
DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagent
Représentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transition
stochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPs
continus
Étude de la communication pour la synchronisation en ligne des
états de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagent
Représentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transition
stochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPs
continus
Étude de la communication pour la synchronisation en ligne des
états de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagent
Représentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transition
stochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPs
continus
Étude de la communication pour la synchronisation en ligne des
états de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagent
Représentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transition
stochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPs
continus
Étude de la communication pour la synchronisation en ligne des
états de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Légende
Modèle Existant
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Légende
Modèle Existant
Modèle Proposé
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
NEREUS
Légende
Modèle Existant
Modèle Proposé
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Patrouille
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
 Abandon des concepts d’intentions, engagements. On ne
raisonne que sur la valeur.
 Meilleur précision sur l’optimalité de la planification
 Pouvoir de modélisation très large
 Extrêmement sensible au modèle utilisé
 Extrêmement sensible à la définition de la fonction de
récompense
 Problèmes très difficile à résoudre sans approximations
 Multiplication de modèles spécifiques plus faciles à résoudre
¯ Prendre en compte la spécificité du problème dans la
modélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Questions
Merci de votre attention
? ? ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 30 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Bibliography
Articles comme premier auteur
Camille Besse and Brahim Chaib-draa.
An Efficient Model for Dynamic and Constrained Resource Allocation Problems.
In Proc. of the 2nd Inter. Workshop on Constraint Satisfaction Techniques for Planning and Scheduling Problems, September 2007.
Camille Besse and Brahim Chaib-draa.
Parallel Rollout for Online Solution of Dec-POMDP.
In Proc. of 21st Inter. FLAIRS Conf., May 2008.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic Partially Observable Markov Decision Processes.
In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 237–246, December 2009.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic POMDPs and Dec-POMDPs.
In Proc. of 9th Inter. Conf. On Autonomous Agents and MultiAgent Systems (Extended Abstract), May 2010.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic POMDPs and Dec-POMDPs.
In Proc. of 5th Inter. Workshop On Multiagent Sequential Decision Making in Uncertain Domains, May 2010.
Camille Besse, Pierrick Plamondon, and Brahim Chaib-draa.
R-FRTDP. A Real-Time DP Algorithm with Tight Bounds for a Stochastic Resource Allocation Problem.
In Proc. of the 20th Canadian Conf. on Artificial Intelligence, May 2007.
DAMASwww.damas.ift.ulaval.ca Camille Besse 31 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Bibliography
Articles comme second auteur
Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.
Learning Gaussian Process Models from Uncertain Data.
In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 433–440, December 2009.
Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.
Approximate Inference of Latent Functions from Uncertain Data with Gaussian Processes.
Neurocomputing, page To appear, 201X.
Patrick Dallaire, Camille Besse, Stéphane Ross, and Brahim Chaib-draa.
Bayesian Reinforcement Learning in POMDPs with Gaussian Processes.
In Proc. of the Inter. Conf. on Intelligent Robots and Systems, 2009.
Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.
A Markov Model for Multiagent Patrolling in Continuous Time.
In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 648–656, December 2009.
Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.
Solving the Continuous Time Multiagent Patrol Problem.
In Proc. of 2010 IEEE Inter. Conf. on Robotics and Automation, 2010.
DAMASwww.damas.ift.ulaval.ca Camille Besse 32 / 32

Contenu connexe

En vedette

Company Profile
Company ProfileCompany Profile
Company ProfileMiko Tango
 
Evelyn vega
Evelyn vegaEvelyn vega
Evelyn vegaevevalu
 
7d40cea99011b4eabbdae995202513f9
7d40cea99011b4eabbdae995202513f97d40cea99011b4eabbdae995202513f9
7d40cea99011b4eabbdae995202513f9ALISON TANG
 
13265_Housing_Market_Report_Q4_2015_v11
13265_Housing_Market_Report_Q4_2015_v1113265_Housing_Market_Report_Q4_2015_v11
13265_Housing_Market_Report_Q4_2015_v11Samuel Blake
 
Tríptico escuela de padres web
Tríptico escuela de padres webTríptico escuela de padres web
Tríptico escuela de padres webAngeles Lucas
 
Productivity measurement of agile teams (IWSM 2015)
Productivity measurement of agile teams (IWSM 2015)Productivity measurement of agile teams (IWSM 2015)
Productivity measurement of agile teams (IWSM 2015)Harold van Heeringen
 
Epistemology of positivism and post positivism
Epistemology of positivism and post positivism Epistemology of positivism and post positivism
Epistemology of positivism and post positivism Nasif Chowdhury
 

En vedette (7)

Company Profile
Company ProfileCompany Profile
Company Profile
 
Evelyn vega
Evelyn vegaEvelyn vega
Evelyn vega
 
7d40cea99011b4eabbdae995202513f9
7d40cea99011b4eabbdae995202513f97d40cea99011b4eabbdae995202513f9
7d40cea99011b4eabbdae995202513f9
 
13265_Housing_Market_Report_Q4_2015_v11
13265_Housing_Market_Report_Q4_2015_v1113265_Housing_Market_Report_Q4_2015_v11
13265_Housing_Market_Report_Q4_2015_v11
 
Tríptico escuela de padres web
Tríptico escuela de padres webTríptico escuela de padres web
Tríptico escuela de padres web
 
Productivity measurement of agile teams (IWSM 2015)
Productivity measurement of agile teams (IWSM 2015)Productivity measurement of agile teams (IWSM 2015)
Productivity measurement of agile teams (IWSM 2015)
 
Epistemology of positivism and post positivism
Epistemology of positivism and post positivism Epistemology of positivism and post positivism
Epistemology of positivism and post positivism
 

present_these

  • 1. DAMASwww.damas.ift.ulaval.ca Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contraintes et observabilité dans les systèmes de Markov décentralisés Camille Besse Département d’Informatique et de Génie Logiciel http://damas.ift.ulaval.ca Septembre 2010 DAMASwww.damas.ift.ulaval.ca Camille Besse 1 / 32
  • 2. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 3. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 4. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti contient seulement 8.5% de formules mathématiques DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 5. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti contient seulement 8.5% de formules mathématiques est composée à 82.4% d’images et exemples DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 6. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti contient seulement 8.5% de formules mathématiques est composée à 82.4% d’images et exemples se veut compréhensible par tous et toutes DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 7. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti contient seulement 8.5% de formules mathématiques est composée à 82.4% d’images et exemples se veut compréhensible par tous et toutes ¯ Donc si vous avez des questions ... DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 8. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Prologue Cette présentation ... ne s’adresse pas à un public averti contient seulement 8.5% de formules mathématiques est composée à 82.4% d’images et exemples se veut compréhensible par tous et toutes ¯ Donc si vous avez des questions ... N’hésitez pas et posez les ! ! ! DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
  • 9. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 10. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 11. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... devant réaliser plusieurs tâches journalières : DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 12. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... devant réaliser plusieurs tâches journalières : Nourrir les poules Traire les vaches Arroser le potager (etc ...) DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 13. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... devant réaliser plusieurs tâches journalières : Nourrir les poules Traire les vaches Arroser le potager (etc ...) Ce robot n’est malheureusement pas parfait DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 14. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... devant réaliser plusieurs tâches journalières : Nourrir les poules Traire les vaches Arroser le potager (etc ...) Ce robot n’est malheureusement pas parfait ¯ Les tâches qu’il réalise peuvent parfois prendre plus de temps ¯ Il a en plus des chances d’échouer (ou de mal réaliser ces tâches) DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 15. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Imaginons une ferme automatisée ... Où travaille un robot ... devant réaliser plusieurs tâches journalières : Nourrir les poules Traire les vaches Arroser le potager (etc ...) Ce robot n’est malheureusement pas parfait ¯ Les tâches qu’il réalise peuvent parfois prendre plus de temps ¯ Il a en plus des chances d’échouer (ou de mal réaliser ces tâches) Comment modéliser ce problème de planification ? DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 16. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif St 0 0 0 DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 17. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif A t apoules avaches apotager DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 18. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif rt rpoules rvaches rpotager DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 19. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif St 0 0 0 apotager DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 20. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif St+1 0 0 1 apotager rpotager DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 21. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif St+1 0 0 1 avaches DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 22. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif St+2 0 0 1 avaches 0 DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 23. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Représentation graphique d’un Processus décisionnel de Markov rt−1 rt rt+1 rT St−2 St−1 St St+1 ST A t−1 A t A t+1 A T T T T T O O O O R R R R DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 24. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Et en partiellement observable ? St 0 ? ? DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 25. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Et en partiellement observable ? St+1 ? ? 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 26. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Représentation graphique en partiellement observable r1 r2 r3 rT S0 S1 S2 S3 ST O0 O1 O2 O3 A 1 A 2 A 3 A T DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 27. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Et en multiagent ? St ? ? ? A t 1 A t 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 28. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Exemple introductif Représentation graphique en multiagent S0 S1 S2 S3 ST O0 1 O0 2 O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
  • 29. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Légende Modèle Existant DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 30. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Légende Modèle Existant Modèle Proposé DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 31. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens NEREUS Légende Modèle Existant Modèle Proposé Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 32. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens R-FRTDP NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 33. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens R-FRTDP + Bornes NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 34. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable R-FRTDP + Bornes NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 35. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 36. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 37. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 38. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP dRollout + Bornes + Bornes PAC NEREUS Déménageurs Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 39. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan Contributions et plan de la présentation Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP dRollout + Bornes + Bornes PAC NEREUS Patrouille Déménageurs Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
  • 40. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Plan 1ere Partie : Contraintes et Modèles de Markov Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens R-FRTDP + Bornes NEREUS DAMASwww.damas.ift.ulaval.ca Camille Besse 5 / 32
  • 41. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 42. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 43. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 44. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 45. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 46. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
  • 47. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes dynamiques 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
  • 48. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes dynamiques 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
  • 49. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes dynamiques 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
  • 50. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de satisfaction de contraintes dynamiques 2 4 5 3 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
  • 51. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Problèmes de Markov avec satisfaction de contraintes Solutions st+1 st+1 st+1 CSPt+1 CSPt+1 CSPt+1 st CSPt a0 ... ai ... aσ DAMASwww.damas.ift.ulaval.ca Camille Besse 8 / 32
  • 52. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Exemple illustratif à la ferme DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
  • 53. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Exemple illustratif à la ferme Arbre de résolution d’un MDP classique Pou, V, Pot 0, 0, 0 Pou, Pou 1, 0, 0 0, 0, 0 Pou, V 1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0 Pou, Pot 1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0 V, V 0, 1, 0 0, 0, 0 V, Pou 1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0 V, Pot 0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0 Pot , Pot 0, 0, 1 0, 0, 0 Pot , V 0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0 Pot , Pou 1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0 DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
  • 54. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Exemple illustratif à la ferme Arbre de résolution d’un MDP classique Pou, V, Pot 0, 0, 0 Pou, Pou 1, 0, 0 0, 0, 0 Pou, V 1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0 Pou, Pot 1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0 V, V 0, 1, 0 0, 0, 0 V, Pou 1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0 V, Pot 0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0 Pot , Pot 0, 0, 1 0, 0, 0 Pot , V 0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0 Pot , Pou 1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0 7 états possibles selon les probabilités pour 9 actions jointes DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
  • 55. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Exemple illustratif à la ferme Arbre de résolution d’un MaCSP avec allDiff Pou, V, Pot 0, 0, 0 Pou, V 1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0 Pou, Pot 1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0 V, Pou 1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0 V, Pot 0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0 Pot , V 0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0 Pot , Pou 1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0 DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
  • 56. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Exemple illustratif à la ferme Arbre de résolution d’un MaCSP avec allDiff Pou, V, Pot 0, 0, 0 Pou, V 1, 1, 0 1, 0, 0 0, 1, 0 0, 0, 0 Pou, Pot 1, 0, 1 1, 0, 0 0, 0, 1 0, 0, 0 V, Pou 1, 1, 0 0, 1, 0 1, 0, 0 0, 0, 0 V, Pot 0, 1, 1 0, 1, 0 0, 0, 1 0, 0, 0 Pot , V 0, 1, 1 0, 0, 1 0, 1, 0 0, 0, 0 Pot , Pou 1, 0, 1 0, 0, 1 1, 0, 0 0, 0, 0 7 états possibles selon les probabilités pour seulement 6 actions jointes DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
  • 57. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Résultats théoriques Gain dans un problème d’allocation séquentiel Dans un problème d’allocation de ressources à des tâches, le gain en facteur de branchement de l’utilisation de la contrainte allDiff qui imposent que toutes les ressources soient appliquées à des tâches différentes est égal à : Gain = |T||X| C |X| |T| DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
  • 58. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Résultats théoriques Gain dans un problème d’allocation séquentiel Dans un problème d’allocation de ressources à des tâches, le gain en facteur de branchement de l’utilisation de la contrainte allDiff qui imposent que toutes les ressources soient appliquées à des tâches différentes est égal à : Gain = |T||X| C |X| |T| Complexité du modèle en pire cas Trouver une politique pour un MaCSP, qui obtiendrait une récompense espérée d’au moins C, est #P. DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
  • 59. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Résultats théoriques Gain dans un problème d’allocation séquentiel Dans un problème d’allocation de ressources à des tâches, le gain en facteur de branchement de l’utilisation de la contrainte allDiff qui imposent que toutes les ressources soient appliquées à des tâches différentes est égal à : Gain = |T||X| C |X| |T| Complexité du modèle en pire cas Trouver une politique pour un MaCSP, qui obtiendrait une récompense espérée d’au moins C, est #P. Mais cela fonctionne très bien en pratique puisque le nombre de variables est très inférieur au nombre d’états. DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
  • 60. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats Résultats empiriques 10 100 1000 10000 100000 1e+006 1 2 3 4 5 6 7 8 Time(ms) Number of Tasks MaCSP MDP DAMASwww.damas.ift.ulaval.ca Camille Besse 11 / 32
  • 61. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Plan 2eme Partie : Contraintes et Observabilité dans les Modèles de Markov Processus Décisionnel de Markov Partiellement Observable Multiagent Décentralisé Quasi-Déterministe + Bornes PAC Incendie DAMASwww.damas.ift.ulaval.ca Camille Besse 12 / 32
  • 62. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance r1 r2 r3 rT S0 S1 S2 S3 ST O0 O1 O2 O3 A 1 1 A 2 1 A 3 1 A T 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
  • 63. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance r1 r2 r3 rT S0 S1 S2 S3 ST O0 O1 O2 O3 b0 b1 b2 b3 A 1 1 A 2 1 A 3 1 A T 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
  • 64. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance : un exemple b(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
  • 65. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance : un exemple b(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
  • 66. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance : un exemple b(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
  • 67. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance : un exemple b(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
  • 68. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique L’état de croyance : un exemple b(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
  • 69. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 70. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P (M)MDP∞ Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 71. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P (M)MDP∞ (M)POMDP Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 72. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P (M)MDP∞ DEC-POMDP (M)POMDP Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 73. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P (M)MDP∞ DEC-POMDP (M)POMDP UMDP UMDP∞ DEC-MDP Free Com. DEC-MDP-COM Free Com. DEC-POMDP-COM Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 74. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Complexité des modèles de Markov selon l’observabilité NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P Gap (M)MDP∞ DEC-POMDP (M)POMDP UMDP UMDP∞ DEC-MDP Free Com. DEC-MDP-COM Free Com. DEC-POMDP-COM ? ? ? Observability Complexity DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
  • 75. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ∃o1 ∈ Ω, ∀a ∈ A, ∀s ∈ So1 , with So1 = {s ∈ S|∃o1 ∈ Ω, P(o1|s, a) > P(o|s, a), ∀o = o1}, then |Ω| = |S| and |So1 | = 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 76. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 77. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ν = 3, θ = 0.8États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 P(o1|s1) = 0.8 P(o2|s1) = 0.1 P(o3|s1) = 0.1 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 78. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ν = 3, θ = 0.8États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 P(o1|s2) = 0.1 P(o2|s2) = 0.8 P(o3|s2) = 0.1 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 79. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ν = 3, θ = 0.8États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 P(o2|s3) = 0.1 P(o3|s3) = 0.8 P(o4|s3) = 0.1 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 80. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ν = 3, θ = 0.8États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 P(o3|s4) = 0.1 P(o4|s4) = 0.8 P(o5|s4) = 0.1 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 81. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Modèle avec observation bijective Observabilité bijective ν = 3, θ = 0.8États Observations s1 s2 s3 s4 s5 o1 o2 o3 o4 o5 P(o3|s5) = 0.1 P(o4|s5) = 0.1 P(o5|s5) = 0.8 DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
  • 82. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Résultats théoriques obtenus Convergence de l’état de croyance en probabilité Sous l’hypothèse d’observation bijective, l’état de croyance bk est tel que bk (s) 1 − ε ssi n 1 2 ln νθ (1−θ) ln 1 − ε ε 1 + ν1− k 2 + k 2 (1) DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
  • 83. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Résultats théoriques obtenus Convergence de l’état de croyance en probabilité 0 10 20 30 40 50 0 0.2 0.4 0.6 0.8 1 K P(bK >1−ε) θ = 0.9 θ = 0.8 θ = 0.7 θ = 0.6 DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
  • 84. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Résultats théoriques obtenus Convergence de l’état de croyance en probabilité 0 10 20 30 40 50 0 0.2 0.4 0.6 0.8 1 K P(bK >1−ε) θ = 0.9 θ = 0.8 θ = 0.7 θ = 0.6 Réduction de la complexité en pire cas pour les POMDPs Étant donné un POMDP à horizon infini avec actions déterministes et respectant l’hypothèse d’observabilité bijective, trouver une politique qui permette d’obtenir une récompense escomptée espérée donnée avec une forte probabilité est ΣP 2k−1. DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
  • 85. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Résultats théoriques obtenus Convergence de l’état de croyance en probabilité 0 10 20 30 40 50 0 0.2 0.4 0.6 0.8 1 K P(bK >1−ε) θ = 0.9 θ = 0.8 θ = 0.7 θ = 0.6 Réduction de la complexité en pire cas pour les DEC-POMDPs Étant donné un DEC-POMDP à horizon infini avec actions déterministes et respectant l’hypothèse d’observabilité bijective, trouver une politique qui permette d’obtenir une récompense escomptée espérée donnée avec une forte probabilité est PSPACE. DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
  • 86. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique Résultats théoriques obtenus NonePartial & Noisy Joint & Perfect Complete & Noisy Complete & Perfect NEXP EXP ΣP poly ⊆ PSPACE ΣP k ΣP 1 = NP P Gap Observability Complexity (M)MDP∞ (M)POMDP DEC-POMDP QDET-POMDP QDET-DEC-POMDP DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
  • 87. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique avec actions stochastiques 0 10 20 30 40 50 0 0.5 1 1.5 2 2.5 3 3.5 σa 2 = .05 σo 2 = 0.12892 θ = 0.92214 K P(bK >1−ε) ±2σ2 ±σ2 Mean DAMASwww.damas.ift.ulaval.ca Camille Besse 18 / 32
  • 88. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Plan 3eme Partie : Observabilité dans les modèles de Markov décentralisés Processus Décisionnel de Markov Partiellement Observable Multiagent Décentralisé dRollout Patrouille Déménageurs DAMASwww.damas.ift.ulaval.ca Camille Besse 19 / 32
  • 89. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O0 1 O0 2 O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 90. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 91. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 b0 1 b0 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 92. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 b0 1 b0 2 b1 1 b1 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 93. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 94. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 95. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Bases sur les POMDPs décentralisés S0 S1 S2 S3 ST O1 1 O1 2 O2 1 O2 2 O3 1 O3 2 b0 1 b0 2 b1 1 b1 2 b2 1 b2 2 b3 1 b3 2 A 1 1 A 1 2 A 2 1 A 2 2 A 3 1 A 3 2 A T 1 A T 2 Agent 1 Agent 2 DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
  • 96. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 97. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 aa oa ob DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 98. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 b1ba 1 b1bb 1 aa oa ob ab oa ob DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 99. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 b1ba 1 b1bb 1 b1ca 1 b1cb 1 aa oa ob ab oa ob ac oa ob DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 100. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 b1ba 1 b1bb 1 b1ca 1 b1cb 1 V(bTaa 1 ) V(bTab 1 ) V(bTba 1 ) V(bTbb 1 ) V(bTca 1 ) V(bTcb 1 ) aa oa ob ab oa ob ac oa ob H(b1aa 1 ) H(b1ab 1 ) H(b1ba 1 ) H(b1bb 1 ) H(b1ca 1 ) H(b1cb 1 ) DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 101. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 b1ba 1 b1bb 1 b1ba 1 b1bb 1 b1ca 1 b1cb 1 V(bTaa 1 ) V(bTab 1 ) V(bTba 1 ) V(bTbb 1 ) V(bTca 1 ) V(bTcb 1 ) V(bTba 1 ) V(bTbb 1 ) aa oa ob ab oa ob ab oa ob ac oa ob H(b1aa 1 ) H(b1ab 1 ) H(b1ba 1 ) H(b1bb 1 ) H(b1ca 1 ) H(b1cb 1 ) H(b1ba 1 ) H(b1bb 1 ) DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 102. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Algorithme de Rollout décentralisé b0 1 b1aa 1 b1ab 1 b1ba 1 b1bb 1 b1ba 1 b1bb 1 b1ca 1 b1cb 1 V(bTaa 1 ) V(bTab 1 ) V(bTba 1 ) V(bTbb 1 ) V(bTca 1 ) V(bTcb 1 ) V(bTba 1 ) V(bTbb 1 ) aa oa ob ab oa ob ab oa ob ac oa ob H(b1aa 1 ) H(b1ab 1 ) H(b1ba 1 ) H(b1bb 1 ) H(b1ca 1 ) H(b1cb 1 ) H(b1ba 1 ) H(b1bb 1 ) b0 2 b1aa 2 b1ab 2 b1ba 2 b1bb 2 b1ca 2 b1cb 2 V(bTaa 2 ) V(bTab 2 ) V(bTba 2 ) V(bTbb 2 ) V(bTca 2 ) V(bTcb 2 ) aa oa ob ab oa ob ac oa ob H(b1aa 1 ) H(b1ab 1 ) H(b1ba 1 ) H(b1bb 1 ) H(b1ca 1 ) H(b1cb 1 ) DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
  • 103. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Planification en ligne avec observabilité décentralisée et sans communication Observation la plus probable oi ← oi , o−i où o−i = arg max o−i ∈Ω−i O( oi , o−i |a, s )bt i (s ) bt+1 i (s ) = O(oi |a, s ) s∈S T (s |s, a)bt i (s) s,s ∈S O(oi |a, s )T (s |s, a)bt i (s) (1) DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
  • 104. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Planification en ligne avec observabilité décentralisée et sans communication Observation la plus probable oi ← oi , o−i où o−i = arg max o−i ∈Ω−i O( oi , o−i |a, s )bt i (s ) bt+1 i (s ) = O(oi |a, s ) s∈S T (s |s, a)bt i (s) s,s ∈S O(oi |a, s )T (s |s, a)bt i (s) (1) Observation espérée ( ) bt+1 i (s ) = o−i ∈Ω−i O(o|a, s ) s∈S T (s |s, a)bt i (s) s,s ∈S O(o|a, s )T (s |s, a)bt i (s) , o = oi , o−i (2) DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
  • 105. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Planification en ligne avec observabilité décentralisée et sans communication Observation la plus probable bt+1 i (s ) = max o−i bt+1 i (s ) (1) Observation espérée ( ) bt+1 i (s ) = o−i ∈Ω−i O(o|a, s ) s∈S T (s |s, a)bt i (s) s,s ∈S O(o|a, s )T (s |s, a)bt i (s) , o = oi , o−i (2) DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
  • 106. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Planification en ligne avec observabilité décentralisée et sans communication Observation la plus probable bt+1 i (s ) = max o−i bt+1 i (s ) (1) Observation espérée ( ) bt+1 i (s ) = Eo−i bt+1 i (s ) (2) DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
  • 107. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Résultats expérimentaux Problème du déménageurs +10 +100 +10 DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
  • 108. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats Résultats expérimentaux Problème du déménageurs -60 -40 -20 0 20 40 60 5 10 15 AAR Horizon MDP MDP* IMBDP IMBDP* Rollout Rollout* (a) Value vs Horizon 1 10 100 1000 10000 100000 5 10 15 Timeperstep(ms) Horizon MDP* IMBDP* Rollout* (b) Time (s) vs Horizon DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
  • 109. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Plan 4eme partie : Applications des outils développés Processus Décisionnel de Markov Partiellement Observable Multiagent Quasi-Déterministe + Bornes PAC PatrouilleDirigeable DAMASwww.damas.ift.ulaval.ca Camille Besse 24 / 32
  • 110. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Groupe de patrouille autonome – J.S. Marier DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
  • 111. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Groupe de patrouille autonome – J.S. Marier 0.2 1.0 1.5 1.0 0.5 DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
  • 112. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Groupe de patrouille autonome – J.S. Marier Les agents : Sont contraints dans leurs actions par un graphe de localisations à surveiller aussi souvent que possible ; Observent avec certitude leur position et communiquent celle-ci aux autre agents ; Peuvent communiquer leur état local et leur politique locale avec une fréquence suffisamment élevée ; N’ont pas accès à l’information qu’ils surveillent. DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
  • 113. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Groupe de patrouille autonome – J.S. Marier (c) Wheel 0 (d) Cloverleaf (e) Cuboctahedron (f) Map-A (g) Map-B DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
  • 114. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Groupe de patrouille autonome – J.S. Marier 0 100 200 300 400 500 600 700 Wheel Clover Cubo Map-A Map-B C-AEMS Reactive (h) AAR 1,00E-05 1,00E-04 1,00E-03 1,00E-02 1,00E-01 1,00E+00 1,00E+01 1,00E+02 Wheel Clover Cubo Map-A Map-B C-AEMS Reactive (i) Time(s) DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
  • 115. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Apprentissage de POMDPs continus – P. Dallaire L’agent : Doit maintenir une hauteur relative de zero ; Observe sa hauteur en continu additionnée d’un bruit Gaussien (en cloche) ; Choisis un action monter/descendre en continu ; Ne connaît pas sa dynamique. DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
  • 116. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions en cours Apprentissage de POMDPs continus – P. Dallaire 10 20 30 40 50 60 70 80 90 100 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 Hauteur(m) Nombre de pas d’apprentissage DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
  • 117. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions possibles Extension du modèle MaCSP au multiagent Représentations des interactions agents par contraintes Étude des modèles d’observabilité bijective avec transition stochastique et étude de l’équilibre génération / absorption d’entropie Extension des modèles d’observabilité bijective aux POMDPs continus Étude de la communication pour la synchronisation en ligne des états de croyance À quel moment et quoi communiquer ? DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
  • 118. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions possibles Extension du modèle MaCSP au multiagent Représentations des interactions agents par contraintes Étude des modèles d’observabilité bijective avec transition stochastique et étude de l’équilibre génération / absorption d’entropie Extension des modèles d’observabilité bijective aux POMDPs continus Étude de la communication pour la synchronisation en ligne des états de croyance À quel moment et quoi communiquer ? DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
  • 119. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions possibles Extension du modèle MaCSP au multiagent Représentations des interactions agents par contraintes Étude des modèles d’observabilité bijective avec transition stochastique et étude de l’équilibre génération / absorption d’entropie Extension des modèles d’observabilité bijective aux POMDPs continus Étude de la communication pour la synchronisation en ligne des états de croyance À quel moment et quoi communiquer ? DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
  • 120. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles Extensions possibles Extension du modèle MaCSP au multiagent Représentations des interactions agents par contraintes Étude des modèles d’observabilité bijective avec transition stochastique et étude de l’équilibre génération / absorption d’entropie Extension des modèles d’observabilité bijective aux POMDPs continus Étude de la communication pour la synchronisation en ligne des états de croyance À quel moment et quoi communiquer ? DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
  • 121. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Légende Modèle Existant DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 122. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Légende Modèle Existant Modèle Proposé DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 123. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens NEREUS Légende Modèle Existant Modèle Proposé Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 124. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens R-FRTDP NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 125. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens R-FRTDP + Bornes NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 126. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable R-FRTDP + Bornes NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 127. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 128. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 129. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP + Bornes + Bornes PAC NEREUS Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 130. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP dRollout + Bornes + Bornes PAC NEREUS Déménageurs Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 131. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Rappel des Contributions Processus Décisionnel de Markov Problèmes de Satisfaction de Contraintes Markoviens Partiellement Observable Quasi-Déterministe Multiagent Décentralisé R-FRTDP dRollout + Bornes + Bornes PAC NEREUS Patrouille Déménageurs Légende Modèle Existant Modèle Proposé Algorithme Problème DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
  • 132. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 133. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 134. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 135. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 136. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 137. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 138. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 139. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion Conclusion Abandon des concepts d’intentions, engagements. On ne raisonne que sur la valeur. Meilleur précision sur l’optimalité de la planification Pouvoir de modélisation très large Extrêmement sensible au modèle utilisé Extrêmement sensible à la définition de la fonction de récompense Problèmes très difficile à résoudre sans approximations Multiplication de modèles spécifiques plus faciles à résoudre ¯ Prendre en compte la spécificité du problème dans la modélisation est indispensable DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
  • 140. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Questions Merci de votre attention ? ? ? DAMASwww.damas.ift.ulaval.ca Camille Besse 30 / 32
  • 141. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bibliography Articles comme premier auteur Camille Besse and Brahim Chaib-draa. An Efficient Model for Dynamic and Constrained Resource Allocation Problems. In Proc. of the 2nd Inter. Workshop on Constraint Satisfaction Techniques for Planning and Scheduling Problems, September 2007. Camille Besse and Brahim Chaib-draa. Parallel Rollout for Online Solution of Dec-POMDP. In Proc. of 21st Inter. FLAIRS Conf., May 2008. Camille Besse and Brahim Chaib-draa. Quasi-Deterministic Partially Observable Markov Decision Processes. In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 237–246, December 2009. Camille Besse and Brahim Chaib-draa. Quasi-Deterministic POMDPs and Dec-POMDPs. In Proc. of 9th Inter. Conf. On Autonomous Agents and MultiAgent Systems (Extended Abstract), May 2010. Camille Besse and Brahim Chaib-draa. Quasi-Deterministic POMDPs and Dec-POMDPs. In Proc. of 5th Inter. Workshop On Multiagent Sequential Decision Making in Uncertain Domains, May 2010. Camille Besse, Pierrick Plamondon, and Brahim Chaib-draa. R-FRTDP. A Real-Time DP Algorithm with Tight Bounds for a Stochastic Resource Allocation Problem. In Proc. of the 20th Canadian Conf. on Artificial Intelligence, May 2007. DAMASwww.damas.ift.ulaval.ca Camille Besse 31 / 32
  • 142. Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bibliography Articles comme second auteur Patrick Dallaire, Camille Besse, and Brahim Chaib-draa. Learning Gaussian Process Models from Uncertain Data. In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 433–440, December 2009. Patrick Dallaire, Camille Besse, and Brahim Chaib-draa. Approximate Inference of Latent Functions from Uncertain Data with Gaussian Processes. Neurocomputing, page To appear, 201X. Patrick Dallaire, Camille Besse, Stéphane Ross, and Brahim Chaib-draa. Bayesian Reinforcement Learning in POMDPs with Gaussian Processes. In Proc. of the Inter. Conf. on Intelligent Robots and Systems, 2009. Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa. A Markov Model for Multiagent Patrolling in Continuous Time. In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 648–656, December 2009. Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa. Solving the Continuous Time Multiagent Patrol Problem. In Proc. of 2010 IEEE Inter. Conf. on Robotics and Automation, 2010. DAMASwww.damas.ift.ulaval.ca Camille Besse 32 / 32