SlideShare une entreprise Scribd logo
1  sur  61
Télécharger pour lire hors ligne
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών
Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφορίας και
Υπολογισμών
Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση
Προσαρμοστικών Μηχανισμών Εστίασης και
Βαθέων Νευρωνικών Δικτύων
Διπλωματική Εργασία
Επιβλέποντες:
Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας
Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου
Θεσσαλονίκη, 29 Ιουνίου 2017
Πίνακας Περιεχομένων
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30
Deep RL
Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/
1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik,
Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement
learning», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 3 / 30
Attention Models
lt-1
gt
Glimpse
Sensor
xt
ρ(xt , lt-1)
θg
0
θg
1
θg
2
Glimpse Network : fg( θg )
lt-1
gt
ltat
lt
gt+1
lt+1at+1
ht ht+1
fg(θg)
ht-1
fl(θl)fa(θa)
fh(θh)
fg(θg)
fl(θl)fa(θa)
fh(θh)
xt
ρ(xt , lt-1)lt-1
Glimpse Sensor
A)
B)
C)
(αʹ) Ταξινόμηση Εικόνων με Μηχανισμό
Εστίασης1
Σχήμα: Μοντέλο Αυστηρής Εστίασης
(αʹ) Αναγνώριση Δραστηριοτήτων2
Σχήμα: Μοντέλο Ελαστικής Εστίασης
1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014
2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 4 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.
• Σύγκριση του πράκτορα που προκύπτει με state-of-the-art
αλγορίθμους Ενισχυτικής Μάθησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Πρόβλημα Ενισχυτικής Μάθησης
Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 6 / 30
Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]
Θεώρημα Κλίσης Πολιτικής
Αποδεικνύεται1 ότι:
∇θE [R(τ)] =
[T−1∑
t′=0
∇θ log π (αt′ |st′ ; θ)
T−1∑
t=t′
rt
]
1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement
learning with function approximation», 1999.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
Ασύγχρονος Δράστης με Κριτή
Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C)
1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous
Methods for Deep Reinforcement Learning», 2016.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 8 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Δομή Νευρωνικού Δικτύου
Σχήμα: Νευρωνικό Δίκτυο Πολιτικής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 9 / 30
Προσθήκη Νευρωνικού Δικτύου Ανάδρασης
Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 10 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Δομή Μηχανισμού Εστίασης
Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 11 / 30
Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Υπολογισμός Εξόδου μέσω Δειγματοληψίας
U V
(αʹ) Ταυτοτικός
Μετασχηματισμός
U V
(βʹ) Αφινικός
Μετασχηματισμός
Vc
i =
H∑
n
W∑
m
Uc
nm· max (0, 1 − |xs
i − m|) ·
max (0, 1 − |ys
i − n|)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
Αρχιτεκτονική Μηχανισμού Εστίασης
Σχήμα: Μηχανισμός Εστίασης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 13 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Έξοδος Μηχανισμού Εστίασης
⃗y = ⃗hN(t)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
Μηχανισμός Παύσης
• Μονάδα Παύσης (Halting Unit): hn
t = σ(Wshsn
t + bh)
• Πιθανότητα Παύσης (Halting Probability): pn
t =
{
R(t) n = N(t)
hn
t διαφορετικά
• Υπόλοιπο (Remainder): R(t) = 1 −
∑N(t)−1
n=1 hn
t
• Αριθμός Βημάτων: N(t) = min
{
M, min
{
n′ :
∑n′
n=1 hn
t ≥ 1 − ϵ
}}
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων
• Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t)
• Κόστος Συλλογισμού: τ · P (⃗x) = τ ·
∑T
t=1 ρt
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Catch
Σχήμα: Παράδειγμα παιχνιδιού Catch
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 17 / 30
Τελικές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Αριθμός Νημάτων A3C 16
Ρυθμός Μάθησης η = 10−4
Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5
Απόσβεση Ρυθμού Μάθησης Όχι
Μέγιστος Αριθμός Ματιών 20
tmax 20
Αλγόριθμος Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
Χρήση κοινών στατιστικών του αλγορίθμου
βελτιστοποίησης μεταξύ των νημάτων.
Ναι
Ρυθμός μάθησης Δικτύου Χωρικών
Μετασχηματισμών
10−3
· η
Άνω φράγμα του μέτρου της κλίσης 10
Βάρος όρου Εντροπίας β = 10−2
Βάρος όρου Εντροπίας Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση
βglimpse = 10−2
Ρυθμός Έκπτωσης γ = 0.99
Βάρος συνάρτησης κανονικοποίησης πλέγματος
Δικτύου Χωρικών Μετασχηματισμών
λSTN
Reg = 1.0
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 18 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Pong
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 19 / 30
Αποτελέσματα Εκπαίδευσης στο Pong
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 20 / 30
Πίνακας Αποτελεσμάτων
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού
Δυναμικής Επιλογής
Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης
η = 10−4
IRNN
Χωρίς Μηχανισμό
Εστίασης
- 20.976
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−3
20 20.87
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−4
8 20.46
A3C-GAE LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 20.312
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−7
20 18.79
A3C-GAE LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 17.276
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 21 / 30
Πίνακας Αποτελεσμάτων
(αʹ) Μοντέλο 1ης
Γραμμής
(βʹ) Μοντέλο 2ης
Γραμμής
(γʹ) Μοντέλο 3ης
Γραμμής
(δʹ) Μοντέλο 4ης
Γραμμής
(αʹ) Μοντέλο 5ης
Γραμμής
(βʹ) Μοντέλο 6ης
Γραμμής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 22 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Breakout
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 23 / 30
Αποτελέσματα Εκπαίδευσης στο Breakout
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 24 / 30
Πίνακας Αποτελεσμάτων I
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87
A3C-GAE
Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−3
20 294.1
A3C-GAE
Ρυθμός Μάθησης η = 10−4
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 234.88
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 25 / 30
Πίνακας Αποτελεσμάτων II
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 88.33
A3C-GAE
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 72.032
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 66.418
A3C-GAE
Ρυθμός Μάθησης
η = 5 · 10−5
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 65.808
A3C-GAE
Ρυθμός Μάθησης
η = 5 · 10−5
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 49.234
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 26 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
• Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο
των παιχνιδιών Atari 2600.
• Εμφανίζει ανταγωνιστική συμπεριφορά.
• Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της
μέγιστης δυνατής απόδοσης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.
• Εφαρμογή σε νέα περιβάλλοντα.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Demo
(αʹ) Μηχανισμός Επιλογής βημάτων με
Ενισχυτική Μάθηση
(βʹ) Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 29 / 30
Σας ευχαριστώ για την
προσοχή σας!
Ερωτήσεις;
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Συνάρτηση Βάσης
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Συνάρτηση Βάσης
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)
Αλγόριθμοι Δράστη-Κριτή (Actor-Critic)
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Qπ
(st, at)
]
= Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at)
]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015
Καλύτερη Εξερεύνηση
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at) + β∇θH(π (αt|st; θ))
]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)
LSTM: Long Short-Term Memory
⃗it = σ(Wxi ⃗xt + Whi
⃗ht−1 +⃗bi)
⃗ft = σ(Wxf ⃗xt + Whf
⃗ht−1 +⃗bf)
⃗ot = σ(Wxo ⃗xt + Who
⃗ht−1 +⃗bo)
⃗gt = tanh(Wxg ⃗xt + Whg
⃗ht−1 +⃗bg)
⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt
⃗ht = ⃗ot ⊙ tanh(⃗ct)
Hochreiter and
Schmidhuber, Long
Short-term Memory, 1997
Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης
Πηγή: Chris Olah’s Blog: Understanding LSTM
Networks
http://colah.github.io/posts/
2015-08-Understanding-LSTMs/
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Πιθανές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Ρυθμός
Μάθησης
η =
[
10−5, 10−4
]
με βήμα 10−5
Μέγιστος Αριθμός Ματιών {5, 10, 15, 20}
tmax {5, 10, 20, 32}
Αλγόριθμος
Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
RMSProp Tieleman και Hinton, Lecture
6.5—RmsProp: Divide the gradient by a running
average of its recent magnitude, 2012
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Πιθανές Τιμές Υπέρ-Παραμέτρων II
Υπέρ-Παράμετροι
Ρυθμός μάθησης Δικτύου
Χωρικών Μετασχηματισμών
{
10−3, 10−2, 10−1, 1
}
· η
Άνω φράγμα του μέτρου
της κλίσης
{5, 10}
Βάρος όρου Εντροπίας β =
{
10−2, 10−1, 1
}
Βάρος όρου Εντροπίας
Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με
Ενισχυτική Μάθηση
βglimpse = 10−2
Βάρος συνάρτησης
κανονικοποίησης πλέγματος
Δικτύου Χωρικών
Μετασχηματισμών
λSTN
Reg =
{
10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0
}
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
[1] Εξισώσεις Adam
• mt = β1mt + (1 − β1) gt
• υt = β2υt−1 + (1 − β2) g2
t
• ˆmt = mt
1−(β1)t
• ˆυt = υt
1−(β2)t
• θt+1 = θt − η ˆmt√
ˆυt+ϵ
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30

Contenu connexe

Plus de ISSEL

Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
 

Plus de ISSEL (20)

Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 
Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
 
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
 

Dernier

Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx
Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptxΕπίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx
Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx7gymnasiokavalas
 
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdf
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdfΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdf
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdfChrisa Kokorikou
 
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptxΈκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx7gymnasiokavalas
 
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdf
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdfΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdf
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdfChrisa Kokorikou
 
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptxΟι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx36dimperist
 
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρτας
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας ΆρταςΠαρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρτας
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρταςsdeartas
 
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptxΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx41dimperisteriou
 
Κωνσταντής σημειώσεις κείμενα νεοελληνικής
Κωνσταντής σημειώσεις κείμενα νεοελληνικήςΚωνσταντής σημειώσεις κείμενα νεοελληνικής
Κωνσταντής σημειώσεις κείμενα νεοελληνικήςssuser44c0dc
 
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptx
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptxΞενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptx
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptxDimitraKarabali
 
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptxΗμέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx36dimperist
 
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptx
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptxΠρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptx
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptxntanavara
 
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένη
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένηΗ εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένη
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένηEvangelia Patera
 
Παρουσίαση καλλιτεχνικού θεάματος
Παρουσίαση          καλλιτεχνικού θεάματοςΠαρουσίαση          καλλιτεχνικού θεάματος
Παρουσίαση καλλιτεχνικού θεάματοςDimitra Mylonaki
 
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗ
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗB2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗ
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗChrisa Kokorikou
 
Παρουσίαση καλλιτεχνικού θεάματος
Παρουσίαση                  καλλιτεχνικού θεάματοςΠαρουσίαση                  καλλιτεχνικού θεάματος
Παρουσίαση καλλιτεχνικού θεάματοςDimitra Mylonaki
 
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptx
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptxΕξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptx
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptxntanavara
 
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdfssuser3e0dbe
 
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - Πέννα
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - ΠένναΗ κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - Πέννα
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - ΠένναΣάσα Καραγιαννίδου - Πέννα
 

Dernier (20)

Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx
Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptxΕπίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx
Επίσκεψη μαθητών στην Έκθεση Η Μαγεία των Μοτίβων.pptx
 
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdf
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdfΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdf
ΣΤ2 -ΕΓΩ ΚΑΙ ΣΥ ΜΑΖΙ-ΦΙΛΟΙ ΠΑΝΤΟΤΙΝΟΙ .pdf
 
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptxΈκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx
Έκθεση μαθητικής Ζωγραφικής- Η μαγεία των μοτίβων.pptx
 
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdf
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdfΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdf
ΣΠΑΣΕ ΤΗ ΣΙΩΠΗ ΑΠΟ ΤΟΥΣ ΜΑΘΗΤΕΣ/ΤΡΙΕΣ ΤΟΥ Β2.pdf
 
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptxΟι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx
Οι μικροί αρτοποιοί της Γ τάξης και το ψωμί τους.pptx
 
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρτας
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας ΆρταςΠαρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρτας
Παρουσίαση ομάδας ECOMOBILITY Σχολείου Δεύτερης Ευκαιρίας Άρτας
 
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptxΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx
ΝΕΕΣ ΚΟΥΡΤΙΝΕΣ ΜΕ ΔΩΡΕΑ ΤΟΥ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ.pptx
 
Κωνσταντής σημειώσεις κείμενα νεοελληνικής
Κωνσταντής σημειώσεις κείμενα νεοελληνικήςΚωνσταντής σημειώσεις κείμενα νεοελληνικής
Κωνσταντής σημειώσεις κείμενα νεοελληνικής
 
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptx
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptxΞενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptx
Ξενάγηση στο ιστορικό κέντρο των Ιωαννίνων.pptx
 
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptxΗμέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx
Ημέρα Επιστημών – Επίδειξη πειραμάτων από τους μαθητές.pptx
 
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptx
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptxΠρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptx
Πρόγραμμα - Πάμε μια βόλτα στο φεγγάρι.pptx
 
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένη
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένηΗ εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένη
Η εποχή του Ιουστινιανού-Η ελληνοχριστιανική οικουμένη
 
Παρουσίαση καλλιτεχνικού θεάματος
Παρουσίαση          καλλιτεχνικού θεάματοςΠαρουσίαση          καλλιτεχνικού θεάματος
Παρουσίαση καλλιτεχνικού θεάματος
 
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗ
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗB2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗ
B2 TΑΞΗ -ΜΗΝΥΜΑΤΑ ΓΙΑ ΤΑ ΑΔΕΣΠΟΤΑ.pdf-ΜΑΡΚΕΛΛΑ ΤΣΑΤΣΑΡΩΝΗ
 
Στο μουσείο
Στο                                        μουσείοΣτο                                        μουσείο
Στο μουσείο
 
Παρουσίαση καλλιτεχνικού θεάματος
Παρουσίαση                  καλλιτεχνικού θεάματοςΠαρουσίαση                  καλλιτεχνικού θεάματος
Παρουσίαση καλλιτεχνικού θεάματος
 
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptx
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptxΕξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptx
Εξερευνώντας τα μυστήρια του ουρανού-Παρουσίαση.pptx
 
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf
7. 3. ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ ΤΗΣ ΓΛΩΣΣΑΣ.pdf
 
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - Πέννα
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - ΠένναΗ κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - Πέννα
Η κυρία Αλφαβήτα και τα παιδιά της. Της Σάσας Καραγιαννίδου - Πέννα
 
Λαπμπουκ .pdf
Λαπμπουκ                                                    .pdfΛαπμπουκ                                                    .pdf
Λαπμπουκ .pdf
 

Βασίλειος Χούτας

  • 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση Προσαρμοστικών Μηχανισμών Εστίασης και Βαθέων Νευρωνικών Δικτύων Διπλωματική Εργασία Επιβλέποντες: Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου Θεσσαλονίκη, 29 Ιουνίου 2017
  • 2. Πίνακας Περιεχομένων 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30
  • 3. Deep RL Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/ 1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik, Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement learning», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 3 / 30
  • 4. Attention Models lt-1 gt Glimpse Sensor xt ρ(xt , lt-1) θg 0 θg 1 θg 2 Glimpse Network : fg( θg ) lt-1 gt ltat lt gt+1 lt+1at+1 ht ht+1 fg(θg) ht-1 fl(θl)fa(θa) fh(θh) fg(θg) fl(θl)fa(θa) fh(θh) xt ρ(xt , lt-1)lt-1 Glimpse Sensor A) B) C) (αʹ) Ταξινόμηση Εικόνων με Μηχανισμό Εστίασης1 Σχήμα: Μοντέλο Αυστηρής Εστίασης (αʹ) Αναγνώριση Δραστηριοτήτων2 Σχήμα: Μοντέλο Ελαστικής Εστίασης 1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014 2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 4 / 30
  • 5. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 6. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 7. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. • Σύγκριση του πράκτορα που προκύπτει με state-of-the-art αλγορίθμους Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 8. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 9. Πρόβλημα Ενισχυτικής Μάθησης Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 6 / 30
  • 10. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  • 11. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Θεώρημα Κλίσης Πολιτικής Αποδεικνύεται1 ότι: ∇θE [R(τ)] = [T−1∑ t′=0 ∇θ log π (αt′ |st′ ; θ) T−1∑ t=t′ rt ] 1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement learning with function approximation», 1999. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  • 12. Ασύγχρονος Δράστης με Κριτή Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C) 1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous Methods for Deep Reinforcement Learning», 2016. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 8 / 30
  • 13. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 14. Δομή Νευρωνικού Δικτύου Σχήμα: Νευρωνικό Δίκτυο Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 9 / 30
  • 15. Προσθήκη Νευρωνικού Δικτύου Ανάδρασης Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 10 / 30
  • 16. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 17. Δομή Μηχανισμού Εστίασης Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 11 / 30
  • 18. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  • 19. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Υπολογισμός Εξόδου μέσω Δειγματοληψίας U V (αʹ) Ταυτοτικός Μετασχηματισμός U V (βʹ) Αφινικός Μετασχηματισμός Vc i = H∑ n W∑ m Uc nm· max (0, 1 − |xs i − m|) · max (0, 1 − |ys i − n|) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  • 20. Αρχιτεκτονική Μηχανισμού Εστίασης Σχήμα: Μηχανισμός Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 13 / 30
  • 21. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 22. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 23. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 24. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Έξοδος Μηχανισμού Εστίασης ⃗y = ⃗hN(t) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 25. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  • 26. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 Μηχανισμός Παύσης • Μονάδα Παύσης (Halting Unit): hn t = σ(Wshsn t + bh) • Πιθανότητα Παύσης (Halting Probability): pn t = { R(t) n = N(t) hn t διαφορετικά • Υπόλοιπο (Remainder): R(t) = 1 − ∑N(t)−1 n=1 hn t • Αριθμός Βημάτων: N(t) = min { M, min { n′ : ∑n′ n=1 hn t ≥ 1 − ϵ }} 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  • 27. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  • 28. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων • Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t) • Κόστος Συλλογισμού: τ · P (⃗x) = τ · ∑T t=1 ρt 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  • 29. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 30. Περιγραφή Catch Σχήμα: Παράδειγμα παιχνιδιού Catch Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 17 / 30
  • 31. Τελικές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Αριθμός Νημάτων A3C 16 Ρυθμός Μάθησης η = 10−4 Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5 Απόσβεση Ρυθμού Μάθησης Όχι Μέγιστος Αριθμός Ματιών 20 tmax 20 Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 Χρήση κοινών στατιστικών του αλγορίθμου βελτιστοποίησης μεταξύ των νημάτων. Ναι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών 10−3 · η Άνω φράγμα του μέτρου της κλίσης 10 Βάρος όρου Εντροπίας β = 10−2 Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Ρυθμός Έκπτωσης γ = 0.99 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = 1.0 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 18 / 30
  • 32. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 33. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 19 / 30
  • 34. Αποτελέσματα Εκπαίδευσης στο Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 20 / 30
  • 35. Πίνακας Αποτελεσμάτων Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 20.976 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 20.87 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−4 8 20.46 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 20.312 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 18.79 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 17.276 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 21 / 30
  • 36. Πίνακας Αποτελεσμάτων (αʹ) Μοντέλο 1ης Γραμμής (βʹ) Μοντέλο 2ης Γραμμής (γʹ) Μοντέλο 3ης Γραμμής (δʹ) Μοντέλο 4ης Γραμμής (αʹ) Μοντέλο 5ης Γραμμής (βʹ) Μοντέλο 6ης Γραμμής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 22 / 30
  • 37. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 38. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 23 / 30
  • 39. Αποτελέσματα Εκπαίδευσης στο Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 24 / 30
  • 40. Πίνακας Αποτελεσμάτων I Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87 A3C-GAE Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 294.1 A3C-GAE Ρυθμός Μάθησης η = 10−4 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 234.88 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 25 / 30
  • 41. Πίνακας Αποτελεσμάτων II Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 88.33 A3C-GAE Αριθμός Νημάτων = 32 LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 72.032 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 66.418 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 65.808 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 49.234 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 26 / 30
  • 42. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 43. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  • 44. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. • Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο των παιχνιδιών Atari 2600. • Εμφανίζει ανταγωνιστική συμπεριφορά. • Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της μέγιστης δυνατής απόδοσης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  • 45. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 46. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 47. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 48. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 49. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. • Εφαρμογή σε νέα περιβάλλοντα. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 50. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 51. Demo (αʹ) Μηχανισμός Επιλογής βημάτων με Ενισχυτική Μάθηση (βʹ) Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 29 / 30
  • 52. Σας ευχαριστώ για την προσοχή σας! Ερωτήσεις; Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 53. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 54. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Αλγόριθμοι Δράστη-Κριτή (Actor-Critic) ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Qπ (st, at) ] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 55. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 56. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Καλύτερη Εξερεύνηση ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) + β∇θH(π (αt|st; θ)) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 57. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 58. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) LSTM: Long Short-Term Memory ⃗it = σ(Wxi ⃗xt + Whi ⃗ht−1 +⃗bi) ⃗ft = σ(Wxf ⃗xt + Whf ⃗ht−1 +⃗bf) ⃗ot = σ(Wxo ⃗xt + Who ⃗ht−1 +⃗bo) ⃗gt = tanh(Wxg ⃗xt + Whg ⃗ht−1 +⃗bg) ⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt ⃗ht = ⃗ot ⊙ tanh(⃗ct) Hochreiter and Schmidhuber, Long Short-term Memory, 1997 Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης Πηγή: Chris Olah’s Blog: Understanding LSTM Networks http://colah.github.io/posts/ 2015-08-Understanding-LSTMs/ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 59. Πιθανές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Ρυθμός Μάθησης η = [ 10−5, 10−4 ] με βήμα 10−5 Μέγιστος Αριθμός Ματιών {5, 10, 15, 20} tmax {5, 10, 20, 32} Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 RMSProp Tieleman και Hinton, Lecture 6.5—RmsProp: Divide the gradient by a running average of its recent magnitude, 2012 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 60. Πιθανές Τιμές Υπέρ-Παραμέτρων II Υπέρ-Παράμετροι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών { 10−3, 10−2, 10−1, 1 } · η Άνω φράγμα του μέτρου της κλίσης {5, 10} Βάρος όρου Εντροπίας β = { 10−2, 10−1, 1 } Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = { 10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0 } Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 61. [1] Εξισώσεις Adam • mt = β1mt + (1 − β1) gt • υt = β2υt−1 + (1 − β2) g2 t • ˆmt = mt 1−(β1)t • ˆυt = υt 1−(β2)t • θt+1 = θt − η ˆmt√ ˆυt+ϵ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30