19. Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Υπολογισμός Εξόδου μέσω Δειγματοληψίας
U V
(αʹ) Ταυτοτικός
Μετασχηματισμός
U V
(βʹ) Αφινικός
Μετασχηματισμός
Vc
i =
H∑
n
W∑
m
Uc
nm· max (0, 1 − |xs
i − m|) ·
max (0, 1 − |ys
i − n|)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
23. Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
24. Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Έξοδος Μηχανισμού Εστίασης
⃗y = ⃗hN(t)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
25. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
26. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
Μηχανισμός Παύσης
• Μονάδα Παύσης (Halting Unit): hn
t = σ(Wshsn
t + bh)
• Πιθανότητα Παύσης (Halting Probability): pn
t =
{
R(t) n = N(t)
hn
t διαφορετικά
• Υπόλοιπο (Remainder): R(t) = 1 −
∑N(t)−1
n=1 hn
t
• Αριθμός Βημάτων: N(t) = min
{
M, min
{
n′ :
∑n′
n=1 hn
t ≥ 1 − ϵ
}}
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
27. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
28. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων
• Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t)
• Κόστος Συλλογισμού: τ · P (⃗x) = τ ·
∑T
t=1 ρt
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
43. Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
44. Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
• Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο
των παιχνιδιών Atari 2600.
• Εμφανίζει ανταγωνιστική συμπεριφορά.
• Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της
μέγιστης δυνατής απόδοσης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
59. Πιθανές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Ρυθμός
Μάθησης
η =
[
10−5, 10−4
]
με βήμα 10−5
Μέγιστος Αριθμός Ματιών {5, 10, 15, 20}
tmax {5, 10, 20, 32}
Αλγόριθμος
Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
RMSProp Tieleman και Hinton, Lecture
6.5—RmsProp: Divide the gradient by a running
average of its recent magnitude, 2012
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30