ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
Ifigeneia Theodoridou
1. Αναγνώριση γεγονότων σε μεγάλες
συλλογές εικόνων
Μετρικές ομοιότητας για τον εντοπισμό κείμενων που αναφέρονται
στο ίδιο γεγονός
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ
& ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
Εκπόνηση: Επιβλέπων καθηγητής:
Ιφιγένεια Θεοδωρίδου Περικλής Α. Μήτκας
AEM:8075
2. Το πρόβλημα της αναγνώρισης γεγονότων
Feature pivot
Ανίχνευση χαρακτηριστικών (π.χ.
ετικετών) που παρουσιάζουν
ιδιόμορφη συμπεριφορά σε χρονικά ή
χωρικά παράθυρα
Document pivot
Ομαδοποίηση εικόνων, έτσι ώστε κάθε
συστάδα εικόνων να αναφέρεται στο
ίδιο γεγονός
Θεσσαλονίκη, 2018 2
Χώρο-χρονική κατανομή των περιστατικών χρήσης της
ετικέτας bodybuilder
3. Σκοπός της διπλωματικής εργασίας
Θεσσαλονίκη, 2018 3
• Αναγνώριση εικόνων που αναπαριστούν κοινά γεγονότα
• Δημιουργία ενιαίας αναπαράστασης κειμένου
• Ανάπτυξη μετρικών ομοιότητας για τον εντοπισμό εννοιολογικής
συνάφειας μεταξύ κειμένων
Στόχοι
• Ετερογένεια κειμένου ως προς το περιεχόμενο
• Συνωνυμία
• Πολυσημία
Δυσκολίες
5. Εργαλεία
• Βιβλιοθήκη για deep learning
για υλοποίηση σε python
• MongoDB
• Βιβλιοθήκη για επεξεργασία
κειμένου σε python
Θεσσαλονίκη, 2018 5
6. Μεθοδολογία
Σύγκριση εννοιολογικής συνάφειας περιγραφών
Χρήση νευρωνικών δικτύων
Σύγκριση περιγραφών σε
ζευγάρια
Αποτέλεσμα 0 (διαφορετικό
γεγονός) ή 1 (ίδιο γεγονός)
Διανυσματική αναπαράσταση περιγραφής
Δημιουργία διανυσματικής αναπαράστασης
μεμονωμένων λέξεων
Δημιουργία διανυσματικών αναπαραστάσεων
κειμένου από τα μοντέλα νευρωνικών δικτύων
Λήψη περιγραφής – Προ-επεξεργασία
Οι εικόνες αντιπροσωπεύονται από κείμενο
Θεσσαλονίκη, 2018 6
8. Δημιουργία διανυσματικών λέξεων
• Αναπαράσταση λέξεων στον
διανυσματικό χώρο (word
embeddings)
• Κωδικοποίηση γλωσσικών κανόνων
και εννοιολογικών σχέσεων
Αλγόριθμοι word2vec
• Bag-of-words (CBOW)
• Skip-gram
Θεσσαλονίκη, 2018 8
Δισδιάστατη προβολή των διανυσμάτων των χωρών και των πρωτευουσών
όπως προκύπτουν από το μοντέλο Skip-gram
9. Μοντέλο CBOW
• Εύρεση της λέξης στόχου στην πρόταση
δεδομένων των λέξεων πλαισίου -
𝑝(𝑤𝑡|𝑤𝑡−𝑘, … , 𝑤𝑡+𝑘)
• Είσοδος one-hot κωδικοποιημένα διανύσματα
μήκους V (μήκος λεξιλογίου)
• Στόχος η μεγιστοποίηση της πιθανότητας:
𝑡=𝑘
𝐶−𝑘
𝑙𝑜𝑔𝑝
• Διανυσματικές αναπαραστάσεις λέξεων:
𝑊𝑉𝑥𝑁
Θεσσαλονίκη, 2018 9
10. Δομή και λειτουργία των Νευρωνικών Δικτύων
Συνέλιξης (CNN)
Ταξινόμηση κειμένων
• Είσοδος: πίνακας όπου οι γραμμές
είναι οι διανυσματικές
αναπαραστάσεις των λέξεων
• Εφαρμογή 1D φίλτρων ευρείας ή
στενής συνέλιξη
• Επίπεδο συγκέντρωσης (pooling
layer): μέσος όρος ή εύρεση μεγίστου
• Επίπεδο συνένωσης (join layer) –
διανυσματική αναπαράσταση
κειμένου
• Softmax επίπεδο
Θεσσαλονίκη, 2018 10
11. Δομή και λειτουργία Gated Recurrent Unit
• Νευρωνικά δίκτυα με βρόχους επανάληψης (recurrent neural
networks)
• Διατήρηση και απόρριψη πληροφοριών από το παρελθόν
Θεσσαλονίκη, 2018 11
14. Μοντέλο με Νευρωνικά Δίκτυα Συνέλιξης (CNN)
Θεσσαλονίκη, 2018 14
• Δημιουργία χαρτών χαρακτηριστικών του κειμένου μέσω πράξεων συνέλιξης στο 2ο επίπεδο
15. Μοντέλο με Gated Recurrent Units
Θεσσαλονίκη, 2018 15
• Μονάδα GRU με βρόχους επανάληψης για την επιλεκτική διατήρηση και απόρριψη πληροφοριών από
το παρελθόν στο 2ο επίπεδο του νευρωνικού δικτύου
17. Συνδυαστικό μοντέλο: GRU on CNN
Θεσσαλονίκη, 2018 17
• Σύνδεση σε σειρά των δικτύων CNN και GRU
• Το μοντέλο GRU εφαρμόζεται στην έξοδο του CNN
• Το επαναληπτικό μοντέλο δεν εφαρμόζεται σε μεμονωμένες λέξεις όπως στην περίπτωση του απλού
GRU αλλά σε σημασιολογικές δομές που αποτυπώνει το CNN
26. Συμπεράσματα – Περαιτέρω διερεύνηση
• Σημαντική η χρήση προ-εκπαιδευμένων διανυσματικών λέξεων
• Ενθαρρυντικά αποτελέσματα από την χρήση CNN
• Ο σωστός συνδυασμός των αρχιτεκτονικών CNN, RNN βελτιώνει
την ακρίβεια των αποτελεσμάτων
Συμπεράσματα
• Προσθήκη επιπλέον χαρακτηριστικών στο επίπεδο συνένωσης
• Εφαρμογή αλγορίθμου ομαδοποίησης
Μελλοντικές επεκτάσεις
Θεσσαλονίκη, 2018 26
27. Θα ήθελα να ευχαριστήσω ιδιαίτερα τον Μάνο Σχοινά για τη
συνεχή, πολύτιμη βοήθειά και καθοδήγηση του.
Ευχαριστώ για την προσοχή σας
Θεσσαλονίκη, 2018 27
Notes de l'éditeur
Δεν εξετάζουμε απλώς την επικάλυψη κοινών λέξεων
Tokenization, προεπεξεργασία κειμένου
Η δημιουργια διανυσματικών αναπαραστάσεων κειμένου δημιουργείται ταυτόχρονα με την εκμάθηση του same event model
Xt είναι η είσοδος και η h η έξοδος επό την προηγούμενη επανάληψη