1. ΑΝΑΠΤΥΞΗ ΤΕΧΝΙΚΩΝ ΕΞΑΤΟΜΙΚΕΥΣΗΣ ΤΩΝ
ΔΙΕΠΑΦΩΝ ΚΑΙ ΠΡΟΒΟΛΩΝ ΗΛΕΚΤΡΟΝΙΚΟΥ
ΚΑΤΑΣΤΗΜΑΤΟΣ ΚΑΝΟΝΤΑΣ ΧΡΗΣΗ
ΑΝΑΛΥΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΩΝ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
Μανιάδης Μεταξάς Ιωάννης
AEM 7472
Επιβλέποντες:
Επίκουρος Καθηγητής κ. Συμεωνίδης Ανδρέας
Μεταδιδακτορικός ερευνητής κ. Βαβλιάκης Κωνσταντίνος
2. Εισαγωγή
Την τελευταία δεκαετία παρατηρείται:
Αύξηση εμπορικής δραστηριότητας μέσω
ίντερνετ
Αύξηση υπολογιστικής ισχύος διαθέσιμης με
μικρότερο κόστος
Αύξηση της τάσης για καταγραφή των
ανθρώπινων δραστηριοτήτων (Big Data)
3. Εισαγωγή
Την τελευταία δεκαετία παρατηρείται:
Αύξηση εμπορικής δραστηριότητας μέσω
ίντερνετ
Αύξηση υπολογιστικής ισχύος διαθέσιμης με
μικρότερο κόστος
Αύξηση της τάσης για καταγραφή των
ανθρώπινων δραστηριοτήτων (Big Data)
Web Personalization
Ανάλυση των προφίλ των
επισκεπτών και προσαρμογή
της ιστοσελίδας σε αυτούς
4. Πιο σύνηθης μέθοδος: Recommender Systems
Συστήματα που χρησιμοποιούν γνωστά δεδομένα για να κάνουν
εξατομικευμένες προτάσεις ως προς κάθε επισκέπτη για το περιεχόμενο ή/και
την δομή της ιστοσελίδας
Κάνουν χρήση αλγορίθμων μηχανικής εκμάθησης για την εξαγωγή
συμπερασμάτων και την υλοποίηση προβλέψεων/προτάσεων
Εισαγωγή
Την τελευταία δεκαετία παρατηρείται:
Αύξηση εμπορικής δραστηριότητας μέσω
ίντερνετ
Αύξηση υπολογιστικής ισχύος διαθέσιμης με
μικρότερο κόστος
Αύξηση της τάσης για καταγραφή των
ανθρώπινων δραστηριοτήτων (Big Data)
Web Personalization
Ανάλυση των προφίλ των
επισκεπτών και προσαρμογή
της ιστοσελίδας σε αυτούς
5. Εισαγωγή
Βασικά σημεία της εργασίας
Αξιοποίηση ανώνυμων δεδομένων από πραγματικό e-shop (www.pharm24.gr)
Στόχος η αξιοποίηση των δεδομένων για την υλοποίηση ιεραρχημένων προβλέψεων
για τα μελλοντικά ενδιαφέροντα των επισκεπτών
Οι προβλέψεις θα αξιοποιούνται για να επιλέγονται banner για 30 θέσεις της
αρχικής σελίδας του e-shop
Το σύστημα θα τηρεί περιορισμούς χρόνου και υλικού που θέτει το κατάστημα
6. Δομή της εργασίας
Τα δεδομένα υπόκεινται σε επεξεργασία με πρωτότυπη ως προς την βιβλιογραφία
μεθοδολογία
Εφαρμόζονται τεχνικές ομαδοποίησης και μείωσης διαστάσεων για να περιοριστεί ο
όγκος τους και οι απαιτήσεις τους από άποψη υλικού
Δοκιμάζονται διαφορετικοί αλγόριθμοι μηχανικής εκμάθησης, με παραμέτρους που
προκύπτουν από πειράματα ώστε να πληρούν τους περιορισμούς
Συγκρίνονται τα αποτελέσματα για να επιλεχθεί η βέλτιστη λύση
Εισαγωγή
7. Στάδιο 1: Προεπεξεργασία
Διαθέσιμα δεδομένα:
Ένα Unique ID για κάθε επισκέπτη
Τις σελίδες που επισκέφτηκε και πότε (pageviews)
Τις αγορές που έκανε και πότε (αγορές)
Τα tags κάθε προϊόντος και σελίδας του e-shop
Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags
Στάδιο 1: Προεπεξεργασία
8. Στάδιο 1: Προεπεξεργασία
Διαθέσιμα δεδομένα:
Ένα Unique ID για κάθε επισκέπτη
Τις σελίδες που επισκέφτηκε και πότε (pageviews)
Τις αγορές που έκανε και πότε (αγορές)
Τα tags κάθε προϊόντος και σελίδας του e-shop
Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags
Βήμα 1: Χωρίζουμε τις κινήσεις σε sessions
Ένα session περιλαμβάνει όλες τις δράσεις ενός χρήστη που απέχουν από άλλες 2
ώρες
Στάδιο 1: Προεπεξεργασία
9. Στάδιο 1: Προεπεξεργασία
Βήμα 2: Ορίζουμε το ενδιαφέρον (συσχέτιση) κάθε επισκέπτη για κάθε tag για το
ιστορικό του και για τα επιμέρους sessions του
Υπολογίζουμε τον Μ.Ο. των pageviews και των πωλήσεων για κάθε session για κάθε
tag, πολλαπλασιάζοντας αυτό των πωλήσεων με 5
Προσθέτουμε με συντελεστές 2/3 και 4/9 τις συσχετίσεις tag κατώτερης κατηγορίας
στις συσχετίσεις των ανώτερών τους κατά 1 ή 2 επίπεδα αντίστοιχα
Υπολογίζουμε των Μ. Ο. τους και αθροίζουμε τους συντελεστές αυτούς για το
σύνολο των προηγούμενων sessions του επισκέπτη (τιμές ιστορικού) και για το
τελευταίο session (τιμές session)
Αντιστοιχίζουμε κάθε session στο αντίστοιχο ιστορικό του επισκέπτη
Στάδιο 1: Προεπεξεργασία
10. Στάδιο 1: Προεπεξεργασία
Προκύπτει έτσι η παρακάτω διαμόρφωση των δεδομένων
Σε κάθε session και στο ιστορικό που του αντιστοιχεί δίνονται τιμές που
υποδεικνύουν ενδιαφέρον για κάθε tag με τιμές 0 έως 6
Στόχος είναι γνωρίζοντας το ιστορικό του επισκέπτη (input) να προβλέπουμε με
επιτυχία την ιεράρχηση των ενδιαφερόντων του στο επόμενο session (output)
Επιλέγουμε να αξιοποιήσουμε δεδομένα 3 μηνών για το στάδιο της εκπαίδευσης
(training) και 1 μήνα για το στάδιο των δοκιμών (testing)
Στάδιο 1: Προεπεξεργασία
11. Στάδιο 1: Προεπεξεργασία
Βήμα 3: Μείωση Tags
Αφαιρούμε τα tags για τα οποία δεν εντοπίζεται ενδιαφέρον
Αθροίζουμε τις συσχετίσεις για κάθε tag και προκύπτει το παρακάτω αποτέλεσμα
Βάσει του παραπάνω επιλέγουμε αυθαίρετα να κρατήσουμε μόνο τα 500 ισχυρότερα
tags για τα Ιστορικά και τα Sessions
Στάδιο 1: Προεπεξεργασία
12. Στάδιο 1: Προεπεξεργασία
Βήμα 4: Επιχειρούμε επιπλέον μείωση του όγκου των δεδομένων
Δοκιμάζουμε τεχνικές clustering του πακέτου cluster ως προς τα tags και ως προς τους
επισκέπτες
Οι ομαδοποιήσεις είτε εμφάνισαν μεγάλη συγκέντρωση στις μεγαλύτερες ομάδες,
είτε ξεπέρασαν τα όρια μνήμης που έχουν τεθεί
Καταλήγουμε σε χρήση PCA όταν χρειάζεται μείωση διαστάσεων
Στάδιο 1: Προεπεξεργασία
13. Στάδιο 2: Ορισμός Κριτηρίων
Στόχος είναι να προβλέπονται ιεραρχημένα τα 30 tags που θα
ενδιαφέρουν περισσότερο κάθε χρήστη στην επόμενή του επίσκεψη
Περιορισμοί και συνθήκες πειραμάτων
Μας διατίθεται σύστημα με 16GB RAM και 2 υπολογιστικά threads
Πρέπει να εκπαιδεύονται recommenders για τα 500 tags κάθε μήνα και να υλοποιούν
έγκαιρα προβλέψεις για όλους τους επισκέπτες
Θα γίνουν πειράματα μόνο σε αντιπροσωπευτικό δείγμα 200 tags από το σύνολο των
500
Με βάση τα παραπάνω ορίζουμε τα κριτήρια αξιολόγησης των
αποτελεσμάτων των πειραμάτων
14. Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 1: Average Inclusion of Purchases
Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που
συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος
Ορίζουμε το Κριτήριο 1 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό
εξέταση sessions για κάθε αλγόριθμο
Στάδιο 2: Ορισμός Κριτηρίων
15. Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 1: Average Inclusion of Purchases
Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που
συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος
Ορίζουμε το Κριτήριο 1 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό
εξέταση sessions για κάθε αλγόριθμο
Κριτήριο 2: Average Correct Tag Inclusion
Για κάθε session υπολογίζουμε το ποσοστό των tags που ανήκουν στα 30 (ή λιγότερα)
tags για τα οποία έδειξε το μεγαλύτερο ενδιαφέρον ο επισκέπτης και που
συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος
Ορίζουμε το Κριτήριο 2 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό
εξέταση sessions για κάθε αλγόριθμο
Στάδιο 2: Ορισμός Κριτηρίων
16. Στάδιο 2: Ορισμός ΚριτηρίωνΣτάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:
17. Στάδιο 2: Ορισμός Κριτηρίων
Το σφάλμα υπάρχει όσο ένα tag τοποθετείται σε θέση χαμηλότερη
από αυτή που έπρεπε και είναι ανάλογο αυτής της διαφοράς
Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:
18. Στάδιο 2: Ορισμός Κριτηρίων
Όσο πιο σημαντική (πιο κοντά στο 1) είναι η
Σωστή Θέση ενός tag, τόσο μειώνεται η
Cerror, άρα μεγαλώνει το σφάλμα
Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:
19. Στάδιο 2: Ορισμός Κριτηρίων
ΘΠ=Θέση Πρόβλεψης
Αν ΘΠ ≤ 30,
f=ΘΠ
Αλλιώς
f=ΘΠ+Cpos(30-ΘΠ)
Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:
20. Στάδιο 2: Ορισμός Κριτηρίων
Υπολογίζουμε τον Μ. Ο. των σφαλμάτων σε κάθε session
Υπολογίζουμε τον Μ. Ο. της μετρικής μεταξύ των session
Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:
21. Στάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 4: Minimum Success Average
Το ποσοστό των sessions που συμπεριλήφθη σωστά στις προτάσεις του
συστήματος τουλάχιστον ένα tag
Κριτήριο 5: Top 10 Inclusion Rate
Το ποσοστό των sessions στα οποία πραγματοποιήθηκαν αγορές, για τα οποία
τουλάχιστον ένα από τα tags που αγοράστηκαν συμπεριλήφθηκε στις 10 πρώτες
προτάσεις του συστήματος
Κριτήριο 6: False Negatives Per Tag
Το ποσοστό των περιπτώσεων για κάθε tag που θα έπρεπε να είναι στις προτάσεις
του συστήματος αλλά έχει απορριφθεί
Στάδιο 2: Ορισμός Κριτηρίων
22. Στάδιο 3: Περιγραφή Πειραμάτων
Οι παράμετροι των αλγορίθμων προέκυψαν με διαδοχικά πειράματα με 10 tags,
αντιπροσωπευτικά του συνόλου των 200 που θα μας απασχολήσουν, ώστε να μην
υπερβαίνονται οι περιορισμοί χρόνου και υλικού
Όταν οι μεταβλητές εισόδου είναι λιγότερες από 500, σημαίνει ότι εφαρμόστηκε PCA
για την μείωσή τους
Έχουν εξαχθεί στα πλαίσια της εργασίας αποτελέσματα που αφορούν τα πειράματα
με το σύνολο των 200 tags και με τα 100 πιο δημοφιλή από αυτά, αλλά δεν θα
συμπεριληφθούν στην παρουσίαση για λόγους χώρου και χρόνου
23. Στάδιο 3: Περιγραφή Πειραμάτων
Πείραμα 1: Fuzzy Recommenders
Δοκιμάστηκαν διαφορετικές εκδοχές Fuzzy Recommenders του πακέτου frbs
Ο χρόνος που απαιτούσε η υλοποίηση προβλέψεων ήταν απαγορευτικός
Δοκιμάστηκαν μέθοδοι clustering, PCA και προβλέψεων σε δύο στάδια αλλά
απέτυχαν
Η οικογένεια αλγορίθμων Fuzzy Recommenders απορρίφθηκε
Στάδιο 3: Περιγραφή Πειραμάτων
30. Στάδιο 3: Περιγραφή Πειραμάτων
Μεθοδολογίες Benchmarks
Χρησιμοποιούμε τις μεθόδους «Popular» και «User Pref» ως κριτήρια βάσης για την
απόδοση του συστήματος
Popular: Τα tags προτείνονται σε όλους τους επισκέπτες ανάλογα με την συνολική
δημοφιλία τους
User Pref: Τα tags προτείνονται στους επισκέπτες αρχικά ανάλογα με την προτίμηση
που τους έχουν δείξει ιστορικά και έπειτα ανάλογα με την συνολική
δημοφιλία τους
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Popular 0.2643 0.0534 29.9446 0.4537 0.7265
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533
Στάδιο 3: Περιγραφή Πειραμάτων
31. Συγκρίνουμε τους καλύτερους αλγορίθμους, συμπεριλαμβάνοντας 2 μετρικές χρόνου
α) τον χρόνο ανά tag που απαιτεί κάθε μέθοδος για να εκπαιδευτεί και να κάνει
προβλέψεις (Χρόνος Μεθόδου Ανά Tag)
β) τον χρόνο που απαιτεί κάθε μέθοδος για να κάνει μια ολοκληρωμένη
πρόταση για έναν χρήστη για το σύνολο των 500 tags (Χρόνος Πρόβλεψης)
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
32. Συμπεράσματα
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
33. Συμπεράσματα
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest
2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
34. Συμπεράσματα
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest
2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα
3. Εκτός του CF οι άλλοι αλγόριθμοι αποδίδουν πολλοί καλύτερα από τις μεθόδους που
Χρησιμοποιούμε ως benchmarks
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
35. Συμπεράσματα
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας
τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h)
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
36. Συμπεράσματα
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
5. Ο μικρός χρόνος υλοποίησης προβλέψεων είναι τέτοιος που να επιτρέπει
ενδεχομένως την εφαρμογή του συστήματος και σε real time συνθήκες
4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας
τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h)
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
37. Συμπεράσματα
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και
συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της
εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο
tag
38. Συμπεράσματα
6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και
συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της
εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο
tag
7. Εντύπωση προκαλεί ότι οι δενδροειδείς αλγόριθμοι αποδίδουν καλύτερα από αυτούς
των νευρωνικών δικτύων
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα
39. Επεξεργαστήκαμε πραγματικά δεδομένα του pharm24 με έναν πρωτότυπο
τρόπο, εφαρμόζοντας τεχνικές μείωσης του όγκου τους
Δοκιμάσαμε διαφορετικούς αλγορίθμους μηχανικής εκμάθησης υπό
συγκεκριμένους περιορισμούς χρόνου και υλικού
Προτείναμε μετρικές οι οποίες θεωρούμε ότι αξιολογούν ικανοποιητικά
το σύστημα
Συγκρίναμε τα αποτελέσματα και επιλέξαμε αλγόριθμο που απέδωσε
αρκετά ικανοποιητικά ώστε να προτείνουμε την εφαρμογή του
Ανακεφαλαίωση
40. Προτάσεις για Επέκταση & Ανοιχτά Θέματα
Να εφαρμοστούν στα ίδια δεδομένα άλλες αντίστοιχες μέθοδοι που
εμφανίζονται στην βιβλιογραφία και να συγκριθούν
Να δοκιμαστεί η εισαγωγή ενός συντελεστή χρόνου στο στάδιο της
προεπεξεργασίας των δεδομένων
Να δοκιμαστεί η παραμετροποίηση των αλγορίθμων με δυναμικό τρόπο
Να εφαρμοστεί το σύστημα στο e-shop σε περιορισμένη κλίμακα
Να εξεταστεί κατά πόσο μπορεί να εφαρμοστεί σε πραγματικό χρόνο
41. Ευχαριστίες
Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με
την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν
Θα ήθελα να ευχαριστήσω
42. Ευχαριστίες
Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με
την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν
Θα ήθελα να ευχαριστήσω
Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην
διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο
43. Όλους/ες εσάς για την προσοχή σας
Ευχαριστίες
Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με
την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν
Θα ήθελα να ευχαριστήσω
Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην
διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο