Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Maniadis Ioannis

64 vues

Publié le

UI Personalization in E-Commerce through User Interest Analysis

Publié dans : Formation
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Maniadis Ioannis

  1. 1. ΑΝΑΠΤΥΞΗ ΤΕΧΝΙΚΩΝ ΕΞΑΤΟΜΙΚΕΥΣΗΣ ΤΩΝ ΔΙΕΠΑΦΩΝ ΚΑΙ ΠΡΟΒΟΛΩΝ ΗΛΕΚΤΡΟΝΙΚΟΥ ΚΑΤΑΣΤΗΜΑΤΟΣ ΚΑΝΟΝΤΑΣ ΧΡΗΣΗ ΑΝΑΛΥΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ Μανιάδης Μεταξάς Ιωάννης AEM 7472 Επιβλέποντες: Επίκουρος Καθηγητής κ. Συμεωνίδης Ανδρέας Μεταδιδακτορικός ερευνητής κ. Βαβλιάκης Κωνσταντίνος
  2. 2. Εισαγωγή Την τελευταία δεκαετία παρατηρείται:  Αύξηση εμπορικής δραστηριότητας μέσω ίντερνετ  Αύξηση υπολογιστικής ισχύος διαθέσιμης με μικρότερο κόστος  Αύξηση της τάσης για καταγραφή των ανθρώπινων δραστηριοτήτων (Big Data)
  3. 3. Εισαγωγή Την τελευταία δεκαετία παρατηρείται:  Αύξηση εμπορικής δραστηριότητας μέσω ίντερνετ  Αύξηση υπολογιστικής ισχύος διαθέσιμης με μικρότερο κόστος  Αύξηση της τάσης για καταγραφή των ανθρώπινων δραστηριοτήτων (Big Data) Web Personalization Ανάλυση των προφίλ των επισκεπτών και προσαρμογή της ιστοσελίδας σε αυτούς
  4. 4. Πιο σύνηθης μέθοδος: Recommender Systems Συστήματα που χρησιμοποιούν γνωστά δεδομένα για να κάνουν εξατομικευμένες προτάσεις ως προς κάθε επισκέπτη για το περιεχόμενο ή/και την δομή της ιστοσελίδας Κάνουν χρήση αλγορίθμων μηχανικής εκμάθησης για την εξαγωγή συμπερασμάτων και την υλοποίηση προβλέψεων/προτάσεων Εισαγωγή Την τελευταία δεκαετία παρατηρείται:  Αύξηση εμπορικής δραστηριότητας μέσω ίντερνετ  Αύξηση υπολογιστικής ισχύος διαθέσιμης με μικρότερο κόστος  Αύξηση της τάσης για καταγραφή των ανθρώπινων δραστηριοτήτων (Big Data) Web Personalization Ανάλυση των προφίλ των επισκεπτών και προσαρμογή της ιστοσελίδας σε αυτούς
  5. 5. Εισαγωγή Βασικά σημεία της εργασίας  Αξιοποίηση ανώνυμων δεδομένων από πραγματικό e-shop (www.pharm24.gr)  Στόχος η αξιοποίηση των δεδομένων για την υλοποίηση ιεραρχημένων προβλέψεων για τα μελλοντικά ενδιαφέροντα των επισκεπτών  Οι προβλέψεις θα αξιοποιούνται για να επιλέγονται banner για 30 θέσεις της αρχικής σελίδας του e-shop  Το σύστημα θα τηρεί περιορισμούς χρόνου και υλικού που θέτει το κατάστημα
  6. 6. Δομή της εργασίας  Τα δεδομένα υπόκεινται σε επεξεργασία με πρωτότυπη ως προς την βιβλιογραφία μεθοδολογία  Εφαρμόζονται τεχνικές ομαδοποίησης και μείωσης διαστάσεων για να περιοριστεί ο όγκος τους και οι απαιτήσεις τους από άποψη υλικού  Δοκιμάζονται διαφορετικοί αλγόριθμοι μηχανικής εκμάθησης, με παραμέτρους που προκύπτουν από πειράματα ώστε να πληρούν τους περιορισμούς  Συγκρίνονται τα αποτελέσματα για να επιλεχθεί η βέλτιστη λύση Εισαγωγή
  7. 7. Στάδιο 1: Προεπεξεργασία Διαθέσιμα δεδομένα:  Ένα Unique ID για κάθε επισκέπτη  Τις σελίδες που επισκέφτηκε και πότε (pageviews)  Τις αγορές που έκανε και πότε (αγορές)  Τα tags κάθε προϊόντος και σελίδας του e-shop  Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags Στάδιο 1: Προεπεξεργασία
  8. 8. Στάδιο 1: Προεπεξεργασία Διαθέσιμα δεδομένα:  Ένα Unique ID για κάθε επισκέπτη  Τις σελίδες που επισκέφτηκε και πότε (pageviews)  Τις αγορές που έκανε και πότε (αγορές)  Τα tags κάθε προϊόντος και σελίδας του e-shop  Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags Βήμα 1: Χωρίζουμε τις κινήσεις σε sessions Ένα session περιλαμβάνει όλες τις δράσεις ενός χρήστη που απέχουν από άλλες 2 ώρες Στάδιο 1: Προεπεξεργασία
  9. 9. Στάδιο 1: Προεπεξεργασία Βήμα 2: Ορίζουμε το ενδιαφέρον (συσχέτιση) κάθε επισκέπτη για κάθε tag για το ιστορικό του και για τα επιμέρους sessions του  Υπολογίζουμε τον Μ.Ο. των pageviews και των πωλήσεων για κάθε session για κάθε tag, πολλαπλασιάζοντας αυτό των πωλήσεων με 5  Προσθέτουμε με συντελεστές 2/3 και 4/9 τις συσχετίσεις tag κατώτερης κατηγορίας στις συσχετίσεις των ανώτερών τους κατά 1 ή 2 επίπεδα αντίστοιχα  Υπολογίζουμε των Μ. Ο. τους και αθροίζουμε τους συντελεστές αυτούς για το σύνολο των προηγούμενων sessions του επισκέπτη (τιμές ιστορικού) και για το τελευταίο session (τιμές session)  Αντιστοιχίζουμε κάθε session στο αντίστοιχο ιστορικό του επισκέπτη Στάδιο 1: Προεπεξεργασία
  10. 10. Στάδιο 1: Προεπεξεργασία Προκύπτει έτσι η παρακάτω διαμόρφωση των δεδομένων  Σε κάθε session και στο ιστορικό που του αντιστοιχεί δίνονται τιμές που υποδεικνύουν ενδιαφέρον για κάθε tag με τιμές 0 έως 6  Στόχος είναι γνωρίζοντας το ιστορικό του επισκέπτη (input) να προβλέπουμε με επιτυχία την ιεράρχηση των ενδιαφερόντων του στο επόμενο session (output)  Επιλέγουμε να αξιοποιήσουμε δεδομένα 3 μηνών για το στάδιο της εκπαίδευσης (training) και 1 μήνα για το στάδιο των δοκιμών (testing) Στάδιο 1: Προεπεξεργασία
  11. 11. Στάδιο 1: Προεπεξεργασία Βήμα 3: Μείωση Tags  Αφαιρούμε τα tags για τα οποία δεν εντοπίζεται ενδιαφέρον  Αθροίζουμε τις συσχετίσεις για κάθε tag και προκύπτει το παρακάτω αποτέλεσμα  Βάσει του παραπάνω επιλέγουμε αυθαίρετα να κρατήσουμε μόνο τα 500 ισχυρότερα tags για τα Ιστορικά και τα Sessions Στάδιο 1: Προεπεξεργασία
  12. 12. Στάδιο 1: Προεπεξεργασία Βήμα 4: Επιχειρούμε επιπλέον μείωση του όγκου των δεδομένων  Δοκιμάζουμε τεχνικές clustering του πακέτου cluster ως προς τα tags και ως προς τους επισκέπτες  Οι ομαδοποιήσεις είτε εμφάνισαν μεγάλη συγκέντρωση στις μεγαλύτερες ομάδες, είτε ξεπέρασαν τα όρια μνήμης που έχουν τεθεί  Καταλήγουμε σε χρήση PCA όταν χρειάζεται μείωση διαστάσεων Στάδιο 1: Προεπεξεργασία
  13. 13. Στάδιο 2: Ορισμός Κριτηρίων Στόχος είναι να προβλέπονται ιεραρχημένα τα 30 tags που θα ενδιαφέρουν περισσότερο κάθε χρήστη στην επόμενή του επίσκεψη Περιορισμοί και συνθήκες πειραμάτων  Μας διατίθεται σύστημα με 16GB RAM και 2 υπολογιστικά threads  Πρέπει να εκπαιδεύονται recommenders για τα 500 tags κάθε μήνα και να υλοποιούν έγκαιρα προβλέψεις για όλους τους επισκέπτες  Θα γίνουν πειράματα μόνο σε αντιπροσωπευτικό δείγμα 200 tags από το σύνολο των 500 Με βάση τα παραπάνω ορίζουμε τα κριτήρια αξιολόγησης των αποτελεσμάτων των πειραμάτων
  14. 14. Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 1: Average Inclusion of Purchases  Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος  Ορίζουμε το Κριτήριο 1 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό εξέταση sessions για κάθε αλγόριθμο Στάδιο 2: Ορισμός Κριτηρίων
  15. 15. Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 1: Average Inclusion of Purchases  Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος  Ορίζουμε το Κριτήριο 1 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό εξέταση sessions για κάθε αλγόριθμο Κριτήριο 2: Average Correct Tag Inclusion  Για κάθε session υπολογίζουμε το ποσοστό των tags που ανήκουν στα 30 (ή λιγότερα) tags για τα οποία έδειξε το μεγαλύτερο ενδιαφέρον ο επισκέπτης και που συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος  Ορίζουμε το Κριτήριο 2 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό εξέταση sessions για κάθε αλγόριθμο Στάδιο 2: Ορισμός Κριτηρίων
  16. 16. Στάδιο 2: Ορισμός ΚριτηρίωνΣτάδιο 2: Ορισμός Κριτηρίων Κριτήριο 3: Hierarchy Evaluation Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε session:
  17. 17. Στάδιο 2: Ορισμός Κριτηρίων Το σφάλμα υπάρχει όσο ένα tag τοποθετείται σε θέση χαμηλότερη από αυτή που έπρεπε και είναι ανάλογο αυτής της διαφοράς Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 3: Hierarchy Evaluation Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε session:
  18. 18. Στάδιο 2: Ορισμός Κριτηρίων Όσο πιο σημαντική (πιο κοντά στο 1) είναι η Σωστή Θέση ενός tag, τόσο μειώνεται η Cerror, άρα μεγαλώνει το σφάλμα Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 3: Hierarchy Evaluation Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε session:
  19. 19. Στάδιο 2: Ορισμός Κριτηρίων ΘΠ=Θέση Πρόβλεψης Αν ΘΠ ≤ 30, f=ΘΠ Αλλιώς f=ΘΠ+Cpos(30-ΘΠ) Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 3: Hierarchy Evaluation Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε session:
  20. 20. Στάδιο 2: Ορισμός Κριτηρίων  Υπολογίζουμε τον Μ. Ο. των σφαλμάτων σε κάθε session  Υπολογίζουμε τον Μ. Ο. της μετρικής μεταξύ των session Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 3: Hierarchy Evaluation Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε session:
  21. 21. Στάδιο 2: Ορισμός Κριτηρίων Κριτήριο 4: Minimum Success Average Το ποσοστό των sessions που συμπεριλήφθη σωστά στις προτάσεις του συστήματος τουλάχιστον ένα tag Κριτήριο 5: Top 10 Inclusion Rate Το ποσοστό των sessions στα οποία πραγματοποιήθηκαν αγορές, για τα οποία τουλάχιστον ένα από τα tags που αγοράστηκαν συμπεριλήφθηκε στις 10 πρώτες προτάσεις του συστήματος Κριτήριο 6: False Negatives Per Tag Το ποσοστό των περιπτώσεων για κάθε tag που θα έπρεπε να είναι στις προτάσεις του συστήματος αλλά έχει απορριφθεί Στάδιο 2: Ορισμός Κριτηρίων
  22. 22. Στάδιο 3: Περιγραφή Πειραμάτων  Οι παράμετροι των αλγορίθμων προέκυψαν με διαδοχικά πειράματα με 10 tags, αντιπροσωπευτικά του συνόλου των 200 που θα μας απασχολήσουν, ώστε να μην υπερβαίνονται οι περιορισμοί χρόνου και υλικού  Όταν οι μεταβλητές εισόδου είναι λιγότερες από 500, σημαίνει ότι εφαρμόστηκε PCA για την μείωσή τους  Έχουν εξαχθεί στα πλαίσια της εργασίας αποτελέσματα που αφορούν τα πειράματα με το σύνολο των 200 tags και με τα 100 πιο δημοφιλή από αυτά, αλλά δεν θα συμπεριληφθούν στην παρουσίαση για λόγους χώρου και χρόνου
  23. 23. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 1: Fuzzy Recommenders  Δοκιμάστηκαν διαφορετικές εκδοχές Fuzzy Recommenders του πακέτου frbs  Ο χρόνος που απαιτούσε η υλοποίηση προβλέψεων ήταν απαγορευτικός  Δοκιμάστηκαν μέθοδοι clustering, PCA και προβλέψεων σε δύο στάδια αλλά απέτυχαν  Η οικογένεια αλγορίθμων Fuzzy Recommenders απορρίφθηκε Στάδιο 3: Περιγραφή Πειραμάτων
  24. 24. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 2: Artificial Neural Networks (ANN) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Σε όλες τις περιπτώσεις έχουμε 1 κρυφό layer Βήματα Νευρώνες Μήνες Δειγμάτων Μεταβλητές Εισόδου Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 ΑΝΝ.1 2000 1 1 500 0.5003 0.134 15.467 0.8812 0.9416 ΑΝΝ.2 800 5 1 500 0.4548 0.1266 16.3361 0.8717 0.9404 ΑΝΝ.3 400 1 3 500 0.5304 0.1402 15.0031 0.8948 0.9355 ΑΝΝ.4 200 5 3 500 0.4498 0.1276 16.4557 0.8666 0.9343 ANN.5 3000 10 1 150 0.4910 0.1314 15.803 0.8847 0.9470 Στάδιο 3: Περιγραφή Πειραμάτων
  25. 25. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 2: Artificial Neural Networks (ANN) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Σε όλες τις περιπτώσεις έχουμε 1 κρυφό layer Βήματα Νευρώνες Μήνες Δειγμάτων Μεταβλητές Εισόδου Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 ΑΝΝ.1 2000 1 1 500 0.5003 0.134 15.467 0.8812 0.9416 ΑΝΝ.2 800 5 1 500 0.4548 0.1266 16.3361 0.8717 0.9404 ΑΝΝ.3 400 1 3 500 0.5304 0.1402 15.0031 0.8948 0.9355 ΑΝΝ.4 200 5 3 500 0.4498 0.1276 16.4557 0.8666 0.9343 ANN.5 3000 10 1 150 0.4910 0.1314 15.803 0.8847 0.9470 Στάδιο 3: Περιγραφή Πειραμάτων
  26. 26. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 3: Random Forest (RF) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Δέντρα Μήνες Δειγμάτων Μεταβλητές Εισόδου Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 RF.1 250 1 100 0.5743 0.1505 13.6726 0.8996 0.9608 RF.2 500 1 50 0.579 0.1520 13.5386 0.9005 0.9614 Στάδιο 3: Περιγραφή Πειραμάτων
  27. 27. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 3: Random Forest (RF) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Δέντρα Μήνες Δειγμάτων Μεταβλητές Εισόδου Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 RF.1 250 1 100 0.5743 0.1505 13.6726 0.8996 0.9608 RF.2 500 1 50 0.579 0.1520 13.5386 0.9005 0.9614 Στάδιο 3: Περιγραφή Πειραμάτων
  28. 28. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 4: Tree Recommender (TR) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Μήνες Δειγμάτων Μεταβλητές Εισόδου Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 TR.1 1 500 0.5482 0.1493 13.4499 0.9057 0.9592 TR.2 3 500 0.5477 0.1496 13.6361 0.906 0.9575 Στάδιο 3: Περιγραφή Πειραμάτων
  29. 29. Στάδιο 3: Περιγραφή Πειραμάτων Πείραμα 5: Collaborative Filtering (CF) Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα Μήνες Δειγμάτων Μεταβλητές Εισόδου Μέθοδος Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 CF.1 1 500 UBCF 0.2491 0.0629 29.0284 0.5454 0.6791 Στάδιο 3: Περιγραφή Πειραμάτων
  30. 30. Στάδιο 3: Περιγραφή Πειραμάτων Μεθοδολογίες Benchmarks Χρησιμοποιούμε τις μεθόδους «Popular» και «User Pref» ως κριτήρια βάσης για την απόδοση του συστήματος Popular: Τα tags προτείνονται σε όλους τους επισκέπτες ανάλογα με την συνολική δημοφιλία τους User Pref: Τα tags προτείνονται στους επισκέπτες αρχικά ανάλογα με την προτίμηση που τους έχουν δείξει ιστορικά και έπειτα ανάλογα με την συνολική δημοφιλία τους Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Popular 0.2643 0.0534 29.9446 0.4537 0.7265 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 Στάδιο 3: Περιγραφή Πειραμάτων
  31. 31. Συγκρίνουμε τους καλύτερους αλγορίθμους, συμπεριλαμβάνοντας 2 μετρικές χρόνου α) τον χρόνο ανά tag που απαιτεί κάθε μέθοδος για να εκπαιδευτεί και να κάνει προβλέψεις (Χρόνος Μεθόδου Ανά Tag) β) τον χρόνο που απαιτεί κάθε μέθοδος για να κάνει μια ολοκληρωμένη πρόταση για έναν χρήστη για το σύνολο των 500 tags (Χρόνος Πρόβλεψης) Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  32. 32. Συμπεράσματα Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  33. 33. Συμπεράσματα Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest 2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  34. 34. Συμπεράσματα Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest 2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα 3. Εκτός του CF οι άλλοι αλγόριθμοι αποδίδουν πολλοί καλύτερα από τις μεθόδους που Χρησιμοποιούμε ως benchmarks Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  35. 35. Συμπεράσματα Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h) Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  36. 36. Συμπεράσματα Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5 Χρόνος Μεθόδου Ανά Tag (h) Χρόνος Πρόβλεψης (ms) Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4 User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2 CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496 TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5 RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181 ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5 5. Ο μικρός χρόνος υλοποίησης προβλέψεων είναι τέτοιος που να επιτρέπει ενδεχομένως την εφαρμογή του συστήματος και σε real time συνθήκες 4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h) Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  37. 37. Συμπεράσματα Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα 6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο tag
  38. 38. Συμπεράσματα 6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο tag 7. Εντύπωση προκαλεί ότι οι δενδροειδείς αλγόριθμοι αποδίδουν καλύτερα από αυτούς των νευρωνικών δικτύων Στάδιο 4: Σύγκριση Αποτελεσμάτων & Συμπεράσματα
  39. 39.  Επεξεργαστήκαμε πραγματικά δεδομένα του pharm24 με έναν πρωτότυπο τρόπο, εφαρμόζοντας τεχνικές μείωσης του όγκου τους  Δοκιμάσαμε διαφορετικούς αλγορίθμους μηχανικής εκμάθησης υπό συγκεκριμένους περιορισμούς χρόνου και υλικού  Προτείναμε μετρικές οι οποίες θεωρούμε ότι αξιολογούν ικανοποιητικά το σύστημα  Συγκρίναμε τα αποτελέσματα και επιλέξαμε αλγόριθμο που απέδωσε αρκετά ικανοποιητικά ώστε να προτείνουμε την εφαρμογή του Ανακεφαλαίωση
  40. 40. Προτάσεις για Επέκταση & Ανοιχτά Θέματα  Να εφαρμοστούν στα ίδια δεδομένα άλλες αντίστοιχες μέθοδοι που εμφανίζονται στην βιβλιογραφία και να συγκριθούν  Να δοκιμαστεί η εισαγωγή ενός συντελεστή χρόνου στο στάδιο της προεπεξεργασίας των δεδομένων  Να δοκιμαστεί η παραμετροποίηση των αλγορίθμων με δυναμικό τρόπο  Να εφαρμοστεί το σύστημα στο e-shop σε περιορισμένη κλίμακα  Να εξεταστεί κατά πόσο μπορεί να εφαρμοστεί σε πραγματικό χρόνο
  41. 41. Ευχαριστίες Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν Θα ήθελα να ευχαριστήσω
  42. 42. Ευχαριστίες Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν Θα ήθελα να ευχαριστήσω Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο
  43. 43. Όλους/ες εσάς για την προσοχή σας Ευχαριστίες Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν Θα ήθελα να ευχαριστήσω Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο

×