Maniadis Ioannis

ΑΝΑΠΤΥΞΗ ΤΕΧΝΙΚΩΝ ΕΞΑΤΟΜΙΚΕΥΣΗΣ ΤΩΝ
ΔΙΕΠΑΦΩΝ ΚΑΙ ΠΡΟΒΟΛΩΝ ΗΛΕΚΤΡΟΝΙΚΟΥ
ΚΑΤΑΣΤΗΜΑΤΟΣ ΚΑΝΟΝΤΑΣ ΧΡΗΣΗ
ΑΝΑΛΥΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΩΝ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
Μανιάδης Μεταξάς Ιωάννης
AEM 7472
Επιβλέποντες:
Επίκουρος Καθηγητής κ. Συμεωνίδης Ανδρέας
Μεταδιδακτορικός ερευνητής κ. Βαβλιάκης Κωνσταντίνος

Εισαγωγή
Την τελευταία δεκαετία παρατηρείται:
 Αύξηση εμπορικής δραστηριότητας μέσω
ίντερνετ
 Αύξηση υπολογιστικής ισχύος διαθέσιμης με
μικρότερο κόστος
 Αύξηση της τάσης για καταγραφή των
ανθρώπινων δραστηριοτήτων (Big Data)

Εισαγωγή
ίντερνετ
Web Personalization
Ανάλυση των προφίλ των
επισκεπτών και προσαρμογή
της ιστοσελίδας σε αυτούς

Πιο σύνηθης μέθοδος: Recommender Systems
Συστήματα που χρησιμοποιούν γνωστά δεδομένα για να κάνουν
εξατομικευμένες προτάσεις ως προς κάθε επισκέπτη για το περιεχόμενο ή/και
την δομή της ιστοσελίδας
Κάνουν χρήση αλγορίθμων μηχανικής εκμάθησης για την εξαγωγή
συμπερασμάτων και την υλοποίηση προβλέψεων/προτάσεων
Εισαγωγή
ίντερνετ
Web Personalization
Ανάλυση των προφίλ των
επισκεπτών και προσαρμογή
της ιστοσελίδας σε αυτούς

Εισαγωγή
Βασικά σημεία της εργασίας
 Αξιοποίηση ανώνυμων δεδομένων από πραγματικό e-shop (www.pharm24.gr)
 Στόχος η αξιοποίηση των δεδομένων για την υλοποίηση ιεραρχημένων προβλέψεων
για τα μελλοντικά ενδιαφέροντα των επισκεπτών
 Οι προβλέψεις θα αξιοποιούνται για να επιλέγονται banner για 30 θέσεις της
αρχικής σελίδας του e-shop
 Το σύστημα θα τηρεί περιορισμούς χρόνου και υλικού που θέτει το κατάστημα

Δομή της εργασίας
 Τα δεδομένα υπόκεινται σε επεξεργασία με πρωτότυπη ως προς την βιβλιογραφία
μεθοδολογία
 Εφαρμόζονται τεχνικές ομαδοποίησης και μείωσης διαστάσεων για να περιοριστεί ο
όγκος τους και οι απαιτήσεις τους από άποψη υλικού
 Δοκιμάζονται διαφορετικοί αλγόριθμοι μηχανικής εκμάθησης, με παραμέτρους που
προκύπτουν από πειράματα ώστε να πληρούν τους περιορισμούς
 Συγκρίνονται τα αποτελέσματα για να επιλεχθεί η βέλτιστη λύση
Εισαγωγή

Στάδιο 1: Προεπεξεργασία
Διαθέσιμα δεδομένα:
 Ένα Unique ID για κάθε επισκέπτη
 Τις σελίδες που επισκέφτηκε και πότε (pageviews)
 Τις αγορές που έκανε και πότε (αγορές)
 Τα tags κάθε προϊόντος και σελίδας του e-shop
 Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags

Διαθέσιμα δεδομένα:
 Ένα Unique ID για κάθε επισκέπτη
 Τις σελίδες που επισκέφτηκε και πότε (pageviews)
 Τις αγορές που έκανε και πότε (αγορές)
 Τα tags κάθε προϊόντος και σελίδας του e-shop
 Τις ιεραρχικές δενδρικές σχέσεις 3 επιπέδων μεταξύ κάποιων εκ των tags
Βήμα 1: Χωρίζουμε τις κινήσεις σε sessions
Ένα session περιλαμβάνει όλες τις δράσεις ενός χρήστη που απέχουν από άλλες 2
ώρες

Βήμα 2: Ορίζουμε το ενδιαφέρον (συσχέτιση) κάθε επισκέπτη για κάθε tag για το
ιστορικό του και για τα επιμέρους sessions του
 Υπολογίζουμε τον Μ.Ο. των pageviews και των πωλήσεων για κάθε session για κάθε
tag, πολλαπλασιάζοντας αυτό των πωλήσεων με 5
 Προσθέτουμε με συντελεστές 2/3 και 4/9 τις συσχετίσεις tag κατώτερης κατηγορίας
στις συσχετίσεις των ανώτερών τους κατά 1 ή 2 επίπεδα αντίστοιχα
 Υπολογίζουμε των Μ. Ο. τους και αθροίζουμε τους συντελεστές αυτούς για το
σύνολο των προηγούμενων sessions του επισκέπτη (τιμές ιστορικού) και για το
τελευταίο session (τιμές session)
 Αντιστοιχίζουμε κάθε session στο αντίστοιχο ιστορικό του επισκέπτη

Προκύπτει έτσι η παρακάτω διαμόρφωση των δεδομένων
 Σε κάθε session και στο ιστορικό που του αντιστοιχεί δίνονται τιμές που
υποδεικνύουν ενδιαφέρον για κάθε tag με τιμές 0 έως 6
 Στόχος είναι γνωρίζοντας το ιστορικό του επισκέπτη (input) να προβλέπουμε με
επιτυχία την ιεράρχηση των ενδιαφερόντων του στο επόμενο session (output)
 Επιλέγουμε να αξιοποιήσουμε δεδομένα 3 μηνών για το στάδιο της εκπαίδευσης
(training) και 1 μήνα για το στάδιο των δοκιμών (testing)

Βήμα 3: Μείωση Tags
 Αφαιρούμε τα tags για τα οποία δεν εντοπίζεται ενδιαφέρον
 Αθροίζουμε τις συσχετίσεις για κάθε tag και προκύπτει το παρακάτω αποτέλεσμα
 Βάσει του παραπάνω επιλέγουμε αυθαίρετα να κρατήσουμε μόνο τα 500 ισχυρότερα
tags για τα Ιστορικά και τα Sessions

Βήμα 4: Επιχειρούμε επιπλέον μείωση του όγκου των δεδομένων
 Δοκιμάζουμε τεχνικές clustering του πακέτου cluster ως προς τα tags και ως προς τους
επισκέπτες
 Οι ομαδοποιήσεις είτε εμφάνισαν μεγάλη συγκέντρωση στις μεγαλύτερες ομάδες,
είτε ξεπέρασαν τα όρια μνήμης που έχουν τεθεί
 Καταλήγουμε σε χρήση PCA όταν χρειάζεται μείωση διαστάσεων

Στάδιο 2: Ορισμός Κριτηρίων
Στόχος είναι να προβλέπονται ιεραρχημένα τα 30 tags που θα
ενδιαφέρουν περισσότερο κάθε χρήστη στην επόμενή του επίσκεψη
Περιορισμοί και συνθήκες πειραμάτων
 Μας διατίθεται σύστημα με 16GB RAM και 2 υπολογιστικά threads
 Πρέπει να εκπαιδεύονται recommenders για τα 500 tags κάθε μήνα και να υλοποιούν
έγκαιρα προβλέψεις για όλους τους επισκέπτες
 Θα γίνουν πειράματα μόνο σε αντιπροσωπευτικό δείγμα 200 tags από το σύνολο των
500
Με βάση τα παραπάνω ορίζουμε τα κριτήρια αξιολόγησης των
αποτελεσμάτων των πειραμάτων

Κριτήριο 1: Average Inclusion of Purchases
 Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που
συμπεριλήφθηκαν στις 30 προτάσεις του συστήματος
 Ορίζουμε το Κριτήριο 1 ως τον Μ. Ο. των ποσοστών αυτών για το σύνολο των υπό
εξέταση sessions για κάθε αλγόριθμο

Κριτήριο 1: Average Inclusion of Purchases
 Για κάθε session υπολογίζουμε το ποσοστό των tags που αγοράστηκαν, που
Κριτήριο 2: Average Correct Tag Inclusion
 Για κάθε session υπολογίζουμε το ποσοστό των tags που ανήκουν στα 30 (ή λιγότερα)
tags για τα οποία έδειξε το μεγαλύτερο ενδιαφέρον ο επισκέπτης και που

Στάδιο 2: Ορισμός ΚριτηρίωνΣτάδιο 2: Ορισμός Κριτηρίων
Κριτήριο 3: Hierarchy Evaluation
Σφάλμα υπάρχει μόνο όταν ένα tag που έπρεπε να είναι στις 30 προβλέψεις έχει
τοποθετηθεί σε θέση χαμηλότερη από αυτή που έπρεπε
Τύπος υπολογισμού της μετρικής για κάθε tag i που ταξινομείται λάθος, σε κάθε
session:

Το σφάλμα υπάρχει όσο ένα tag τοποθετείται σε θέση χαμηλότερη
από αυτή που έπρεπε και είναι ανάλογο αυτής της διαφοράς
session:

Όσο πιο σημαντική (πιο κοντά στο 1) είναι η
Σωστή Θέση ενός tag, τόσο μειώνεται η
Cerror, άρα μεγαλώνει το σφάλμα
session:

ΘΠ=Θέση Πρόβλεψης
Αν ΘΠ ≤ 30,
f=ΘΠ
Αλλιώς
f=ΘΠ+Cpos(30-ΘΠ)
session:

 Υπολογίζουμε τον Μ. Ο. των σφαλμάτων σε κάθε session
 Υπολογίζουμε τον Μ. Ο. της μετρικής μεταξύ των session
session:

Κριτήριο 4: Minimum Success Average
Το ποσοστό των sessions που συμπεριλήφθη σωστά στις προτάσεις του
συστήματος τουλάχιστον ένα tag
Κριτήριο 5: Top 10 Inclusion Rate
Το ποσοστό των sessions στα οποία πραγματοποιήθηκαν αγορές, για τα οποία
τουλάχιστον ένα από τα tags που αγοράστηκαν συμπεριλήφθηκε στις 10 πρώτες
προτάσεις του συστήματος
Κριτήριο 6: False Negatives Per Tag
Το ποσοστό των περιπτώσεων για κάθε tag που θα έπρεπε να είναι στις προτάσεις
του συστήματος αλλά έχει απορριφθεί

Στάδιο 3: Περιγραφή Πειραμάτων
 Οι παράμετροι των αλγορίθμων προέκυψαν με διαδοχικά πειράματα με 10 tags,
αντιπροσωπευτικά του συνόλου των 200 που θα μας απασχολήσουν, ώστε να μην
υπερβαίνονται οι περιορισμοί χρόνου και υλικού
 Όταν οι μεταβλητές εισόδου είναι λιγότερες από 500, σημαίνει ότι εφαρμόστηκε PCA
για την μείωσή τους
 Έχουν εξαχθεί στα πλαίσια της εργασίας αποτελέσματα που αφορούν τα πειράματα
με το σύνολο των 200 tags και με τα 100 πιο δημοφιλή από αυτά, αλλά δεν θα
συμπεριληφθούν στην παρουσίαση για λόγους χώρου και χρόνου

Πείραμα 1: Fuzzy Recommenders
 Δοκιμάστηκαν διαφορετικές εκδοχές Fuzzy Recommenders του πακέτου frbs
 Ο χρόνος που απαιτούσε η υλοποίηση προβλέψεων ήταν απαγορευτικός
 Δοκιμάστηκαν μέθοδοι clustering, PCA και προβλέψεων σε δύο στάδια αλλά
απέτυχαν
 Η οικογένεια αλγορίθμων Fuzzy Recommenders απορρίφθηκε

Πείραμα 2: Artificial Neural Networks (ANN)
Δοκιμάστηκαν αλγόριθμοι με τις παρακάτω παραμέτρους και αποτελέσματα
Σε όλες τις περιπτώσεις έχουμε 1 κρυφό layer
Βήματα Νευρώνες
Μήνες
Δειγμάτων
Μεταβλητές
Εισόδου
Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
ΑΝΝ.1 2000 1 1 500 0.5003 0.134 15.467 0.8812 0.9416
ΑΝΝ.2 800 5 1 500 0.4548 0.1266 16.3361 0.8717 0.9404
ΑΝΝ.3 400 1 3 500 0.5304 0.1402 15.0031 0.8948 0.9355
ΑΝΝ.4 200 5 3 500 0.4498 0.1276 16.4557 0.8666 0.9343
ANN.5 3000 10 1 150 0.4910 0.1314 15.803 0.8847 0.9470

Πείραμα 3: Random Forest (RF)
Δέντρα
Μήνες
Δειγμάτων
Εισόδου
RF.1 250 1 100 0.5743 0.1505 13.6726 0.8996 0.9608
RF.2 500 1 50 0.579 0.1520 13.5386 0.9005 0.9614

Πείραμα 4: Tree Recommender (TR)
Μήνες
Δειγμάτων
Εισόδου
TR.1 1 500 0.5482 0.1493 13.4499 0.9057 0.9592
TR.2 3 500 0.5477 0.1496 13.6361 0.906 0.9575

Πείραμα 5: Collaborative Filtering (CF)
Μήνες Δειγμάτων
Εισόδου
Μέθοδος Κριτήριο 1 Κριτήριο 2 Κριτήριο 3 Κριτήριο 4 Κριτήριο 5
CF.1 1 500 UBCF 0.2491 0.0629 29.0284 0.5454 0.6791

Μεθοδολογίες Benchmarks
Χρησιμοποιούμε τις μεθόδους «Popular» και «User Pref» ως κριτήρια βάσης για την
απόδοση του συστήματος
Popular: Τα tags προτείνονται σε όλους τους επισκέπτες ανάλογα με την συνολική
δημοφιλία τους
User Pref: Τα tags προτείνονται στους επισκέπτες αρχικά ανάλογα με την προτίμηση
που τους έχουν δείξει ιστορικά και έπειτα ανάλογα με την συνολική
δημοφιλία τους
Popular 0.2643 0.0534 29.9446 0.4537 0.7265
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533

Συγκρίνουμε τους καλύτερους αλγορίθμους, συμπεριλαμβάνοντας 2 μετρικές χρόνου
α) τον χρόνο ανά tag που απαιτεί κάθε μέθοδος για να εκπαιδευτεί και να κάνει
προβλέψεις (Χρόνος Μεθόδου Ανά Tag)
β) τον χρόνο που απαιτεί κάθε μέθοδος για να κάνει μια ολοκληρωμένη
πρόταση για έναν χρήστη για το σύνολο των 500 tags (Χρόνος Πρόβλεψης)
Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
Στάδιο 4: Σύγκριση Αποτελεσμάτων &
Συμπεράσματα

Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
1. Ο καλύτερος αλγόριθμος φαίνεται να είναι ο Random Forest

Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα

Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
2. Ο αλγόριθμος Collaborative Filtering αποδίδει ιδιαίτερα άσχημα
3. Εκτός του CF οι άλλοι αλγόριθμοι αποδίδουν πολλοί καλύτερα από τις μεθόδους που
Χρησιμοποιούμε ως benchmarks

Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας
τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h)

Χρόνος
Μεθόδου
Ανά Tag (h)
Χρόνος
Πρόβλεψης
(ms)
Popular 0.2643 0.0534 29.9446 0.4537 0.7265 0.00013 4.4
User Pref 0.3444 0.08144 26.2391 0.6729 0.8533 0.5126 181.2
CF.1 0.2491 0.0629 29.0284 0.5454 0.6791 0.001 496
TR.1 0.5482 0.1493 13.4499 0.9057 0.9592 0.045 47.5
RF.2 0.579 0.1520 13.5386 0.9005 0.9614 0.512 181
ΑΝΝ.3 0.5304 0.1402 15.0031 0.8948 0.9355 1.079 54.5
5. Ο μικρός χρόνος υλοποίησης προβλέψεων είναι τέτοιος που να επιτρέπει
ενδεχομένως την εφαρμογή του συστήματος και σε real time συνθήκες
4. Όλοι οι αλγόριθμοι που δοκιμάσαμε είναι αρκετά κάτω από χρονικό όριο που μας
τέθηκε (Χρόνος Μεθόδου Ανά Tag < 1.44 h)

6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και
συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της
εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο
tag

6. Είναι σαφές από τα διαγράμματα του κριτηρίου 6 για κάθε αλγόριθμο καθώς και
συγκρίνοντας τα αποτελέσματα για προβλέψεις με 100 και 200 tags στο κείμενο της
εργασίας ότι η ποιότητα των προβλέψεων πέφτει όσο λιγότερο δημοφιλές είναι κάποιο
tag
7. Εντύπωση προκαλεί ότι οι δενδροειδείς αλγόριθμοι αποδίδουν καλύτερα από αυτούς
των νευρωνικών δικτύων

 Επεξεργαστήκαμε πραγματικά δεδομένα του pharm24 με έναν πρωτότυπο
τρόπο, εφαρμόζοντας τεχνικές μείωσης του όγκου τους
 Δοκιμάσαμε διαφορετικούς αλγορίθμους μηχανικής εκμάθησης υπό
συγκεκριμένους περιορισμούς χρόνου και υλικού
 Προτείναμε μετρικές οι οποίες θεωρούμε ότι αξιολογούν ικανοποιητικά
το σύστημα
 Συγκρίναμε τα αποτελέσματα και επιλέξαμε αλγόριθμο που απέδωσε
αρκετά ικανοποιητικά ώστε να προτείνουμε την εφαρμογή του
Ανακεφαλαίωση

Προτάσεις για Επέκταση & Ανοιχτά Θέματα
 Να εφαρμοστούν στα ίδια δεδομένα άλλες αντίστοιχες μέθοδοι που
εμφανίζονται στην βιβλιογραφία και να συγκριθούν
 Να δοκιμαστεί η εισαγωγή ενός συντελεστή χρόνου στο στάδιο της
προεπεξεργασίας των δεδομένων
 Να δοκιμαστεί η παραμετροποίηση των αλγορίθμων με δυναμικό τρόπο
 Να εφαρμοστεί το σύστημα στο e-shop σε περιορισμένη κλίμακα
 Να εξεταστεί κατά πόσο μπορεί να εφαρμοστεί σε πραγματικό χρόνο

Ευχαριστίες
Τον κ. Συμεωνίδη και τον κ. Βαβλιάκη για την εμπιστοσύνη που μου έδειξαν με
την ανάθεση του θέματος και την βοήθεια που μου προσέφεραν
Θα ήθελα να ευχαριστήσω

Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην
διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο

Όλους/ες εσάς για την προσοχή σας
Την οικογένεια και φίλους/ες μου που με στήριξαν και ήταν δίπλα μου στην
διαδικασία συγγραφής αυτής της εργασίας και όχι μόνο

Maniadis Ioannis

Recommandé

Recommandé

Contenu connexe

Similaire à Maniadis Ioannis

Similaire à Maniadis Ioannis (20)

Plus de ISSEL

Plus de ISSEL (20)

Dernier

Dernier (20)

Maniadis Ioannis