SlideShare une entreprise Scribd logo
1  sur  32
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού
με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
Ευάγγελος Παπαθωμάς (ΑΕΜ: 8692)
Επιβλέποντες
Ανδρέας Συμεωνίδης, Αναπληρωτής Καθηγητής
Θεμιστοκλής Διαμαντόπουλος, Μεταδιδακτορικός Ερευνητής
Θεσσαλονίκη, 2020
Δομή Παρουσίασης
• Εισαγωγή
• Υλοποίηση του Συστήματος
• Αξιολόγηση του Συστήματος
• Συμπεράσματα και Μελλοντική Εργασία
• Ερωτήσεις
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
2
Ορισμός του Προβλήματος
• Σήμερα, η ανάπτυξη λογισμικού είναι μία πολύπλοκη και χρονοβόρα διαδικασία.
• Πολλές επιλογές (π.χ. APIs, βιβλιοθήκες, εργαλεία κ.α.)
• Ελλιπείς ή προβληματικοί σχολιασμοί.
Πρόβλημα:
• Αύξηση του φόρτου εργασίας των μηχανικών λογισμικού λόγω της μεγάλης δαπάνης χρόνου για την
αναζήτηση παραδειγμάτων κώδικα χρησιμοποιώντας συμβατικές μηχανές αναζήτησης.
Σκοπός της Διπλωματικής:
• Η δημιουργία ενός Συστήματος Προτάσεων στην Τεχνολογία Λογισμικού (Recommendation Systems in
Software Engineering ή RSSE), το οποίο δέχεται ερωτήματα σε φυσική γλώσσα και προτείνει τμήματα
κώδικα υψηλής ποιότητας.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
3
RSSEs στη Βιβλιογραφία
Αδυναμίες υπαρχουσών υλοποιήσεων:
• Δε δέχονται ερωτήματα φυσικής γλώσσας.
• Δεν εκμεταλλεύονται τους σχολιασμούς του κώδικα.
• Δεν πραγματοποιούν σημασιολογική ανάλυση του κώδικα.
• Δεν προτείνουν ολοκληρωμένα τμήματα κώδικα.
• Δεν επιτυγχάνουν υψηλές αποδόσεις όσον αφορά την επιστροφή σχετικών αποτελεσμάτων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
4
Αρχιτεκτονική του CODEtransformer
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
5
Dataset Builder (1/3)
• Επεξεργασία ακατέργαστων δεδομένων φυσικής γλώσσας και κώδικα.
• Δημιουργία καθαρισμένου συνόλου δεδομένων και λεξιλογίων.
CodeSearchNet Corpus:
• 1.569.889 συναρτήσεις Java από αναγνωρισμένα αποθετήρια του GitHub.
• 542.991 από τις συναρτήσεις συνοδεύονται από σχολιασμούς.
• Σχολιασμοί κώδικα ως δεδομένα φυσικής γλώσσας.
• Δεδομένα φυσικής γλώσσας και κώδικα ήδη χωρισμένα σε συμβολοσειρές.
• Χρήσιμα δεδομένα όπως: ονόματα συναρτήσεων, URLs κ.α.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
6
Χαρακτηριστικά Δεδομένα
Σχολιασμός
Simplified method form for
invoking the
ListSSHPublicKeys operation
with an AsyncHandler.
@see
#listSSHPublicKeysAsync(List
SSHPublicKeysRequest,
com.amazonaws.handlers.Asyn
cHandler)
Κώδικας
@Overriden public
java.util.concurrent.Future<List
SSHPublicKeysResult>
listSSHPublicKeysAsync(n
com.amazonaws.handlers.Asyn
cHandler<ListSSHPublicKeysR
equest,
ListSSHPublicKeysResult>
asyncHandler) {nn return
listSSHPublicKeysAsync(new
ListSSHPublicKeysRequest(),
asyncHandler);n }
Dataset Builder (2/3)
Προεπεξεργασία δεδομένων φυσικής γλώσσας:
• Διατήρηση μόνο της πρώτης πρότασης του σχολιασμού.
• Αφαίρεση ειδικών χαρακτήρων (π.χ. !, @).
• Αφαίρεση μη ASCII χαρακτήρων (π.χ. 隠, ¥).
• Διαχωρισμός camelCase συμβολοσειρών (π.χ. stringUtils).
• Αντικατάσταση σχολιασμού με το όνομα της αντίστοιχης συνάρτησης σε καταχωρήσεις με λιγότερες από 6 ή
περισσότερες από 30 συμβολοσειρές.
• Μετατροπή αλφαβητικών χαρακτήρων στους αντίστοιχους πεζούς χαρακτήρες.
Όνομα Συνάρτησης Πριν Μετά
hexStringToByteArray ['--------------------------------------------------------'] ['hex', 'string', 'to', 'byte', 'array']
computeEnumSimply ['仅仅利用了转移矩阵的“维特比”算法'] ['compute', 'enum', 'simply']
getCacheManagerName ['Get', 'the', 'name', 'of', 'a', '{'] ['get', 'cache', 'manager', 'name']
concatWs
['Concatenates', 'input', 'strings', 'together', 'into', 'a',
'single', 'string', 'using', 'the', 'separator', '.', 'A', 'null',
'input', 'is', 'skipped', '.', 'For', 'example', 'concat', '(', 'a',
'null', 'c', ')', 'would', 'yield', 'a', 'c', '.']
['concatenates', 'input', 'strings', 'together', 'into', 'a',
'single', 'string', 'using', 'the', 'separator']
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
7
Dataset Builder (3/3)
Προεπεξεργασία δεδομένων κώδικα:
• Αφαίρεση μη ASCII χαρακτήρων (π.χ. 夏, φ).
• Διαχωρισμός camelCase συμβολοσειρών (π.χ. ArrayList).
• Κωδικοποίηση προγραμματιστικών συμβόλων σε μοναδικές συμβολοσειρές.
• Αφαίρεση ειδικών χαρακτήρων που δε καλύπτονται από το προηγούμενο βήμα.
• Μετατροπή αλφαβητικών χαρακτήρων στους αντίστοιχους πεζούς χαρακτήρες.
Πριν Μετά
['public', 'CorsConfig', 'build', '(', ')', '{', 'if', '(', 'preflightHeaders', '.', 'isEmpty', '(', ')',
'&&', '!', 'noPreflightHeaders', ')', '{', 'preflightHeaders', '.', 'put', '(',
'HttpHeaderNames', '.', 'DATE', ',', 'DateValueGenerator', '.', 'INSTANCE', ')', ';',
'preflightHeaders', '.', 'put', '(', 'HttpHeaderNames', '.', 'CONTENT_LENGTH', ',',
'new', 'ConstantValueGenerator', '(', '"0"', ')', ')', ';', '}', 'return', 'new', 'CorsConfig',
'(', 'this', ')', ';', '}']
['public', 'cors', 'config', 'build', 'openingparenthesis', 'closingparenthesis',
'openingbrace', 'if', 'openingparenthesis', 'preflight', 'headers', 'is', 'empty',
'openingparenthesis', 'closingparenthesis', 'notoperator', 'no', 'preflight', 'headers',
'closingparenthesis', 'openingbrace', 'preflight', 'headers', 'put', 'openingparenthesis',
'http', 'header', 'names', 'date', 'date', 'value', 'generator', 'instance',
'closingparenthesis', 'semicolon', 'preflight', 'headers', 'put', 'openingparenthesis',
'http', 'header', 'names', 'contentlength', 'new', 'constant', 'value', 'generator',
'openingparenthesis', 'closingparenthesis', 'closingparenthesis', 'semicolon',
'closingbrace', 'return', 'new', 'cors', 'config', 'openingparenthesis', 'this',
'closingparenthesis', 'semicolon', 'closingbrace']
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
8
Neural Network (1/9)
Δίκτυο Αντιστοίχισης (Matching Network):
• Αρχιτεκτονική ειδικά κατασκευασμένη για την επίλυση one-shot learning προβλημάτων.
• Χρήση ξεχωριστών κωδικοποιητών.
• Χρήση μετρικής ομοιότητας διανυσμάτων.
• Δημιουργία τετραγωνικού πίνακα τιμών ομοιότητας, με διαγώνια στοιχεία τιμές ομοιότητας θετικών ζευγών.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
9
Neural Network (2/9)
Κωδικοποιητές:
• Χρήση της state-of-the-art αρχιτεκτονικής των Μετασχηματιστών (Transformers).
• Δημιουργία ενσωματώσεων λέξεων (word embeddings).
• Κωδικοποίηση ενσωματώσεων ως προς τη θέση των λέξεων στο κείμενο.
• Χρήση Προσοχής Πολλαπλών Κεφαλών (Multi-Head Attention)
για τη σημασιολογική ανάλυση του εξεταζόμενου κειμένου.
• Χρήση Δικτύου Εμπρόσθιας Διάδοσης (Feed-Forward Network)
για το συνδυασμό πολύπλοκων συντακτικών πληροφοριών.
• Εκβάθυνση του δικτύου με την τριπλή επανάληψη των επιπέδων
Προσοχής Πολλαπλών Κεφαλών και Δικτύου Εμπρόσθιας Διάδοσης.
• Χρήση max pooling για τη δημιουργία ενσωματώσεων προτάσεων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
10
Neural Network (3/9)
Προσοχή Πολλαπλών Κεφαλών:
• Σημαντικές βελτιώσεις σε προβλήματα Νευρωνικής Μηχανικής Μετάφρασης.
• Εστίαση της προσοχής στις πιο κατάλληλες λέξεις του κειμένου.
• Μηχανισμός πολλαπλών κεφαλών για την εξέταση των πληροφοριών με διαφορετικούς τρόπους.
• Σημασιολογική ανάλυση του κειμένου.
Δίκτυο Εμπρόσθιας Διάδοσης:
• Χρήση μη γραμμικών μετασχηματισμών.
• Συνδυασμός πολύπλοκων συντακτικών και γραμματικών πληροφοριών.
• Δημιουργία ενσωματώσεων οι οποίες συμπεριλαμβάνουν τις πληροφορίες των συμφραζομένων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
11
Neural Network (4/9)
Ομοιότητα Επιφάνειας Τριγώνου - Ομοιότητα Επιφάνειας Τομέα:
• Γεωμετρική υβριδική μετρική ομοιότητας.
• Συνδυασμός ευκλείδειας απόστασης, μήκους και γωνίας μεταξύ των διανυσμάτων.
• Διόρθωση όλων των αδυναμιών της ευκλείδειας απόστασης και της ομοιότητας συνημίτονου.
• Όμοια χαρακτηρίζονται διανύσματα με μικρές ή μηδενικές διαφορές στην ευκλείδεια απόσταση, στο μήκος
και στη μεταξύ τους γωνία.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
14
Neural Network (5/9)
Τετραγωνικές Απώλειες Περιθωρίου:
• Επιτρεπτή τιμή περιθωρίου οποιαδήποτε θετική τιμή.
• Η χρήση του τετραγώνου «τιμωρεί» περισσότερο τις μεγάλες και λιγότερο τις μικρές τιμές απωλειών.
• Γρήγορη σύγκλιση στο ολικό ελάχιστο της συνάρτησης.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
16
Neural Network (6/9)
Βελτιστοποιητές (Optimizers):
• Χρήση του βελτιστοποιητή Adam για την εκπαίδευση του δικτύου.
• Εύρεση του βέλτιστου ρυθμού μάθησης με τη χρήση συνάρτησης εκθετικής αύξησης.
• Εκπαίδευση του δικτύου για εκθετικά αυξανόμενο ρυθμό μάθησης.
• Επιλογή ρυθμού μάθησης για τον οποίο υπάρχει απότομη μείωση απωλειών και απότομη αύξηση της
ακρίβειας (accuracy).
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
18
Neural Network (7/9)
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
19
Neural Network (8/9)
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
20
Neural Network (9/9)
Εκπαίδευση (Training):
• Εκπαίδευση του δικτύου για 40 εποχές.
• Αποθήκευση του μοντέλου όταν η τιμή της μετρικής MRR του συνόλου δεδομένων επικύρωσης (validation
dataset) περνά την προηγούμενη καλύτερη τιμή.
Υπερπαράμετρος Τιμή
NUM_LAYERS 3
INPUT_VOCAB_SIZE 10.002
TARGET_VOCAB_SIZE 10.002
INPUT_POSITION 10.002
TARGET_POSITION 10.002
NUM_HEADS 8
DFF 512
D_MODEL 128
RATE 0,1
LEARNING_RATE 3.2e-4
MARGIN 5
EPOCHS 40
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
21
Index Builder
• Χρήση του εργαλείου Annoy του Spotify, το οποίο αποτελεί υλοποίηση του αλγορίθμου Αναζήτησης
Πλησιέστερου Γείτονα (Nearest Neighbor Search).
• Προσεγγιστικός αλγόριθμος για τη μείωση του χρόνου αναζήτησης.
• Κατασκευή διανυσματικού χώρου με τη χρήση δυαδικών δέντρων, όπου κάθε κόμβος ανήκει σε μία
ενσωμάτωση κώδικα.
• Αναζήτηση του πιο όμοιου διανύσματος στο διάνυσμα εισαγωγής στα 10.000 κοντινότερα διανύσματα, έναντι
των 1.569.889 που περιέχονται συνολικά στο διανυσματικό χώρο.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
26
Search Engine (1/3)
• Κατασκευή μίας διαδικτυακής εφαρμογής για την αναζήτηση ερωτημάτων.
• Δημιουργία Γραφικού Περιβάλλοντος Χρήστη για εύκολη προσβασιμότητα.
• Χρήση της υπηρεσίας App Engine της Πλατφόρμας Νέφους της Google (Google Cloud Platform).
• Προεπεξεργασία των εισαγόμενων ερωτημάτων.
• Επιστροφή ολοκληρωμένων τμημάτων κώδικα με τη χρήση του Νευρωνικού Δικτύου και του διανυσματικού
χώρου που κατασκευάστηκε με το εργαλείο Annoy.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
27
Search Engine (2/3)
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
28
Search Engine (3/3)
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
29
Αξιολόγηση του Συστήματος (1/5)
Μετρικές Αξιολόγησης:
• Precision at K (P@K): μετρά τη σχετικότητα των πρώτων Κ αποτελεσμάτων χωρίς να λαμβάνει υπόψη τη
θέση τους στη λίστα αποτελεσμάτων.
𝑃@𝐾 =
𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡
𝐾
• Mean Reciprocal Rank (MRR): μετρά τη θέση του πρώτου σχετικού ερωτήματος που συναντάται στη λίστα
αποτελεσμάτων.
𝑀𝑅𝑅 =
1
𝑄
𝑖=1
𝑄
1
𝑟𝑎𝑛𝑘𝑖
• Normalized Discounted Cumulative Gain (NDCG): μετρά τη σχετικότητα των αποτελεσμάτων λαμβάνοντας
υπόψη τη θέση τους στη λίστα και το βαθμό της σχετικότητάς τους.
𝑁𝐷𝐶𝐺 =
𝐷𝐶𝐺
𝐼𝐷𝐶𝐺
𝐷𝐶𝐺 = 𝑖=1
𝑁 2 𝑟𝑒𝑙 𝑖−1
𝑙𝑜𝑔2 𝑖+1
𝐼𝐷𝐶𝐺 = 𝑖=1
𝑅𝐸𝐿 𝑁 2 𝑟𝑒𝑙 𝑖−1
𝑙𝑜𝑔2 𝑖+1
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
30
Αξιολόγηση του Συστήματος (2/5)
Μέθοδοι Αξιολόγησης:
• Σύγκριση με το παρόμοιο σύστημα CodeSearchNet.
• Σύγκριση των τιμών της MRR στα δεδομένα επικύρωσης και ελέγχου.
• Χρήση των 99 ερωτημάτων με τα οποία αξιολογείται το εν λόγο σύστημα για τον υπολογισμό της
NDCG.
• Υπολογισμός της MRR για κάθε ένα από 99 ερωτήματα.
• Εξέταση των αποτελεσμάτων του CODEtransformer σε ερωτήματα του Stack Overflow.
• Χρήση 40 δημοφιλών ερωτημάτων που αφορούν τη γλώσσα Java.
• Υπολογισμός της P@10 για κάθε ένα από 40 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
31
Σύγκριση με το CodeSearchNet
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
32
Αξιολόγηση του Συστήματος (3/5)
Σύστημα Validation MRR
CodeSearchNet-NBoW 0,4972
CodeSearchNet-1D-CNN 0,4926
CodeSearchNet-biRNN 0,2713
CodeSearchNet-SelfAtt 0,5513
CODEtransformer 0,6260
Η μέτρηση της MRR στο σύνολο δεδομένων επικύρωσης κάθε συστήματος.
Σύστημα Test MRR
CodeSearchNet-NBoW 0,5140
CodeSearchNet-1D-CNN 0,5270
CodeSearchNet-biRNN 0,2865
CodeSearchNet-SelfAtt 0,5866
CODEtransformer 0,6263
Η μέτρηση της MRR στο σύνολο δεδομένων ελέγχου κάθε συστήματος.
Σύστημα NDCG
CodeSearchNet-NBoW 0,1207
CodeSearchNet-1D-CNN 0,1282
CodeSearchNet-biRNN 0,0623
CodeSearchNet-SelfAtt 0,1003
CODEtransformer 0,1028
Η μέτρηση της NDCG σε κάθε σύστημα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
33
Αξιολόγηση του Συστήματος (4/5)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
Η μέτρηση της MRR σε κάθε ένα από τα 99 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
34
Δημοφιλή Ερωτήματα του Stack Overflow
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
35
Αξιολόγηση του Συστήματος (5/5)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Η μέτρηση της P@10 σε κάθε ένα από τα 40 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
36
Συμπεράσματα
• Η χρήση του CODEtransformer εξοικονομεί χρόνο και μειώνει το φόρτο εργασίας.
• Η παρουσίαση ολοκληρωμένων τμημάτων κώδικα επισπεύδει την ανάπτυξη λογισμικού.
• Η προεπεξεργασία και η ποιότητα των δεδομένων επηρεάζουν άμεσα την απόδοση του συστήματος.
• Η αρχιτεκτονική των Μετασχηματιστών πραγματοποιεί βαθιά σημασιολογική ανάλυση.
• Η χρήση της TS-SS εξασφαλίζει πραγματικά όμοιες ενσωματώσεις φυσικής γλώσσας και κώδικα.
• Η διαδικτυακή εφαρμογή επιτρέπει γρήγορη και εύκολη πρόσβαση στο σύστημα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
37
Μελλοντική Εργασία
• Η χρήση πραγματικών ερωτημάτων ως δεδομένα φυσικής γλώσσας, έναντι σχολιασμών κώδικα.
• Η χρήση των ονομάτων των συναρτήσεων σε συνδυασμό με ερωτήματα φυσικής γλώσσας.
• Η χρήση τεχνικών συμπίεσης Νευρωνικών Δικτύων.
• Η βελτίωση του γραφικού περιβάλλοντος της διαδικτυακής εφαρμογής.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
38
Ευχαριστίες
Ευχαριστώ θερμά:
• τον κ. Ανδρέα Συμεωνίδη, για την εμπιστοσύνη που μου έδειξε.
• τον κ. Θεμιστοκλή Διαμαντόπουλο, για τη στήριξη και την καθοδήγησή του.
• την οικογένεια και τους στενούς μου φίλους, για τη βοήθεια και την κατανόησή τους.
• εσάς, για την προσοχή σας.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
39
Ερωτήσεις
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
40

Contenu connexe

Similaire à Evangelos Papathomas: Semantic Code Search in Software Repositories using Neural Machine Translation

Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254ISSEL
 
Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος ISSEL
 
Ioannis Loias
Ioannis LoiasIoannis Loias
Ioannis LoiasISSEL
 
Panagiotis Doxopoulos
Panagiotis DoxopoulosPanagiotis Doxopoulos
Panagiotis DoxopoulosISSEL
 
Konstantinos Koukoutegos Diploma Thesis Presentation
Konstantinos Koukoutegos Diploma Thesis PresentationKonstantinos Koukoutegos Diploma Thesis Presentation
Konstantinos Koukoutegos Diploma Thesis PresentationISSEL
 
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...ISSEL
 
Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485ISSEL
 
Papatzelos Spiridon
Papatzelos SpiridonPapatzelos Spiridon
Papatzelos SpiridonISSEL
 
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESISSEL
 
Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...ISSEL
 
Ioannis Iakovidis
Ioannis IakovidisIoannis Iakovidis
Ioannis IakovidisISSEL
 
Θεμιστοκλής Παπαβασιλείου
Θεμιστοκλής ΠαπαβασιλείουΘεμιστοκλής Παπαβασιλείου
Θεμιστοκλής ΠαπαβασιλείουISSEL
 
Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594ISSEL
 
Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ ISSEL
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...ISSEL
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...ISSEL
 
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνISSEL
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsISSEL
 
Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435ISSEL
 
Source code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphsSource code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphsISSEL
 

Similaire à Evangelos Papathomas: Semantic Code Search in Software Repositories using Neural Machine Translation (20)

Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254Κωνσταντίνος Σιδέρης 7254
Κωνσταντίνος Σιδέρης 7254
 
Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος
 
Ioannis Loias
Ioannis LoiasIoannis Loias
Ioannis Loias
 
Panagiotis Doxopoulos
Panagiotis DoxopoulosPanagiotis Doxopoulos
Panagiotis Doxopoulos
 
Konstantinos Koukoutegos Diploma Thesis Presentation
Konstantinos Koukoutegos Diploma Thesis PresentationKonstantinos Koukoutegos Diploma Thesis Presentation
Konstantinos Koukoutegos Diploma Thesis Presentation
 
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
 
Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485Αλεξάνδρα Μπαλτζή 7485
Αλεξάνδρα Μπαλτζή 7485
 
Papatzelos Spiridon
Papatzelos SpiridonPapatzelos Spiridon
Papatzelos Spiridon
 
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
 
Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...
 
Ioannis Iakovidis
Ioannis IakovidisIoannis Iakovidis
Ioannis Iakovidis
 
Θεμιστοκλής Παπαβασιλείου
Θεμιστοκλής ΠαπαβασιλείουΘεμιστοκλής Παπαβασιλείου
Θεμιστοκλής Παπαβασιλείου
 
Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594
 
Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ Στεργιάδης Εμμανουήλ
Στεργιάδης Εμμανουήλ
 
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
Πρόταση Βιβλιοθηκών Σχετικών με Λέξεις-Κλειδιά για Εκκίνηση της Διαδικασίας Α...
 
Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...Keyword-based software library recommendation in order to bootstrap software ...
Keyword-based software library recommendation in order to bootstrap software ...
 
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνΑνίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών
 
Aspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for ReviewsAspect-Based Sentiment Analysis for Reviews
Aspect-Based Sentiment Analysis for Reviews
 
Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435Κλέαρχος Θωμόπουλος 7435
Κλέαρχος Θωμόπουλος 7435
 
Source code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphsSource code remodularization based on component dependency graphs
Source code remodularization based on component dependency graphs
 

Plus de Manos Tsardoulias

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςManos Tsardoulias
 
Alexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learningManos Tsardoulias
 
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Manos Tsardoulias
 
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Manos Tsardoulias
 
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Manos Tsardoulias
 
Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Manos Tsardoulias
 
Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...Manos Tsardoulias
 
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Manos Tsardoulias
 
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Manos Tsardoulias
 
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...Manos Tsardoulias
 
Thesis presentation georgios-balaouras
Thesis presentation georgios-balaourasThesis presentation georgios-balaouras
Thesis presentation georgios-balaourasManos Tsardoulias
 
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTHPandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTHManos Tsardoulias
 
Full coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agentsFull coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agentsManos Tsardoulias
 

Plus de Manos Tsardoulias (14)

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
 
Alexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learning
 
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
 
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
 
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
Pavlos Avgoustinakis: Video retrieval based on audio content from large scale...
 
Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...
 
Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...
 
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...
 
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
 
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
 
Rafail Brouzos thesis
Rafail Brouzos thesisRafail Brouzos thesis
Rafail Brouzos thesis
 
Thesis presentation georgios-balaouras
Thesis presentation georgios-balaourasThesis presentation georgios-balaouras
Thesis presentation georgios-balaouras
 
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTHPandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH
 
Full coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agentsFull coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agents
 

Evangelos Papathomas: Semantic Code Search in Software Repositories using Neural Machine Translation

  • 1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης Ευάγγελος Παπαθωμάς (ΑΕΜ: 8692) Επιβλέποντες Ανδρέας Συμεωνίδης, Αναπληρωτής Καθηγητής Θεμιστοκλής Διαμαντόπουλος, Μεταδιδακτορικός Ερευνητής Θεσσαλονίκη, 2020
  • 2. Δομή Παρουσίασης • Εισαγωγή • Υλοποίηση του Συστήματος • Αξιολόγηση του Συστήματος • Συμπεράσματα και Μελλοντική Εργασία • Ερωτήσεις Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 2
  • 3. Ορισμός του Προβλήματος • Σήμερα, η ανάπτυξη λογισμικού είναι μία πολύπλοκη και χρονοβόρα διαδικασία. • Πολλές επιλογές (π.χ. APIs, βιβλιοθήκες, εργαλεία κ.α.) • Ελλιπείς ή προβληματικοί σχολιασμοί. Πρόβλημα: • Αύξηση του φόρτου εργασίας των μηχανικών λογισμικού λόγω της μεγάλης δαπάνης χρόνου για την αναζήτηση παραδειγμάτων κώδικα χρησιμοποιώντας συμβατικές μηχανές αναζήτησης. Σκοπός της Διπλωματικής: • Η δημιουργία ενός Συστήματος Προτάσεων στην Τεχνολογία Λογισμικού (Recommendation Systems in Software Engineering ή RSSE), το οποίο δέχεται ερωτήματα σε φυσική γλώσσα και προτείνει τμήματα κώδικα υψηλής ποιότητας. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 3
  • 4. RSSEs στη Βιβλιογραφία Αδυναμίες υπαρχουσών υλοποιήσεων: • Δε δέχονται ερωτήματα φυσικής γλώσσας. • Δεν εκμεταλλεύονται τους σχολιασμούς του κώδικα. • Δεν πραγματοποιούν σημασιολογική ανάλυση του κώδικα. • Δεν προτείνουν ολοκληρωμένα τμήματα κώδικα. • Δεν επιτυγχάνουν υψηλές αποδόσεις όσον αφορά την επιστροφή σχετικών αποτελεσμάτων. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 4
  • 5. Αρχιτεκτονική του CODEtransformer Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 5
  • 6. Dataset Builder (1/3) • Επεξεργασία ακατέργαστων δεδομένων φυσικής γλώσσας και κώδικα. • Δημιουργία καθαρισμένου συνόλου δεδομένων και λεξιλογίων. CodeSearchNet Corpus: • 1.569.889 συναρτήσεις Java από αναγνωρισμένα αποθετήρια του GitHub. • 542.991 από τις συναρτήσεις συνοδεύονται από σχολιασμούς. • Σχολιασμοί κώδικα ως δεδομένα φυσικής γλώσσας. • Δεδομένα φυσικής γλώσσας και κώδικα ήδη χωρισμένα σε συμβολοσειρές. • Χρήσιμα δεδομένα όπως: ονόματα συναρτήσεων, URLs κ.α. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 6 Χαρακτηριστικά Δεδομένα Σχολιασμός Simplified method form for invoking the ListSSHPublicKeys operation with an AsyncHandler. @see #listSSHPublicKeysAsync(List SSHPublicKeysRequest, com.amazonaws.handlers.Asyn cHandler) Κώδικας @Overriden public java.util.concurrent.Future<List SSHPublicKeysResult> listSSHPublicKeysAsync(n com.amazonaws.handlers.Asyn cHandler<ListSSHPublicKeysR equest, ListSSHPublicKeysResult> asyncHandler) {nn return listSSHPublicKeysAsync(new ListSSHPublicKeysRequest(), asyncHandler);n }
  • 7. Dataset Builder (2/3) Προεπεξεργασία δεδομένων φυσικής γλώσσας: • Διατήρηση μόνο της πρώτης πρότασης του σχολιασμού. • Αφαίρεση ειδικών χαρακτήρων (π.χ. !, @). • Αφαίρεση μη ASCII χαρακτήρων (π.χ. 隠, ¥). • Διαχωρισμός camelCase συμβολοσειρών (π.χ. stringUtils). • Αντικατάσταση σχολιασμού με το όνομα της αντίστοιχης συνάρτησης σε καταχωρήσεις με λιγότερες από 6 ή περισσότερες από 30 συμβολοσειρές. • Μετατροπή αλφαβητικών χαρακτήρων στους αντίστοιχους πεζούς χαρακτήρες. Όνομα Συνάρτησης Πριν Μετά hexStringToByteArray ['--------------------------------------------------------'] ['hex', 'string', 'to', 'byte', 'array'] computeEnumSimply ['仅仅利用了转移矩阵的“维特比”算法'] ['compute', 'enum', 'simply'] getCacheManagerName ['Get', 'the', 'name', 'of', 'a', '{'] ['get', 'cache', 'manager', 'name'] concatWs ['Concatenates', 'input', 'strings', 'together', 'into', 'a', 'single', 'string', 'using', 'the', 'separator', '.', 'A', 'null', 'input', 'is', 'skipped', '.', 'For', 'example', 'concat', '(', 'a', 'null', 'c', ')', 'would', 'yield', 'a', 'c', '.'] ['concatenates', 'input', 'strings', 'together', 'into', 'a', 'single', 'string', 'using', 'the', 'separator'] Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 7
  • 8. Dataset Builder (3/3) Προεπεξεργασία δεδομένων κώδικα: • Αφαίρεση μη ASCII χαρακτήρων (π.χ. 夏, φ). • Διαχωρισμός camelCase συμβολοσειρών (π.χ. ArrayList). • Κωδικοποίηση προγραμματιστικών συμβόλων σε μοναδικές συμβολοσειρές. • Αφαίρεση ειδικών χαρακτήρων που δε καλύπτονται από το προηγούμενο βήμα. • Μετατροπή αλφαβητικών χαρακτήρων στους αντίστοιχους πεζούς χαρακτήρες. Πριν Μετά ['public', 'CorsConfig', 'build', '(', ')', '{', 'if', '(', 'preflightHeaders', '.', 'isEmpty', '(', ')', '&&', '!', 'noPreflightHeaders', ')', '{', 'preflightHeaders', '.', 'put', '(', 'HttpHeaderNames', '.', 'DATE', ',', 'DateValueGenerator', '.', 'INSTANCE', ')', ';', 'preflightHeaders', '.', 'put', '(', 'HttpHeaderNames', '.', 'CONTENT_LENGTH', ',', 'new', 'ConstantValueGenerator', '(', '"0"', ')', ')', ';', '}', 'return', 'new', 'CorsConfig', '(', 'this', ')', ';', '}'] ['public', 'cors', 'config', 'build', 'openingparenthesis', 'closingparenthesis', 'openingbrace', 'if', 'openingparenthesis', 'preflight', 'headers', 'is', 'empty', 'openingparenthesis', 'closingparenthesis', 'notoperator', 'no', 'preflight', 'headers', 'closingparenthesis', 'openingbrace', 'preflight', 'headers', 'put', 'openingparenthesis', 'http', 'header', 'names', 'date', 'date', 'value', 'generator', 'instance', 'closingparenthesis', 'semicolon', 'preflight', 'headers', 'put', 'openingparenthesis', 'http', 'header', 'names', 'contentlength', 'new', 'constant', 'value', 'generator', 'openingparenthesis', 'closingparenthesis', 'closingparenthesis', 'semicolon', 'closingbrace', 'return', 'new', 'cors', 'config', 'openingparenthesis', 'this', 'closingparenthesis', 'semicolon', 'closingbrace'] Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 8
  • 9. Neural Network (1/9) Δίκτυο Αντιστοίχισης (Matching Network): • Αρχιτεκτονική ειδικά κατασκευασμένη για την επίλυση one-shot learning προβλημάτων. • Χρήση ξεχωριστών κωδικοποιητών. • Χρήση μετρικής ομοιότητας διανυσμάτων. • Δημιουργία τετραγωνικού πίνακα τιμών ομοιότητας, με διαγώνια στοιχεία τιμές ομοιότητας θετικών ζευγών. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 9
  • 10. Neural Network (2/9) Κωδικοποιητές: • Χρήση της state-of-the-art αρχιτεκτονικής των Μετασχηματιστών (Transformers). • Δημιουργία ενσωματώσεων λέξεων (word embeddings). • Κωδικοποίηση ενσωματώσεων ως προς τη θέση των λέξεων στο κείμενο. • Χρήση Προσοχής Πολλαπλών Κεφαλών (Multi-Head Attention) για τη σημασιολογική ανάλυση του εξεταζόμενου κειμένου. • Χρήση Δικτύου Εμπρόσθιας Διάδοσης (Feed-Forward Network) για το συνδυασμό πολύπλοκων συντακτικών πληροφοριών. • Εκβάθυνση του δικτύου με την τριπλή επανάληψη των επιπέδων Προσοχής Πολλαπλών Κεφαλών και Δικτύου Εμπρόσθιας Διάδοσης. • Χρήση max pooling για τη δημιουργία ενσωματώσεων προτάσεων. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 10
  • 11. Neural Network (3/9) Προσοχή Πολλαπλών Κεφαλών: • Σημαντικές βελτιώσεις σε προβλήματα Νευρωνικής Μηχανικής Μετάφρασης. • Εστίαση της προσοχής στις πιο κατάλληλες λέξεις του κειμένου. • Μηχανισμός πολλαπλών κεφαλών για την εξέταση των πληροφοριών με διαφορετικούς τρόπους. • Σημασιολογική ανάλυση του κειμένου. Δίκτυο Εμπρόσθιας Διάδοσης: • Χρήση μη γραμμικών μετασχηματισμών. • Συνδυασμός πολύπλοκων συντακτικών και γραμματικών πληροφοριών. • Δημιουργία ενσωματώσεων οι οποίες συμπεριλαμβάνουν τις πληροφορίες των συμφραζομένων. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 11
  • 12. Neural Network (4/9) Ομοιότητα Επιφάνειας Τριγώνου - Ομοιότητα Επιφάνειας Τομέα: • Γεωμετρική υβριδική μετρική ομοιότητας. • Συνδυασμός ευκλείδειας απόστασης, μήκους και γωνίας μεταξύ των διανυσμάτων. • Διόρθωση όλων των αδυναμιών της ευκλείδειας απόστασης και της ομοιότητας συνημίτονου. • Όμοια χαρακτηρίζονται διανύσματα με μικρές ή μηδενικές διαφορές στην ευκλείδεια απόσταση, στο μήκος και στη μεταξύ τους γωνία. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 14
  • 13. Neural Network (5/9) Τετραγωνικές Απώλειες Περιθωρίου: • Επιτρεπτή τιμή περιθωρίου οποιαδήποτε θετική τιμή. • Η χρήση του τετραγώνου «τιμωρεί» περισσότερο τις μεγάλες και λιγότερο τις μικρές τιμές απωλειών. • Γρήγορη σύγκλιση στο ολικό ελάχιστο της συνάρτησης. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 16
  • 14. Neural Network (6/9) Βελτιστοποιητές (Optimizers): • Χρήση του βελτιστοποιητή Adam για την εκπαίδευση του δικτύου. • Εύρεση του βέλτιστου ρυθμού μάθησης με τη χρήση συνάρτησης εκθετικής αύξησης. • Εκπαίδευση του δικτύου για εκθετικά αυξανόμενο ρυθμό μάθησης. • Επιλογή ρυθμού μάθησης για τον οποίο υπάρχει απότομη μείωση απωλειών και απότομη αύξηση της ακρίβειας (accuracy). Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 18
  • 15. Neural Network (7/9) Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 19
  • 16. Neural Network (8/9) Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 20
  • 17. Neural Network (9/9) Εκπαίδευση (Training): • Εκπαίδευση του δικτύου για 40 εποχές. • Αποθήκευση του μοντέλου όταν η τιμή της μετρικής MRR του συνόλου δεδομένων επικύρωσης (validation dataset) περνά την προηγούμενη καλύτερη τιμή. Υπερπαράμετρος Τιμή NUM_LAYERS 3 INPUT_VOCAB_SIZE 10.002 TARGET_VOCAB_SIZE 10.002 INPUT_POSITION 10.002 TARGET_POSITION 10.002 NUM_HEADS 8 DFF 512 D_MODEL 128 RATE 0,1 LEARNING_RATE 3.2e-4 MARGIN 5 EPOCHS 40 Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 21
  • 18. Index Builder • Χρήση του εργαλείου Annoy του Spotify, το οποίο αποτελεί υλοποίηση του αλγορίθμου Αναζήτησης Πλησιέστερου Γείτονα (Nearest Neighbor Search). • Προσεγγιστικός αλγόριθμος για τη μείωση του χρόνου αναζήτησης. • Κατασκευή διανυσματικού χώρου με τη χρήση δυαδικών δέντρων, όπου κάθε κόμβος ανήκει σε μία ενσωμάτωση κώδικα. • Αναζήτηση του πιο όμοιου διανύσματος στο διάνυσμα εισαγωγής στα 10.000 κοντινότερα διανύσματα, έναντι των 1.569.889 που περιέχονται συνολικά στο διανυσματικό χώρο. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 26
  • 19. Search Engine (1/3) • Κατασκευή μίας διαδικτυακής εφαρμογής για την αναζήτηση ερωτημάτων. • Δημιουργία Γραφικού Περιβάλλοντος Χρήστη για εύκολη προσβασιμότητα. • Χρήση της υπηρεσίας App Engine της Πλατφόρμας Νέφους της Google (Google Cloud Platform). • Προεπεξεργασία των εισαγόμενων ερωτημάτων. • Επιστροφή ολοκληρωμένων τμημάτων κώδικα με τη χρήση του Νευρωνικού Δικτύου και του διανυσματικού χώρου που κατασκευάστηκε με το εργαλείο Annoy. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 27
  • 20. Search Engine (2/3) Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 28
  • 21. Search Engine (3/3) Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 29
  • 22. Αξιολόγηση του Συστήματος (1/5) Μετρικές Αξιολόγησης: • Precision at K (P@K): μετρά τη σχετικότητα των πρώτων Κ αποτελεσμάτων χωρίς να λαμβάνει υπόψη τη θέση τους στη λίστα αποτελεσμάτων. 𝑃@𝐾 = 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐾 • Mean Reciprocal Rank (MRR): μετρά τη θέση του πρώτου σχετικού ερωτήματος που συναντάται στη λίστα αποτελεσμάτων. 𝑀𝑅𝑅 = 1 𝑄 𝑖=1 𝑄 1 𝑟𝑎𝑛𝑘𝑖 • Normalized Discounted Cumulative Gain (NDCG): μετρά τη σχετικότητα των αποτελεσμάτων λαμβάνοντας υπόψη τη θέση τους στη λίστα και το βαθμό της σχετικότητάς τους. 𝑁𝐷𝐶𝐺 = 𝐷𝐶𝐺 𝐼𝐷𝐶𝐺 𝐷𝐶𝐺 = 𝑖=1 𝑁 2 𝑟𝑒𝑙 𝑖−1 𝑙𝑜𝑔2 𝑖+1 𝐼𝐷𝐶𝐺 = 𝑖=1 𝑅𝐸𝐿 𝑁 2 𝑟𝑒𝑙 𝑖−1 𝑙𝑜𝑔2 𝑖+1 Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 30
  • 23. Αξιολόγηση του Συστήματος (2/5) Μέθοδοι Αξιολόγησης: • Σύγκριση με το παρόμοιο σύστημα CodeSearchNet. • Σύγκριση των τιμών της MRR στα δεδομένα επικύρωσης και ελέγχου. • Χρήση των 99 ερωτημάτων με τα οποία αξιολογείται το εν λόγο σύστημα για τον υπολογισμό της NDCG. • Υπολογισμός της MRR για κάθε ένα από 99 ερωτήματα. • Εξέταση των αποτελεσμάτων του CODEtransformer σε ερωτήματα του Stack Overflow. • Χρήση 40 δημοφιλών ερωτημάτων που αφορούν τη γλώσσα Java. • Υπολογισμός της P@10 για κάθε ένα από 40 ερωτήματα. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 31
  • 24. Σύγκριση με το CodeSearchNet Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 32
  • 25. Αξιολόγηση του Συστήματος (3/5) Σύστημα Validation MRR CodeSearchNet-NBoW 0,4972 CodeSearchNet-1D-CNN 0,4926 CodeSearchNet-biRNN 0,2713 CodeSearchNet-SelfAtt 0,5513 CODEtransformer 0,6260 Η μέτρηση της MRR στο σύνολο δεδομένων επικύρωσης κάθε συστήματος. Σύστημα Test MRR CodeSearchNet-NBoW 0,5140 CodeSearchNet-1D-CNN 0,5270 CodeSearchNet-biRNN 0,2865 CodeSearchNet-SelfAtt 0,5866 CODEtransformer 0,6263 Η μέτρηση της MRR στο σύνολο δεδομένων ελέγχου κάθε συστήματος. Σύστημα NDCG CodeSearchNet-NBoW 0,1207 CodeSearchNet-1D-CNN 0,1282 CodeSearchNet-biRNN 0,0623 CodeSearchNet-SelfAtt 0,1003 CODEtransformer 0,1028 Η μέτρηση της NDCG σε κάθε σύστημα. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 33
  • 26. Αξιολόγηση του Συστήματος (4/5) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99 Η μέτρηση της MRR σε κάθε ένα από τα 99 ερωτήματα. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 34
  • 27. Δημοφιλή Ερωτήματα του Stack Overflow Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 35
  • 28. Αξιολόγηση του Συστήματος (5/5) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Η μέτρηση της P@10 σε κάθε ένα από τα 40 ερωτήματα. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 36
  • 29. Συμπεράσματα • Η χρήση του CODEtransformer εξοικονομεί χρόνο και μειώνει το φόρτο εργασίας. • Η παρουσίαση ολοκληρωμένων τμημάτων κώδικα επισπεύδει την ανάπτυξη λογισμικού. • Η προεπεξεργασία και η ποιότητα των δεδομένων επηρεάζουν άμεσα την απόδοση του συστήματος. • Η αρχιτεκτονική των Μετασχηματιστών πραγματοποιεί βαθιά σημασιολογική ανάλυση. • Η χρήση της TS-SS εξασφαλίζει πραγματικά όμοιες ενσωματώσεις φυσικής γλώσσας και κώδικα. • Η διαδικτυακή εφαρμογή επιτρέπει γρήγορη και εύκολη πρόσβαση στο σύστημα. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 37
  • 30. Μελλοντική Εργασία • Η χρήση πραγματικών ερωτημάτων ως δεδομένα φυσικής γλώσσας, έναντι σχολιασμών κώδικα. • Η χρήση των ονομάτων των συναρτήσεων σε συνδυασμό με ερωτήματα φυσικής γλώσσας. • Η χρήση τεχνικών συμπίεσης Νευρωνικών Δικτύων. • Η βελτίωση του γραφικού περιβάλλοντος της διαδικτυακής εφαρμογής. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 38
  • 31. Ευχαριστίες Ευχαριστώ θερμά: • τον κ. Ανδρέα Συμεωνίδη, για την εμπιστοσύνη που μου έδειξε. • τον κ. Θεμιστοκλή Διαμαντόπουλο, για τη στήριξη και την καθοδήγησή του. • την οικογένεια και τους στενούς μου φίλους, για τη βοήθεια και την κατανόησή τους. • εσάς, για την προσοχή σας. Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 39
  • 32. Ερωτήσεις Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης 40