Publicité
Publicité

Contenu connexe

Plus de ISSEL(20)

Publicité

Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας.pptx

  1. Ιούνιος 2022 Υπολογισμός χρονισμούφωτεινώνσηματοδοτών με Ενισχυτική 1 μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσωΧαρακτηριστικών Ομιλίας Εκπόνηση: Καβελίδης Φραντζής Δημήτριος ΑΕΜ: 9351 Επιβλέποντες: Ανδρέας Συμεωνίδης Καθηγητής ΑΠΘ Εμμανουήλ Τσαρδούλιας Μεταδιδακτορικός ερευνητής Διπλωματική Εργασία
  2. 05/12/2022 Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 2 01 06 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣΕΠΕΚΤΑΣΕΙΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 04 02 ΣΥΜΜΕΤΕΧΟΝΤΕΣ & ΣΥΛΛΟΓΗ ΔΕΔΟΜΕΝΩΝ
  3. ΠεριγραφήΠροβλήματος ● Αύξηση του πληθυσμού → Αύξηση Επιπολασμού Άνοιας ● Έγκαιρη διάγνωση των νοητικών διαταραχών → ● Πρόκληση: Χρήση νέων τεχνολογιών για έγκυρη, έγκαιρη και χαμηλού κόστους διάγνωση ● Σύγχρονες μελέτες + εξασθένηση της ομιλίας για ταξινόμηση του ατόμου σε κατηγορία νοητικής έκπτωσης Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 3 Καθυστέρηση της εξέλιξης, διατήρηση του ίδιου λειτουργικού νοητικού επιπέδου Υγιή άτομα Υποκειμενική Νοητική Διαταραχή (SCD) Πρώιμη Ήπια Νοητική Διαταραχή (Ε-MCI) Όψιμη Ήπια Νοητική Διαταραχή (L-MCI) Άνοια (AD) 05/12/2022
  4. Σκοπός της διπλωματικής: Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 4 ● Ανάπτυξη μοντέλων Μηχανικής Μάθησης για χρήση τους σε αξιόπιστο remote screening test ● Επέκταση της μελέτης σε ταξινόμηση 4 κλάσεων (Healthy, SCD, E-MCI, L-MCI) ● Λιγότερο αυστηρή μορφή συλλογής δεδομένων για δυνατότητα ευκολότερης αυτοεξέτασης Περιγραφή προτεινόμενης εφαρμογής: Καταγραφή ομιλητή Επεξεργασία καταγραφής από μοντέλο Μηχανικής Μάθησης Πρόβλεψη 05/12/2022
  5. Συμμετέχοντες Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 5 ● Συνεργασία ΤΗΜΜΥ ΑΠΘ με Εταιρεία Νόσου Alzheimer και Συγγενών Διαταραχών (Alzheimer Hellas) ● Διάγνωση από κάποιον ειδικό ψυχολόγο με κάποιο επιβεβαιωμένο τεστ (όπως η Νοητική Εκτίμηση Montreal / Montreal Cognitive Assessment – MoCA) ● H πειραματική διαδικασία υλοποιήθηκε στο Κέντρο Ημέρας ”Αγία Ελένη” της Alzheimer Hellas ● Δημογραφικά στοιχεία συλλέχθηκαν από τη βάση δεδομένων του κέντρου 05/12/2022
  6. Διαδικασία Καταγραφής Δεδομένων Ομιλίας Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 6 ● Διάρκεια: ~30 λεπτά ● Μορφή: Συζήτηση/συνέντευξη, σε τρεις συνθήκες: α) σε κανονικές συνθήκες αφήγησης, β) σε απλό νοητικό έργο και γ) σε διπλό νοητικό έργο ● Ηχογράφηση: Μέσω κινητού τηλεφώνου ● Στάδιο 1: Απλές αυτοβιογραφικές ερωτήσεις (καθήμενο άτομο) ● Στάδιο 2: Ερωτήσεις κρίσεως (καθήμενο άτομο) ● Στάδιο 3: Απλές ερωτήσεις περιγραφής (περπάτημα σε τετράγωνο) ● Στάδιο 4: Ερωτήσεις κρίσεως (περπάτημα σε τετράγωνο) ● Στάδιο 5: Ερωτήσεις κρίσεως (μοτίβο βημάτων : 3 μπρος – 3 πίσω) Στάδια ηχογράφησης: Στόχος της ύπαρξης σταδίων → Σταδιακή αύξηση απαιτούμενου νοητικού έργου. 05/12/2022
  7. Μεθοδολογία Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 7 05/12/2022
  8. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 8 Προεπεξεργασία Δεδομένων ● Annotation & Segmentation (Praat) ● Μορφή αρχείων: Kavelidis_Dimitrios_Internet_2.wav ● Προσωπικός φάκελος ανά άτομο ● Noisereduce, SNR (Python) ● Αρχείο CSV με τα δημογραφικά στοιχεία των συμμετεχόντων 05/12/2022
  9. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 9 Εξαγωγή χαρακτηριστικών ● Global features ● 3 κατηγορίες αρχικών χαρακτηριστικών: • Συνολική Διάρκεια τμημάτων Παύσεων & Ομιλίας • Στατιστικά τμημάτων Παύσεων & Ομιλίας • Λόγοι στατιστικών μεταξύ τμημάτων Παύσεων/Ομιλίας Χαρακτηριστικά σχετικά με: • Pitch • Intensity • Jitter / Shimmer / HNR • Zero - Crossings • Min, Max, Mean Instantaneous Zero- Crossing Rate Χαρακτηριστικά Παύσεων Χαρακτηριστικά Προσωδίας Χαρακτηριστικά Μηδενικών Διελεύσεων (Zero- Crossings) 05/12/2022
  10. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 10 Χαρακτηριστικά Παύσεων ● Επιλογή δυναμικού κατωφλιού: Threshold = audio.dBFS + audio.dBFS*0.5 Παύσεις: 1. Συνολική Διάρκεια Παυσεων ‐ Total Silence Duration 2. Αριθμός Παύσεων ‐ # of silences 3. Μέση Διάρκεια Παύσης ‐ Avg Silence Duration 4. Διάμεσος Διάρκειας Παύσης ‐ Median Silence Duration 5. Τυπική Απόκλιση Διάρκειας Παύσης ‐ Std Silence Duration 6. Ελάχιστη Διάρκεια Παύσης ‐ Min Silence Duration 7. Μεγιστη Διάρκεια Παύσης ‐ Max Silence Duration 8. Q1 Quartile Διάρκεια Παύσης ‐ Q1 Silence Duration 9. Q3 Quartile Διάρκεια Παύσης ‐ Q3 Silence Duration Ομιλία: 1. Συνολική Διάρκεια Ομιλίας ‐ Total Non Silent Duration 2. Αριθμός τμημάτων Oμιλίας ‐ # of Non Silent Segments 3. Μέση Διάρκεια Oμιλίας ‐ Avg Non Silent Duration 4. Διάμεσος Διάρκειας Oμιλίας ‐ Median Non Silent Duration 5. Τυπική Απόκλιση Διάρκειας Oμιλίας ‐ Std Non Silent Duration 6. Ελάχιστη Διάρκεια Oμιλίας ‐ Min Non SilentDuration 7. Μεγιστη Διάρκεια Oμιλίας ‐ Max Non Silent Duration 8. Q1 Quartile Διάρκεια Oμιλίας ‐ Q1 Non Silent Duration 9. Q3 Quartile Διάρκεια Oμιλίας ‐ Q3 Non Silent Duration Αναλογίες ‐ Ratios: 1. Λόγος Συνολικής Διάρκειας Παύσεων / Ομιλίας ‐ Ratio Silent vs Non Silent Duration 2. Λόγος Αριθμού τμημάτων Παύσεων / Oμιλίας ‐ Ratio # of Silent / Non Silent segments 3. Λόγος Μέσης Διάρκειας Παύσεων / Ομιλίας ‐ Ratio Avg Silent / Non Silent Duration 4. Λόγος Διάμεσου Διάρκειας Παύσεων / Oμιλίας ‐ Ratio Median Silent / Non Silent Duration 5. Λόγος Τυπικής Απόκλισης Διάρκειας Παύσεων / Oμιλίας ‐ Ratio Std Silent / Non Silent Duration 6. Λόγος Q1 Quartile Διάρκειας Παύσεων / Oμιλίας ‐ Ratio Q1 Silent / Non Silent Duration 7. Λόγος Q3 Quartile Διάρκεια Παύσεων / Oμιλίας ‐ Ratio Q3 Silent / Non Silent Duration 05/12/2022
  11. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 11 Χαρακτηριστικά Προσωδίας Τόνος - Pitch: 1. Μέση τιμή & τυπική απόκλιση της F0 ‐ meanF0 & minF0 2. Μέγιστη & Ελάχιστη τιμή F0 ‐ maxF0 & minF0 Ένταση - Intensity: 1. Μέση τιμή έντασης ‐ meanIntensity 2. Μέγιστη τιμή έντασης ‐ maxIntensity 3. Ελάχιστη τιμή έντασης ‐ minIntensity 4. Τυπική απόκλιση της έντασης ‐ stdIntensity Jitter – Shimmer – Harmonic to Noise Ratio (HNR): 1. Jitter (τοπικό, απόλυτο / local, absolute) 2. Jitter (τοπικό / local) 3. Jitter (ραπ / rap) 4. Jitter (ppq5) 5. Jitter (DDP) 6. HNR 7. Shimmer (τοπικό / local) 8. Shimmer (τοπικό, dB / local, dB) 9. Shimmer (apq3) 10. Shimmer (apq5) 11. Shimmer (apq11) 12. Shimmer (DDA) Jitter και Shimmer: μετρήσεις των διαταραχών στην F0. ● Προσωδία: είναι ο ρυθμός, ο τόνος και ο επιτονισμός της ομιλίας καθώς και άλλα ακουστικά χαρακτηριστικά 05/12/2022
  12. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 12 Χαρακτηριστικά Μηδενικών Διελεύσεων Τα χαρακτηριστικά μηδενικών διελεύσεων που εξήχθησαν ήταν: 1. Zero‐Crossings: Συνολικός αριθμός μηδενικών διελεύσεων 2. Μέσος στιγμιαίος ZCR / mean instantaneous zcr 3. Μέγιστος στιγμιαίος ZCR / max instantaneous zcr 4. Ελάχιστος στιγμιαίος ZCR / min instantaneous zcr Μηδενικές Διελεύσεις / Zero‐Crossings: Ο αριθμός των φορών που ένα (ψηφιακό) σήμα διασχίζει το μηδέν 05/12/2022
  13. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 13 Χαρακτηριστικά Διαφορών Σταδίων Παράδειγμα: Στάδιο 5 Στάδιο 1 Διαφορά 5-1 𝑥1 𝑥2 ⋮ 𝑥𝑛 − 𝑦1 𝑦2 ⋮ 𝑦𝑛 = 𝑑𝑖𝑓𝑓1 𝑑𝑖𝑓𝑓2 ⋮ 𝑑𝑖𝑓𝑓𝑛 • Διανύσματα χαρακτηριστικών από κάθε στάδιο • Δημιουργία νέων χαρακτηριστικών από αφαίρεση των διανυσμάτων χαρακτηριστικών σταδίων Μορφή διανύσματος αρχικών χαρακτηριστικών σε κάποιο στάδιο: 𝑠𝑖𝑙1 𝑠𝑖𝑙2 ⋮ 𝑠𝑖𝑙𝑛 𝑝𝑟𝑜𝑠1 𝑝𝑟𝑜𝑠2 ⋮ 𝑝𝑟𝑜𝑠𝑛 𝑧𝑐𝑟1 𝑧𝑐𝑟2 ⋮ 𝑧𝑐𝑟𝑛 05/12/2022
  14. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 14 Διαδικασία στα επί μέρους μοντέλα: Φόρτωση csv αρχείων σε pandas DataFrames. Δημιουργία πινάκων x (χαρακτηριστικών) και y (διαγνώσεων). Split (τυχαίο ή με βάση τα άτομα) σε train και test dataset Encoding & Scaling & Normalizing Feature Selection (Univariate Feature Selection ή Feature Importances) Εκπαίδευση ταξινομητή Repeated Stratified K-fold Cross Validation Classification Report Δοκιμές ταξινομητών: • Επιπλέον Δένδρων (Extra Trees - ET) • Τυχαίου Δάσους (Random Forest - RF) • Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines – SVM) 05/12/2022
  15. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 15 Διαδικασία κατασκευής ensemble συστήματος διάγνωσης: Επιλογή μοντέλων Πιθανότητα πρόβλεψης για κάθε κλάση ανά στάδιο Άθροισμα πιθανοτήτων. «Πλειοψηφία» (Majority Voting) Τελική Πρόβλεψη 05/12/2022
  16. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 16 Σετ πειραμάτων: 3: Πειράματα σε δυαδικούς ταξινομητές 2: Πειράματα με Διαχωρισμό βασισμένο στα άτομα 1: Πειράματα με Τυχαίο Διαχωρισμό Δεδομένων (80%-20% / train-test σε όλες τις ηχογραφήσεις) 05/12/2022
  17. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 17 Τυχαίοςδιαχωρισμόςδεδομένων: Πείραμα 1.1 - Ταξινόμηση στα αρχικά χαρακτηριστικά ανά στάδιο ηχογράφησης: Παράδειγμα πίνακα σύγχυσης (Στάδιο 4) και πίνακας καλύτερων αποτελεσμάτων Μοντέλο Στάδιο Feat. Selection Accuracy Precision Recall F1 - Score ET 1 Feat. Importances 0.572 0.581 0.575 0.574 ET 2 Feat. Importances 0.684 0.541 0.555 0.528 ET 3 None 0.587 0.663 0.632 0.611 ET 4 None 0.648 0.771 0.666 0.646 ET 5 Feat. Importances 0.625 0.713 0.687 0.693 AEGS: Age Education Gender Stress (δημογραφικά στοιχεία συμμετεχόντων) Χρήση AEGS → μέση ακρίβεια: 0.806 05/12/2022
  18. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 18 Τυχαίοςδιαχωρισμόςδεδομένων: Πείραμα 1.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά ανεξαρτήτως σταδίου ηχογράφησης: Μοντέλο Feat. Selection Accuracy Precision Recall F1 - Score ET Feat. Importances 0.679 0.708 0.685 0.674 ET + AEGS Feat. Importances 0.913 0.921 0.918 0.918 Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων 05/12/2022
  19. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 19 Τυχαίοςδιαχωρισμόςδεδομένων: Πείραμα 1.3 - Ταξινόμηση στα χαρακτηριστικά των διαφορών μεταξύ σταδίων ηχογράφησης: Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-1) και πίνακας καλύτερων αποτελεσμάτων Μοντέλο Διαφορά Feat. Selection Accuracy Precision Recall F1 - Score ET 4-1 None 0.812 0.798 0.790 0.792 ET 5-1 None 0.833 0.807 0.803 0.804 ET 3-2 None 0.834 0.840 0.838 0.839 ET 5-2 None 0.803 0.758 0.751 0.748 Χωρίς χρήση AEGS → μέση ακρίβεια: 0.789 Με χρήση AEGS → μέση ακρίβεια: 0.928 05/12/2022
  20. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 20 Τυχαίοςδιαχωρισμόςδεδομένων: Πείραμα 1.4 - Ταξινόμηση με Εnsemble MajorityVoting σύστημα στα 10 μοντέλα διαφορών του Πειράματος 1.3 (χωρίς AEGS): Πίνακας σύγχυσης και Classification Report Precision Recall F1 - Score Πλήθος E-MCI 0.80 0.98 0.88 25216 Healthy 0.98 0.92 0.95 30212 L-MCI 0.98 0.84 0.90 13097 SCD 0.97 0.86 0.91 20412 Accuracy 0.91 88937 Macro avg 0.93 0.90 0.91 88937 Weighted avg 0.92 0.91 0.91 88937 05/12/2022
  21. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 21 2ο σετ πειραμάτων: Διαχωρισμόςδεδομένωνμε βάση τα άτομα(LOSO-like): • 5 E-MCI • 4 Healthy • 3 SCD • 3 L-MCI ~ 20% του συνολικού πλήθους, όλες οι ηχογραφήσεις 05/12/2022
  22. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 22 Διαχωρισμόςδεδομένωνμε βάση τα άτομα: Πείραμα 2.1 - Ταξινόμηση στα αρχικά χαρακτηριστικά ανά στάδιο ηχογράφησης: Παράδειγμα πίνακα σύγχυσης και πίνακας αποτελεσμάτων Μοντέλο Στάδιο Feat. Selection Accuracy Precision Recall F1 - Score ET 1 Feat. Importances 0.394 0.358 0.353 0.365 ET 2 None 0.640 0.758 0.582 0.610 RF 3 Feat. Importances 0.524 0.726 0.490 0.460 ET 4 None 0.581 0.676 0.506 0.545 RF 5 None 0.574 0.523 0.487 0.516 Χρήση AEGS → μέση ακρίβεια: 0.614 05/12/2022
  23. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 23 Διαχωρισμόςδεδομένωνμε βάση τα άτομα: Πείραμα 2.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά ανεξαρτήτως σταδίου ηχογράφησης: Πίνακας σύγχυσης και πίνακας καλύτερων αποτελεσμάτων Μοντέλο Feat. Selection Accuracy Precision Recall F1 - Score SVM (C=1) None 0.586 0.678 0.513 0.552 SVM (C=0.4) + AEGS Feat. Importances 0.636 0.760 0.543 0.570 05/12/2022
  24. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 24 Διαχωρισμόςδεδομένωνμε βάση τα άτομα: Πείραμα 2.3 - Ταξινόμηση στα χαρακτηριστικά των διαφορών μεταξύ σταδίων ηχογράφησης: Παράδειγμα πίνακα σύγχυσης (Διαφορά 5-2) και πίνακας καλύτερων αποτελεσμάτων Μοντέλο Διαφορά Feat. Selection Accuracy Precision Recall F1 - Score ET 4-2 Feat. Importances 0.417 0.371 0.360 0.357 ET 5-2 None 0.418 0.398 0.363 0.381 ET 5-1 None 0.344 0.405 0.308 0.319 ET 2-1 Feat. Importances 0.310 0.316 0.265 0.282 Χωρίς χρήση AEGS → μέση ακρίβεια: 0.311 Με χρήση AEGS → μέση ακρίβεια: 0.494 05/12/2022
  25. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 25 Διαχωρισμόςδεδομένωνμε βάση τα άτομα: Πείραμα 2.4 - Ταξινόμηση με Εnsemble MajorityVoting σύστημα στα 10 μοντέλα διαφορών του Πειράματος 2.3 (χωρίς AEGS): Precision Recall F1 - Score Πλήθος E-MCI 0.39 0.60 0.48 6824 Healthy 0.63 0.49 0.55 6720 L-MCI 0.30 0.12 0.18 3624 SCD 0.15 0.15 0.15 3312 Accuracy 0.41 20480 Macro avg 0.37 0.34 0.34 20480 Weighted avg 0.42 0.41 0.40 20480 Πίνακας σύγχυσης και Classification Report 05/12/2022
  26. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 26 Παρατηρήσεις: • Μεγάλεςδιαφορέςανάμεσαστα1.1-1.4και2.1-2.4 • 1.1–1.4μοντέλα→ overfitting(?) • Δοκιμή:Τυχαίοsplit σε84κλάσεις Συμπέρασμα: Πειράματα1.1–1.4 → Human Identification λειτουργία Μοντέλο Feat. Selection Accuracy Precision Recall F1 - Score ET Feat. Importances 0.560 0.585 0.532 0.521 ET + AEGS None 0.912 0.902 0.865 0.857 05/12/2022
  27. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 27 Δυαδικοίταξινομητές: Πείραμα 3.1 – Δυαδική Ταξινόμηση στα αρχικά χαρακτηριστικά ανά στάδιο ηχογράφησης: Μοντέλο Στάδιο Feat. Selection Accuracy Precision Recall F1 - Score SVM (C=1), Healthy vs MCI 4 None 0.977 0.978 0.968 0.977 SVM (C=1), SCD vs MCI 3 Feat. Importances 0.756 0.571 0.500 0.651 SVM (C=1), Healthy vs SCD 4 None 0.925 0.934 0.909 0.924 Πίνακας καλύτερων αποτελεσμάτων 05/12/2022
  28. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 28 Δυαδικοίταξινομητές: Πείραμα 3.2 - Ταξινόμηση στα αρχικά χαρακτηριστικά ανεξαρτήτως σταδίου ηχογράφησης: Μοντέλο Feat. Selection Accuracy Precision Recall F1 - Score SVM (C=1), Healthy vs MCI None 0.941 0.944 0.921 0.940 SVM (C=1), SCD vs MCI None 0.715 0.630 0.507 0.646 SVM (C=1), Healthy vs SCD None 0.914 0.916 0.916 0.914 05/12/2022
  29. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 29 Δυαδικοίταξινομητές: Πείραμα 3.3 - Ταξινόμηση με Εnsemble Majority Voting σύστημα στα 5 μοντέλα διαφορών του Πειράματος 1.2 (χωρίς AEGS): Precision Recall F1 - Score Πλήθος Healthy 1.00 0.76 0.87 7600 MCI 0.83 1.00 0.91 8775 Accuracy 0.89 16375 Macro avg 0.91 0.88 0.89 16375 Weighted avg 0.91 0.89 0.89 16375 Precision Recall F1 - Score Πλήθος MCI 0.83 0.95 0.89 8875 SCD 0.28 0.09 0.13 1872 Accuracy 0.80 10647 Macro avg 0.56 0.52 0.51 10647 Weighted avg 0.73 0.80 0.75 10647 Precision Recall F1 - Score Πλήθος Healthy 1.00 1.00 1.00 7600 SCD 1.00 1.00 1.00 1872 Accuracy 1.00 9472 Macro avg 1.00 1.00 1.00 9472 Weighted avg 1.00 1.00 1.00 9472 05/12/2022
  30. Γενικά Συμπεράσματα Misclassify των υπόλοιπων κλάσεων σε E-MCI. Υψηλή διακριτική ικανότητα για MCI vs Healthy και SCD vs Healthy, δυσκολία για MCI vs SCD. Υψηλότερη απόδοση με χρήση AEGS. Προτεινόμενος τρόπος: Χρήση των αρχικών χαρακτηριστικών ανεξαρτήτως σταδίου ή η χρήση των αρχικών χαρακτηριστικών ανά στάδιο σε Ensemble σύστημα Majority Voting. Ανάπτυξη αξιόπιστου screening remote test! Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 30 05/12/2022
  31. Μελλοντικές Επεκτάσεις Εμπλουτισμός Βάσης Δεδομένων Αξιολόγηση ερωτήσεων 1 2 3 Leaving One Subject Out - LOSO Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 31 05/12/2022
  32. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 32 Παρουσιάσεις και Δημοσιεύσεις:  "Cognitive decline detection using speech features: A machine learning approach" at HELINA 7th Panhellenic Conference «Acoustics 2022», Thessaloniki, October 2022  “Αναγνώριση Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας” (accepted/to be presented) at 13th Panhellenic Conference of Alzheimer’s Disease (PICAD) and 5th Mediterranean Conference on Neurodegenerative Diseases(MeCoND), Thessaloniki, February 2023  "Cognitive decline detection using speech features: A machine learning approach” / JAES (Journal of the Audio Engineering Society) / To be submitted 05/12/2022
  33. Αναγνώριση Κατηγορίας Νοητικής Έκπτωσης μέσω Χαρακτηριστικών Ομιλίας 33 Ευχαριστίες: Θα ήθελα να ευχαριστήσω θερμά τους: • κ. Ανδρέα Συμεωνίδη • κ. Εμμανουήλ Τσαρδούλια • κ. Ελένη Πόπτση • κ. Θωμά Καρανικιώτη • κ. Μάγδα Τσολάκη για την καθοδήγηση, την εμπιστοσύνη και την έμπνευση. 05/12/2022
  34. Ευχαριστώ πολύ για την προσοχή σας! Ερωτήσεις;

Notes de l'éditeur

  1. Καλημέρα , Το θέμα της διπλωματικής μου εργασίας αφορά την ανάπτυξη ενός διαγνωστικού τεστ για την κατηγοριοποίηση του ατόμου σε κάποιο πρώιμο στάδιο άνοιας (νοητικής έκπτωσης) με βάση το λόγο του.
  2. Ένα από τα σημαντικότερα ζητήματα υγείας στην σημερινή κοινωνία που παραμένει ακόμα άλυτο πρόβλημα είναι η εμφάνιση της άνοιας σε ένα σημαντικό ποσοστό του πληθυσμού. Σύμφωνα με τα στατιστικά στοιχεία, 12-18% των ατόμων άνω των 60 ζει με κάποια πρώιμη μορφή άνοιας. (Μάλιστα Οι δημογραφικές προβλέψεις μάλιστα, δείχνουν ότι ο παγκόσμιος πληθυσμός ηλικίας άνω των 60 ετών ολοένα και θα μεγαλώνει μέχρι το 2050, οδηγώντας σε σαφώς μεγαλύτερο επιπολασμό της άνοιας.) Ταυτόχρονα, η άνοια που οφείλεται στη Νόσο Αλτσχάιμερ που είναι και η συνηθέστερη αιτία, είναι ανίατη, συνεπώς η προσοχή των επιστημόνων έχει στραφεί στην όσο το δυνατόν νωρίτερη αναγνώριση των νοητικών ελλειμμάτων με σκοπό την επιβράδυνση της πορείας της άνοιας αλλά και την συντήρηση των γνωστικών λειτουργιών του ατόμου σε βιώσιμο/αυτόνομο επίπεδο. Οι λύσεις που έχουν δοθεί για το πρόβλημα της διάγνωσης της άνοιας και χρησιμοποιούνται κατά κόρον σήμερα, αποτελούν ”ακριβές” και παρεμβατικές μεθόδους διάγνωσης καθώς απαιτείται ειδικός εξοπλισμός για την κλινική εξέταση, η παρουσία επαγγελματιών, όπως και χρόνος τόσο από τα υποκείμενα όσο και από τους εξεταστές. Τα τελευταία χρόνια, πολλοί ερευνητές ασχολούνται με το να δώσουν νέες λύσεις σε αυτό το πρόβλημα, εκμεταλλευόμενοι την εξασθένηση της ομιλίας που εμφανίζουν τα υποκείμενα με νοητική έκπτωση, συλλέγοντας δεδομένα ομιλίας από δομημένες συνεντέυξεις και στη συνέχεια αναπτύσσοντας ένα μοντέλο Μηχανικής Μάθησης. Οι προηγούμενες έρευνες, αφορούν κυρίως δυαδική ταξινόμηση (AD vs Healthy ή Healthy vs MCI), παρόλα αυτά υπάρχουν και άλλα πρώιμα στάδια. Υποκειμενική Νοητική Διαταραχή: Τα άτομα αυτά έχουν αποτελέσματα υγιούς ατόμου στις γνωστικές αξιολογήσεις τους, παρόλα αυτά χαρακτηρίζονται από έντονα παράπονα πως ξεχνάνε σε σχέση με το παρελθόν. Ήπια Νοητική Διαταραχή: Πρόδρομο/προκλινικό στάδιο άνοιας, ενώ χωρίζεται σε Πρώιμη ή Όψιμη με βάση την επεισοδιακή μνήμη των ατόμων.
  3. Σε αυτή τη μελέτη, εξετάζεται η εγκυρότητα μίας διαδικασίας με χρήση μοντέλων Μηχανικής Μάθησης για την ταξινόμηση του υποκειμένου σε περισσότερες από δύο κλάσεις. Συγκεκριμένα οι κατηγορίες με τις οποίες ασχολείται η συγκεκριμένη μελέτη είναι Υγιής, Υποκειμενική Νοητική Διαταραχή (SCD), Πρώιμη και Όψιμη Ήπια Νοητική Διαταραχή. Ταυτόχρονα σε σχέση με τις άλλες έρευνες, επιλέγεται μία πιο ελεύθερη μορφή στις συνεντεύξεις ώστε να είναι απλούστερη η διαδικασία αυτοεξέτασης. Έτσι τελικά, το screening test προτείνεται να δουλεύει ως εξής: 1. Ο χρήστης λαμβάνει από το κινητό κάποια προτροπή/ερώτηση 2. Απαντάει στην ερώτηση αυτή. 3. Η συγκεκριμένη ηχογράφηση επεξεργάζεται από το εκάστοτε μοντέλο που έχει αναπτυχθεί ώστε τελικά να δοθεί 4. Πρόβλεψη
  4. Η συγκεκριμένη έρευνα υλοποιήθηκε στα πλαίσια συνεργασίας του τμήματός μας και της Εταιρείας Νόσου Alzheimer και Συγγενών Διαταραχών (Alzheimer Hellas) και έτσι η πειραματική διαδικασία υλοποιήθηκε, στο μεγαλύτερο μέρος της, στο Κέντρο Ημέρας ”Αγία Ελένη” της Alzheimer Hellas Όλοι οι συμμετέχοντες έχουν διαγνωστεί από τους ψυχολόγους του Κέντρου με βάση κάποια νευροψυχολογική εκτίμηση κάνοντας κάποιο από τα επιβεβαιωμένα τεστ. Η βαθμίδες εκπαίδευσης ήταν 1 για πρωτοβάθμια, 2 για δευτεροβάθμια και 3 για τριτοβάθμια εκπαίδευση, ενώ F (Female) και M (Male) είναι οι πληροφορίες για γυναίκες και άνδρες αντίστοιχα.
  5. Για τη διαδικασία ηχογράφησης λοιπόν, χορηγούνταν στα άτομα μία σειρά ερωτήσεων σε μορφή συνέντευξης. Η διάρκεια της διαδικασίας ήταν περίπου 30 λεπτά για τον κάθε συμμετέχοντα, ενώ φυσικά όλοι υπέγραφαν πριν την συμμετοχή τους ένα εγκεκριμένο έντυπο συγκατάθεσης. Σύμφωνα με το πειραματικό πρωτόκολλο που αναπτύχθηκε, η συνέντευξη αυτή είχε 5 διαφορετικά στάδια: Στόχος της ύπαρξης σταδίων → Ποσοτικοποίηση της εξασθένησης κατά την αύξηση του απαιτούμενου νοητικού έργου
  6. Στη συνέχεια η συνέντευξη του κάθε ατόμου χωρίστηκε σε επί μέρους αρχεία ηχογραφήσεων ανά ερώτηση. Στο στάδιο αυτό δοκιμάστηκε αποθορυβοποίηση με το πακέτο noisereduce της Python, η οποία όμως τελικά δεν πραγματοποιήθηκε στα τελικά μοντέλα αφού φάνηκε πως αλλοίωνε περισσότερο τα αρχεία από ό,τι τα καθάριζε. Τέλος υπήρχε φυσικά και αρχείο CSV με τις διαγνώσεις και τα υπόλοιπα στοιχεία των ατόμων.
  7. Να πούμε εδώ ότι λόγω της διαφοράς μεγέθους των ηχογραφήσεων, επιλέχθηκαν global χαρακτηριστικά που αφορούν όλο το σήμα ώστε να μπορούν να συγκριθούν μεταξύ τους (αντίθετα με χαρακτηριστικά που είναι window level based) Συγκεκριμένα εξήχθησαν 3 οικογένειες βασικών χαρακτηριστικών σχετικές με τις Παύσεις, την Προσωδία και τις Μηδενικές Διελεύσεις.
  8. Τα χαρακτηριστικά Παύσεων ή Σιωπών (Silence) προκύπτουν από διάφορα στατιστικά που βγαίνουν με βάση τις παύσεις που έκανε το κάθε άτομο. Ο διαχωρισμός ανάμεσα στο ποιο μέρος της ηχογράφησης θεωρείται λόγος και ποιο παύση, προκύπτει από έναν αλγόριθμο της βιβλιοθήκης pydub, ο οποίος χρησιμοποιεί ένα κατώφλι έντασης σε dBFS (Decibels relative to Full Scale). Το κατώφλι που επιλέχθηκε εδώ, ήταν ένα δυναμικό προσαρμοστικό κατώφλι (adaptive threshold), καθώς δεν μιλούσαν όλα τα άτομα με την ίδια ένταση. Έτσι προκύπτουν χαρακτηριστικά για τα τμήματα Παύσεων, τα αντίστοιχα για τα τμήματα Ομιλίας και οι Αναλογίες μεταξύ αυτών των χαρακτηριστικών.
  9. Jitter και Shimmer: μετρήσεις των ανωμαλιών/διαταραχών στην θεμελιώδη συχνότητα F0. Jitter : ορίζεται ως η παράμετρος της διακύμανσης της συχνότητας από κύκλο σε κύκλο Το jitter επηρεάζεται κυρίως από την έλλειψη ελέγχου της δόνησης των φωνητικών χορδών, κι έτσι οι φωνές των ασθενών με παθολογίες έχουν συχνά υψηλότεροποσοστό jitter, Shimmer : σχετίζεται με τη μεταβολή του πλάτους του ηχητικού κύματος το shimmer αλλάζει με τη μείωση της γλωττιδικής αντίστασης και των μαζικών βλαβών στις φωνητικές χορδές και συσχετίζεται με την παρουσία εκπομπής θορύβου και αναπνοής Το HNR είναι μια αξιολόγηση της αναλογίας μεταξύ περιοδικών συνιστωσών, ένα χαμηλό HNR υποδηλώνει ασθενική φωνή και δυσφωνία Praat - Python
  10. Μηδενικές Διελεύσεις / Zero‐Crossings: Ο αριθμός των φορών που ένα (ψηφιακό) σήμα διασχίζει το μηδέν και αυτό το χαρακτηριστικό έχει σκοπό να προσεγγίσει τη συχνότητα του σήματος.
  11. Τα προηγούμενα τα ονομάζουμε αρχικά χαρακτηριστικά Τα χαρακτηριστικά αυτά προκύπτουν από την αφαίρεση κάθε χαρακτηριστικού της ηχογράφησης ενός ατόμου σε ένα στάδιο με το αντίστοιχο χαρακτηριστικό μίας ηχογράφησης του ατόμου σε ένα επόμενο στάδιο. Δημιουργείται, λοιπόν, ένα νέο διάνυσμα χαρακτηριστικών. Έτσι δημιουργούνται 10 αρχεία διαφορών 2-1, 3-1, 4-1, 5-1, 3-2, 4-2, 5-2, 4-3, 5-3, 5-4
  12. επαναλαμβανόμενη στρωματοποιημένη διασταυρωμένη επικύρωση K‐αναδιπλώσεων (Repeated Stratified K‐fold Cross‐Validation).
  13. Επιλογή μοντέλων από διαφορετικά στάδια / διαφορές σταδίων Πιθανότητα πρόβλεψης για την κάθε κλάση ανά στάδιο Άθροισμα πιθανοτήτων πρόβλεψης από κάθε στάδιο για κάθε κλάση. Απόφαση με βάση την μεγαλύτερη πιθανότητα (Majority Voting) Τελική Πρόβλεψη
  14. Στο πρώτο σετ λοιπόν έχουμε τυχαίο διαχωρισμό δεδομένων και προχωράμε στο πείραμα 1 στο οποίο βλέπουμε τα καλύτερα μοντέλα ανά στάδιο ηχογράφησης Τα AEGS χαρακτηριστικά είναι Age Education Gender Stress. (χωρίς τη χρήση AEGS)
  15. Χρησιμοποιούμε τις ηχογραφήσεις από όλα τα στάδια, δηλαδή γίνεται ταξινόμηση ανεξαρτήτως σταδίου
  16. Ταξινόμηση με τη χρήση διαφορών
  17. Φυσικά το γεγονός ότι χρησιμοποιήσαμε διαφορετικές ηχογραφήσεις ίδιων ατόμων στο train και test set μας προβληματίζει σε σχέση με την ανεξαρτησία των παρατηρήσεών μας. Έτσι περνάμε σε ένα δεύτερο σετ πειραμάτων στο οποίο ξεχωρίζουμε κάθε φορά κάποια άτομα με όλες τις ηχογραφήσεις τους για να χρησιμοποιηθούν στο test set, χωρίς να έχουν χρησιμοποιηθεί στο training set.
  18. Το γεγονός ότι τα αποτελέσματα αποκλίνουν τόσο μεταξύ των 2 σετ πειραμάτων, δείχνει ότι για κάποιο λόγο στα πειράματα 1.1-1.4 έχει γίνει overfitting, και έτσι οδηγούμαστε στη δοκιμή ενός πειράματος με τυχαίο split αλλά σε 84 κλάσεις (μία για τον κάθε συμμετέχοντα ονομαστικά), ώστε να ελέγξουμε το πόσο σημαντική είναι η επιρροή του διαχωρισμού στα δεδομένα μας. Αποδεικνύεται τελικά από τα αποτελέσματα λοιπόν ότι η προσέγγιση στα πειράματα 1.1 – 1.4 λειτουργεί από ό,τι φαίνεται καλύτερα περισσότερο για το πρόβλημα του Human Identification, αλλά δεν είναι πλήρως αξιόπιστη για τις ζητούμενες διαγνώσεις. Έτσι λοιπόν κρίνονται πιο αξιόπιστα τα αποτελέσματα του 2ου σετ πειραμάτων, με τα καλύτερα αποτελέσματα να προέρχονται από το πείραμα 2.1
  19. Στη συνέχεια κάνουμε και κάποια πειράματα για δυαδικούς ταξινομητές για τις επί μέρους κατηγορίες (εδώ οι κατηγορίες MCI είναι σαν μία).
  20. Όπως φαίνεται, τα κύρια λάθη που κάνουν τα μοντέλα, είναι κυρίως η λάθος ταξινόμηση (misclassify) των υπόλοιπων κατηγοριών ως E-MCI. Υψηλή διακριτική ικανότητα ανάμεσα στις κατηγορίες MCI vs Healthy και SCD vs Healthy, δυσκολία στην διάκριση μεταξύ MCI και SCD Τα χαρακτηριστικά AEGS ανεβάζουν στα περισσότερα πειράματα πολύ σημαντικά την απόδοση. Αποδοτικότερος τρόπος η χρήση των αρχικών χαρακτηριστικών ανεξαρτήτως σταδίου ή η χρήση των αρχικών χαρακτηριστικών ανά στάδιο σε Ensemble σύστημα Majority Voting, το οποίο όμως χρησιμοποιεί μόνο τα μοντέλα που έχουν πάνω από 50% απόδοση στις διαφορετικές μετρικές ώστε το σύστημα να λειτουργεί όντως ως μηχανισμός ενίσχυσης και να μην χειροτερεύει τα αποτελέσματα. Ανάπτυξη αξιόπιστου screening remote test!
  21. Εμπλουτισμός Βάσης Δεδομένων με περισσότερα άτομα και κινητές συσκευές σε διαφορετικές συνθήκες ηχογράφησης ο εμπλουτισμός της βάσης, είναι σημαντικό να γίνει με περισσότερες κινητές συσκευές (λόγω των διαφορετικών μικροφώνων των συσκευών), ώστε να υπάρχει μεγαλύτερη ποικιλία ειδών ηχογραφήσεων στην βάση δεδομένων και συνεπώς αυτή να καλύπτει το φάσμα όλων των διαφορετικών ποιοτικά ηχογραφήσεων που προκύπτουν από τη χρήση διαφορετικής κινητής συσκευής. Αξιολόγηση ερωτήσεων και χρήση μόνο των στατιστικά σημαντικών LOSO: κρίνεται ενδιαφέρουσα η προσέγγιση του cross-validation με την μέθοδο Leaving One Subject Out (LOSO), που συνηθίζεται να χρησιμοποιείται σε τέτοια προβλήματα και αφορά το cross-validation με τόσες επικαλύψεις (folds) όσα και τα άτομα που συμμετέχουν στην έρευνα.
Publicité