2. Sommaire
● Etat de l’art
● Analyse des données
● Protocole expérimental
● Discussion des résultats
● Problèmes et difficultés
● Conclusion
3. Deezer et la data science
Lancé en 2007 par Daniel Marhely et Jonathan Benassaya
● Clustering des utilisateurs
● Détections d’émotions
● Extraction d’instruments
● Systèmes de recommandations
● Business intelligence et KPI
Etat de l’art
4. Le machine learning au sein de la musique !
● Détection de tempo, pulsation, tonalité ...
● Identification de l’artiste
● Reconnaissance des instruments
● Classification d’humeur, sentiments
● Génération de musique (GAN’s)
Etat de l’art
5. Apprentissage avec des données spatio-temporelles
● Météorologie: Prédiction de la vitesse du vent, de la température
● Route: Prédiction de la circulation routière
● etc…
RNN => prédiction de séquences STNN => RNN + Aspect spatial
Etat de l’art
6. Classification à partir de données audio
- +70% de précision avec 15 genres
- Précision humaine !
Etat de l’art
8. Analyse des données
Quelques chiffres . . .
● 1557 albums dont 1543 étiquetés
● 2 348 509 traces de diffusions
● 2683 villes internationales majoritairement françaises
● 51 genres musicaux
● 48% des données viennent de Paris
● 39% des auditeurs sont des jeunes de 18 à 24 ans
● 358 jours de données de diffusion au maximum pour un album et 60 jours au
minimum
● 351 390 valeurs manquantes dans la colonne âge
9. Analyse des données
Statistiques sur les genres
musicaux
● Unbalanced data
● Le genre “Rap/Hip-Hop” prédomine
le dataset
● Certains genres ont très peu
d’albums voire même un seul
17. Protocole expérimental
Split (Train 80 % | Test 20%) nbSteps=1
Label-Based
Metric
result Example-Based
metric
result
MAP 0.34 Soft Accuracy 0.53
Précision
(Macro)
0.44 Hamming Score 0.43
Recall
(Macro)
0.24 Exact Match 0.28
F1(Macro) 0.27 Hamming Loss 0.06
18. Problème de “unbalanced data”
● Suppression de données (under sampling)
● Réplication de données (over sampling)
Protocole expérimental
● pondération inverse proportionnelle à la distribution des classes
(Examples,Loss function, … )
19. Exploration de l’aspect temporel dans la classification
Protocole expérimental
Exemple de diffusion d’un album à
travers le temps La valeur MAP en augmentant le
nbStep (temps)
24. Récapitulatif des résultats
Protocole expérimental
Label-Based Metric résultat Example-Based metric résultat
MAP 0.68 (+0.34) Soft Accuracy 0.59 (+0.06)
Precision(Macro) 0.72 (+0.34) Hamming Score 0.53 (+0.1)
Recall(Macro) 0.66 (+0.42) Exact Match 0.47 (+0.19)
F1(Macro) 0.68 (+0.41) Hamming Loss 0.03 (-0.03)
● Meilleur compromis => nbSteps=28 , Threshold=0.3
● Matrices de confusion nettement améliorées avec moins de FP , FN .
25. Réseau de neurones convolutif
Protocole expérimental
⇒ Pas d’amélioration . . .
26. PROBLEME DE DE DEBORDEMENT MEMOIRE ?
● Passage DataFrame => Matrice X
● Représentation de la matrice X
Solutions:
● Ne pas utiliser les fonctions prédéfinies qui créent des copies
● Typage des données ( 64 bits => 16bits )
● Utiliser les représentations sparses
● Transformer le DataFrames en dictionnaire pour faciliter les agrégations
● Supprimer les variables inutiles et lancer le “Garbage collector” entre bouts de
code
Problèmes et difficultés
27. Conclusion
Les traces spatio-temporelles sont des données moins lourdes que les fichiers
audio , images haute résolution , …
Elles peuvent donner des résultats impressionnants dans plusieurs domaines ou
tâches .
Améliorations futures:
● Résoudre le problème de mémoire pour traiter le cas nbSteps=358
● Utilisation de RNN et ses variantes LSTM, GRU… et essayer de l’adapter à
notre problème
Conclusion et améliorations futures
28. Merci de nous avoir écouté
avez vous des questions ?