Multi Label Deezer Streaming Classification

PLDAC
2018-2019
Classification d’albums musicaux à partir de traces de diffusion
spatio temporelle
Réalisé par : Encadrant :
Abdelraouf KESKES Sylvain LAMPRIER
Tony GOSSE-DUMESNIL

Sommaire
● Etat de l’art
● Analyse des données
● Protocole expérimental
● Discussion des résultats
● Problèmes et difficultés
● Conclusion

Deezer et la data science
Lancé en 2007 par Daniel Marhely et Jonathan Benassaya
● Clustering des utilisateurs
● Détections d’émotions
● Extraction d’instruments
● Systèmes de recommandations
● Business intelligence et KPI
Etat de l’art

Le machine learning au sein de la musique !
● Détection de tempo, pulsation, tonalité ...
● Identification de l’artiste
● Reconnaissance des instruments
● Classification d’humeur, sentiments
● Génération de musique (GAN’s)
Etat de l’art

Apprentissage avec des données spatio-temporelles
● Météorologie: Prédiction de la vitesse du vent, de la température
● Route: Prédiction de la circulation routière
● etc…
RNN => prédiction de séquences STNN => RNN + Aspect spatial
Etat de l’art

Classification à partir de données audio
- +70% de précision avec 15 genres
- Précision humaine !
Etat de l’art

Les données (1)
Analyse des données

Quelques chiffres . . .
● 1557 albums dont 1543 étiquetés
● 2 348 509 traces de diffusions
● 2683 villes internationales majoritairement françaises
● 51 genres musicaux
● 48% des données viennent de Paris
● 39% des auditeurs sont des jeunes de 18 à 24 ans
● 358 jours de données de diffusion au maximum pour un album et 60 jours au
minimum
● 351 390 valeurs manquantes dans la colonne âge

Statistiques sur les genres
musicaux
● Unbalanced data
● Le genre “Rap/Hip-Hop” prédomine
le dataset
● Certains genres ont très peu
d’albums voire même un seul

Statistiques sur la population

Statistiques sur les villes

Protocole expérimental
Données après
preprocessing
785956 traces de diffusion au total ...
Labels
X un tenseur
Xi représente un
album de taille
(nbsteps,2683)
Y est de taille
(nombre albums
, 27 genres)
dataset

Visualisation
en agrégeant chaque album avec un nbSteps=1 on obtient un vecteur de dimension (1,2683 ) …
PCA TSNE

Métriques d’évaluations basées sur les labels
● Precision
● Recall
● F1-measure
● AvgP
● MAP

Métriques d’évaluations basé sur les
exemples
● Hamming score
● Exact Match Ratio
● Soft accuracy
● Confusion Matrix ( One vs All )

Réseau de neurones Fully Connected
Architecture :
● Couche d’entrée: nbSteps x 2683 => ReLu
● Couche cachée: nbSteps x 100 => ReLu
● Sortie: 27 => Sigmoid => (Threshold = 0.2)
=> Résultat final : Y =
Paramètres :
● batch size : 20
● Learning rate : 0.001
● Loss Function : BCE
● Epochs : 50
0 1 0 . . . . . 1

Split (Train 80 % | Test 20%) nbSteps=1
Label-Based
Metric
result Example-Based
metric
result
MAP 0.34 Soft Accuracy 0.53
Précision
(Macro)
0.44 Hamming Score 0.43
Recall
(Macro)
0.24 Exact Match 0.28
F1(Macro) 0.27 Hamming Loss 0.06

Problème de “unbalanced data”
● Suppression de données (under sampling)
● Réplication de données (over sampling)
● pondération inverse proportionnelle à la distribution des classes
(Examples,Loss function, … )

Exploration de l’aspect temporel dans la classification
Exemple de diffusion d’un album à
travers le temps La valeur MAP en augmentant le
nbStep (temps)

Exploration de l’aspect temporel (2)
Precision Recall F1-measure

Exploration de l’aspect temporel (3)
Exact Match
Ratio
Hamming
Score
Soft Accuracy

Threshold Tuning
varier le paramètre threshold de 0 à 1 avec un saut de 0.1
Precision Recall F1-measure

Threshold Tuning (2)
Exact Match
Ratio
Hamming
Score

Récapitulatif des résultats
Label-Based Metric résultat Example-Based metric résultat
MAP 0.68 (+0.34) Soft Accuracy 0.59 (+0.06)
Precision(Macro) 0.72 (+0.34) Hamming Score 0.53 (+0.1)
Recall(Macro) 0.66 (+0.42) Exact Match 0.47 (+0.19)
F1(Macro) 0.68 (+0.41) Hamming Loss 0.03 (-0.03)
● Meilleur compromis => nbSteps=28 , Threshold=0.3
● Matrices de confusion nettement améliorées avec moins de FP , FN .

Réseau de neurones convolutif
⇒ Pas d’amélioration . . .

PROBLEME DE DE DEBORDEMENT MEMOIRE ?
● Passage DataFrame => Matrice X
● Représentation de la matrice X
Solutions:
● Ne pas utiliser les fonctions prédéfinies qui créent des copies
● Typage des données ( 64 bits => 16bits )
● Utiliser les représentations sparses
● Transformer le DataFrames en dictionnaire pour faciliter les agrégations
● Supprimer les variables inutiles et lancer le “Garbage collector” entre bouts de
code
Problèmes et difficultés

Conclusion
Les traces spatio-temporelles sont des données moins lourdes que les fichiers
audio , images haute résolution , …
Elles peuvent donner des résultats impressionnants dans plusieurs domaines ou
tâches .
Améliorations futures:
● Résoudre le problème de mémoire pour traiter le cas nbSteps=358
● Utilisation de RNN et ses variantes LSTM, GRU… et essayer de l’adapter à
notre problème
Conclusion et améliorations futures

Merci de nous avoir écouté
avez vous des questions ?

Multi Label Deezer Streaming Classification

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Multi Label Deezer Streaming Classification