Étude d’un classifieur hybride supervisé et non-supervisé pour
la classification en genre des vidéos sur l’internet
• Introduction
• État de l’art
• Contribution
• Classification
• Expérimentations
• Résultats
• Conclusion
• Perspectives
...
Introduction
3Classification en genre des video sur l’internet – Hassan El HAJJ
• En générale, La classification en genre ...
• Les rechercheurs ont proposé :
1. Méthode supervisée
2. Méthode non supervisée
3. Amélioration de performance des méthod...
Contribution(1)
Objectif et proposition
5Classification en genre des video sur l’internet – Hassan El HAJJ
• Approche diff...
Contribution(2)
Construction du corpus
• Analyser 3000 vidéos sur YouTube et proposer une liste
d’environ 40 genres.
• Réc...
7
Divertissements Horreur Jeux Farces Accident Magie
Compétition Publicité Mariage Cours incendies Talents
Technologie Mon...
 Utiliser ffmpeg pour extraire les images et le son d’un vidéo
 Extraire des information visuelles:
 Quantité de mouvem...
 Extraire des information audio:
 Quantité d’énergie globale dans le son, qui nous
indique si le son est fort ou pas(sil...
10
Fichier Descripteur
Classification en genre des video sur l’internet – Hassan El HAJJ
Classification - Clustering
11Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 1. La variation de co...
12
Classification - K plus proches
voisins
Classification en genre des video sur l’internet – Hassan El HAJJ
• Diviser la ...
13
L’hybridation des 2 méthodes
Classification en genre des video sur l’internet – Hassan El HAJJ
• Combinaison entre KNN ...
14
Expérimentations
Sur toute la palette
Classification en genre des video sur l’internet – Hassan El HAJJ
K 38 30 20 17 1...
Sur 4 genres
15Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 5. La variation du coefficient de pu...
16
Sur 2 genres peu discriminants
Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 6. La variation d...
17
Sur 2 genres très discriminants
Classification en genre des video sur l’internet – Hassan El HAJJ
Fig. 7. La variation ...
Résultats
18Classification en genre des video sur l’internet – Hassan El HAJJ
Méthode de
classification
Taille de
la colle...
 Les résultats produits sont réalistes par rapport à la
difficulté du problème et c’est à quoi il faut s’attendre si
on c...
 Travailler sur la manque de donnés en augmentant le
corpus
 Adapter les caractéristiques utilisées aux genres
déterminé...
21
Questions ?
Classification en genre des video sur l’internet – Hassan El HAJJ
Merci pour votre attention
Prochain SlideShare
Chargement dans…5
×

Classification of videos on the internet

449 vues

Publié le

It's about the classification of the videos on the internet. It is simple study that tries to classify 400 videos collected from Youtube using a new method of classification which is an assimilation of 2 methods well known in the domain (Knn, Clustering).

Publié dans : Ingénierie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
449
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
18
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • - Discuter un petit peu a propos de chaque partie.
  • Expliquer la complexité des vidéos sur Internet
    Diferrence entre les vidéos sur Internet et TV.
    Definition “classification des videos sur Internet” : Tout d’abord, je ne suis pas sure si vous avez une idée a propos de quoi s’agit ce domaine la? l’idée est d’associer a chaque video un genre qui peut nous aider dans le domaine de l’indexation.
    Nous savons que la class. en genre des videos est un probl. Compliqué et tres riche et tous qui ont attaqué ce type de recherché ont travaillé sur un petit nombre de classe avec des descripteurs adaptées aux genres utilizes et que si on leur demande pourquoi vous avez extrait telle ou telle info, ils ne savent jamais.
    Effectivement qu’on travaille sur les videos a al TV, on peut reduire fortement le nbre de classe et en plus ils seront des classes trés discriminant.
    Sur l’internet, c’est bcp plus difficile de faire une classification donc les methodes qui ont été developpé pour travailler sur la tv ne marchent pas sur Internet, on est oblige de faire plein de classe car il ya tellement de variation tellement de contenu differente.
  • Il faut dire ici aussi que c’est pas intéressant d’expliquer en details des méthodes pour chaque type car notre contribution n’est pas liée a ce qui est dans l’etat de l’art. Il applique la meme demarche mais du differente point de vue.
    Mais ils n’ont pas essayer de classifier les vidéos sur l’internet par un grand nombre de classe
    Il ya une école de travail et il ya des gens qui ont bossé et leurs méthodes fonctionnent mais elles sont limitées a un defaut essentiel dans ce domaine, ce qui est les données (les vidéos).
    Donc on dit que “tous ont adapté le problème pour avoir des résultats significatifs”


  • Utiliser des caractéristiques qui ne sont pas adaptées aux genres déterminés.
    Essayer de regrouper les descripteurs en clusters et voir la pureté de chaque cluster(clustering)
    entraîner un système automatique pour reconnaitre les classes (k-nn)
    Mise en correspondance entre les deux méthodes pour enrichir les résultats obtenus
    Faire une étude entre les 3 méthodes sous des différentes conditions appliqués sur la collection d’apprentissage
    Utiliser un grand nombre de classe
    Travailler sur la construction du corpus
    Proposer une hybridation de 2 méthodes
    Faire une étude entre les 3 méthodes sous des différentes conditions appliqués sur la collection d’apprentissage
  • J’ai dis auparavant que toutes les méthodes existantes sont limitées aux données pour cela on a decidé de mettre l’accent dans ce travail sur les données.
    La catégorisation manuelle des vidéos n’était pas une tâche facile à accomplir car de nombreuses vidéos peuvent être associées à plusieurs genres en même temps et il peut être très difficile de dire de quel genre elles se rapprochent le plus. Pour maitriser cette tâche, on a utilisé les descriptions accompagnées avec les vidéos appelées « tags » et leurs titre afin d’appréhender ce type de problème. Et malgré ca, il se peut qu’il ya des erreurs car on travaille sur des choix perspectives

    - C’est une contribution intéressante dans ce travail meme si scientifiquement c’est pas un grand chose mais c’est un travail du fond. L’idée etait de prendre les données pour ce qu’elles sont et je me débrouille avec ca. Tampis si ca donne pas forcement de bon resultats “je mes l’accent sur les dsonnées que de les methodes”
  • Voila, les genres definis
  • Quantité de mouvement = gradient temporelle
    Quantité de gradient horizontale = gradient spatiale

    Les données sont pretes, il faut les representer afin de les classifier
    Tout d’abord, on a commencé par représenter la quantité de variation de mouvement entre toutes les images de la vidéo. Pour cela, on a converti chaque image en niveau de gris et pour chaque couple d’images successives, on a calculé la somme de tous les éléments de la différence entre les matrices qui représentent le couple d’image2. En passant sur tous les couples et en additionnant les résultats, on a obtenu la quantité de variation d’intensités des pixels entre tous les couples d’images. Afin d’être capable de faire la comparaison avec les valeurs d’autres fichiers vidéo, il faut normaliser cette valeur. Donc on l’a divisé par le nombre de pixels de toutes les images. Enfin, on a récupéré la quantité moyenne, la quantité minimale et la quantité maximale de variations entre tous les couples d’images.
    Une autre caractéristique intéressante dans ce domaine, concerne les textures contenues dans les images des vidéos. On va distinguer 2 types de textures, horizontale et verticale. Après avoir converti chaque image au niveau de gris, on a fait la convolution entre chaque image et un filtre, chaque type de texture à un filtre spécifique (inspiré des filtres utilisés pour les estimateurs de gradient).
    Enfin, on calcule la somme de tous les éléments résultants de la convolution et on la divise par le nombre de pixels de l’image. Pour chaque type de texture, on va récupérer 3 valeurs qui sont la valeur moyenne, la quantité minimale et la quantité maximale.
    On a aussi extrait un histogramme de couleur pour enrichir les informations utilisées dans la classification. Tout d’abord, on a fait une quantification pour chaque image en associant un code de 0 à 7 pour chaque triplet des valeurs, qui représentent la couleur d’un pixel. Ensuite, on a calculé le nombre d’occurrence de ces codes, ce qui nous a donné un vecteur de 8 valeurs pour chaque image. Enfin, on additionne tous les vecteurs, élément par élément, et on divise chaque élément du vecteur résultant par le nombre de pixels et par le nombre d’images du fichier vidéo. À la fin, on récupère ce vecteur résultant dans le fichier descripteur.
  • Dans l’espace acoustique, on s’intéresse premièrement à extraire un indicateur de la présence de silence qu’on peut l’appeler « énergie globale ». Au début, on récupère du fichier audio la fréquence d’échantillonnage (Sampling Frequency), qui est le nombre des valeurs numériques sauvegardées durant chaque seconde. Ensuite, on travaille sur des fenêtres de 2 secondes qui se chevauchent et on applique la transformation de Fourrier. Puis, on calcule la somme de modules de coefficient fréquentiel du vecteur résultant, exception faite de la composante continue, sur chaque fenêtre et cette valeur indique la présence de silence si elle est petite. Sinon, ça veut dire que ce n’est pas du silence. Enfin, on récupère la moyenne et l’écart-type de la liste de valeurs calculées dans le descripteur.
    Par ailleurs, on a extrait l’énergie à 4HZ. Généralement, lorsqu’on parle, le rythme de parole quel que soit la langue est à peu près de 4 syllabes par seconde. D’ici provient l’idée que la présence de parole peut se caractériser par la présence de coefficients d’amplitude significative autour de cette fréquence. Pour cela, on a suivi la même démarche que l’énergie globale. Mais ici, on a récupéré une seule valeur du vecteur résultant de la transformation de Fourrier caractérisant la fréquence à 4Hz. En générale, cette caractéristique n’est pas fiable à 100% pour la détection de parole et ne doit être considérée que comme un indicateur de base.
    Une dernière caractéristique qu’on a appelé « indicateur de musique » a été aussi extraite. Nous formulons l’hypothèse forte qu’une note de la musique correspond à un ensemble de fréquences maintenues stablement pendant au moins un quart de seconde. Alors, on a calculé la différence terme à terme entre les transformées de Fourrier sur des fenêtres successives. On additionne tous les éléments du vecteur résultant et l’idée ici est que si c’est de la musique, cette valeur va presque s’annuler, sinon ce n’est pas de la musique. Enfin, on récupère la moyenne et l’écart-type de cette liste des valeurs dans le fichier descripteur. Ce descripteur ne s’avère pas particulièrement fiable d’après nos tests, mais a été retenu toutefois dans nos fichiers de description.
  • Tout est pret maintenant pour faire la classification.
    Le clustering c’est de regrouper les descripteurs qui se ressemblent les plus dans un meme cluster sans utiliser une partie pour apprentisser l’algo
    Comment le clustering marche (ici le cas ou on travaille sur toute la palette)
    Par rapport au calcul de la similarité, on a utilisé la distance euclidienne entre les paquets et pour cela il faut normaliser les variables dans les descripteurs afin d’avoir des valeurs qu’on peut comparer. C’est pourquoi on a fait une étude comparative du comportement de cet algorithme avec différents types de normalisation et sans normalisation. La première méthode de normalisation consiste à utiliser la moyenne et l’écart-type de la liste des valeurs de chaque variable dans tous les fichiers descripteurs, on considère ici qu’un variable est une caractéristique extraite de la vidéo. La deuxième est une méthode analysée par Doherty et al. [30], elle est basée sur le minimum et le maximum de la liste des valeurs de chaque variable, ils ont conclu que cette approche peut donner les meilleurs résultats avec le clustering. La troisième approche suggérée est de faire le clustering sans normaliser les données.
    Pour réaliser cette étude, on a introduit le critère « coefficient de pureté » pour évaluer la performance de cet algorithme avec ces 3 méthodes de normalisation. En termes de signification, ce critère mesure la pureté de tous les clusters déterminés d’une manière qu’au début on calcule la pureté de chaque cluster et enfin on les additionne pour obtenir une mesure globale. En termes de calcul, on prend chaque cluster déterminé par l’algorithme et on récupère le nombre de fichiers appartenant à la classe majoritaire dans ce cluster. À la fin, on les additionne et on divise le résultat sur le nombre de tous les fichiers utilisés dans le clustering. La valeur obtenue est le coefficient de pureté des clusters déterminés.

    𝐶𝑜𝑒𝑓𝑓𝑖𝑒𝑛𝑡𝐷𝑒𝑃𝑢𝑟𝑒𝑡é= Σ(𝑛𝑏𝑟𝑒 𝑑𝑒𝑠 𝑓𝑖𝑐ℎ𝑖𝑒𝑟𝑠 𝑑𝑢 𝑐𝑙𝑎𝑠𝑠𝑒 𝑚𝑎𝑗𝑒𝑢𝑟𝑒 𝑑𝑢 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑛)𝑁𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑛=1 / 𝑛𝑏𝑟𝑒 𝑑𝑒𝑠 𝑓𝑖𝑐ℎ𝑖𝑒𝑟𝑠 𝑢𝑡𝑖𝑙𝑖𝑠é𝑠 𝑑𝑎𝑛𝑠 𝑙𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑖𝑛𝑔


    En théorie, c’est rationnel de normaliser lorsqu’on travaille avec de données de différents types, mais ce n’est pas le cas dans notre travail en raison de propriétés des vidéos sur l’internet qui consistent que deux vidéos peuvent être associées à un même genre mais leurs fichiers descripteurs sont totalement différents et qu’il n’y a pas d’uniformité dans les genres, c.-à-d., deux vidéos qui ont leurs fichiers descripteurs semblables peuvent être associés à deux différentes genres. Donc, il est intéressant de dire qu’en termes de pureté le clustering donne des meilleurs résultats sans normalisation mais cela n’indique pas que les résultats sont significatifs.
  • Analyse intra-classe et inter-classe (une description est valuable dans le rapport)
    Description de comment calculer les choses est valuable dans le rapport.

    nous avons vu que l’écart-type des distances moyennes intra-classe est petit par rapport à la distance inter-classe moyenne, ce qui indique que les classes sont très discriminantes et qu’il n’y a pas de confusion entre elles. Ce qui nous a amené à déduire que k doit être petite. En revenant à la méthode, on a utilisé la distance euclidienne et pour chaque fichier de la collection de test, on a essayé de déterminer leur genre en calculant une degré d’appartenance par rapport aux genres prédits par l’algorithme. Pour évaluer cette approche, on a introduit la notion « taux de précision » qui nous indique la performance de cette méthode sur les concepts compliqués utilisés.

    Dans ce cas, ce critère est calculé d’une façon que pour chaque fichier dans chaque cluster, on voit s’il appartient à une des classes majoritaires obtenues par l’application de KNN sur le descripteur moyen du cluster, on récupère une valeur égale à 1 sur le nombre de classes majoritaires et sinon on récupère la valeur 0. Enfin, on additionne toutes ces valeurs et on divise le résultat par le nombre des fichiers utilisés pour l’application de l’algorithme
  • Notre proposition consiste premièrement à appliquer l’algorithme de clustering sans normalisation sur une partie de ces deux parties décrites auparavant. On a utilisé le clustering sans normalisation car il nous a donné les meilleurs résultats de dispersion des fichiers descripteurs entre les clusters, ce que vous allez le voir en détails dans le chapitre suivant. Deuxièment, on utilise l’autre partie de la collection de test comme donnée d’apprentissage pour l’application de k-plus proche voisins et pour chaque cluster obtenus dans les résultats du clustering, on applique sur leurs fichiers descripteurs le KNN pour attribuer à tous les fichiers du cluster la classe le plus probable. En fait, on a calculé un descripteur moyen pour chaque cluster et on a déterminé une degré d’appartenance par rapport aux genres prédits avec le KNN pour dire que le genre le plus majeur peut être le genre du cluster
  • Pour faire les etudes, il faut appliquer les methods sur de differentes conditions appliquées sur la collection d’apprentissage
    Les résultats sont réalistes par rapport a la difficulté du pb, c’est a quoi il faut s’attendre si on cherche a deployer des methods de classification en genre de ce type de données mais ces resultats ne sont pas exploitables
    La raison d’un si faible taux vient du fait que la diversité des concepts est quasiment infini et que leur occurrence est en moyenne tres rare. 2 videos d’un meme genre peuvent avoir 2 descripteurs tres differents et 2 videos de genre different peuvent avoir des descripteurs semblables

  • Il ya une augmentation dans les precision mais ils restent inexploitables
  • Ici, On commence à avoir des resultats acceptables et cela nous indique que notre methode marche bien mais lors de ces concepts utilizes, on n’a pas eu de chance d’avoir de bons resultats sauf lorsque on a travaillé sur 2 genres comme collection d’apprentissage
  • - On voit que les test sur l’hybridation n’etatient pas forcement les meilleures (c’est de la recherche), il semblerait qu’une methode directe est plus efficace
  • Dans ce domaine, il ya beaucoup des papiers de la cuisine, les gens enlevent quelque chose d’ici et rajoute quelque chose la bas. A la fin, ils disent que ca marche plus mieux. Mais pourquoi,? Pas de reponse !
    Un grod defaut dans ce domaine est la distance a la donnée, c-a-d, les gens travaillent sur les methods et ils s’interessent pas aux données donc ils sont tres distants du probleme de la donnée, ils cherchent pas a les caracteriser, ils cherchent a trouver une methode differente. Et tous le pb sur ce sujet est portée par les données(les données sont difficiles a analyser)
  • Prendre en considération qu’un vidéo peut appartenir à différentes genres avec parfois des niveaux de gradation diverses.
  • Classification of videos on the internet

    1. 1. Étude d’un classifieur hybride supervisé et non-supervisé pour la classification en genre des vidéos sur l’internet
    2. 2. • Introduction • État de l’art • Contribution • Classification • Expérimentations • Résultats • Conclusion • Perspectives 2 Plan de la présentation Classification en genre des video sur l’internet – Hassan El HAJJ
    3. 3. Introduction 3Classification en genre des video sur l’internet – Hassan El HAJJ • En générale, La classification en genre des vidéos est un problème compliqué • La plupart ont choisit un type des vidéos (TV Programs, films, etc..) • La classification des vidéos sur l’internet est totalement différente de la classification des vidéos sur TV.
    4. 4. • Les rechercheurs ont proposé : 1. Méthode supervisée 2. Méthode non supervisée 3. Amélioration de performance des méthodes déja existantes Mais tous ont adapté le problème pour avoir des résultats significatifs 4Classification en genre des video sur l’internet – Hassan El HAJJ État de l’art
    5. 5. Contribution(1) Objectif et proposition 5Classification en genre des video sur l’internet – Hassan El HAJJ • Approche différente de ce qui est dans l’etat de l’art en tant de: • Caractéristiques utilisées. • Nombre de classe • La construction du corpus • Proposer une hybridation de 2 méthodes • Faire une étude entre les 3 méthodes sous des différentes conditions appliqués sur la collection d’apprentissage
    6. 6. Contribution(2) Construction du corpus • Analyser 3000 vidéos sur YouTube et proposer une liste d’environ 40 genres. • Récupérer pour chaque genre une liste de 10 vidéos pour avoir enfin une collection de test de 400 vidéos. • Annoter manuellement les vidéos. 6Classification en genre des video sur l’internet – Hassan El HAJJ
    7. 7. 7 Divertissements Horreur Jeux Farces Accident Magie Compétition Publicité Mariage Cours incendies Talents Technologie Monuments Religion Films Musique Journaux télévisés Cours d’informatique Célébrités Illusion Armes Dessins animés Dance Environnement Reportages Discours Sport Tourisme Guerre Conférences Inventions Science Santé Animaux Finance Commerciale Éducation Politique Marrant Classification en genre des video sur l’internet – Hassan El HAJJ Contribution(3) Les genres détérminés
    8. 8.  Utiliser ffmpeg pour extraire les images et le son d’un vidéo  Extraire des information visuelles:  Quantité de mouvement des pixels dans les images  Quantité de gradient horizontale et verticale dans les images  Histogramme moyenne de toutes les images  Surface moyenne des régions du texte dans les images  Nombre moyen des visages par vidéo 8 Classification Extraction des descripteurs Classification en genre des video sur l’internet – Hassan El HAJJ
    9. 9.  Extraire des information audio:  Quantité d’énergie globale dans le son, qui nous indique si le son est fort ou pas(silence ou pas).  Quantité d’énergie a 4 Hz(parole ou pas)  Indicateur de musique Toutes les méthodes utilisées sont un petit peu fine et frustes car elles ne donnent pas des résultats rigoureux 9 Extraction des descripteurs(2) Classification en genre des video sur l’internet – Hassan El HAJJ
    10. 10. 10 Fichier Descripteur Classification en genre des video sur l’internet – Hassan El HAJJ
    11. 11. Classification - Clustering 11Classification en genre des video sur l’internet – Hassan El HAJJ Fig. 1. La variation de coefficient de pureté en fonction le nombre cluster déterminé en appliquant une normalisation « minimum, maximum ». Fig. 2. La variation de coefficient de pureté en fonction le nombre cluster déterminé en appliquant une normalisation « moyenne, écart-type ». Fig. 3. La variation de coefficient de pureté en fonction le nombre cluster déterminé sans normalisation. •Préférable de normaliser les données lorsqu’on travaille sur des variables différentes •Ici, la normalisation a pour effet de réduire la capacité de discriminance des classifieurs.
    12. 12. 12 Classification - K plus proches voisins Classification en genre des video sur l’internet – Hassan El HAJJ • Diviser la collection des vidéos collectées en 2 parties, une partie pour les tests et l’autre pour etre la collection d’apprentissage. • Utilisation d’une rang des valeurs de k après avoir analyser légèrement les descripteurs. • On a introduit la notion « taux de précision » pour évaluer la performance de la méthode.
    13. 13. 13 L’hybridation des 2 méthodes Classification en genre des video sur l’internet – Hassan El HAJJ • Combinaison entre KNN et Clustering • Diviser la collection des données en 2 parties: • 200 vidéos comme collection d’apprentissage du clustering • Les autres comme collection d’apprentissage du KNN • On regroupe les résultats de toutes les prédictions et on les utilise pour évaluer la précision de cette méthode en utilisant le « taux de précision ».
    14. 14. 14 Expérimentations Sur toute la palette Classification en genre des video sur l’internet – Hassan El HAJJ K 38 30 20 17 13 10 6 5 4 3 2 1 Taux De précision (%) 4.51 7.02 6.71 5.99 5.4 5.2 5.25 4 3.62 3.16 3.75 6 Tab 1. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est toute la palette collectée. Fig. 4. La variation de coefficient de pureté en fonction le nombre cluster déterminé sans normalisation. K 40 30 20 17 13 10 6 5 4 3 2 1 Taux De précisio n(%) 9.92 9.84 11.8 11.2 11 10.5 10.1 11.2 10.5 10.3 9.5 11 Tab 2. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est toute la palette collectée
    15. 15. Sur 4 genres 15Classification en genre des video sur l’internet – Hassan El HAJJ Fig. 5. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 4 classes mentionnées ci-dessus. K 12 11 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 32.5 31.6 28.3 33.3 35 35 30 37.5 37.5 33.3 22.5 25 Tab 3. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 4 classes très discriminants K 12 11 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 35 40 37.5 39.1 37.5 36.6 40 42.5 40 36.6 30 40 Tab 4. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 4 classes très discriminants Les genres utilisés sont : Cours d’informatique, Journaux télévisés, Commerciale, Dessins animés
    16. 16. 16 Sur 2 genres peu discriminants Classification en genre des video sur l’internet – Hassan El HAJJ Fig. 6. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 2 classes mentionnées ci-dessus K 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 50 60 55 60 55 50 55 50 50 50 Tab 5. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes peu discriminants K 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 50 60 55 60 50 60 60 70 55.5 70 Tab 6. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes peu discriminants Les genres utilisés sont : Journaux télévisés, Reportages
    17. 17. 17 Sur 2 genres très discriminants Classification en genre des video sur l’internet – Hassan El HAJJ Fig. 7. La variation du coefficient de pureté en fonction le nombre cluster déterminé sans normalisation appliqué sur une collection d’apprentissage composée des 2 classes mentionnées ci-dessus. K 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 50 80 70 70 65 60 65 70 65 60 Tab 7. Résultats obtenus de l’hybridation des 2 méthodes avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes très discriminants K 10 9 8 7 6 5 4 3 2 1 Taux De précision (%) 50 80 80 80 70 70 65.5 80 65 70 Tab 8. Résultats obtenus de la méthode supervisée avec différentes valeur de k dans le cas où la collection d’apprentissage est composée de 2 classes très discriminants Les genres utilisés sont : Commerciale, Cours d’informatique
    18. 18. Résultats 18Classification en genre des video sur l’internet – Hassan El HAJJ Méthode de classification Taille de la collection d’apprentissage Clustering (en coefficient de pureté) K plus proche voisins (en taux de précision) Hybridation des 2 méthodes (en taux de précision) 40 Classes 0.18 11.8% 7.02% 4 Classes 0.5 42.5% 37.5% 2 Classes peu discriminantes 0.6 70% 60% 2 Classes très discriminantes 0.6 80% 80%
    19. 19.  Les résultats produits sont réalistes par rapport à la difficulté du problème et c’est à quoi il faut s’attendre si on cherche à déployer des méthodes de classification en genre sur ce type de donnés et sous ses conditions.  Ouvre la porte à la question : comment les méthodes existantes ont pu obtenir des résultats intéressants?  Simplement, ils n’ont pas attaqué le vrai problème  Les chercheurs s’intéressent plus sur les méthodes que les données 19 Conclusion Classification en genre des video sur l’internet – Hassan El HAJJ
    20. 20.  Travailler sur la manque de donnés en augmentant le corpus  Adapter les caractéristiques utilisées aux genres déterminés  Prendre en considération qu’un vidéo peut appartenir à différentes genres Cependant, la catégorisation à grande échelle de vidéos sur l’internet reste un problème non résolu. 20 Perspectives Classification en genre des video sur l’internet – Hassan El HAJJ
    21. 21. 21 Questions ? Classification en genre des video sur l’internet – Hassan El HAJJ Merci pour votre attention

    ×