SlideShare une entreprise Scribd logo
1  sur  160
Télécharger pour lire hors ligne
Mémoire de fin d’études
Pour l'obtention du diplôme d’ingénieur d’Etat en informatique
Option : Mixte (SIQ/SIT)
Thème
Analyse de sentiments dans les médias
sociaux
(Social media mining)
Réalisé Par Encadré Par
BENATALLAH Abdennour Mme BENKRID Soumia
YAKOUBI Yacine Mme SAID LHADJ Lynda
Mr ALLOUCHE Badredine
Promotion : 2017/2018
II
Remerciements
Nous tenons à remercier en premier lieu nos encadrants Mme. BENKRID Soumia et Mme
SAID LHADJ Lynda pour leurs précieuses orientations tout au long de l'élaboration de ce
travail et du temps qu'elles nous ont consacré pour nous guider malgré leurs diverses
préoccupations.
Nous adressons aussi nos sincères remerciements à Mr. ALLOUCHE Badredine, notre
promoteur pour la confiance qu'il nous a accordé, ses remarques, ses conseils et ses critiques
qui nous ont poussés pour mener à terme ce travail.
Nous remercions également tous les membres de l'équipe Data Warehouse d'Ooredoo, pour
leur accueil et le temps qu'ils nous ont consacré pour répondre à nos besoins et à nos questions.
Nous tenons à remercier notre établissement, l’École supérieure d'informatique ainsi que son
cadre administratif et pédagogique, en particulier Mme. AIT ALI YAHIA Dahbia, pour leur
disponibilité afin de pouvoir effectuer notre stage dans les meilleures conditions.
Nous présentons tous nos respects et nos sincères remerciements aux membres de jury qui ont
accepté d'évaluer notre travail.
Enfin, nous tenons à remercier toutes les personnes qui ont contribué de près ou de loin à la
réalisation de ce travail.
III
Résumé
Depuis l’arrivée du web 2.0, l’intérêt va croissant pour connaître les opinions des internautes
qui s’y expriment spontanément et en temps réel. Cette masse de données d’opinions est
accessible avec des outils de fouille du web, avec une collection d’informations constamment
renouvelée.
Des sites se sont spécialisés dans le recueil de ces opinions dans certains domaines (critiques
de cinéma par exemple) et les internautes ont pris l’habitude de consulter les avis et notes
déposés par les autres dès qu’ils doivent prendre une décision d’achat pour un produit technique,
ou encore pour une réservation d’hôtel. Les avis, les opinons intéressent donc les internautes
et ont suscité des applications et services multiples, ce qui provoque un cercle vertueux
d’encouragement à donner son avis et même à se faire reconnaître comme donnant des avis
pertinents et suivis par les autres.
Mais ces données intéressent également des marques et des cabinets d’études qui tentent de
connaître ce « sentiment agrégé des foules ». Souvent sensibles au fantasme « votre réputation
peut être détruite à cause d’un commentaire de blog », les marques se soucient de leur identité
en ligne mais cherchent également à mieux connaître les attentes et critiques que les internautes
leur adressent.
D’où le développement croissant des techniques pour capter ces évaluations des internautes,
allant du simple dénombrement de commentaires positifs ou négatifs à l’analyse plus fine des
contenus de ces commentaires.
C'est dans ce contexte que s'inscrit le présent projet, dont l'objet est de mettre en place un
système qui permet de collecter, stocker et exploiter les données textuelles exprimées par les
internautes sur les réseaux sociaux. Nous avons procédé à une étude bibliographique se
rapportant à l'analyse de sentiments qui nous a permis de proposer une solution comblant les
problèmes existants, en particulier le dialecte, et répondant aux exigences exprimées.
Mots clés : Opinion, Analyse de sentiments, Médias sociaux, Dialecte, Corpus, Classification.
IV
Abstract
Since the arrival of Web 2.0, the interest is growing to know the opinions of Internet users who
express themselves spontaneously and in real time. This mass of opinion data is accessible with
web search tools, with a constantly renewed collection of information.
Some sites have specialized in gathering these opinions in certain fields (film critics for
example) and Internet users have become accustomed to consulting the opinions and notes
submitted by others as soon as they have to make a purchase decision for a technical product,
or for a hotel reservation. Opinions and views are therefore of interest to Internet users and
have given rise to multiple applications and services, which provokes a virtuous circle of
encouragement to give one's opinion and even to be recognized as giving relevant opinions and
followed by others.
However, these data are also of interest to brands and research firms that are trying to find out
about this "aggregated feeling of the crowds". Often sensitive to the fantasy "your reputation
can be destroyed because of a blog comment", brands are concerned about their online identity
but also seek to better understand the expectations and criticisms that Internet users address to
them.
As a result, techniques for capturing these evaluations of Internet users are increasingly being
developed, ranging from the simple counting of positive or negative comments to a more
detailed analysis of the content of these comments.
It is in this context that this project is situated, the purpose of this project is to set up a system
that collects, stores and uses text data expressed by Internet users on social networks. We
proceeded to a bibliographical study relating to the sentiment analysis, which allowed us to
propose a solution filling the existing problems, in particular the dialect, and answering the
expressed requirements.
Keywords : Sentiment analysis, Social networks, dialect, Corpus, Classification.
V
‫ملخص‬
‫الويب‬ ‫وصول‬ ‫منذ‬2.0،‫اإلنترنت‬ ‫متصفحي‬ ‫آراء‬ ‫بمعرفة‬ ‫االهتمام‬ ‫إزداد‬ ،‫وفي‬ ‫تلقائي‬ ‫بشكل‬ ‫أنفسهم‬ ‫عن‬ ‫يعبرون‬ ‫الذين‬
‫مجموعة‬ ‫مع‬ ،‫اإلنترنت‬ ‫شبكة‬ ‫على‬ ‫البحث‬ ‫أدوات‬ ‫خالل‬ ‫من‬ ‫إليها‬ ‫الوصول‬ ‫يمكن‬ ‫الرأي‬ ‫بيانات‬ ‫من‬ ‫الثروة‬ ‫هذه‬ .‫الحقيقي‬ ‫الوقت‬
‫المعلومات‬ ‫من‬ ‫باستمرار‬ ‫.متجددة‬
‫س‬ ‫على‬ ‫السينما‬ ‫استعراض‬ ‫(مثل‬ ‫معينة‬ ‫مناطق‬ ‫في‬ ‫اآلراء‬ ‫هذه‬ ‫جمع‬ ‫في‬ ‫المواقع‬ ‫تخصصت‬ ‫وقد‬‫وأصبح‬ )‫المثال‬ ‫بيل‬
‫منتج‬ ‫على‬ ‫للحصول‬ .‫الشراء‬ ‫قرار‬ ‫اتخاذ‬ ‫بمجرد‬ ‫اآلخرين‬ ‫من‬ ‫المقدمة‬ ‫واالستشارات‬ ‫المالحظات‬ ‫على‬ ‫معتادين‬ ‫المستخدمون‬
،‫متعددة‬ ‫وخدمات‬ ‫تطبيقات‬ ‫استخدام‬ ‫إلى‬ ‫وتؤدي‬ ‫اإلنترنت‬ ‫مستخدمي‬ ‫تهم‬ ‫صارت‬ ‫اآلراء‬ ‫فإن‬ ،‫وبالتالي‬ .‫فندق‬ ‫لحجز‬ ‫أو‬ ،‫فني‬
‫حميد‬ ‫دائرة‬ ‫يثير‬ ‫الذي‬ ‫األمر‬‫آخرون‬ ‫ويتبعها‬ ‫صلة‬ ‫ذات‬ ‫آراء‬ ‫يعطي‬ ‫بأنه‬ ‫االعتراف‬ ‫وحتى‬ ‫الرأي‬ ‫إلبداء‬ ‫التشجيع‬ ‫من‬ ‫ة‬ .
‫ما‬ ً‫ا‬‫غالب‬ ."‫للحشود‬ ‫الجماعي‬ ‫"الشعور‬ ‫هذا‬ ‫معرفة‬ ‫تحاول‬ ‫التي‬ ‫األبحاث‬ ‫وشركات‬ ‫التجارية‬ ‫العالمات‬ ‫ًا‬‫ض‬‫أي‬ ‫تهم‬ ‫البيانات‬ ‫وهذه‬
‫ال‬ ‫فإن‬ ،"‫مدونة‬ ‫تعليق‬ ‫خالل‬ ‫من‬ ‫سمعتك‬ ‫تدمير‬ ‫"يمكن‬ ‫للخيال‬ ‫حساسة‬ ‫تكون‬،‫اإلنترنت‬ ‫عبر‬ ‫بهويتها‬ ‫تهتم‬ ‫التجارية‬ ‫عالمات‬
‫المستخدمون‬ ‫يواجهها‬ ‫التي‬ ‫واالنتقادات‬ ‫للتوقعات‬ ‫أفضل‬ ‫فهم‬ ‫إلى‬ ‫ًا‬‫ض‬‫أي‬ ‫تسعى‬ ‫.ولكنها‬
‫أو‬ ‫اإليجابية‬ ‫التعليقات‬ ‫حساب‬ ‫مجرد‬ ‫من‬ ‫ا‬ً‫ء‬‫بد‬ ،‫اإلنترنت‬ ‫لمستخدمي‬ ‫التقييمات‬ ‫هذه‬ ‫الستخالص‬ ‫التقنيات‬ ‫تطور‬ ‫تنامى‬ ‫هنا‬ ‫ومن‬
‫الد‬ ‫التحليل‬ ‫إلى‬ ‫السلبية‬‫التعليقات‬ ‫هذه‬ ‫لمحتوى‬ ‫قيق‬ .
‫نظام‬ ‫إعداد‬ ‫هو‬ ‫منه‬ ‫والغرض‬ ، ‫المشروع‬ ‫هذا‬ ‫يقع‬ ، ‫السياق‬ ‫هذا‬ ‫وفي‬‫واستغالل‬ ‫وتخزين‬ ‫لجمع‬‫النصية‬ ‫البيانات‬‫يعبر‬ ‫التي‬
‫المستخدمون‬ ‫عنها‬‫االجتماعية‬ ‫الشبكات‬ ‫على‬.‫أجرينا‬ ‫لقد‬‫بتحليل‬ ‫تتعلق‬ ‫ببليوغرافية‬ ‫دراسة‬‫باقتراح‬ ‫لنا‬ ‫سمحت‬ ‫التي‬ ‫المشاعر‬
‫يمأل‬ ‫حل‬‫القائمة‬ ‫المشاكل‬‫المتطلبات‬ ‫على‬ ‫واإلجابة‬ ، ‫اللهجة‬ ‫سيما‬ ‫وال‬ ،‫المع‬‫بر‬‫عنها‬
:‫المفتاحية‬ ‫الكلمات‬‫التصني‬ ، ‫كوربوس‬ ، ‫اللهجة‬ ،‫االجتماعية‬ ‫الشبكات‬ ،‫المشاعر‬ ‫تحليل‬
VI
Table des matières
Remerciements ....................................................................................................................II
Résumé..............................................................................................................................III
Abstract ........................................................................................................................... IV
Liste des abréviations ..................................................................................................... XI
Introduction Générale.....................................................................................................12
Problématique................................................................................................................14
Chapitre I : Généralités sur l’analyse de sentiments.........................................................17
I. Définitions et Concepts ..................................................................................................18
I.1. L’Émotion............................................................................................................................................... 18
I.2. Sentiment .............................................................................................................................................. 19
I.3. Opinion .................................................................................................................................................. 20
I.3.1. Opinion ordinaire et opinion comparative.................................................................................... 20
I.3.2. Les classes d'opinions .................................................................................................................... 20
II. L’analyse de sentiments : applications et processus..................................................21
II.1. Domaines d'applications ...................................................................................................................... 22
II.1.1. Marketing...................................................................................................................................... 22
II.1.2. Revue des produits ....................................................................................................................... 22
II.1.3. E-commerce et CRM ..................................................................................................................... 23
II.1.4. Finance.......................................................................................................................................... 23
II.1.5. Politique........................................................................................................................................ 24
II.1.6. Veille ............................................................................................................................................. 24
II.2. Analyse de sentiments.......................................................................................................................... 24
II.2.1. L’analyse de sentiment d’un point de vue TAL............................................................................. 24
II.2.2. Niveaux d'analyse de sentiments ................................................................................................. 26
II.3. Le processus de l’analyse de sentiments ............................................................................................. 27
II.3.1. Le sourcing et collecte .................................................................................................................. 28
II.3.2. Prétraitement ............................................................................................................................... 30
II.3.3. Annotation.................................................................................................................................... 30
II.3.4. Représentation ............................................................................................................................. 30
II.3.5. Classification de texte................................................................................................................... 30
II.4. Évaluation des approches d’analyse des sentiments........................................................................... 31
II.4.1. Précision........................................................................................................................................ 31
II.4.2. Rappel ........................................................................................................................................... 32
II.4.3. Fausse acceptation ....................................................................................................................... 32
II.4.4. Faux rejet ...................................................................................................................................... 32
II.4.5. F-mesure....................................................................................................................................... 32
II.4.6. Exactitude ..................................................................................................................................... 33
III. Synthèse........................................................................................................................33
Chapitre II : ..................................................................................................................34
Analyse de sentiments et construction du vocabulaire.............................................34
I. Construction du vocabulaire .........................................................................................35
I.1. Définitions.............................................................................................................................................. 35
I.1.1. Lexique........................................................................................................................................... 35
I.1.2. Vocabulaire .................................................................................................................................... 35
VII
I.1.3. Corpus............................................................................................................................................ 35
I.2. Méthodes de construction .................................................................................................................... 36
I.2.1. Méthodes manuelles ..................................................................................................................... 37
I.2.2. Méthodes automatiques ............................................................................................................... 37
I.3. Synthèse des travaux............................................................................................................................. 39
II. Approches de catégorisation des messages.................................................................41
II.1. Catégorisation basée sur le lexique...................................................................................................... 43
II.1.1 Principe de l’approche................................................................................................................... 43
II.1.2. Synthèse des travaux ................................................................................................................... 43
II.2. Catégorisation basée sur l’apprentissage automatique....................................................................... 45
II.2.1. Principe de l’approche.................................................................................................................. 45
II.2.1.1. Prétraitement ............................................................................................................................ 45
II.2.2 Synthèse des travaux.......................................................................................................................... 58
II.2.2.1 Construction du vocabulaire....................................................................................................... 59
II.2.2.2. Classification .............................................................................................................................. 60
II.3. L’approche hybride............................................................................................................................... 62
II.3.1. Principe de l’approche....................................................................................................................... 62
II.3.2. Synthèse des travaux......................................................................................................................... 62
III. Outils d’analyse de sentiment sur les réseaux sociaux.............................................65
IV. Conclusion....................................................................................................................68
Chapitre III : Conception..................................................................................................71
I. Description du projet de référence ...............................................................................72
II. Méthodologie de travail................................................................................................73
II.1. Méthodologie CRISP-DM...................................................................................................................... 73
III. Présentation de la solution..........................................................................................74
IV. Hypothèses de départ ..................................................................................................75
IV.1. Type d'opinions à traiter ..................................................................................................................... 76
IV.2. Niveau de l'analyse de sentiments...................................................................................................... 76
V. Vue globale.....................................................................................................................76
VI. Vue détaillée.................................................................................................................78
VI.1. Préparation des données .................................................................................................................... 78
VI.1.1. Collecte des données................................................................................................................... 79
VI.1.2 Nettoyage des données..................................................................................................................... 84
VI.1.3. Structuration des données............................................................................................................... 85
VI.2. Prétraitement...................................................................................................................................... 86
VI.2.1. Suppression du bruit ................................................................................................................... 87
VI.2.2. Normalisation du lexique ............................................................................................................ 89
VI.2.3. Racinisation ................................................................................................................................. 91
VI.2.4. Traitement de langage SMS ........................................................................................................ 92
VI.2.5. Construction du dictionnaire des néographies. .......................................................................... 93
VI.2.6. Prétraitement relatif à l’analyse de sentiments......................................................................... 96
VI.3. Annotation du corpus.......................................................................................................................... 97
VI.3.1. Modèle de clustering................................................................................................................... 97
VI.3.2. Approche d’annotation non supervisée................................................................................... 100
VI.4. Catégorisation ................................................................................................................................... 101
VI.5. Visualisation ...................................................................................................................................... 101
VI.5.1. Méthodes de mise en œuvre des tableaux de bords................................................................ 102
VI.5.3. Définitions des indicateurs de performances (KPI)................................................................... 102
VI.6. Sécurité du système .......................................................................................................................... 106
VI.6.1. Authentification......................................................................................................................... 107
VIII
VI.6.2. Autorisation............................................................................................................................... 107
VI.6.3. Sécurité des données ................................................................................................................ 108
VI.7. Conclusion...............................................................................................................109
Chapitre IV : Réalisation, Déploiement et Évaluation.....................................................110
I. Environnement et technologies de développement....................................................111
I.1. Langages de programmations ............................................................................................................. 112
I.1.1. Python.......................................................................................................................................... 112
I.1.2. C# ................................................................................................................................................. 112
I.2. Environnement.................................................................................................................................... 112
I.2.1. Nifi................................................................................................................................................ 112
I.2.2 Kafka ............................................................................................................................................. 112
I.2.3. Spark ............................................................................................................................................ 112
I.2.4. Hbase ........................................................................................................................................... 113
I.3. Bibliothèques....................................................................................................................................... 113
I.3.1. NLTK (Natural Language Toolkit) ................................................................................................. 113
I.3.2. SciKit-Learn .................................................................................................................................. 113
I.3.3. Keras ............................................................................................................................................ 113
I.3.4 Gensim .......................................................................................................................................... 113
II. Réalisation ...................................................................................................................115
II.1. Collecte de données – Data Collection- ............................................................................................. 115
II.1.1. Authentification Facebook ......................................................................................................... 115
II.1.2. Récupération du token d’accès .................................................................................................. 116
II.2. Traitements de données - Data Processing -...................................................................................... 116
II.3. Stockage de données.......................................................................................................................... 116
II.4. Représentation du vecteur texte........................................................................................................ 117
II.5. Annotation.......................................................................................................................................... 118
II.5.1. Annotation non supervisée ........................................................................................................ 118
II.5.2. Annotation manuelle.................................................................................................................. 119
II.6. Catégorisation..................................................................................................................................... 120
II.6.1. Définition des différents layers .................................................................................................. 120
II.6.2. Architecture des algorithmes proposés ..................................................................................... 121
II.7. Visualisation........................................................................................................................................ 122
III. Déploiement ...............................................................................................................124
IV. Évaluation ..................................................................................................................125
IV.1. Démarche .......................................................................................................................................... 126
IV.1.1. Composantes du vecteur de caractéristiques........................................................................... 126
IV.1. 2. Techniques de représentation du vecteur de caractéristiques ............................................... 127
IV.1.3. Algorithmes d’apprentissage automatique............................................................................... 127
IV.1.4. Approche d’évaluation .............................................................................................................. 127
IV.1.5 Résultats des tests...................................................................................................................... 128
IV.1.6. Synthèse des résultats............................................................................................................... 135
V. Conclusion....................................................................................................................136
Conclusion et perspectives ............................................................................................137
IX
Table des figures
Figure 1 Wheel of emotion de Robert Plutchik............................................................................................. 18
Figure 2: Processus générique d’analyse de sentiments............................................................................... 28
Figure 3 Classification des méthodes de construction du lexique de sentiments..................................... 37
Figure 4: Approches de l’analyse de sentiments ........................................................................................... 42
Figure 5 la représentation de sac en mots....................................................................................................... 49
Figure 6: la structure du modèle NNLM ........................................................................................................ 57
Figure 7: La structure du modèle C&W ......................................................................................................... 58
Figure 8 Méthode CRISP-DM (AGA, 2005)................................................................................................. 73
Figure 9 Architecture globale ............................................................................................................................. 77
Figure 10 Processus de collecte et de préparation des données...................................................................... 79
Figure 11 Diagramme de séquence de l'extraction des posts.......................................................................... 83
Figure 12 Diagramme de séquence de l'extraction des commentaires........................................................... 84
Figure 13 Exemple d’un fichier CSV contenant les commentaires utilisateurs ....................................... 84
Figure 14 Schéma de la base de données .......................................................................................................... 86
Figure 15 Schéma prétraitement de données................................................................................................... 87
Figure 16 Etapes de normalisation .................................................................................................................... 89
Figure 17: La répartition des langues dans le corpus ....................................................................................... 91
Figure 18 Processus de traitement relatif au langage dialectal......................................................................... 93
Figure 19 Réduction du nombre de mots après prétraitement ....................................................................... 96
Figure 20 Exemple d'émoji................................................................................................................................. 97
Figure 21 Exemple d'autocollants...................................................................................................................... 97
Figure 22 Diagramme d'activité qui illustre le processus de clustering..................................................... 98
Figure 23 Vecteur d'entrée de clustering ........................................................................................................ 98
Figure 24 Diagramme d’activité de l'annotation non supervisée ................................................................. 101
Figure 25 Diagramme des cas d'utilisation - Vue administrateur-............................................................ 103
Figure 26 Diagramme des cas d'utilisation - Vue utilisateur- ................................................................... 104
Figure 27 Diagramme de séquence du système de sécurité....................................................................... 108
Figure 41 Technologies utilisées ...................................................................................................................... 111
Figure 28 Architecture technique..................................................................................................................... 115
Figure 29 Application AS Ooredoo sur Facebook Dev Platforme .............................................................. 116
Figure 30 Architecture du système du Word Embedding............................................................................. 118
Figure 31 Architecture de l'annotation non supervisée ................................................................................. 118
Figure 32 Application web pour l'annotation manuelle................................................................................. 119
Figure 33 Diagramme de séquence de l'annotation manuelle ....................................................................... 119
Figure 34 Architecture LSTM .......................................................................................................................... 121
Figure 35 Architecture CNN............................................................................................................................ 121
Figure 36 Architecture CNN & LSTM ........................................................................................................... 122
Figure 37 Part d'un sentiment par opérateur ................................................................................................ 122
Figure 38 Part d'un sentiment par opérateur avec aperçu sur les commentaires .................................... 123
Figure 39 Nombre de commentaires par opérateur/sentiment .................................................................. 123
Figure 40 Vue principale du Dashboard....................................................................................................... 124
Figure 42 Architecture de déploiement......................................................................................................... 124
Figure 43 Exemple de représentation Unigramme et Bigramme.................................................................. 126
Figure 44 Classification á deux niveaux .......................................................................................................... 128
X
Liste des tableaux
Table 1 table de confusion................................................................................................................................ 31
Table 2 Synthèse bibliographique ...................................................................................................................... 64
Table 3 Attributs sélectionnés pour le clustering.......................................................................................... 98
Table 4 Présentation des différentes metriques ........................................................................................... 105
Table 5 Langages de programmation et emplacement ............................................................................... 111
Table 6 Comparaison entre Cassandra vs HBase vs MonogDB .................................................................. 117
Table 7 Jeu de données..................................................................................................................................... 125
Table 8 Taille du corpus d'entrainement et test pour l'approche à un niveau ............................................. 129
Table 9 Taille du corpus d'entrainement et test pour l'approche à deux niveaux ....................................... 129
Table 10 Évaluation de la classification à un seul niveau .............................................................................. 130
Table 11 Évaluation de la classification à un seul niveau avec annotation manuelle............................ 131
Table 12 Évaluation de la classification des classes de sentiments de l'approche à deux niveaux .... 132
Table 13 Évaluation de la classification sur les classes Objective-Subjective ....................................... 132
Table 14 Évaluation sans Traitement des lettres répétées et des Majuscules. ........................................ 134
Table 15 Synthèse des meilleurs résultats........................................................................................................ 135
Table 16 Approche un niveau Vs Approche deux niveaux ....................................................................... 136
Table 17 Microsoft Azure ML Vs Notre Système ...................................................................................... 136
XI
Liste des abréviations
AD Arbre de Décision
AS Analyse de sentiments
BNB Bernoulli Naïve Bayes
BoWs Bag of Words
CNN Conventional Neural Network
DL Deep Learning
Lol laughing out loud
LSTM Long Short-Term Memory
Mdr Mort De Rire
ME Maximum Entropy
ML Machine Learning
MNB Multinomiale Naïve Bayes
MASA Microsoft Azure for Sentiment Analysis
NB Naïve Bayes
PMI Pointwise Mutual Information
POS Part of Speech
RNA Réseaux de Neurones Artificiels
SO Sentiment Orientation
SVM Support Vectors Machine
TAL Traitement automatique du langage
URL Uniform Resource Locator
WE Word Embedding
12
Introduction Générale
L’objectif primordial de toute entreprise aujourd’hui face à la concurrence accrue est de
fidéliser ses clients. En effet, de plus en plus d’entreprises se dotent d’outils lui permettant
d’analyser le comportement de leur client vis-à-vis de leurs produits, leurs degrés de
satisfaction ainsi que d’estimer la probabilité qu’ils partent chez les concurrents. Si autrefois
les données permettant d’obtenir cette information coutaient très cher, aujourd’hui grâce à la
place centrale qu’occupe le client dans les systèmes d’information des entreprises et à la
prolifération des médias de communication et des média sociaux en particulier, le fossé entre
les aspirations des clients et les entreprises a tendance à se réduire.
Le développement des plateformes sociales a changé la manière de communiquer entre
individus ainsi que de produire de l'information. Désormais, l'information, en plus d'être
présentée sous la forme de texte, est aussi tirée des différentes interactions des utilisateurs sur
les plateformes sociales (mentions, follow, j'aime, ...) permettant ainsi de traduire l'opinion des
utilisateurs vis-à-vis des contenus.
En effet, selon GlobalWebIndex1
, une personne sur trois utilise les médias sociaux. Ceci donne
une idée sur le contenu utilisateur gigantesque généré sur ces plateformes. En effet, (Pak and
Paroubek, 2010) affirment que les internautes utilisent de plus en plus les médias sociaux en
raison d'un format plus libre de messages et d'un accès facile aux plates-formes. (Pang and Lee,
2008) rapportent que près de 87% des lecteurs de commentaires en ligne qui portent sur des
avis des restaurants, des hôtels et autres services admettent que ces derniers ont eu une certaine
influence sur leur consommation.
Ainsi, les plateformes sociales apparaissent comme des sources d'évidence primordiales pour
les entreprises qui ont le besoin permanent de cibler les profils des clients susceptibles
d'acheter leurs produits ou d'influencer de potentiels client.
De ce fait, la fouille des médias sociaux connait un intérêt croissant dans divers milieux
scientifiques et économiques. En effet, les entreprises s’intéressent principalement aux
utilisateurs de ces réseaux et cherchent à les caractériser selon deux axes : (1) leur expertise et
leur réputation, (2) les sentiments qu’ils expriment vis-à-vis d’un service ou d’un produit.
Nous nous intéressons dans ce projet de fin d’étude à l’analyse des sentiments en particulier.
Cette discipline permet de déterminer automatiquement l'opinion à partir du texte récolté
depuis plusieurs sources (essentiellement des plateformes sociales). Nous partons de l’idée que
les opinions des individus qui pourraient être des clients et les clients potentiels pourraient
1 GlobalWebIndex combine la plus grande étude en cours au monde sur le monde numérique avec des
analyses puissantes pour servir comme un principal fournisseur de données de mesure à l'industrie du
marketing mondial.
13
avoir un enjeu stratégique pour une entreprise donnée. Ils permettent de connaitre et
comprendre la réputation de la marque à travers des retours d'information sur l'expérience
vécue par les consommateurs. Ceci permettra typiquement de répondre à des questions :
➢ Que pensent les gens de nos produits, services ou marque ?
➢ Est-ce que les gens ont tendance à promouvoir ou non nos produits ?
➢ Comment est-ce que les gens préfèreraient nos produits ?
Le domaine d’analyse des sentiments a ainsi suscité de nombreux travaux de recherche qui ont
inspirés les industriels à développer des outils d’analyse des sentiments génériques ou sur
mesures. Le challenge est d’arriver à traduire du texte écrit en langage naturel et spontané en
opinion positive ou négative par exemple. Ce texte est non structuré est parfois annotés par ce
que l’on appelle des émoticônes, des hashtags ou des gifs qui sont utilisés pour appuyer les
commentaires et exprimer une opinion. De nombreux travaux ont été proposés dans la
littérature et les applications sont aussi nombreuses. Les performances de ces modèles
différents selon plusieurs critères notamment la langue utilisée. Dans certains contextes, les
utilisateurs utilisent le dialecte pour s’exprimer sur les réseaux sociaux et la question que l’on
se pose alors est comment identifier les opinions sur les réseaux sociaux ?
14
Problématique
Ayant constaté que très peu de travaux se sont intéressés au dialecte dans l’analyse des
sentiments, notre objectif à travers ce PFE est de mener une étude bibliographique pour
identifier les approches d’analyse de sentiments dans la littérature afin de dresser leurs forces
et faiblesses et de proposer une approche permettant l’analyse des sentiments à partir de textes
exprimés en dialecte sur les médias sociaux.
Pour atteindre notre objectif nous avons organisé notre travail comme suit :
Introduction générale
Nous entamons notre rapport par une introduction générale suivie par une problématique qui
va nous permettre de bien cadrer notre travail ainsi que nos objectifs que nous avons soulignés
dès le début de notre projet de fin d’études pour avoir une vision claire de notre finalité.
Partie I : État de l’art
Cette partie sera consacrée à la synthèse bibliographique sur l'analyse de sentiments en
comprenant les approches adoptées pour la résolution du problème ainsi que les différentes
techniques appliquées dans ce but.
Chapitre 1 : Généralités sur l’analyse de sentiments
Nous entamons la seconde partie du rapport par un chapitre qui comportera les notions de bases
et les définitions indispensables pour appréhender le domaine d'analyse de sentiments. Nous
aborderons par la suite le domaine de l'analyse de sentiments en présentant ses différents
niveaux et ses domaines d’applications, ensuite nous citons les problèmes liés à l’analyse des
sentiments dans les réseaux sociaux, à la fin nous présentons le processus général de l’analyse
de sentiments ainsi que les différentes métriques utilisées pour évaluer une démarche AS.
Chapitre 2 : Apprentissage automatique et analyse de sentiments
Nous aborderons dans ce chapitre, les différentes approches et techniques utilisées pour la
construction du lexique et la catégorisation des sentiments tout en mettant en évidence les
différentes méthodes utilisées.
Nous présenterons dans un second temps en détails l'analyse de sentiments basée sur
l'apprentissage automatique et le processus complet ainsi que les techniques appliquées pour
ce faire. Par la suite l’approche hybride qui combine les deux approches citées précédemment,
Nous étaierons nos propos par des exemples de la littérature et des travaux phares réalisés dans
le contexte d'analyse de sentiments.
15
Partie II : Contribution : Conception, réalisation et étude de cas
La troisième et dernière partie du rapport sera dédiée à l'aspect pratique de notre solution et
abordera plus en détails les choix de conception et de réalisation pris tout au long du projet
ainsi qu’une présentation du projet de référence.
Chapitre 3 : Conception
Nous expliquerons à ce niveau notre vision de la solution en allant du chargement des données
à la visualisation en passant par la description du projet de référence et l'analyse de sentiments.
Nous consacrerons une partie de ce chapitre au traitement spécialement appliqué pour traiter
quelques aspects du langage utilisé notamment le dialecte.
Chapitre 4 : Réalisation, déploiement et évaluation
Nous présenterons dans ce chapitre l'intégralité des technologies et outils utilisés pour réaliser
notre solution et son déploiement. Nous présenterons dans un deuxième temps la phase
d'évaluation du système d'analyse de sentiments pour valider le modèle construit.
Conclusion et perspectives
Et pour conclure, la quatrième partie exposera la synthèse de notre projet et oriente les
perspectives de la solution.
16
Partie I : état de l’art
17
Chapitre I : Généralités sur l’analyse
de sentiments
L’analyse de sentiments est définie par Pang et Lee (2008) comme étant « le traitement
informatique de l’opinion, du sentiment et de la subjectivité dans le texte ». Il s’agit de détecter
automatiquement si un élément par exemple, une revue de produit ou un article de blog, sous
forme de texte, d’image ou de vidéo exprime une opinion positive ou négative à propos d'une
entité donnée telle qu’un produit ou un service, une personne ou un parti politique
Dans ce chapitre, nous présentons les définitions de base gravitant autour de l’analyse de
sentiments. Ensuite, nous citons ses différents domaines d’applications. Nous aborderons en
second lieu le domaine de l'analyse de sentiments en présentant les problèmes liés à cette
analyse et ses différents niveaux d’applications. Enfin, nous donnons le processus général de
l’analyse de sentiments ainsi que la phase d’évaluation.
Chapitre I : Généralités sur l’analyse de sentiments
18
I. Définitions et Concepts
Lorsqu'on aborde le domaine de la fouille d'opinions ou l'analyse de sentiments, l'une des
premières questions à se poser pourrait être la suivante : Quelle est la différence entre un
sentiment et une opinion ? Une deuxième question est : Où trouve-t-on des opinions sur le web ?
Pour y répondre, nous allons d'abord définir les concepts se rapprochant du sentiment à savoir :
l'émotion, le sentiment et l'opinion.
I.1. L’Émotion
Rosenberg and Turner (1990) définissent une émotion sur un plan psychologique comme un
état complexe de l'organisme, impliquant des changements corporels, et sur un plan mental
comme étant un état d'excitation ou de perturbation, marqué par une impulsion envers un
comportement définit.
Quant à Myers (2004), il définit l'émotion comme étant une expérience psychophysiologique
complexe et intense avec un début brutal et une durée relativement brève.
Larousse 2002 la présente sous une réaction affective transitoire d'assez grande intensité, tandis
que le dictionnaire en ligne l'Internaute la définit comme la manifestation d'un sentiment,
Modèles d'émotions : Il existe plusieurs modèles d’émotions en psychologie. Nous citons
les modèles de Plutchik (1984), Russell (1991) et Ekman (1992). Le plus récent, est celui dit
le modèle d'émotions cubique de Lövheim Lövheim (2012).
➢ Modèle de Plutchik : Ce modèle, plus connu sous le nom de « Wheel of emotion »
[Plutchik 1980] représente les émotions en forme de roue en deux dimensions. Dans ce modèle,
Plutchik propose huit émotions principales (voir figure 1), de façon que chaque deux parties
qui s'opposent indiquent une opposition en termes de vocabulaire d'émotions.
Figure 1 Wheel of emotion de Robert Plutchik
Chapitre I : Généralités sur l’analyse de sentiments
19
Pour une lecture aisée, il est recommandé dans (Plutchik 1980), de lire le deuxième cercle en
premier. Par exemple l’émotion de joie s’oppose à celle de la tristesse
Aussi, nous pouvons constater que plus nous allons vers l'extérieur, plus les couleurs
deviennent plus claires, signifiant des émotions moins intenses, tandis que plus nous allons
vers l'intérieur de la roue, les couleurs sont plus tenaces, ce qui signifie que les émotions sont
plus intenses. Exemple : si on prend la partie jaune du centre de la roue, on commence par
extase, ensuite joie et ensuite sérénité, on remarque que l'émotion est la même mais c'est
l'intensité qui varie (voir Figure 1).
➢ Modèle d'Ekman : L'un des modèles les plus connus et utilisés est le modèle d'Ekman qui fut
un des pionniers dans l'étude des émotions et qui a conçu une liste des émotions qu'il a, par la
suite, enrichi.
L’auteur a conçu cette liste des émotions de base à partir de recherche transculturelle sur une
tribu de Papouasie-Nouvelle-Guinée. Il a observé le fait que des personnes isolées du monde
ayant une culture d'âge de la pierre peuvent identifier les expressions de l'émotion de personnes
sur des photographies dont les cultures sont inconnues. Ces gens pouvaient également attribuer
les expressions du visage à des descriptions de situations. Sur cet indice, il a conclu que
certaines émotions de base sont soit biologiques, soit universelles à tous les hommes.
Liste des émotions d’Ekman est la suivante (a) Tristesse, (b) joie, (c) colère, (d) peur, (e) dégout,
(f) surprise, (g) mépris.
I.2. Sentiment
Larousse de Poche 2000 définit le sentiment comme étant un état affectif durable lié à certaines
émotions ou représentations.
Dans Sablonnière (2015), le sentiment est défini comme la composante de l'émotion qui
implique les fonctions cognitives de l'organisme et la manière d'apprécier. Le sentiment est à
l'origine d'une connaissance immédiate ou d'une simple impression.
Rosenberg and Turner (1990) présentent le sentiment d'un point de vue psychologique comme
un concept sociologique basique utile pour analyser le lien des sensations corporelles, la
gestuelle et les relations sociales.
Nous remarquons que la fouille d'opinions et l'analyse de sentiments traitent en fait des
émotions, qui, seront par la suite interprétées en opinions.
Chapitre I : Généralités sur l’analyse de sentiments
20
I.3. Opinion
Larousse de Poche 2000 définit l'opinion comme étant un jugement, un avis ou un sentiment
qu'un individu ou un groupe émet sur un sujet, des faits, ce qu'il en pense ou encore comme
l’ensemble des idées d'un groupe social sur des sujets s politiques, économiques, moraux, etc
(Liu, 2012) reprend à son tour le modèle de (Kim and Hovy, 2004) et celui de (Kobayashi et
al., 2007) en y apportant une nouvelle dimension qui est celle du temps. De ce fait, l'opinion
est représentée sous forme de quintuple à savoir (porteur, objet, aspect, sentiment, temps).
Il existe dans la littérature des classifications de l’opinion selon qu’elle soit ordinaire ou
comparative ou bien selon son type c’est-à-dire sa polarité ou son intensité.
I.3.1. Opinion ordinaire et opinion comparative
a) L’opinion ordinaire
Selon Liu (2007), l’opinion ordinaire est simplement appelée opinion dans la littérature. On
peut cependant distinguer deux types d'opinions
➢ L’opinion directe qui désigne une opinion exprimée directement sur une entité ou un
aspect d'une entité. Par exemple, L'écran de ce téléphone est Impressionnant. Ici l’entité
et le sentiment sont respectivement, l’écran d’un téléphone et impressionnant.
➢ L’opinion indirecte désigne une opinion exprimée indirectement sur une entité ou un
aspect d'une entité basé sur l'effet d'une autre entité. Par exemple, Après avoir changé
de type de carburant, la voiture roulait difficilement.
b) L’opinion comparative
L’opinion comparative exprime une relation de similitude ou de différence entre plusieurs
entités (Jindal and Liu 2006), nous pouvons dire qu'il existe deux types d'opinions
comparatives.
➢ Comparaison évaluée : dans ce type de comparaison, il existe une préférence évidente
entre les entités, par exemple, la BMW est plus rapide que la Renault, c’est clair ici que
la BMW a une vitesse plus grande donc elle est le détenteur de l’opinion préféré.
➢ Comparaison non évaluée : Dans ce cas, il existe une différence entre les entités,
cependant, on ne peut déterminer laquelle le détenteur de l'opinion préféré, par exemple :
La vitesse de cette BMW est différente de la Renault, ici, on peut pas savoir qui est
mieux de l’autre.
I.3.2. Les classes d'opinions
Nous pouvons retrouver dans la littérature deux manières d'évaluer ou de classer une opinion
qui sont les suivantes :
Chapitre I : Généralités sur l’analyse de sentiments
21
➢ Par polarité : Dans ce cas-là, on s'intéresse à catégoriser les opinions en :
❖ Positive
❖ Négative
❖ Neutre
➢ Par niveaux d'intensité On s'intéresse ici à catégoriser les opinions en cinq classes qui
expriment leurs intensités et leurs évaluation rationnelle ou émotionnelle 3 Chaudhuri
(2006)
❖ Négative émotionnelle (-2)
❖ Négative rationnelle (-1)
❖ Neutre (0)
❖ Positive rationnelle (+1)
❖ Positive émotionnelle (+2)
Après avoir défini quelques concepts ayant trait avec le domaine d’analyse des sentiments
nous abordons dans la section suivante le domaine de l’analyse des sentiments en donnant la
définition du domaine, ensuite nous en exergue les domaines d’application pour y montrer
l’intérêt de la communauté pour ce domaine. Enfin, nous présentons le processus général de
l’analyse des sentiments avec ses étapes clés.
II. L’analyse de sentiments : applications et
processus
L'analyse de sentiments appelée aussi fouille d'opinion est le domaine d'étude qui analyse les
opinions, les sentiments, les évaluations, les émotions des gens à partir du langage écrit.
Dans le monde de la recherche académique il s’agit de l'un des domaines de recherche les plus
actifs qui s’articule autour de plusieurs domaines tels que le traitement automatique du langage
naturel, de la fouille de données, la fouille du web ainsi que la fouille de texte (Liu, 2012).
Les premiers travaux de recherche dans l'analyse des sentiments remontent à l'an 2001 (Pang
and Lee, 2008), quand les chercheurs ont pris conscience des problèmes et des opportunités
que peut soulever ce domaine tant dans l’académique que dans l’industriel. Depuis cette date,
la recherche connait un essor considérable que les auteurs attribuent à plusieurs facteurs tels
que :
➢ Le développement des techniques d'apprentissage automatique dans le domaine du
traitement automatique du langage naturel et la recherche d'information,
Chapitre I : Généralités sur l’analyse de sentiments
22
➢ La disponibilité des données pour l'entrainement des algorithmes d'apprentissage
automatique et ce grâce à l'épanouissement du web et plus spécialement, le
développement des sites web offrant une agrégation des critiques.
➢ La réalisation de challenges intellectuels fascinants ainsi que les applications
commerciales et Business Intelligence qu'offre le domaine.
➢ D’un point de vue applications de l’analyse des sentiments, selon Pang et Lee, l’analyse
des sentiments est évoquée dans tout processus décisionnel, que ce soit en vue de
l’achat d’un bien, dans le contexte d’une élection, ou encore pour évaluer la réputation
de son entreprise.
D’après le blog spécialisé dans l’analyse de données, analyticsvidhya, il existe plusieurs
domaines ou on peut faire appel à l’analyse de sentiments, parmi eux nous citons :
II.1. Domaines d'applications
II.1.1. Marketing
En plus de la consultation des avis en ligne pour un usage personnel dans la vie courante, la
collecte et l’analyse des opinions des individus sont devenues des sources d’informations
précieuses pour les entreprises. Alors que le recueil des opinions des consommateurs a eu
pendant longtemps un caractère fastidieux, sans garantir que les avis recueillis soient spontanés
(organisation de focus groups, recours à des consultants, enquêtes et questionnaires, etc.),
l’accessibilité de ces informations, dès lors qu’elles se retrouvent postées en ligne par les
consommateurs eux-mêmes, permet des analyses à grande échelle (opinions en provenance du
monde entier). Le marketing a rapidement compris l’intérêt de l’analyse des sentiments. Des
agences vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits.
II.1.2. Revue des produits
Dans le domaine du product review mining : notamment à partir des sites d’avis de
consommateurs. Les consommateurs viennent y échanger des avis et trouver des conseils pour
leurs décisions d’achat (produits technologiques, voitures, voyage et hôtels, etc.).
L’analyse des sentiments permet non seulement de catégoriser les avis au sujet d’un produit
( le système de review classification, comme dans le cas des critiques de cinéma), d’en proposer
des résumés, mais aussi de détailler à un niveau fin ces avis (quelle dimension du produit est
appréciée, quelle autre dimension ne l’est pas – on parle alors de « features »). Il peut également
aider à lutter contre le spam en contribuant à détecter les faux avis postés par des agences. Le
site d’enchères en ligne eBay utilise également des outils d’analyse de sentiments pour repérer
les meilleures critiques et les rendre accessibles plus facilement parmi toutes les revues de
produits (et les spams commerciaux) que présente le site. L’équipe des eBay Research Labs a
Chapitre I : Généralités sur l’analyse de sentiments
23
en effet défini des indicateurs de qualité d’un avis sur un produit parmi lesquels la réputation
de l’auteur de l’avis au sein de la communauté des utilisateurs d’eBay, son « seller degree »
qui reflète le cas échéant quel type de vendeur ou d’acheteur il est, et enfin un « expertise
degree » qui reflète la connaissance que l’auteur peut avoir sur un type de produits.
II.1.3. E-commerce et CRM
Dans le domaine du e-commerce et du CRM (ou GRC en français) : acquérir des
connaissances sur ses consommateurs ou anticiper leurs attentes est possible à partir de la
collecte des avis de consommateurs sur un produit, un service, une marque. Le contrôle qualité
des produits peut s’en servir comme d’une veille. Il est aussi possible d’améliorer la relation
client/fournisseur en récupérant les critiques ou avis favorables. Les évolutions à venir des
marchés de consommation courante peuvent être anticipées par des signes précurseurs dans les
tonalités des conversations dès lors qu’on dispose d’un étalon en temps normal ou favorable
pour percevoir ces changements rapides. Une autre application de l’analyse de sentiments
proposée par eBay permet de rechercher la présence de mots-clés sur Twitter pour détecter les
pannes du service signalées par les utilisateurs, avant même que l’alerte ne soit donnée par le
système d’enchères lui-même.
II.1.4. Finance
Dans le domaine financier (prédiction de tendances de marché par exemple). Ainsi dans leur
article « Predicting Movie Sales from Blogger Sentiment », Gilad Mishne et Natalie Glance
utilisent des techniques de sentiment analysis pour améliorer la prédiction du succès
commercial d’un film à partir des blogs. Ils montrent que le constat selon lequel le volume de
citations d’un produit dans les blogs est corrélé avec la réussite financière du produit, peut être
amélioré, au moins dans le domaine du cinéma, en analysant le sentiment positif exprimé dans
les blogs au sujet d’un film, avant sa sortie en salle, et en le comparant avec son score au box-
office2. L’utilisation des techniques de sentiment analysis contribuerait ainsi à construire de
meilleures prédictions que la mesure du simple buzz, surtout si elle était associée à d’autres
types de données comme le genre du film et le moment de sa sortie. Une autre utilisation de
l’analyse de sentiments dans le domaine financier est la classification des dépêches financières
afin d’observer l’impact éventuel de ces dernières sur le prix des actions cotées en Bourse.
C’est ce type d’application que présentent Michel Généreux, Thierry Poibeau et Moshe Kopple
dans leur article « Sentiment analysis using automatically labelled financial news items » en
faisant l’hypothèse que « la réaction du marché suite à la publication d’une dépêche reliée à
une action particulière est un bon indicateur de la polarité de la nouvelle et qu’un algorithme
d’apprentissage à partir de ces dépêches permet de construire un système qui donne à
2
Box-office est un terme emprunté à l'anglais dans son acception de chiffre d'affaires d'une production artistique
ou d'une vedette (et par extension leur classement sous forme de palmarès). Il se mesure en nombre de
spectateurs, de billets écoulés (« entrées ») ou en valeur monétaire fondée sur l'un des deux items précédents.
On parle également d'« échelle de succès », de « classement » calculé d'après le montant des recettes.
Chapitre I : Généralités sur l’analyse de sentiments
24
l’investisseur une source d’information supplémentaire qui peut être exploitée de façon
avantageuse dans une stratégie d’investissement ».
II.1.5. Politique
Dans le domaine politique. La publication croissante sur internet de textes à teneur politique
(lois, rapports, billets de blogs politiques, etc.) et le constat que la politique ne se fait plus
seulement dans les hémicycles mais aussi dans les débats en ligne, a conduit certains
chercheurs à utiliser les techniques d’analyse de sentiments pour déterminer l’accord ou le
désaccord des commentateurs avec telle ou telle proposition de loi. Dans leur article « Get out
the vote : Determining support or opposition from Congressional floor-debate transcripts »,
Matt Thomas, Bo Pang et Lillian Lee espèrent faciliter la reconnaissance du positionnement
d’un orateur dans un débat politique grâce a l’analyse de sentiments. D’autres recherches
tentent par exemple d’analyser en masse les commentaires et opinions des citoyens américains
lors de l’élaboration des réglementations proposées par les agences indépendantes du
gouvernement.
II.1.6. Veille
Dans le domaine de la veille. Les techniques d’analyse de sentiments permettent de classer de
grandes quantités de textes, rapports, conversations informelles sur des produits ou des
dirigeants d’entreprises, etc., peuvent être utilisées dans le domaine de la veille, qu’elle soit
économique, technologique, stratégique ou institutionnelle. Ainsi espère-t-on par exemple
mettre en place des systèmes d’évaluation de la réputation des entreprises en rassemblant dans
des bases de données des faits et opinions trouvés sur le web et permettant de tracer le profil
de telle ou telle entreprise.
Quel que soit le domaine d’application, le processus d’analyse des sentiments reste le même.
Nous décrivons dans ce qui suit l’analyse des sentiments d’un de vue recherche et d’un point
de vue TAL en particulier. Nous verrons par la suite dans le processus de l’analyse de sentiment
que les taches cruciales sont celle de la collecte et du prétraitement dont dépend fortement le
résultat
II.2. Analyse de sentiments
II.2.1. L’analyse de sentiment d’un point de vue TAL
Le domaine de la fouille d'opinions est au départ lié au traitement du langage naturel, il
s'approprie donc ses difficultés. Quelle que soit la méthode utilisée, toutes les subtilités du
langage ne peuvent être reconstituées sous forme d’algorithmes pour être reconnues par un
système informatique. En effet, la langue comprend différents niveaux d’articulation (Floriane
Chariault 2014), chaque niveau comportant son lot de difficultés :
Chapitre I : Généralités sur l’analyse de sentiments
25
➢ Niveau lexical
➢ Niveau syntaxique
➢ Niveau sémantique
➢ Niveau pragmatique
II.2.1.1. Niveau lexical
Les données textuelles sont soumises à des formes orthographiques particulières. Les fautes
d’orthographe, fréquentes dans les médias de type forums ou réseaux sociaux, ne font que
compliquer l’analyse automatique d’un texte.
Il en est de même avec les diverses formes orthographiques possibles que génère l’utilisation
du langage SMS ou encore les abréviations afin de respecter la limite des 140 caractères sur
Twitter, par exemple, « Y’a que moi qui arrive pu ouvrir fb ak mon iPhone ? »
II.2.1.2. Niveau syntaxique
L’information étant sous forme de texte libre et donc en langage naturel, l’analyseur peut être
confronté à des formes syntaxiques hétérogènes, ne répondant pas toujours aux normes
grammaticales habituelles. Le langage utilisé par certains internautes est spontané et peut
parfois être désordonné. Les mots ne sont pas toujours employés dans leur forme originale. Les
internautes n’hésitent pas à modifier la structure des phrases (absence de verbes, phrases
incomplètes) et reproduisent parfois à l’écrit certaines caractéristiques liées à l’oral.
Cette simplification d’emploi par les internautes rend l’analyse d’autant plus difficile puisque
les « phrases » ne sont pas toutes construites de la même manière et ne répondent pas toutes
aux mêmes règles. Pour pouvoir analyser n’importe quelle structure de phrase, il faudrait alors
prévoir la reconnaissance d’une multitude de formes syntaxiques, ce qui serait trop complexe
sachant que les usages de la langue évoluent sans cesse.
II.2.1.3. Niveau sémantique
La première difficulté relative à la sémantique est la polysémie des mots, qui peut rendre
ambiguë toute analyse du sens et créer des incompréhensions. Nous pouvons prendre l’exemple
de l’unité lexicale vague dont le sens premier est neutre, soyez averti de la prochaine vague de
précommandes du smartphone LG.
Sa polarité est amenée à varier lorsqu’elle est utilisée dans un contexte différent.
Dans l’exemple ci-dessous, la mention est bien subjective et sa polarité devient négative.
Exemple : Il n’y a pas de meilleur smartphone Android. C’est trop vague.
Chapitre I : Généralités sur l’analyse de sentiments
26
D’autres phénomènes sémantiques contribuent à complexifier l’analyse automatique des
sentiments. L’opposition entre deux propositions, unies par « mais » ou « pourtant », est
souvent source d’erreur pour les analyseurs. Dans la majorité des cas, les deux propositions ont
des polarités opposées.
Exemple : Top 10 de smartphones, l’iPhone 5S numéro 1 mais Samsung domine.
II.2.1.4. Niveau pragmatique
Ce niveau linguistique implique une connaissance générale du contexte de la situation, et pas
seulement du contexte induit par l’énoncé lui-même. Cela englobe souvent des éléments
extérieurs au langage, à savoir différentes informations sur les auteurs (âge, sexe, statut social).
Pour ce qui est de l’analyse de sentiments, la difficulté réside également dans l’identification
de phénomènes tels que l’ironie, le sarcasme, l’implicite. Ces phénomènes sont pour la majorité
des cas identifiables par les hommes. Cependant, un analyseur automatique ne peut posséder
toute la connaissance contextuelle que requièrent ces types de phénomènes.
Notons toutefois que certains éléments peuvent permettre d’identifier automatiquement ces
phénomènes langagiers, comme la présence d’un hashtag #ironie dans un tweet.
Maintenant, que nous avons mentionné les problèmes de l’analyse de sentiments, nous allons
rentrer dans ses différents niveaux c’est-à-dire, les niveaux où on peut appliquer cette analyse.
II.2.2. Niveaux d'analyse de sentiments
(Liu, 2012) distingue trois différents niveaux d'analyse de sentiments en se basant sur la
granularité de l'unité de texte considérée par la méthode en question. Ces niveaux sont cités en
partant du plus général au plus fin : le niveau document, le niveau phrase et pour finir le niveau
aspect.
Nous allons dans ce qui suit, aborder plus en détails chacun des trois niveaux en mettant en
évidence leur hypothèse ainsi que leur démarche.
II.2.2.1. Niveau document
L'analyse de sentiments au niveau document part de l'hypothèse que le document exprime une
seule opinion envers une seule entité provenant d'une même source. La tâche principale est
donc la détermination de l'orientation générale du sentiment du document selon les classes qui
peuvent être positive, négative ou neutre. En effet, soit un document d évaluant une entité e, le
but de l'analyse est donc de déterminer le sentiment s du porteur de l'opinion p à propos de
l'entité e. Le sentiment s concerne l'aspect GENERAL dans la représentation en quintuple de
(Liu, 2012).
Dans la pratique, cette représentation affiche plusieurs limites. A vrai dire, un document peut
évaluer plusieurs entités avec des avis différents envers ces dernières, comme il peut aborder
Chapitre I : Généralités sur l’analyse de sentiments
27
une seule entité mais avoir des avis mitigés envers ses différents aspects. Malgré ces limites,
cette représentation s'avère utile lorsque nous traitons des documents courts où l'hypothèse de
départ est souvent vérifiée.
II.2.2.2. Niveau phrase
L'analyse de sentiments au niveau document est jugée trop brute pour une grande partie des
applications c'est pourquoi, la recherche descend à un niveau de détail plus fin qui est le niveau
phrase. La classification des sentiments au niveau phrase considère chaque phrase composant
le document d comme étant une unité de base de l'analyse et part à son tour de l'hypothèse que
la phrase exprime une seule opinion envers une seule entité.
L'hypothèse émise est valable quand il s'agit de phrases simples mais reste limitée quand il est
question de phrases composées où une phrase peut exprimer plus d'un sentiment.
L'analyse de sentiments au niveau phrase consiste en deux tâches qui sont la catégorisation de
la subjectivité et la catégorisation du sentiment. Ces deux tâches sont définies comme suit :
➢ Catégorisation de la subjectivité : Cette étape classifie les phrases en deux catégories :
subjective et objective. Une phrase objective exprime une information factuelle tandis
qu'une phrase subjective exprime un point de vue personnel et une opinion qui peut
faire référence à un sentiment positif ou négatif.
➢ Catégorisation du sentiment : A l'issue de l'étape de classification de la subjectivité,
si une phrase est jugée subjective, nous devons déterminer si cette dernière exprime un
sentiment positif ou négatif.
II.2.2.3. Niveau aspect
Le terme aspect fait référence à un attribut ou une fonction de l'entité évaluée. Pour une analyse
plus complète, il faut détecter les aspects d'un sujet et déterminer les sentiments relatifs à ces
derniers (Liu, 2012). L'objectif est de découvrir tous les quintuples (porteur, objet, aspect,
sentiment, temps) dans un document d donné.
Par exemple dans la phrase : La qualité d'image de la caméra est géniale mais elle et très chère,
l'analyse de sentiments au niveau aspect doit détecter un sentiment positif envers l'aspect
"qualité d'image" ainsi qu’un sentiment négatif envers l'aspect "prix".
II.3. Le processus de l’analyse de sentiments
Dans cette partie nous allons présenter brièvement les différentes étapes de l’analyse de
données, commençant tout d’abord par le « sourcing » qui est négligeables dans certains
travaux mais que nous jugeons très important.
Chapitre I : Généralités sur l’analyse de sentiments
28
Figure 2: Processus générique d’analyse de sentiments
Nous présentons dans cette sous-section le « sourcing » ainsi que quelques sources de données
généralement utilisées dans l’analyse de sentiments. Nous montrons aussi que toute approche
d’analyse de sentiments commence par la collecte de données qui est un aspect important pour
ce type d’analyse. En effet, selon plusieurs travaux comme Taboada et al. (2011), Medhat et
al. (2014), Saleh et al. (2011), le choix de la source de données influe les résultats finaux de
l’analyse.
II.3.1. Le sourcing et collecte
Le sourcing est le terme par lequel on désigne l’ensemble des opérations, préalables à la
collecte de données, qui visent à identifier des sources (sites web, blogs, forums, etc.) contenant
ou susceptibles de contenir de l’information, (Boullier, D., & Lohard, A. 2012).
Typologie des sources web
Où trouve-t-on des opinions sur le web ? Certains sites ont directement vocation à recevoir des
opinions (notamment en raison de leur caractère social : réseaux sociaux, sites d’avis de
consom-mateurs, micro-blogging, etc.). D’autres, comme les sites de presse par exemple, sont
historiquement tournés vers les faits mais se « socialisent » depuis le « Web 2.0 ».
➢ Les sites d’avis consommateurs
Ces sites permettent de recueillir des opinions au sujet de produits ou de services. Ils
intéressent tout particulièrement les marques qui peuvent se faire rapidement une idée
de ce que pensent les consommateurs. Ces derniers détaillent parfois très précisément
leurs avis, en évaluant un produit ou un service non seulement dans son ensemble mais
aussi en fonction de ces différentes dimensions et nous verrons que cela a son
importance. Certains sites donnent aux utilisateurs la possibilité de noter la pertinence
des avis proposés par les autres (et ceci, nous le verrons aussi, peut s’avérer très
précieux).
Chapitre I : Généralités sur l’analyse de sentiments
29
➢ Les sites d’études communautaires de partage de contenus
Ces sites sont également des lieux où trouver des opinions. Les vidéos, souvent
commentées, que l’on trouve sur YouTube, qualifié de deuxième moteur de recherche
au monde, agrègent des avis sur les publicités et par extensions sur les produits. Les
commentaires associés aux vidéos peuvent renfermer beaucoup d’évaluations
intéressantes.
➢ Les bases de données
Les bases de données peuvent dans certains cas être des mines d’informations pour la
veille. Elles font souvent partie du package de sources inspectées par les services de
veille en ligne. De manière générale, le contenu de ces bases est injecté par un
organisme ou une institution et n’est pas ouvert aux commentaires. Ces sources n’ont
quasiment pas d’intérêt dans le cadre d’une analyse d’opinions mais restent très utiles
pour de la veille.
➢ Les blogs
Les blogs sont le lieu privilégié de l’expression en ligne depuis leur explosion en 2004,
une plate-forme de blogs comme Skyrock rassemble près de 35 millions de blogs et
représente ainsi un des premiers acteurs mondiaux sur ce type de supports. Souvent
tenus par une seule personne/entité (mais pas toujours), les blogs permettent d’identifier
plus clairement « qui parle » – contrairement aux sites cités plus haut où l’identité des
personnes est très souvent visible uniquement au travers d’un pseudonyme
(pseudonymat plus qu’anonymat – même si certaines personnes utilisent leur vraie
identité). On trouve plusieurs types de blogs : personnels (journaux intimes – extimité),
de loisirs (cuisine, couture, etc.), commerciaux (blogs d’entreprise, de marque), de
journalistes, d’experts, blogs politiques (élus, partis, syndicats, etc.), etc. Le format
blog invite aux commentaires des lecteurs même si l’auteur peut choisir de fermer les
commentaires.
➢ Les forums
Qu’ils soient rattachés à une marque, à une institution ou encore à une pratique (forum
de santé), les forums ont un format spécifique qui permet à tous de trouver une
information et des conseils précis. Les forums sont souvent animés et modérés. Leur
contenu est hiérarchisé en fonction de « topics » bien distincts les uns des autres et les
utilisateurs peuvent s’y exprimer librement à condition de respecter les règles de
conduite.
Chapitre I : Généralités sur l’analyse de sentiments
30
➢ Les réseaux sociaux
Regroupant des dizaines de milliers d’utilisateurs à l’échelle mondiale, les réseaux
sociaux peuvent être généralistes (Facebook, Diaspora), professionnels (Viadeo,
LinkedIn) ou encore affinitaires (Myspace). Pour pouvoir consulter ces sites, il faut
presque toujours en être membre. Les utilisateurs n’ont pas accès à toutes les pages. Ils
peuvent consulter celles de leurs « amis » et les pages publiques. Pour les prestataires
en veille, social monitoring, e-réputation, etc., seules les pages publiques peuvent être
exploitées. Les pages « Fan » ou les groupes peuvent fournir de nombreuses
informations sur les utilisateurs : les discours ainsi que les relations entre les membres
peuvent être analysés.
II.3.2. Prétraitement
Il est connu que dans le domaine de l’analyse de sentiments, le texte est la forme la plus
déstructurée de toutes les données disponibles, beaucoup de bruit qui n’est pas pertinent à
l’analyse d’opinion. Il s’agit en particulier du processus de nettoyage et de standardisation du
texte en éliminant ce que l’on appelle les mots vides ou les mots communs tels que les
prépositions ou les verbes d’état (se situer, localisé, etc). Le prétraitement peut aussi consister
en la racinisation ou la lemmatisation. Nous détaillons cette étape dans le chapitre suivant.
II.3.3. Annotation
L'annotation du corpus consiste en l'attribution d'une étiquette (label) positive, négative ou
neutre à chaque message pour permettre au classifieur de l’étape qui suit de s'entraîner dessus
afin de construire le modèle de classification.
II.3.4. Représentation
Pour analyser une donnée prétraitée, il faut la convertir en caractéristiques. Selon l'utilisation,
les caractéristiques du texte peuvent être construites à l'aide de techniques variées on peut citer
le TF-IDF et les Word Embeddings
II.3.5. Classification de texte
La classification de texte, est définie comme une technique permettant de classer du texte dans
une des catégories déjà définis. Il est vraiment utile lorsque la quantité de données est trop
importante, surtout pour l'organisation, le filtrage de l'information et le stockage.
Un classificateur de langage naturel typique se compose de deux parties : (a) Apprentissage (b)
Prédiction. Tout d'abord, le texte est traité et des caractéristiques sont identifiées. Ensuite un
modèle d’apprentissage utilise ensuite ces caractéristiques pour la prédiction du nouveau texte.
Chapitre I : Généralités sur l’analyse de sentiments
31
II.4. Évaluation des approches d’analyse des sentiments
Pour évaluer les performances d'un modèle d’analyse de sentiments, diverses métriques sont
utilisées, elles sont principalement empruntées du domaine de la recherche d'information.
Nous présentons les métriques les plus utilisées dans la fouille d'opinions à savoir la précision,
le rappel, les fausses acceptations, les faux rejets, la F-mesure et l'exactitude. Pour plus de
clarté dans la façon de calculer ces métriques, le Tableau 1 présente une table de confusion où :
➢ TP correspond au nombre de messages exprimant une opinion positive et classés
positifs par le classifieur.
➢ TN correspond au nombre de messages exprimant une opinion négative et classés
négatifs par le classifieur.
➢ FP correspond au nombre de messages exprimant une opinion négative et classés
positifs par le classifieur.
➢ FN correspond au nombre de messages exprimant une opinion positive et classés
négatifs par le classifieur.
Prédiction
Positive Négative
Réalité
Positive TP FN
Négative FP TN
Table 1 table de confusion
II.4.1. Précision
Cette métrique calcule la capacité du modèle à ne pas se tromper lorsqu'il affecte un message
à une classe donnée. Elle est donnée par le ratio entre le nombre de messages correctement
classés à une classe donnée sur le nombre de messages classés par le classifieur à cette même
classe.
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
nombre de messages correctement classés
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche)
et la classe négative (à droite) :
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
TP
𝑇𝑃 + 𝐹𝑃
𝑜𝑢 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
TN
𝑇𝑁 + 𝐹𝑁
Chapitre I : Généralités sur l’analyse de sentiments
32
II.4.2. Rappel
Cette métrique calcule la capacité du modèle à bien détecter les messages appartenant à une
classe donnée, elle est donnée par le ratio entre le nombre de messages correctement classés à
une classe donnée sur le nombre de messages appartenant réellement à cette même classe.
𝑅𝑎𝑝𝑝𝑒𝑙 =
nombre de messages correctement classés
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑝𝑝𝑎𝑟𝑡𝑒𝑛𝑎𝑛𝑡 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche)
et la classe négative (à droite) :
𝑹𝒂𝒑𝒑𝒆𝒍 =
𝐓𝐏
𝑻𝑷 + 𝑭𝑵
𝒐𝒖 𝑹𝒂𝒑𝒑𝒆𝒍 =
𝐓𝐍
𝑻𝑵 + 𝑭𝑷
II.4.3. Fausse acceptation
Cette métrique calcule le taux d'acceptation à tort d'un faux message à une classe donnée, elle
est donnée par le ratio entre le nombre de messages faussement classés à une classe donnée sur
le nombre de messages classés par le classifieur à cette même classe.
𝐹𝑎𝑢𝑠𝑠𝑒 𝐴𝑐𝑐𝑒𝑝𝑡𝑎𝑡𝑖𝑜𝑛 =
nombre de fausses acceptations
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche)
et la classe négative (à droite) :
𝑭𝒂𝒖𝒔𝒔𝒆 𝑨𝒄𝒄𝒆𝒑𝒕𝒂𝒕𝒊𝒐𝒏 =
𝐅𝐏
𝑻𝑷 + 𝑭𝑷
𝒐𝒖 𝑭𝒂𝒖𝒔𝒔𝒆 𝑨𝒄𝒄𝒆𝒑𝒕𝒂𝒕𝒊𝒐𝒏 =
𝐏𝐍
𝑻𝑵 + 𝑭𝑵
II.4.4. Faux rejet
Cette métrique calcule le taux de rejet à tort d'un vrai message à une classe donnée, elle est
donnée par le ratio entre le nombre de messages faussement rejetés d'une classe donnée sur le
nombre de messages appartenant réellement à cette même classe.
𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 =
nombre de faux rejets
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑝𝑝𝑎𝑟𝑡𝑒𝑛𝑎𝑛𝑡 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche)
et la classe négative (à droite) :
𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 =
FN
𝑇𝑃 + 𝐹𝑁
𝑜𝑢 𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 =
FP
𝑇𝑁 + 𝐹𝑃
II.4.5. F-mesure
Il est possible d'augmenter la valeur de la précision, mais au détriment du rappel et vice-versa,
cette métrique combine la précision et le rappel pour en donner un compromis. Elle est calculée
comme suit :
𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 = 2 ∗
Précision ∗ Rappel
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
Chapitre I : Généralités sur l’analyse de sentiments
33
II.4.6. Exactitude
Cette métrique calcule les performances globales du modèle de classification indépendamment
des classes, elle est donnée par le ratio entre le nombre total de messages correctement classés
par le classifieur sur le nombre total de messages.
𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 =
nombre de messages correctement classés
𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑡𝑜𝑡𝑎𝑙
En utilisant la table de confusion :
𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 =
TP + TN
𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
Dans le domaine de l’analyse de données, on attend beaucoup de la mesure du sentiment ou
d’opinion, l’attribution à chaque message d’une polarité positive, neutre ou négative est
presque devenue un exercice obligé pour tous ceux qui écoutent le web (solutions de
veille, social media analysis). On retrouve également cet indicateur dans les solutions
d’analyse de données dédiées à la mesure de l’expérience client (logiciels d’analyse d’enquêtes,
management de l’expérience client…).
Dans la partie qui suit, nous allons citer quelques domaines et faire un aperçu sur ce que
l’analyse de données a apporté de plus dans ces domaines.
III. Synthèse
Nous avons vu dans ce chapitre les différents concepts de base liés à l’analyse de sentiments,
nous avons défini tout ce qui est sentiment, émotion et opinion.
Ensuite nous avons cité les domaines d’applications et présenté en détail les problèmes liés à
l’analyse de sentiments, nous avons également parlé des niveaux de la fouille de données et
son processus général.
Enfin nous avons abordé la phase d’évaluation et présenté ses différentes métriques qui
permettent de mesurer les performances d’un système d’analyse de sentiments.
34
Chapitre II :
Analyse de sentiments et
construction du vocabulaire
L’analyse des sentiments est souvent considérée comme une catégorisation des sentiments qui
repose sur la construction des ressources lexicales nécessaires, une tâche importante dans ce
domaine. Plusieurs approches et plusieurs outils ont été proposés pour déterminer la classe de
sentiment d'un texte.
Cependant, le domaine de l'analyse de sentiments ne se résume pas seulement à la tâche de la
catégorisation des sentiments, mais il touche également à d'autres tâches toutes aussi
importantes. La tâche cruciale dont dépend tout le processus d’analyse des sentiments est celle
de la construction du lexique qui vise à collecter les expressions porteuses d’opinion. La
richesse du lexique et sa précision impacte directement la qualité de la catégorisation sans
oublier que les mots d'opinions peuvent changer d'orientation selon le domaine dans lequel ils
sont employés.
Nous abordons dans ce chapitre, les différentes approches et techniques utilisées pour la
construction du lexique. Dans un second lieu nous présentons les approches de catégorisation
des sentiments, les approches sont réparties en trois grandes familles : (1) celles basées sur
l'apprentissage automatique, (2) celles basées sur le lexique et enfin (3) les approches hybrides.
Pour chaque approche, nous présentons une synthèse des travaux les plus cités dans la
littérature. Nous terminons ce chapitre par la présentation des outils d’analyse de sentiments
existants avant de conclure.
Chapitre I : Généralités sur l’analyse de sentiments
35
I. Construction du vocabulaire
Le lexique est une base pour la détermination de la subjectivité du texte étudié. Nous présentons
ci-dessous les définitions des concepts liés à celui du vocabulaire.
I.1. Définitions
Il est à noter que dans la littérature, les termes vocabulaire et lexique sont utilisés
indifféremment pour désigner le même concept.
I.1.1. Lexique
Larousse de poche 2000 définit le lexique comme étant un Dictionnaire spécialisé et
généralement succinct concernant un domaine particulier de la connaissance.
En linguistique, le lexique d'une langue constitue l'ensemble de ses mots Corbin (1987).
I.1.2. Vocabulaire
Toujours dans le Larousse de poche 2000, un vocabulaire est défini comme un ensemble des
termes propres à une science, à une technique, à un groupe, à un milieu, à un auteur ou Ouvrage
comportant les termes spécifiques d'une discipline, d'une technique, le dictionnaire en ligne
l'internaute quant à lui le définit comme étant un ensemble des mots appartenant à un thème
particulier.
Dans ce mémoire nous utilisons les terme vocabulaires et lexique, notre objectif étant de
proposer un système d’analyse de sentiments qui traitant du dialecte.
Par ailleurs, la fouille d'opinions ne traite pas plusieurs domaines (dans la majorité des cas) et
les chercheurs ne s'intéressent généralement qu'aux mots qui expriment une opinion (ou un
sentiment) afin de pouvoir constituer le vocabulaire.
I.1.3. Corpus
Un corpus est un ensemble de messages collectés manuellement ou automatiquement à partir
d'une source donnée (journal, réseau social, site de critiques), dans un domaine précis et dans
une optique précise. Dans notre cas, il s'agit de faire de l’analyse de sentiments ; les corpus
prennent toutes leur importance dans les méthodes d'apprentissage automatique car ces derniers
représentent la matière première pour les classifieurs qui ont besoin d'un très grand nombre de
messages annotés pour construire le modèle de classification et prédire la classe de nouveaux
Chapitre II : Analyse de sentiments et construction du vocabulaire
36
messages. Plus la taille du corpus est grande plus le modèle construit à partir de l'apprentissage
sur le corpus est de meilleure qualité (P Denis, B Sagot 2013).
Pour la méthode apprentissage automatique le corpus est divisé en trois parties que nous allons
présenter dans ce qui suit.
I.1.3.1. Corpus d'entrainement
C'est avec ce corpus que le classifieur fera l'apprentissage sur les messages annotés pour
construire le modèle de classification. Il doit être de taille importante, de façon à bien modéliser
le modèle de classification qui traite le maximum de cas possibles. Ce corpus représente de 80%
à 90% du corpus total.
I.1.3.2. Corpus de développement
Ce corpus sert à ajuster les paramètres du modèle d'entrainement jusqu'à l'obtention des
performances optimales, cette phase peut être parfois ignorée si la taille du corpus n'est très
grande. Lorsque qu'il n'est pas ignoré ce corpus représente environ 10% du corpus total.
I.1.3.3. Corpus de test
Ce corpus sert à évaluer la qualité du modèle de classification construit dans la phase
d'entrainement avec des métriques d'évaluation, ce corpus représente de 10% à 20% du corpus
total.
I.2. Méthodes de construction
Pour la construction du vocabulaire, il existe trois méthodes (Figure 3) : (1) méthode manuelle,
(2) la méthode automatique et (3) la méthode hybride. Le choix de la méthode de construction
dépend de plusieurs paramètres comme le temps, les ressources matérielles, les ressources
humaines, le corpus etc. Nous allons citer dans ce qui suit les méthodes de construction de
vocabulaire inhérentes à l’analyse de sentiments (P Denis, B Sagot 2013).
Chapitre II : Analyse de sentiments et construction du vocabulaire
37
Figure 3 Classification des méthodes de construction du lexique de sentiments
I.2.1. Méthodes manuelles
La méthode de construction manuelle est une méthode évidente à première vue mais très peu
utilisée étant donné qu'elle nécessite des ressources humaines expertes et un temps important.
En effet, pour construire un vocabulaire manuellement, il est nécessaire de mobiliser des
experts en linguistique et en psychologie pour pouvoir identifier tous les termes d'opinion, tout
en synchronisant les travaux de chacun afin d'éviter les redondances et de vérifier que
l'ensemble des experts donnent une polarité à un mot qui doit être unique à un degré près par
rapport aux autres (C Quan, F Ren 2009).
I.2.2. Méthodes automatiques
Dans les méthodes automatiques, il existe trois manières de construction de vocabulaire : la
première est celle basée sur un corpus, la seconde est la méthode basée sur les dictionnaires et
la troisième est une hybridation des deux précédentes méthodes. Nous détaillons chacune de
ces méthodes ci-dessous.
I.2.2.1. Méthode basée corpus
Dans cette méthode, on suppose un ensemble de mots de départ appelés mots graines, qui sont
de polarité négative ou positive, ensuite il s’agit d’extraire les mots du corpus qui sont corrélés
aux mots présents dans l'ensemble de départ (Hu and Liu 2004).
L'extraction est basée sur des règles linguistiques, plusieurs chercheurs apportent leurs
contributions. Nous allons voir la méthode basique d'extraction, celle-ci exploite la
connectivité des adjectifs dans une phrase.
Chapitre II : Analyse de sentiments et construction du vocabulaire
38
A partir de notre ensemble de mot de départ, si nous trouvons un adjectif de l'ensemble de
départ (mot graine) connecté à un autre adjectif avec un :
➢ ET, nous rajoutons alors le mot dans la même classe que le mot graine.
➢ MAIS / CEPENDANT / PAR CONTRE, nous rajoutons alors le mot dans la classe
opposée du mot graine.
Par exemple, l’ensemble des mots de départ contient gentil comme un mot positif, et on a les
deux phrases suivantes : 1) il est gentil et sympa, 2) il est gentil mais vicieux.
Pour la 1ére phrase, le mot sympa est associé gentil, connecté avec un ET, donc il sera ajouté
dans la même classe que gentil, dans la 2éme phrase, MAIS est le connecteur entre gentil et
vicieux, donc il sera dans la classe opposée.
Avantages
➢ Les mots récupérés sont des mots du domaine d'étude étant donné qu'ils proviennent du
corpus.
Inconvénients
➢ Nécessite une vérification (risque d'avoir le même mot plusieurs fois, fautes
d'orthographe, abréviations etc.).
➢ Ensemble de mots acquis restreint.
➢ Le vocabulaire construit ne peut pas être appliqué à d'autres domaines.
I.2.2.2. Méthode basée sur un dictionnaire
Cette méthode consiste en l'utilisation d'un ensemble de mots d'opinions initial appelés mots
graines et de construire à travers ces mots un ensemble de mots plus grand à travers des
dictionnaires tels que SentiWordNet en cherchant les synonymes et antonymes des mots
graines. (Kamps et al. 2004).
Pour une construction plus avancée certains chercheurs utilisent la distance séparant les mots,
tel que la distance entre deux mots m1 et m2 est dé nit par la longueur du plus court chemin
reliant les deux mots dans SentiWordNet.
Il existe un bon nombre de dictionnaires utilisés dans ces méthodes tels que General inquirer3,
Dictionary of Affect of Language4, WordnetAffect5, WordNet6.
La méthode basée sur un dictionnaire présente certains avantages et inconvénients :
3 http://www.wjh.harvard.edu/~inquirer/
4 http://www.hdcus.com
5 http://wndomains.fbk.eu/wnaect.html
6 http://wordnetweb.princeton.edu/perl/webwn
Chapitre II : Analyse de sentiments et construction du vocabulaire
39
Avantages
➢ Ensemble large de mots acquis à travers les synonymes et antonymes et les mots
récupérés sont corrects (pas d'erreurs d'orthographe).
➢ Ne nécessite pas de vérification vue que la source est déjà validée par des experts
Inconvénients
➢ Les mots récupérés sont indépendants du domaine
I.2.2.3. Méthode hybride
La méthode hybride vient palier aux inconvénients des deux méthodes précédentes. En effet,
la méthode basée corpus offre un vocabulaire de domaine. Cependant la taille de dernier est
relativement réduite comparé à la méthode basée dictionnaire qui donne un ensemble plus
grand de mots mais qui ne sont pas nécessairement du domaine analysé, (Hu and Liu 2004).
La méthode hybride comporte les deux étapes suivantes :
a) Construire un vocabulaire initial à travers la méthode basée corpus pour avoir un
vocabulaire relatif au domaine
b) Enrichir ce vocabulaire avec la méthode basée dictionnaire en prenant comme ensemble
de mots graines le vocabulaire obtenu dans le point précédant
Ainsi, en combinant les deux méthodes précédentes, un vocabulaire riche et couvrant le
domaine de l’étude est construit.
I.3. Synthèse des travaux
De nombreux travaux ont été menés pour la construction du vocabulaire en suivant les
méthodes citées auparavant. Nous en citons les plus signifiants pour chacune des méthodes de
constructions de corpus.
a) Méthode basée dictionnaire
Le vocabulaire de mots d'opinion initial est d’abord construit ensuite il est enrichi à travers des
méthodes telle que PMI7
. Une fois ces étapes achevée les messages peuvent être catégorisés en
classe positive, négative ou neutre. Cette catégorisation s’effectue en calculant pour chaque
message un score basé sur les mots d'opinions présents Ding et al. (2008).
Nous détaillons dans ce qui suit le détail de cette approche :
7 L'information mutuelle PMI est dérivée de la théorie de l'information, et permet de mesurer la cooccurrence
entre chaque mot w et une classe i.
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux

Contenu connexe

Tendances

présentation de soutenance PFE
présentation de soutenance PFEprésentation de soutenance PFE
présentation de soutenance PFEKarim Labidi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
Rapport de stage PFE - Mémoire master: Développement d'une application Android
Rapport de stage PFE - Mémoire master: Développement d'une application AndroidRapport de stage PFE - Mémoire master: Développement d'une application Android
Rapport de stage PFE - Mémoire master: Développement d'une application AndroidBadrElattaoui
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Presentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesPresentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesTahani RIAHI
 
Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop amat samiâ boualil
 
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Yasmine Lachheb
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 
Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiDonia Hammami
 
présentation soutenance PFE.ppt
présentation soutenance PFE.pptprésentation soutenance PFE.ppt
présentation soutenance PFE.pptMohamed Ben Bouzid
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision Yassine Badri
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebHarrathi Mohamed
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Riadh K.
 

Tendances (20)

présentation de soutenance PFE
présentation de soutenance PFEprésentation de soutenance PFE
présentation de soutenance PFE
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Rapport de stage PFE - Mémoire master: Développement d'une application Android
Rapport de stage PFE - Mémoire master: Développement d'une application AndroidRapport de stage PFE - Mémoire master: Développement d'une application Android
Rapport de stage PFE - Mémoire master: Développement d'une application Android
 
Veille technologique
Veille technologiqueVeille technologique
Veille technologique
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Presentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'EtudesPresentation de soutenance du Projet Fin d'Etudes
Presentation de soutenance du Projet Fin d'Etudes
 
Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop Rapport projet: relisation d'une app desktop
Rapport projet: relisation d'une app desktop
 
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Rapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammamiRapport pfe talan_2018_donia_hammami
Rapport pfe talan_2018_donia_hammami
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
présentation soutenance PFE.ppt
présentation soutenance PFE.pptprésentation soutenance PFE.ppt
présentation soutenance PFE.ppt
 
Exercice arbre de décision
Exercice arbre de décision Exercice arbre de décision
Exercice arbre de décision
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site Web
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
 

Similaire à Analyse de sentiments dans les médias sociaux

Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesIdnition
 
Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesJuliette Carrasco
 
Guide pratique de l'e-réputation à l'usage des entreprises
Guide pratique de l'e-réputation à l'usage des entreprisesGuide pratique de l'e-réputation à l'usage des entreprises
Guide pratique de l'e-réputation à l'usage des entreprisesAmine BENHAMZA
 
Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesAmal BELKAMEL
 
Initiation web social ot toulouse 13 juin
Initiation web social ot toulouse 13 juinInitiation web social ot toulouse 13 juin
Initiation web social ot toulouse 13 juinArdesi Midi-Pyrénées
 
Veille et eréputation des collectivités
Veille et  eréputation des collectivitésVeille et  eréputation des collectivités
Veille et eréputation des collectivitésArdesi Midi-Pyrénées
 
WEB et Ressources Humaines - support de cours IGS 2015
WEB et Ressources Humaines - support de cours IGS 2015WEB et Ressources Humaines - support de cours IGS 2015
WEB et Ressources Humaines - support de cours IGS 2015Clémence Bertrand-Jaume
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Bruno Teboul
 
Mémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webMémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webJérôme Lacoste
 
L’influence des internautes sur les marques à travers les médias sociaux 2009
L’influence des internautes sur les marques à travers les médias sociaux 2009L’influence des internautes sur les marques à travers les médias sociaux 2009
L’influence des internautes sur les marques à travers les médias sociaux 2009Sarah Connor
 
Arial Analyse critiques des réseaux sociaux slides de base
Arial Analyse critiques des réseaux sociaux   slides de baseArial Analyse critiques des réseaux sociaux   slides de base
Arial Analyse critiques des réseaux sociaux slides de baseacmjanimweb
 
Analyse critiques des réseaux sociaux slides de base
Analyse critiques des réseaux sociaux   slides de baseAnalyse critiques des réseaux sociaux   slides de base
Analyse critiques des réseaux sociaux slides de baseacmjanimweb
 
Présentation E20 Electrons Associés
Présentation E20 Electrons AssociésPrésentation E20 Electrons Associés
Présentation E20 Electrons Associésfp961
 
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...Jean-Eric Pelet
 
Déjeuner Web : Les réseaux sociaux d'entreprise
Déjeuner Web : Les réseaux sociaux d'entrepriseDéjeuner Web : Les réseaux sociaux d'entreprise
Déjeuner Web : Les réseaux sociaux d'entrepriseChambé-Carnet
 
Guide pratique du e_reputation_juin 2011
Guide pratique du  e_reputation_juin 2011Guide pratique du  e_reputation_juin 2011
Guide pratique du e_reputation_juin 2011AkimELSIKAMEYA
 

Similaire à Analyse de sentiments dans les médias sociaux (20)

Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprises
 
Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprises
 
Guide pratique de l'e-réputation à l'usage des entreprises
Guide pratique de l'e-réputation à l'usage des entreprisesGuide pratique de l'e-réputation à l'usage des entreprises
Guide pratique de l'e-réputation à l'usage des entreprises
 
Guide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprisesGuide pratique e_reputation_usage_entreprises
Guide pratique e_reputation_usage_entreprises
 
WIS-FB-J1
WIS-FB-J1WIS-FB-J1
WIS-FB-J1
 
Initiation web social ot toulouse 13 juin
Initiation web social ot toulouse 13 juinInitiation web social ot toulouse 13 juin
Initiation web social ot toulouse 13 juin
 
Veille et eréputation des collectivités
Veille et  eréputation des collectivitésVeille et  eréputation des collectivités
Veille et eréputation des collectivités
 
WEB et Ressources Humaines - support de cours IGS 2015
WEB et Ressources Humaines - support de cours IGS 2015WEB et Ressources Humaines - support de cours IGS 2015
WEB et Ressources Humaines - support de cours IGS 2015
 
Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.Text mining, sentiment analysis, big data.
Text mining, sentiment analysis, big data.
 
Mémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webMémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le web
 
L’influence des internautes sur les marques à travers les médias sociaux 2009
L’influence des internautes sur les marques à travers les médias sociaux 2009L’influence des internautes sur les marques à travers les médias sociaux 2009
L’influence des internautes sur les marques à travers les médias sociaux 2009
 
Presentation cours web_2_0
Presentation cours web_2_0Presentation cours web_2_0
Presentation cours web_2_0
 
Arial Analyse critiques des réseaux sociaux slides de base
Arial Analyse critiques des réseaux sociaux   slides de baseArial Analyse critiques des réseaux sociaux   slides de base
Arial Analyse critiques des réseaux sociaux slides de base
 
Formation réseaux sociaux
Formation réseaux sociauxFormation réseaux sociaux
Formation réseaux sociaux
 
Analyse critiques des réseaux sociaux slides de base
Analyse critiques des réseaux sociaux   slides de baseAnalyse critiques des réseaux sociaux   slides de base
Analyse critiques des réseaux sociaux slides de base
 
Présentation E20 Electrons Associés
Présentation E20 Electrons AssociésPrésentation E20 Electrons Associés
Présentation E20 Electrons Associés
 
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...
Le e-commerce renforcé par les réseaux sociaux numériques : Résultats d’une a...
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
Déjeuner Web : Les réseaux sociaux d'entreprise
Déjeuner Web : Les réseaux sociaux d'entrepriseDéjeuner Web : Les réseaux sociaux d'entreprise
Déjeuner Web : Les réseaux sociaux d'entreprise
 
Guide pratique du e_reputation_juin 2011
Guide pratique du  e_reputation_juin 2011Guide pratique du  e_reputation_juin 2011
Guide pratique du e_reputation_juin 2011
 

Analyse de sentiments dans les médias sociaux

  • 1. Mémoire de fin d’études Pour l'obtention du diplôme d’ingénieur d’Etat en informatique Option : Mixte (SIQ/SIT) Thème Analyse de sentiments dans les médias sociaux (Social media mining) Réalisé Par Encadré Par BENATALLAH Abdennour Mme BENKRID Soumia YAKOUBI Yacine Mme SAID LHADJ Lynda Mr ALLOUCHE Badredine Promotion : 2017/2018
  • 2. II Remerciements Nous tenons à remercier en premier lieu nos encadrants Mme. BENKRID Soumia et Mme SAID LHADJ Lynda pour leurs précieuses orientations tout au long de l'élaboration de ce travail et du temps qu'elles nous ont consacré pour nous guider malgré leurs diverses préoccupations. Nous adressons aussi nos sincères remerciements à Mr. ALLOUCHE Badredine, notre promoteur pour la confiance qu'il nous a accordé, ses remarques, ses conseils et ses critiques qui nous ont poussés pour mener à terme ce travail. Nous remercions également tous les membres de l'équipe Data Warehouse d'Ooredoo, pour leur accueil et le temps qu'ils nous ont consacré pour répondre à nos besoins et à nos questions. Nous tenons à remercier notre établissement, l’École supérieure d'informatique ainsi que son cadre administratif et pédagogique, en particulier Mme. AIT ALI YAHIA Dahbia, pour leur disponibilité afin de pouvoir effectuer notre stage dans les meilleures conditions. Nous présentons tous nos respects et nos sincères remerciements aux membres de jury qui ont accepté d'évaluer notre travail. Enfin, nous tenons à remercier toutes les personnes qui ont contribué de près ou de loin à la réalisation de ce travail.
  • 3. III Résumé Depuis l’arrivée du web 2.0, l’intérêt va croissant pour connaître les opinions des internautes qui s’y expriment spontanément et en temps réel. Cette masse de données d’opinions est accessible avec des outils de fouille du web, avec une collection d’informations constamment renouvelée. Des sites se sont spécialisés dans le recueil de ces opinions dans certains domaines (critiques de cinéma par exemple) et les internautes ont pris l’habitude de consulter les avis et notes déposés par les autres dès qu’ils doivent prendre une décision d’achat pour un produit technique, ou encore pour une réservation d’hôtel. Les avis, les opinons intéressent donc les internautes et ont suscité des applications et services multiples, ce qui provoque un cercle vertueux d’encouragement à donner son avis et même à se faire reconnaître comme donnant des avis pertinents et suivis par les autres. Mais ces données intéressent également des marques et des cabinets d’études qui tentent de connaître ce « sentiment agrégé des foules ». Souvent sensibles au fantasme « votre réputation peut être détruite à cause d’un commentaire de blog », les marques se soucient de leur identité en ligne mais cherchent également à mieux connaître les attentes et critiques que les internautes leur adressent. D’où le développement croissant des techniques pour capter ces évaluations des internautes, allant du simple dénombrement de commentaires positifs ou négatifs à l’analyse plus fine des contenus de ces commentaires. C'est dans ce contexte que s'inscrit le présent projet, dont l'objet est de mettre en place un système qui permet de collecter, stocker et exploiter les données textuelles exprimées par les internautes sur les réseaux sociaux. Nous avons procédé à une étude bibliographique se rapportant à l'analyse de sentiments qui nous a permis de proposer une solution comblant les problèmes existants, en particulier le dialecte, et répondant aux exigences exprimées. Mots clés : Opinion, Analyse de sentiments, Médias sociaux, Dialecte, Corpus, Classification.
  • 4. IV Abstract Since the arrival of Web 2.0, the interest is growing to know the opinions of Internet users who express themselves spontaneously and in real time. This mass of opinion data is accessible with web search tools, with a constantly renewed collection of information. Some sites have specialized in gathering these opinions in certain fields (film critics for example) and Internet users have become accustomed to consulting the opinions and notes submitted by others as soon as they have to make a purchase decision for a technical product, or for a hotel reservation. Opinions and views are therefore of interest to Internet users and have given rise to multiple applications and services, which provokes a virtuous circle of encouragement to give one's opinion and even to be recognized as giving relevant opinions and followed by others. However, these data are also of interest to brands and research firms that are trying to find out about this "aggregated feeling of the crowds". Often sensitive to the fantasy "your reputation can be destroyed because of a blog comment", brands are concerned about their online identity but also seek to better understand the expectations and criticisms that Internet users address to them. As a result, techniques for capturing these evaluations of Internet users are increasingly being developed, ranging from the simple counting of positive or negative comments to a more detailed analysis of the content of these comments. It is in this context that this project is situated, the purpose of this project is to set up a system that collects, stores and uses text data expressed by Internet users on social networks. We proceeded to a bibliographical study relating to the sentiment analysis, which allowed us to propose a solution filling the existing problems, in particular the dialect, and answering the expressed requirements. Keywords : Sentiment analysis, Social networks, dialect, Corpus, Classification.
  • 5. V ‫ملخص‬ ‫الويب‬ ‫وصول‬ ‫منذ‬2.0،‫اإلنترنت‬ ‫متصفحي‬ ‫آراء‬ ‫بمعرفة‬ ‫االهتمام‬ ‫إزداد‬ ،‫وفي‬ ‫تلقائي‬ ‫بشكل‬ ‫أنفسهم‬ ‫عن‬ ‫يعبرون‬ ‫الذين‬ ‫مجموعة‬ ‫مع‬ ،‫اإلنترنت‬ ‫شبكة‬ ‫على‬ ‫البحث‬ ‫أدوات‬ ‫خالل‬ ‫من‬ ‫إليها‬ ‫الوصول‬ ‫يمكن‬ ‫الرأي‬ ‫بيانات‬ ‫من‬ ‫الثروة‬ ‫هذه‬ .‫الحقيقي‬ ‫الوقت‬ ‫المعلومات‬ ‫من‬ ‫باستمرار‬ ‫.متجددة‬ ‫س‬ ‫على‬ ‫السينما‬ ‫استعراض‬ ‫(مثل‬ ‫معينة‬ ‫مناطق‬ ‫في‬ ‫اآلراء‬ ‫هذه‬ ‫جمع‬ ‫في‬ ‫المواقع‬ ‫تخصصت‬ ‫وقد‬‫وأصبح‬ )‫المثال‬ ‫بيل‬ ‫منتج‬ ‫على‬ ‫للحصول‬ .‫الشراء‬ ‫قرار‬ ‫اتخاذ‬ ‫بمجرد‬ ‫اآلخرين‬ ‫من‬ ‫المقدمة‬ ‫واالستشارات‬ ‫المالحظات‬ ‫على‬ ‫معتادين‬ ‫المستخدمون‬ ،‫متعددة‬ ‫وخدمات‬ ‫تطبيقات‬ ‫استخدام‬ ‫إلى‬ ‫وتؤدي‬ ‫اإلنترنت‬ ‫مستخدمي‬ ‫تهم‬ ‫صارت‬ ‫اآلراء‬ ‫فإن‬ ،‫وبالتالي‬ .‫فندق‬ ‫لحجز‬ ‫أو‬ ،‫فني‬ ‫حميد‬ ‫دائرة‬ ‫يثير‬ ‫الذي‬ ‫األمر‬‫آخرون‬ ‫ويتبعها‬ ‫صلة‬ ‫ذات‬ ‫آراء‬ ‫يعطي‬ ‫بأنه‬ ‫االعتراف‬ ‫وحتى‬ ‫الرأي‬ ‫إلبداء‬ ‫التشجيع‬ ‫من‬ ‫ة‬ . ‫ما‬ ً‫ا‬‫غالب‬ ."‫للحشود‬ ‫الجماعي‬ ‫"الشعور‬ ‫هذا‬ ‫معرفة‬ ‫تحاول‬ ‫التي‬ ‫األبحاث‬ ‫وشركات‬ ‫التجارية‬ ‫العالمات‬ ‫ًا‬‫ض‬‫أي‬ ‫تهم‬ ‫البيانات‬ ‫وهذه‬ ‫ال‬ ‫فإن‬ ،"‫مدونة‬ ‫تعليق‬ ‫خالل‬ ‫من‬ ‫سمعتك‬ ‫تدمير‬ ‫"يمكن‬ ‫للخيال‬ ‫حساسة‬ ‫تكون‬،‫اإلنترنت‬ ‫عبر‬ ‫بهويتها‬ ‫تهتم‬ ‫التجارية‬ ‫عالمات‬ ‫المستخدمون‬ ‫يواجهها‬ ‫التي‬ ‫واالنتقادات‬ ‫للتوقعات‬ ‫أفضل‬ ‫فهم‬ ‫إلى‬ ‫ًا‬‫ض‬‫أي‬ ‫تسعى‬ ‫.ولكنها‬ ‫أو‬ ‫اإليجابية‬ ‫التعليقات‬ ‫حساب‬ ‫مجرد‬ ‫من‬ ‫ا‬ً‫ء‬‫بد‬ ،‫اإلنترنت‬ ‫لمستخدمي‬ ‫التقييمات‬ ‫هذه‬ ‫الستخالص‬ ‫التقنيات‬ ‫تطور‬ ‫تنامى‬ ‫هنا‬ ‫ومن‬ ‫الد‬ ‫التحليل‬ ‫إلى‬ ‫السلبية‬‫التعليقات‬ ‫هذه‬ ‫لمحتوى‬ ‫قيق‬ . ‫نظام‬ ‫إعداد‬ ‫هو‬ ‫منه‬ ‫والغرض‬ ، ‫المشروع‬ ‫هذا‬ ‫يقع‬ ، ‫السياق‬ ‫هذا‬ ‫وفي‬‫واستغالل‬ ‫وتخزين‬ ‫لجمع‬‫النصية‬ ‫البيانات‬‫يعبر‬ ‫التي‬ ‫المستخدمون‬ ‫عنها‬‫االجتماعية‬ ‫الشبكات‬ ‫على‬.‫أجرينا‬ ‫لقد‬‫بتحليل‬ ‫تتعلق‬ ‫ببليوغرافية‬ ‫دراسة‬‫باقتراح‬ ‫لنا‬ ‫سمحت‬ ‫التي‬ ‫المشاعر‬ ‫يمأل‬ ‫حل‬‫القائمة‬ ‫المشاكل‬‫المتطلبات‬ ‫على‬ ‫واإلجابة‬ ، ‫اللهجة‬ ‫سيما‬ ‫وال‬ ،‫المع‬‫بر‬‫عنها‬ :‫المفتاحية‬ ‫الكلمات‬‫التصني‬ ، ‫كوربوس‬ ، ‫اللهجة‬ ،‫االجتماعية‬ ‫الشبكات‬ ،‫المشاعر‬ ‫تحليل‬
  • 6. VI Table des matières Remerciements ....................................................................................................................II Résumé..............................................................................................................................III Abstract ........................................................................................................................... IV Liste des abréviations ..................................................................................................... XI Introduction Générale.....................................................................................................12 Problématique................................................................................................................14 Chapitre I : Généralités sur l’analyse de sentiments.........................................................17 I. Définitions et Concepts ..................................................................................................18 I.1. L’Émotion............................................................................................................................................... 18 I.2. Sentiment .............................................................................................................................................. 19 I.3. Opinion .................................................................................................................................................. 20 I.3.1. Opinion ordinaire et opinion comparative.................................................................................... 20 I.3.2. Les classes d'opinions .................................................................................................................... 20 II. L’analyse de sentiments : applications et processus..................................................21 II.1. Domaines d'applications ...................................................................................................................... 22 II.1.1. Marketing...................................................................................................................................... 22 II.1.2. Revue des produits ....................................................................................................................... 22 II.1.3. E-commerce et CRM ..................................................................................................................... 23 II.1.4. Finance.......................................................................................................................................... 23 II.1.5. Politique........................................................................................................................................ 24 II.1.6. Veille ............................................................................................................................................. 24 II.2. Analyse de sentiments.......................................................................................................................... 24 II.2.1. L’analyse de sentiment d’un point de vue TAL............................................................................. 24 II.2.2. Niveaux d'analyse de sentiments ................................................................................................. 26 II.3. Le processus de l’analyse de sentiments ............................................................................................. 27 II.3.1. Le sourcing et collecte .................................................................................................................. 28 II.3.2. Prétraitement ............................................................................................................................... 30 II.3.3. Annotation.................................................................................................................................... 30 II.3.4. Représentation ............................................................................................................................. 30 II.3.5. Classification de texte................................................................................................................... 30 II.4. Évaluation des approches d’analyse des sentiments........................................................................... 31 II.4.1. Précision........................................................................................................................................ 31 II.4.2. Rappel ........................................................................................................................................... 32 II.4.3. Fausse acceptation ....................................................................................................................... 32 II.4.4. Faux rejet ...................................................................................................................................... 32 II.4.5. F-mesure....................................................................................................................................... 32 II.4.6. Exactitude ..................................................................................................................................... 33 III. Synthèse........................................................................................................................33 Chapitre II : ..................................................................................................................34 Analyse de sentiments et construction du vocabulaire.............................................34 I. Construction du vocabulaire .........................................................................................35 I.1. Définitions.............................................................................................................................................. 35 I.1.1. Lexique........................................................................................................................................... 35 I.1.2. Vocabulaire .................................................................................................................................... 35
  • 7. VII I.1.3. Corpus............................................................................................................................................ 35 I.2. Méthodes de construction .................................................................................................................... 36 I.2.1. Méthodes manuelles ..................................................................................................................... 37 I.2.2. Méthodes automatiques ............................................................................................................... 37 I.3. Synthèse des travaux............................................................................................................................. 39 II. Approches de catégorisation des messages.................................................................41 II.1. Catégorisation basée sur le lexique...................................................................................................... 43 II.1.1 Principe de l’approche................................................................................................................... 43 II.1.2. Synthèse des travaux ................................................................................................................... 43 II.2. Catégorisation basée sur l’apprentissage automatique....................................................................... 45 II.2.1. Principe de l’approche.................................................................................................................. 45 II.2.1.1. Prétraitement ............................................................................................................................ 45 II.2.2 Synthèse des travaux.......................................................................................................................... 58 II.2.2.1 Construction du vocabulaire....................................................................................................... 59 II.2.2.2. Classification .............................................................................................................................. 60 II.3. L’approche hybride............................................................................................................................... 62 II.3.1. Principe de l’approche....................................................................................................................... 62 II.3.2. Synthèse des travaux......................................................................................................................... 62 III. Outils d’analyse de sentiment sur les réseaux sociaux.............................................65 IV. Conclusion....................................................................................................................68 Chapitre III : Conception..................................................................................................71 I. Description du projet de référence ...............................................................................72 II. Méthodologie de travail................................................................................................73 II.1. Méthodologie CRISP-DM...................................................................................................................... 73 III. Présentation de la solution..........................................................................................74 IV. Hypothèses de départ ..................................................................................................75 IV.1. Type d'opinions à traiter ..................................................................................................................... 76 IV.2. Niveau de l'analyse de sentiments...................................................................................................... 76 V. Vue globale.....................................................................................................................76 VI. Vue détaillée.................................................................................................................78 VI.1. Préparation des données .................................................................................................................... 78 VI.1.1. Collecte des données................................................................................................................... 79 VI.1.2 Nettoyage des données..................................................................................................................... 84 VI.1.3. Structuration des données............................................................................................................... 85 VI.2. Prétraitement...................................................................................................................................... 86 VI.2.1. Suppression du bruit ................................................................................................................... 87 VI.2.2. Normalisation du lexique ............................................................................................................ 89 VI.2.3. Racinisation ................................................................................................................................. 91 VI.2.4. Traitement de langage SMS ........................................................................................................ 92 VI.2.5. Construction du dictionnaire des néographies. .......................................................................... 93 VI.2.6. Prétraitement relatif à l’analyse de sentiments......................................................................... 96 VI.3. Annotation du corpus.......................................................................................................................... 97 VI.3.1. Modèle de clustering................................................................................................................... 97 VI.3.2. Approche d’annotation non supervisée................................................................................... 100 VI.4. Catégorisation ................................................................................................................................... 101 VI.5. Visualisation ...................................................................................................................................... 101 VI.5.1. Méthodes de mise en œuvre des tableaux de bords................................................................ 102 VI.5.3. Définitions des indicateurs de performances (KPI)................................................................... 102 VI.6. Sécurité du système .......................................................................................................................... 106 VI.6.1. Authentification......................................................................................................................... 107
  • 8. VIII VI.6.2. Autorisation............................................................................................................................... 107 VI.6.3. Sécurité des données ................................................................................................................ 108 VI.7. Conclusion...............................................................................................................109 Chapitre IV : Réalisation, Déploiement et Évaluation.....................................................110 I. Environnement et technologies de développement....................................................111 I.1. Langages de programmations ............................................................................................................. 112 I.1.1. Python.......................................................................................................................................... 112 I.1.2. C# ................................................................................................................................................. 112 I.2. Environnement.................................................................................................................................... 112 I.2.1. Nifi................................................................................................................................................ 112 I.2.2 Kafka ............................................................................................................................................. 112 I.2.3. Spark ............................................................................................................................................ 112 I.2.4. Hbase ........................................................................................................................................... 113 I.3. Bibliothèques....................................................................................................................................... 113 I.3.1. NLTK (Natural Language Toolkit) ................................................................................................. 113 I.3.2. SciKit-Learn .................................................................................................................................. 113 I.3.3. Keras ............................................................................................................................................ 113 I.3.4 Gensim .......................................................................................................................................... 113 II. Réalisation ...................................................................................................................115 II.1. Collecte de données – Data Collection- ............................................................................................. 115 II.1.1. Authentification Facebook ......................................................................................................... 115 II.1.2. Récupération du token d’accès .................................................................................................. 116 II.2. Traitements de données - Data Processing -...................................................................................... 116 II.3. Stockage de données.......................................................................................................................... 116 II.4. Représentation du vecteur texte........................................................................................................ 117 II.5. Annotation.......................................................................................................................................... 118 II.5.1. Annotation non supervisée ........................................................................................................ 118 II.5.2. Annotation manuelle.................................................................................................................. 119 II.6. Catégorisation..................................................................................................................................... 120 II.6.1. Définition des différents layers .................................................................................................. 120 II.6.2. Architecture des algorithmes proposés ..................................................................................... 121 II.7. Visualisation........................................................................................................................................ 122 III. Déploiement ...............................................................................................................124 IV. Évaluation ..................................................................................................................125 IV.1. Démarche .......................................................................................................................................... 126 IV.1.1. Composantes du vecteur de caractéristiques........................................................................... 126 IV.1. 2. Techniques de représentation du vecteur de caractéristiques ............................................... 127 IV.1.3. Algorithmes d’apprentissage automatique............................................................................... 127 IV.1.4. Approche d’évaluation .............................................................................................................. 127 IV.1.5 Résultats des tests...................................................................................................................... 128 IV.1.6. Synthèse des résultats............................................................................................................... 135 V. Conclusion....................................................................................................................136 Conclusion et perspectives ............................................................................................137
  • 9. IX Table des figures Figure 1 Wheel of emotion de Robert Plutchik............................................................................................. 18 Figure 2: Processus générique d’analyse de sentiments............................................................................... 28 Figure 3 Classification des méthodes de construction du lexique de sentiments..................................... 37 Figure 4: Approches de l’analyse de sentiments ........................................................................................... 42 Figure 5 la représentation de sac en mots....................................................................................................... 49 Figure 6: la structure du modèle NNLM ........................................................................................................ 57 Figure 7: La structure du modèle C&W ......................................................................................................... 58 Figure 8 Méthode CRISP-DM (AGA, 2005)................................................................................................. 73 Figure 9 Architecture globale ............................................................................................................................. 77 Figure 10 Processus de collecte et de préparation des données...................................................................... 79 Figure 11 Diagramme de séquence de l'extraction des posts.......................................................................... 83 Figure 12 Diagramme de séquence de l'extraction des commentaires........................................................... 84 Figure 13 Exemple d’un fichier CSV contenant les commentaires utilisateurs ....................................... 84 Figure 14 Schéma de la base de données .......................................................................................................... 86 Figure 15 Schéma prétraitement de données................................................................................................... 87 Figure 16 Etapes de normalisation .................................................................................................................... 89 Figure 17: La répartition des langues dans le corpus ....................................................................................... 91 Figure 18 Processus de traitement relatif au langage dialectal......................................................................... 93 Figure 19 Réduction du nombre de mots après prétraitement ....................................................................... 96 Figure 20 Exemple d'émoji................................................................................................................................. 97 Figure 21 Exemple d'autocollants...................................................................................................................... 97 Figure 22 Diagramme d'activité qui illustre le processus de clustering..................................................... 98 Figure 23 Vecteur d'entrée de clustering ........................................................................................................ 98 Figure 24 Diagramme d’activité de l'annotation non supervisée ................................................................. 101 Figure 25 Diagramme des cas d'utilisation - Vue administrateur-............................................................ 103 Figure 26 Diagramme des cas d'utilisation - Vue utilisateur- ................................................................... 104 Figure 27 Diagramme de séquence du système de sécurité....................................................................... 108 Figure 41 Technologies utilisées ...................................................................................................................... 111 Figure 28 Architecture technique..................................................................................................................... 115 Figure 29 Application AS Ooredoo sur Facebook Dev Platforme .............................................................. 116 Figure 30 Architecture du système du Word Embedding............................................................................. 118 Figure 31 Architecture de l'annotation non supervisée ................................................................................. 118 Figure 32 Application web pour l'annotation manuelle................................................................................. 119 Figure 33 Diagramme de séquence de l'annotation manuelle ....................................................................... 119 Figure 34 Architecture LSTM .......................................................................................................................... 121 Figure 35 Architecture CNN............................................................................................................................ 121 Figure 36 Architecture CNN & LSTM ........................................................................................................... 122 Figure 37 Part d'un sentiment par opérateur ................................................................................................ 122 Figure 38 Part d'un sentiment par opérateur avec aperçu sur les commentaires .................................... 123 Figure 39 Nombre de commentaires par opérateur/sentiment .................................................................. 123 Figure 40 Vue principale du Dashboard....................................................................................................... 124 Figure 42 Architecture de déploiement......................................................................................................... 124 Figure 43 Exemple de représentation Unigramme et Bigramme.................................................................. 126 Figure 44 Classification á deux niveaux .......................................................................................................... 128
  • 10. X Liste des tableaux Table 1 table de confusion................................................................................................................................ 31 Table 2 Synthèse bibliographique ...................................................................................................................... 64 Table 3 Attributs sélectionnés pour le clustering.......................................................................................... 98 Table 4 Présentation des différentes metriques ........................................................................................... 105 Table 5 Langages de programmation et emplacement ............................................................................... 111 Table 6 Comparaison entre Cassandra vs HBase vs MonogDB .................................................................. 117 Table 7 Jeu de données..................................................................................................................................... 125 Table 8 Taille du corpus d'entrainement et test pour l'approche à un niveau ............................................. 129 Table 9 Taille du corpus d'entrainement et test pour l'approche à deux niveaux ....................................... 129 Table 10 Évaluation de la classification à un seul niveau .............................................................................. 130 Table 11 Évaluation de la classification à un seul niveau avec annotation manuelle............................ 131 Table 12 Évaluation de la classification des classes de sentiments de l'approche à deux niveaux .... 132 Table 13 Évaluation de la classification sur les classes Objective-Subjective ....................................... 132 Table 14 Évaluation sans Traitement des lettres répétées et des Majuscules. ........................................ 134 Table 15 Synthèse des meilleurs résultats........................................................................................................ 135 Table 16 Approche un niveau Vs Approche deux niveaux ....................................................................... 136 Table 17 Microsoft Azure ML Vs Notre Système ...................................................................................... 136
  • 11. XI Liste des abréviations AD Arbre de Décision AS Analyse de sentiments BNB Bernoulli Naïve Bayes BoWs Bag of Words CNN Conventional Neural Network DL Deep Learning Lol laughing out loud LSTM Long Short-Term Memory Mdr Mort De Rire ME Maximum Entropy ML Machine Learning MNB Multinomiale Naïve Bayes MASA Microsoft Azure for Sentiment Analysis NB Naïve Bayes PMI Pointwise Mutual Information POS Part of Speech RNA Réseaux de Neurones Artificiels SO Sentiment Orientation SVM Support Vectors Machine TAL Traitement automatique du langage URL Uniform Resource Locator WE Word Embedding
  • 12. 12 Introduction Générale L’objectif primordial de toute entreprise aujourd’hui face à la concurrence accrue est de fidéliser ses clients. En effet, de plus en plus d’entreprises se dotent d’outils lui permettant d’analyser le comportement de leur client vis-à-vis de leurs produits, leurs degrés de satisfaction ainsi que d’estimer la probabilité qu’ils partent chez les concurrents. Si autrefois les données permettant d’obtenir cette information coutaient très cher, aujourd’hui grâce à la place centrale qu’occupe le client dans les systèmes d’information des entreprises et à la prolifération des médias de communication et des média sociaux en particulier, le fossé entre les aspirations des clients et les entreprises a tendance à se réduire. Le développement des plateformes sociales a changé la manière de communiquer entre individus ainsi que de produire de l'information. Désormais, l'information, en plus d'être présentée sous la forme de texte, est aussi tirée des différentes interactions des utilisateurs sur les plateformes sociales (mentions, follow, j'aime, ...) permettant ainsi de traduire l'opinion des utilisateurs vis-à-vis des contenus. En effet, selon GlobalWebIndex1 , une personne sur trois utilise les médias sociaux. Ceci donne une idée sur le contenu utilisateur gigantesque généré sur ces plateformes. En effet, (Pak and Paroubek, 2010) affirment que les internautes utilisent de plus en plus les médias sociaux en raison d'un format plus libre de messages et d'un accès facile aux plates-formes. (Pang and Lee, 2008) rapportent que près de 87% des lecteurs de commentaires en ligne qui portent sur des avis des restaurants, des hôtels et autres services admettent que ces derniers ont eu une certaine influence sur leur consommation. Ainsi, les plateformes sociales apparaissent comme des sources d'évidence primordiales pour les entreprises qui ont le besoin permanent de cibler les profils des clients susceptibles d'acheter leurs produits ou d'influencer de potentiels client. De ce fait, la fouille des médias sociaux connait un intérêt croissant dans divers milieux scientifiques et économiques. En effet, les entreprises s’intéressent principalement aux utilisateurs de ces réseaux et cherchent à les caractériser selon deux axes : (1) leur expertise et leur réputation, (2) les sentiments qu’ils expriment vis-à-vis d’un service ou d’un produit. Nous nous intéressons dans ce projet de fin d’étude à l’analyse des sentiments en particulier. Cette discipline permet de déterminer automatiquement l'opinion à partir du texte récolté depuis plusieurs sources (essentiellement des plateformes sociales). Nous partons de l’idée que les opinions des individus qui pourraient être des clients et les clients potentiels pourraient 1 GlobalWebIndex combine la plus grande étude en cours au monde sur le monde numérique avec des analyses puissantes pour servir comme un principal fournisseur de données de mesure à l'industrie du marketing mondial.
  • 13. 13 avoir un enjeu stratégique pour une entreprise donnée. Ils permettent de connaitre et comprendre la réputation de la marque à travers des retours d'information sur l'expérience vécue par les consommateurs. Ceci permettra typiquement de répondre à des questions : ➢ Que pensent les gens de nos produits, services ou marque ? ➢ Est-ce que les gens ont tendance à promouvoir ou non nos produits ? ➢ Comment est-ce que les gens préfèreraient nos produits ? Le domaine d’analyse des sentiments a ainsi suscité de nombreux travaux de recherche qui ont inspirés les industriels à développer des outils d’analyse des sentiments génériques ou sur mesures. Le challenge est d’arriver à traduire du texte écrit en langage naturel et spontané en opinion positive ou négative par exemple. Ce texte est non structuré est parfois annotés par ce que l’on appelle des émoticônes, des hashtags ou des gifs qui sont utilisés pour appuyer les commentaires et exprimer une opinion. De nombreux travaux ont été proposés dans la littérature et les applications sont aussi nombreuses. Les performances de ces modèles différents selon plusieurs critères notamment la langue utilisée. Dans certains contextes, les utilisateurs utilisent le dialecte pour s’exprimer sur les réseaux sociaux et la question que l’on se pose alors est comment identifier les opinions sur les réseaux sociaux ?
  • 14. 14 Problématique Ayant constaté que très peu de travaux se sont intéressés au dialecte dans l’analyse des sentiments, notre objectif à travers ce PFE est de mener une étude bibliographique pour identifier les approches d’analyse de sentiments dans la littérature afin de dresser leurs forces et faiblesses et de proposer une approche permettant l’analyse des sentiments à partir de textes exprimés en dialecte sur les médias sociaux. Pour atteindre notre objectif nous avons organisé notre travail comme suit : Introduction générale Nous entamons notre rapport par une introduction générale suivie par une problématique qui va nous permettre de bien cadrer notre travail ainsi que nos objectifs que nous avons soulignés dès le début de notre projet de fin d’études pour avoir une vision claire de notre finalité. Partie I : État de l’art Cette partie sera consacrée à la synthèse bibliographique sur l'analyse de sentiments en comprenant les approches adoptées pour la résolution du problème ainsi que les différentes techniques appliquées dans ce but. Chapitre 1 : Généralités sur l’analyse de sentiments Nous entamons la seconde partie du rapport par un chapitre qui comportera les notions de bases et les définitions indispensables pour appréhender le domaine d'analyse de sentiments. Nous aborderons par la suite le domaine de l'analyse de sentiments en présentant ses différents niveaux et ses domaines d’applications, ensuite nous citons les problèmes liés à l’analyse des sentiments dans les réseaux sociaux, à la fin nous présentons le processus général de l’analyse de sentiments ainsi que les différentes métriques utilisées pour évaluer une démarche AS. Chapitre 2 : Apprentissage automatique et analyse de sentiments Nous aborderons dans ce chapitre, les différentes approches et techniques utilisées pour la construction du lexique et la catégorisation des sentiments tout en mettant en évidence les différentes méthodes utilisées. Nous présenterons dans un second temps en détails l'analyse de sentiments basée sur l'apprentissage automatique et le processus complet ainsi que les techniques appliquées pour ce faire. Par la suite l’approche hybride qui combine les deux approches citées précédemment, Nous étaierons nos propos par des exemples de la littérature et des travaux phares réalisés dans le contexte d'analyse de sentiments.
  • 15. 15 Partie II : Contribution : Conception, réalisation et étude de cas La troisième et dernière partie du rapport sera dédiée à l'aspect pratique de notre solution et abordera plus en détails les choix de conception et de réalisation pris tout au long du projet ainsi qu’une présentation du projet de référence. Chapitre 3 : Conception Nous expliquerons à ce niveau notre vision de la solution en allant du chargement des données à la visualisation en passant par la description du projet de référence et l'analyse de sentiments. Nous consacrerons une partie de ce chapitre au traitement spécialement appliqué pour traiter quelques aspects du langage utilisé notamment le dialecte. Chapitre 4 : Réalisation, déploiement et évaluation Nous présenterons dans ce chapitre l'intégralité des technologies et outils utilisés pour réaliser notre solution et son déploiement. Nous présenterons dans un deuxième temps la phase d'évaluation du système d'analyse de sentiments pour valider le modèle construit. Conclusion et perspectives Et pour conclure, la quatrième partie exposera la synthèse de notre projet et oriente les perspectives de la solution.
  • 16. 16 Partie I : état de l’art
  • 17. 17 Chapitre I : Généralités sur l’analyse de sentiments L’analyse de sentiments est définie par Pang et Lee (2008) comme étant « le traitement informatique de l’opinion, du sentiment et de la subjectivité dans le texte ». Il s’agit de détecter automatiquement si un élément par exemple, une revue de produit ou un article de blog, sous forme de texte, d’image ou de vidéo exprime une opinion positive ou négative à propos d'une entité donnée telle qu’un produit ou un service, une personne ou un parti politique Dans ce chapitre, nous présentons les définitions de base gravitant autour de l’analyse de sentiments. Ensuite, nous citons ses différents domaines d’applications. Nous aborderons en second lieu le domaine de l'analyse de sentiments en présentant les problèmes liés à cette analyse et ses différents niveaux d’applications. Enfin, nous donnons le processus général de l’analyse de sentiments ainsi que la phase d’évaluation.
  • 18. Chapitre I : Généralités sur l’analyse de sentiments 18 I. Définitions et Concepts Lorsqu'on aborde le domaine de la fouille d'opinions ou l'analyse de sentiments, l'une des premières questions à se poser pourrait être la suivante : Quelle est la différence entre un sentiment et une opinion ? Une deuxième question est : Où trouve-t-on des opinions sur le web ? Pour y répondre, nous allons d'abord définir les concepts se rapprochant du sentiment à savoir : l'émotion, le sentiment et l'opinion. I.1. L’Émotion Rosenberg and Turner (1990) définissent une émotion sur un plan psychologique comme un état complexe de l'organisme, impliquant des changements corporels, et sur un plan mental comme étant un état d'excitation ou de perturbation, marqué par une impulsion envers un comportement définit. Quant à Myers (2004), il définit l'émotion comme étant une expérience psychophysiologique complexe et intense avec un début brutal et une durée relativement brève. Larousse 2002 la présente sous une réaction affective transitoire d'assez grande intensité, tandis que le dictionnaire en ligne l'Internaute la définit comme la manifestation d'un sentiment, Modèles d'émotions : Il existe plusieurs modèles d’émotions en psychologie. Nous citons les modèles de Plutchik (1984), Russell (1991) et Ekman (1992). Le plus récent, est celui dit le modèle d'émotions cubique de Lövheim Lövheim (2012). ➢ Modèle de Plutchik : Ce modèle, plus connu sous le nom de « Wheel of emotion » [Plutchik 1980] représente les émotions en forme de roue en deux dimensions. Dans ce modèle, Plutchik propose huit émotions principales (voir figure 1), de façon que chaque deux parties qui s'opposent indiquent une opposition en termes de vocabulaire d'émotions. Figure 1 Wheel of emotion de Robert Plutchik
  • 19. Chapitre I : Généralités sur l’analyse de sentiments 19 Pour une lecture aisée, il est recommandé dans (Plutchik 1980), de lire le deuxième cercle en premier. Par exemple l’émotion de joie s’oppose à celle de la tristesse Aussi, nous pouvons constater que plus nous allons vers l'extérieur, plus les couleurs deviennent plus claires, signifiant des émotions moins intenses, tandis que plus nous allons vers l'intérieur de la roue, les couleurs sont plus tenaces, ce qui signifie que les émotions sont plus intenses. Exemple : si on prend la partie jaune du centre de la roue, on commence par extase, ensuite joie et ensuite sérénité, on remarque que l'émotion est la même mais c'est l'intensité qui varie (voir Figure 1). ➢ Modèle d'Ekman : L'un des modèles les plus connus et utilisés est le modèle d'Ekman qui fut un des pionniers dans l'étude des émotions et qui a conçu une liste des émotions qu'il a, par la suite, enrichi. L’auteur a conçu cette liste des émotions de base à partir de recherche transculturelle sur une tribu de Papouasie-Nouvelle-Guinée. Il a observé le fait que des personnes isolées du monde ayant une culture d'âge de la pierre peuvent identifier les expressions de l'émotion de personnes sur des photographies dont les cultures sont inconnues. Ces gens pouvaient également attribuer les expressions du visage à des descriptions de situations. Sur cet indice, il a conclu que certaines émotions de base sont soit biologiques, soit universelles à tous les hommes. Liste des émotions d’Ekman est la suivante (a) Tristesse, (b) joie, (c) colère, (d) peur, (e) dégout, (f) surprise, (g) mépris. I.2. Sentiment Larousse de Poche 2000 définit le sentiment comme étant un état affectif durable lié à certaines émotions ou représentations. Dans Sablonnière (2015), le sentiment est défini comme la composante de l'émotion qui implique les fonctions cognitives de l'organisme et la manière d'apprécier. Le sentiment est à l'origine d'une connaissance immédiate ou d'une simple impression. Rosenberg and Turner (1990) présentent le sentiment d'un point de vue psychologique comme un concept sociologique basique utile pour analyser le lien des sensations corporelles, la gestuelle et les relations sociales. Nous remarquons que la fouille d'opinions et l'analyse de sentiments traitent en fait des émotions, qui, seront par la suite interprétées en opinions.
  • 20. Chapitre I : Généralités sur l’analyse de sentiments 20 I.3. Opinion Larousse de Poche 2000 définit l'opinion comme étant un jugement, un avis ou un sentiment qu'un individu ou un groupe émet sur un sujet, des faits, ce qu'il en pense ou encore comme l’ensemble des idées d'un groupe social sur des sujets s politiques, économiques, moraux, etc (Liu, 2012) reprend à son tour le modèle de (Kim and Hovy, 2004) et celui de (Kobayashi et al., 2007) en y apportant une nouvelle dimension qui est celle du temps. De ce fait, l'opinion est représentée sous forme de quintuple à savoir (porteur, objet, aspect, sentiment, temps). Il existe dans la littérature des classifications de l’opinion selon qu’elle soit ordinaire ou comparative ou bien selon son type c’est-à-dire sa polarité ou son intensité. I.3.1. Opinion ordinaire et opinion comparative a) L’opinion ordinaire Selon Liu (2007), l’opinion ordinaire est simplement appelée opinion dans la littérature. On peut cependant distinguer deux types d'opinions ➢ L’opinion directe qui désigne une opinion exprimée directement sur une entité ou un aspect d'une entité. Par exemple, L'écran de ce téléphone est Impressionnant. Ici l’entité et le sentiment sont respectivement, l’écran d’un téléphone et impressionnant. ➢ L’opinion indirecte désigne une opinion exprimée indirectement sur une entité ou un aspect d'une entité basé sur l'effet d'une autre entité. Par exemple, Après avoir changé de type de carburant, la voiture roulait difficilement. b) L’opinion comparative L’opinion comparative exprime une relation de similitude ou de différence entre plusieurs entités (Jindal and Liu 2006), nous pouvons dire qu'il existe deux types d'opinions comparatives. ➢ Comparaison évaluée : dans ce type de comparaison, il existe une préférence évidente entre les entités, par exemple, la BMW est plus rapide que la Renault, c’est clair ici que la BMW a une vitesse plus grande donc elle est le détenteur de l’opinion préféré. ➢ Comparaison non évaluée : Dans ce cas, il existe une différence entre les entités, cependant, on ne peut déterminer laquelle le détenteur de l'opinion préféré, par exemple : La vitesse de cette BMW est différente de la Renault, ici, on peut pas savoir qui est mieux de l’autre. I.3.2. Les classes d'opinions Nous pouvons retrouver dans la littérature deux manières d'évaluer ou de classer une opinion qui sont les suivantes :
  • 21. Chapitre I : Généralités sur l’analyse de sentiments 21 ➢ Par polarité : Dans ce cas-là, on s'intéresse à catégoriser les opinions en : ❖ Positive ❖ Négative ❖ Neutre ➢ Par niveaux d'intensité On s'intéresse ici à catégoriser les opinions en cinq classes qui expriment leurs intensités et leurs évaluation rationnelle ou émotionnelle 3 Chaudhuri (2006) ❖ Négative émotionnelle (-2) ❖ Négative rationnelle (-1) ❖ Neutre (0) ❖ Positive rationnelle (+1) ❖ Positive émotionnelle (+2) Après avoir défini quelques concepts ayant trait avec le domaine d’analyse des sentiments nous abordons dans la section suivante le domaine de l’analyse des sentiments en donnant la définition du domaine, ensuite nous en exergue les domaines d’application pour y montrer l’intérêt de la communauté pour ce domaine. Enfin, nous présentons le processus général de l’analyse des sentiments avec ses étapes clés. II. L’analyse de sentiments : applications et processus L'analyse de sentiments appelée aussi fouille d'opinion est le domaine d'étude qui analyse les opinions, les sentiments, les évaluations, les émotions des gens à partir du langage écrit. Dans le monde de la recherche académique il s’agit de l'un des domaines de recherche les plus actifs qui s’articule autour de plusieurs domaines tels que le traitement automatique du langage naturel, de la fouille de données, la fouille du web ainsi que la fouille de texte (Liu, 2012). Les premiers travaux de recherche dans l'analyse des sentiments remontent à l'an 2001 (Pang and Lee, 2008), quand les chercheurs ont pris conscience des problèmes et des opportunités que peut soulever ce domaine tant dans l’académique que dans l’industriel. Depuis cette date, la recherche connait un essor considérable que les auteurs attribuent à plusieurs facteurs tels que : ➢ Le développement des techniques d'apprentissage automatique dans le domaine du traitement automatique du langage naturel et la recherche d'information,
  • 22. Chapitre I : Généralités sur l’analyse de sentiments 22 ➢ La disponibilité des données pour l'entrainement des algorithmes d'apprentissage automatique et ce grâce à l'épanouissement du web et plus spécialement, le développement des sites web offrant une agrégation des critiques. ➢ La réalisation de challenges intellectuels fascinants ainsi que les applications commerciales et Business Intelligence qu'offre le domaine. ➢ D’un point de vue applications de l’analyse des sentiments, selon Pang et Lee, l’analyse des sentiments est évoquée dans tout processus décisionnel, que ce soit en vue de l’achat d’un bien, dans le contexte d’une élection, ou encore pour évaluer la réputation de son entreprise. D’après le blog spécialisé dans l’analyse de données, analyticsvidhya, il existe plusieurs domaines ou on peut faire appel à l’analyse de sentiments, parmi eux nous citons : II.1. Domaines d'applications II.1.1. Marketing En plus de la consultation des avis en ligne pour un usage personnel dans la vie courante, la collecte et l’analyse des opinions des individus sont devenues des sources d’informations précieuses pour les entreprises. Alors que le recueil des opinions des consommateurs a eu pendant longtemps un caractère fastidieux, sans garantir que les avis recueillis soient spontanés (organisation de focus groups, recours à des consultants, enquêtes et questionnaires, etc.), l’accessibilité de ces informations, dès lors qu’elles se retrouvent postées en ligne par les consommateurs eux-mêmes, permet des analyses à grande échelle (opinions en provenance du monde entier). Le marketing a rapidement compris l’intérêt de l’analyse des sentiments. Des agences vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits. II.1.2. Revue des produits Dans le domaine du product review mining : notamment à partir des sites d’avis de consommateurs. Les consommateurs viennent y échanger des avis et trouver des conseils pour leurs décisions d’achat (produits technologiques, voitures, voyage et hôtels, etc.). L’analyse des sentiments permet non seulement de catégoriser les avis au sujet d’un produit ( le système de review classification, comme dans le cas des critiques de cinéma), d’en proposer des résumés, mais aussi de détailler à un niveau fin ces avis (quelle dimension du produit est appréciée, quelle autre dimension ne l’est pas – on parle alors de « features »). Il peut également aider à lutter contre le spam en contribuant à détecter les faux avis postés par des agences. Le site d’enchères en ligne eBay utilise également des outils d’analyse de sentiments pour repérer les meilleures critiques et les rendre accessibles plus facilement parmi toutes les revues de produits (et les spams commerciaux) que présente le site. L’équipe des eBay Research Labs a
  • 23. Chapitre I : Généralités sur l’analyse de sentiments 23 en effet défini des indicateurs de qualité d’un avis sur un produit parmi lesquels la réputation de l’auteur de l’avis au sein de la communauté des utilisateurs d’eBay, son « seller degree » qui reflète le cas échéant quel type de vendeur ou d’acheteur il est, et enfin un « expertise degree » qui reflète la connaissance que l’auteur peut avoir sur un type de produits. II.1.3. E-commerce et CRM Dans le domaine du e-commerce et du CRM (ou GRC en français) : acquérir des connaissances sur ses consommateurs ou anticiper leurs attentes est possible à partir de la collecte des avis de consommateurs sur un produit, un service, une marque. Le contrôle qualité des produits peut s’en servir comme d’une veille. Il est aussi possible d’améliorer la relation client/fournisseur en récupérant les critiques ou avis favorables. Les évolutions à venir des marchés de consommation courante peuvent être anticipées par des signes précurseurs dans les tonalités des conversations dès lors qu’on dispose d’un étalon en temps normal ou favorable pour percevoir ces changements rapides. Une autre application de l’analyse de sentiments proposée par eBay permet de rechercher la présence de mots-clés sur Twitter pour détecter les pannes du service signalées par les utilisateurs, avant même que l’alerte ne soit donnée par le système d’enchères lui-même. II.1.4. Finance Dans le domaine financier (prédiction de tendances de marché par exemple). Ainsi dans leur article « Predicting Movie Sales from Blogger Sentiment », Gilad Mishne et Natalie Glance utilisent des techniques de sentiment analysis pour améliorer la prédiction du succès commercial d’un film à partir des blogs. Ils montrent que le constat selon lequel le volume de citations d’un produit dans les blogs est corrélé avec la réussite financière du produit, peut être amélioré, au moins dans le domaine du cinéma, en analysant le sentiment positif exprimé dans les blogs au sujet d’un film, avant sa sortie en salle, et en le comparant avec son score au box- office2. L’utilisation des techniques de sentiment analysis contribuerait ainsi à construire de meilleures prédictions que la mesure du simple buzz, surtout si elle était associée à d’autres types de données comme le genre du film et le moment de sa sortie. Une autre utilisation de l’analyse de sentiments dans le domaine financier est la classification des dépêches financières afin d’observer l’impact éventuel de ces dernières sur le prix des actions cotées en Bourse. C’est ce type d’application que présentent Michel Généreux, Thierry Poibeau et Moshe Kopple dans leur article « Sentiment analysis using automatically labelled financial news items » en faisant l’hypothèse que « la réaction du marché suite à la publication d’une dépêche reliée à une action particulière est un bon indicateur de la polarité de la nouvelle et qu’un algorithme d’apprentissage à partir de ces dépêches permet de construire un système qui donne à 2 Box-office est un terme emprunté à l'anglais dans son acception de chiffre d'affaires d'une production artistique ou d'une vedette (et par extension leur classement sous forme de palmarès). Il se mesure en nombre de spectateurs, de billets écoulés (« entrées ») ou en valeur monétaire fondée sur l'un des deux items précédents. On parle également d'« échelle de succès », de « classement » calculé d'après le montant des recettes.
  • 24. Chapitre I : Généralités sur l’analyse de sentiments 24 l’investisseur une source d’information supplémentaire qui peut être exploitée de façon avantageuse dans une stratégie d’investissement ». II.1.5. Politique Dans le domaine politique. La publication croissante sur internet de textes à teneur politique (lois, rapports, billets de blogs politiques, etc.) et le constat que la politique ne se fait plus seulement dans les hémicycles mais aussi dans les débats en ligne, a conduit certains chercheurs à utiliser les techniques d’analyse de sentiments pour déterminer l’accord ou le désaccord des commentateurs avec telle ou telle proposition de loi. Dans leur article « Get out the vote : Determining support or opposition from Congressional floor-debate transcripts », Matt Thomas, Bo Pang et Lillian Lee espèrent faciliter la reconnaissance du positionnement d’un orateur dans un débat politique grâce a l’analyse de sentiments. D’autres recherches tentent par exemple d’analyser en masse les commentaires et opinions des citoyens américains lors de l’élaboration des réglementations proposées par les agences indépendantes du gouvernement. II.1.6. Veille Dans le domaine de la veille. Les techniques d’analyse de sentiments permettent de classer de grandes quantités de textes, rapports, conversations informelles sur des produits ou des dirigeants d’entreprises, etc., peuvent être utilisées dans le domaine de la veille, qu’elle soit économique, technologique, stratégique ou institutionnelle. Ainsi espère-t-on par exemple mettre en place des systèmes d’évaluation de la réputation des entreprises en rassemblant dans des bases de données des faits et opinions trouvés sur le web et permettant de tracer le profil de telle ou telle entreprise. Quel que soit le domaine d’application, le processus d’analyse des sentiments reste le même. Nous décrivons dans ce qui suit l’analyse des sentiments d’un de vue recherche et d’un point de vue TAL en particulier. Nous verrons par la suite dans le processus de l’analyse de sentiment que les taches cruciales sont celle de la collecte et du prétraitement dont dépend fortement le résultat II.2. Analyse de sentiments II.2.1. L’analyse de sentiment d’un point de vue TAL Le domaine de la fouille d'opinions est au départ lié au traitement du langage naturel, il s'approprie donc ses difficultés. Quelle que soit la méthode utilisée, toutes les subtilités du langage ne peuvent être reconstituées sous forme d’algorithmes pour être reconnues par un système informatique. En effet, la langue comprend différents niveaux d’articulation (Floriane Chariault 2014), chaque niveau comportant son lot de difficultés :
  • 25. Chapitre I : Généralités sur l’analyse de sentiments 25 ➢ Niveau lexical ➢ Niveau syntaxique ➢ Niveau sémantique ➢ Niveau pragmatique II.2.1.1. Niveau lexical Les données textuelles sont soumises à des formes orthographiques particulières. Les fautes d’orthographe, fréquentes dans les médias de type forums ou réseaux sociaux, ne font que compliquer l’analyse automatique d’un texte. Il en est de même avec les diverses formes orthographiques possibles que génère l’utilisation du langage SMS ou encore les abréviations afin de respecter la limite des 140 caractères sur Twitter, par exemple, « Y’a que moi qui arrive pu ouvrir fb ak mon iPhone ? » II.2.1.2. Niveau syntaxique L’information étant sous forme de texte libre et donc en langage naturel, l’analyseur peut être confronté à des formes syntaxiques hétérogènes, ne répondant pas toujours aux normes grammaticales habituelles. Le langage utilisé par certains internautes est spontané et peut parfois être désordonné. Les mots ne sont pas toujours employés dans leur forme originale. Les internautes n’hésitent pas à modifier la structure des phrases (absence de verbes, phrases incomplètes) et reproduisent parfois à l’écrit certaines caractéristiques liées à l’oral. Cette simplification d’emploi par les internautes rend l’analyse d’autant plus difficile puisque les « phrases » ne sont pas toutes construites de la même manière et ne répondent pas toutes aux mêmes règles. Pour pouvoir analyser n’importe quelle structure de phrase, il faudrait alors prévoir la reconnaissance d’une multitude de formes syntaxiques, ce qui serait trop complexe sachant que les usages de la langue évoluent sans cesse. II.2.1.3. Niveau sémantique La première difficulté relative à la sémantique est la polysémie des mots, qui peut rendre ambiguë toute analyse du sens et créer des incompréhensions. Nous pouvons prendre l’exemple de l’unité lexicale vague dont le sens premier est neutre, soyez averti de la prochaine vague de précommandes du smartphone LG. Sa polarité est amenée à varier lorsqu’elle est utilisée dans un contexte différent. Dans l’exemple ci-dessous, la mention est bien subjective et sa polarité devient négative. Exemple : Il n’y a pas de meilleur smartphone Android. C’est trop vague.
  • 26. Chapitre I : Généralités sur l’analyse de sentiments 26 D’autres phénomènes sémantiques contribuent à complexifier l’analyse automatique des sentiments. L’opposition entre deux propositions, unies par « mais » ou « pourtant », est souvent source d’erreur pour les analyseurs. Dans la majorité des cas, les deux propositions ont des polarités opposées. Exemple : Top 10 de smartphones, l’iPhone 5S numéro 1 mais Samsung domine. II.2.1.4. Niveau pragmatique Ce niveau linguistique implique une connaissance générale du contexte de la situation, et pas seulement du contexte induit par l’énoncé lui-même. Cela englobe souvent des éléments extérieurs au langage, à savoir différentes informations sur les auteurs (âge, sexe, statut social). Pour ce qui est de l’analyse de sentiments, la difficulté réside également dans l’identification de phénomènes tels que l’ironie, le sarcasme, l’implicite. Ces phénomènes sont pour la majorité des cas identifiables par les hommes. Cependant, un analyseur automatique ne peut posséder toute la connaissance contextuelle que requièrent ces types de phénomènes. Notons toutefois que certains éléments peuvent permettre d’identifier automatiquement ces phénomènes langagiers, comme la présence d’un hashtag #ironie dans un tweet. Maintenant, que nous avons mentionné les problèmes de l’analyse de sentiments, nous allons rentrer dans ses différents niveaux c’est-à-dire, les niveaux où on peut appliquer cette analyse. II.2.2. Niveaux d'analyse de sentiments (Liu, 2012) distingue trois différents niveaux d'analyse de sentiments en se basant sur la granularité de l'unité de texte considérée par la méthode en question. Ces niveaux sont cités en partant du plus général au plus fin : le niveau document, le niveau phrase et pour finir le niveau aspect. Nous allons dans ce qui suit, aborder plus en détails chacun des trois niveaux en mettant en évidence leur hypothèse ainsi que leur démarche. II.2.2.1. Niveau document L'analyse de sentiments au niveau document part de l'hypothèse que le document exprime une seule opinion envers une seule entité provenant d'une même source. La tâche principale est donc la détermination de l'orientation générale du sentiment du document selon les classes qui peuvent être positive, négative ou neutre. En effet, soit un document d évaluant une entité e, le but de l'analyse est donc de déterminer le sentiment s du porteur de l'opinion p à propos de l'entité e. Le sentiment s concerne l'aspect GENERAL dans la représentation en quintuple de (Liu, 2012). Dans la pratique, cette représentation affiche plusieurs limites. A vrai dire, un document peut évaluer plusieurs entités avec des avis différents envers ces dernières, comme il peut aborder
  • 27. Chapitre I : Généralités sur l’analyse de sentiments 27 une seule entité mais avoir des avis mitigés envers ses différents aspects. Malgré ces limites, cette représentation s'avère utile lorsque nous traitons des documents courts où l'hypothèse de départ est souvent vérifiée. II.2.2.2. Niveau phrase L'analyse de sentiments au niveau document est jugée trop brute pour une grande partie des applications c'est pourquoi, la recherche descend à un niveau de détail plus fin qui est le niveau phrase. La classification des sentiments au niveau phrase considère chaque phrase composant le document d comme étant une unité de base de l'analyse et part à son tour de l'hypothèse que la phrase exprime une seule opinion envers une seule entité. L'hypothèse émise est valable quand il s'agit de phrases simples mais reste limitée quand il est question de phrases composées où une phrase peut exprimer plus d'un sentiment. L'analyse de sentiments au niveau phrase consiste en deux tâches qui sont la catégorisation de la subjectivité et la catégorisation du sentiment. Ces deux tâches sont définies comme suit : ➢ Catégorisation de la subjectivité : Cette étape classifie les phrases en deux catégories : subjective et objective. Une phrase objective exprime une information factuelle tandis qu'une phrase subjective exprime un point de vue personnel et une opinion qui peut faire référence à un sentiment positif ou négatif. ➢ Catégorisation du sentiment : A l'issue de l'étape de classification de la subjectivité, si une phrase est jugée subjective, nous devons déterminer si cette dernière exprime un sentiment positif ou négatif. II.2.2.3. Niveau aspect Le terme aspect fait référence à un attribut ou une fonction de l'entité évaluée. Pour une analyse plus complète, il faut détecter les aspects d'un sujet et déterminer les sentiments relatifs à ces derniers (Liu, 2012). L'objectif est de découvrir tous les quintuples (porteur, objet, aspect, sentiment, temps) dans un document d donné. Par exemple dans la phrase : La qualité d'image de la caméra est géniale mais elle et très chère, l'analyse de sentiments au niveau aspect doit détecter un sentiment positif envers l'aspect "qualité d'image" ainsi qu’un sentiment négatif envers l'aspect "prix". II.3. Le processus de l’analyse de sentiments Dans cette partie nous allons présenter brièvement les différentes étapes de l’analyse de données, commençant tout d’abord par le « sourcing » qui est négligeables dans certains travaux mais que nous jugeons très important.
  • 28. Chapitre I : Généralités sur l’analyse de sentiments 28 Figure 2: Processus générique d’analyse de sentiments Nous présentons dans cette sous-section le « sourcing » ainsi que quelques sources de données généralement utilisées dans l’analyse de sentiments. Nous montrons aussi que toute approche d’analyse de sentiments commence par la collecte de données qui est un aspect important pour ce type d’analyse. En effet, selon plusieurs travaux comme Taboada et al. (2011), Medhat et al. (2014), Saleh et al. (2011), le choix de la source de données influe les résultats finaux de l’analyse. II.3.1. Le sourcing et collecte Le sourcing est le terme par lequel on désigne l’ensemble des opérations, préalables à la collecte de données, qui visent à identifier des sources (sites web, blogs, forums, etc.) contenant ou susceptibles de contenir de l’information, (Boullier, D., & Lohard, A. 2012). Typologie des sources web Où trouve-t-on des opinions sur le web ? Certains sites ont directement vocation à recevoir des opinions (notamment en raison de leur caractère social : réseaux sociaux, sites d’avis de consom-mateurs, micro-blogging, etc.). D’autres, comme les sites de presse par exemple, sont historiquement tournés vers les faits mais se « socialisent » depuis le « Web 2.0 ». ➢ Les sites d’avis consommateurs Ces sites permettent de recueillir des opinions au sujet de produits ou de services. Ils intéressent tout particulièrement les marques qui peuvent se faire rapidement une idée de ce que pensent les consommateurs. Ces derniers détaillent parfois très précisément leurs avis, en évaluant un produit ou un service non seulement dans son ensemble mais aussi en fonction de ces différentes dimensions et nous verrons que cela a son importance. Certains sites donnent aux utilisateurs la possibilité de noter la pertinence des avis proposés par les autres (et ceci, nous le verrons aussi, peut s’avérer très précieux).
  • 29. Chapitre I : Généralités sur l’analyse de sentiments 29 ➢ Les sites d’études communautaires de partage de contenus Ces sites sont également des lieux où trouver des opinions. Les vidéos, souvent commentées, que l’on trouve sur YouTube, qualifié de deuxième moteur de recherche au monde, agrègent des avis sur les publicités et par extensions sur les produits. Les commentaires associés aux vidéos peuvent renfermer beaucoup d’évaluations intéressantes. ➢ Les bases de données Les bases de données peuvent dans certains cas être des mines d’informations pour la veille. Elles font souvent partie du package de sources inspectées par les services de veille en ligne. De manière générale, le contenu de ces bases est injecté par un organisme ou une institution et n’est pas ouvert aux commentaires. Ces sources n’ont quasiment pas d’intérêt dans le cadre d’une analyse d’opinions mais restent très utiles pour de la veille. ➢ Les blogs Les blogs sont le lieu privilégié de l’expression en ligne depuis leur explosion en 2004, une plate-forme de blogs comme Skyrock rassemble près de 35 millions de blogs et représente ainsi un des premiers acteurs mondiaux sur ce type de supports. Souvent tenus par une seule personne/entité (mais pas toujours), les blogs permettent d’identifier plus clairement « qui parle » – contrairement aux sites cités plus haut où l’identité des personnes est très souvent visible uniquement au travers d’un pseudonyme (pseudonymat plus qu’anonymat – même si certaines personnes utilisent leur vraie identité). On trouve plusieurs types de blogs : personnels (journaux intimes – extimité), de loisirs (cuisine, couture, etc.), commerciaux (blogs d’entreprise, de marque), de journalistes, d’experts, blogs politiques (élus, partis, syndicats, etc.), etc. Le format blog invite aux commentaires des lecteurs même si l’auteur peut choisir de fermer les commentaires. ➢ Les forums Qu’ils soient rattachés à une marque, à une institution ou encore à une pratique (forum de santé), les forums ont un format spécifique qui permet à tous de trouver une information et des conseils précis. Les forums sont souvent animés et modérés. Leur contenu est hiérarchisé en fonction de « topics » bien distincts les uns des autres et les utilisateurs peuvent s’y exprimer librement à condition de respecter les règles de conduite.
  • 30. Chapitre I : Généralités sur l’analyse de sentiments 30 ➢ Les réseaux sociaux Regroupant des dizaines de milliers d’utilisateurs à l’échelle mondiale, les réseaux sociaux peuvent être généralistes (Facebook, Diaspora), professionnels (Viadeo, LinkedIn) ou encore affinitaires (Myspace). Pour pouvoir consulter ces sites, il faut presque toujours en être membre. Les utilisateurs n’ont pas accès à toutes les pages. Ils peuvent consulter celles de leurs « amis » et les pages publiques. Pour les prestataires en veille, social monitoring, e-réputation, etc., seules les pages publiques peuvent être exploitées. Les pages « Fan » ou les groupes peuvent fournir de nombreuses informations sur les utilisateurs : les discours ainsi que les relations entre les membres peuvent être analysés. II.3.2. Prétraitement Il est connu que dans le domaine de l’analyse de sentiments, le texte est la forme la plus déstructurée de toutes les données disponibles, beaucoup de bruit qui n’est pas pertinent à l’analyse d’opinion. Il s’agit en particulier du processus de nettoyage et de standardisation du texte en éliminant ce que l’on appelle les mots vides ou les mots communs tels que les prépositions ou les verbes d’état (se situer, localisé, etc). Le prétraitement peut aussi consister en la racinisation ou la lemmatisation. Nous détaillons cette étape dans le chapitre suivant. II.3.3. Annotation L'annotation du corpus consiste en l'attribution d'une étiquette (label) positive, négative ou neutre à chaque message pour permettre au classifieur de l’étape qui suit de s'entraîner dessus afin de construire le modèle de classification. II.3.4. Représentation Pour analyser une donnée prétraitée, il faut la convertir en caractéristiques. Selon l'utilisation, les caractéristiques du texte peuvent être construites à l'aide de techniques variées on peut citer le TF-IDF et les Word Embeddings II.3.5. Classification de texte La classification de texte, est définie comme une technique permettant de classer du texte dans une des catégories déjà définis. Il est vraiment utile lorsque la quantité de données est trop importante, surtout pour l'organisation, le filtrage de l'information et le stockage. Un classificateur de langage naturel typique se compose de deux parties : (a) Apprentissage (b) Prédiction. Tout d'abord, le texte est traité et des caractéristiques sont identifiées. Ensuite un modèle d’apprentissage utilise ensuite ces caractéristiques pour la prédiction du nouveau texte.
  • 31. Chapitre I : Généralités sur l’analyse de sentiments 31 II.4. Évaluation des approches d’analyse des sentiments Pour évaluer les performances d'un modèle d’analyse de sentiments, diverses métriques sont utilisées, elles sont principalement empruntées du domaine de la recherche d'information. Nous présentons les métriques les plus utilisées dans la fouille d'opinions à savoir la précision, le rappel, les fausses acceptations, les faux rejets, la F-mesure et l'exactitude. Pour plus de clarté dans la façon de calculer ces métriques, le Tableau 1 présente une table de confusion où : ➢ TP correspond au nombre de messages exprimant une opinion positive et classés positifs par le classifieur. ➢ TN correspond au nombre de messages exprimant une opinion négative et classés négatifs par le classifieur. ➢ FP correspond au nombre de messages exprimant une opinion négative et classés positifs par le classifieur. ➢ FN correspond au nombre de messages exprimant une opinion positive et classés négatifs par le classifieur. Prédiction Positive Négative Réalité Positive TP FN Négative FP TN Table 1 table de confusion II.4.1. Précision Cette métrique calcule la capacité du modèle à ne pas se tromper lorsqu'il affecte un message à une classe donnée. Elle est donnée par le ratio entre le nombre de messages correctement classés à une classe donnée sur le nombre de messages classés par le classifieur à cette même classe. 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = nombre de messages correctement classés 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche) et la classe négative (à droite) : 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = TP 𝑇𝑃 + 𝐹𝑃 𝑜𝑢 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = TN 𝑇𝑁 + 𝐹𝑁
  • 32. Chapitre I : Généralités sur l’analyse de sentiments 32 II.4.2. Rappel Cette métrique calcule la capacité du modèle à bien détecter les messages appartenant à une classe donnée, elle est donnée par le ratio entre le nombre de messages correctement classés à une classe donnée sur le nombre de messages appartenant réellement à cette même classe. 𝑅𝑎𝑝𝑝𝑒𝑙 = nombre de messages correctement classés 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑝𝑝𝑎𝑟𝑡𝑒𝑛𝑎𝑛𝑡 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche) et la classe négative (à droite) : 𝑹𝒂𝒑𝒑𝒆𝒍 = 𝐓𝐏 𝑻𝑷 + 𝑭𝑵 𝒐𝒖 𝑹𝒂𝒑𝒑𝒆𝒍 = 𝐓𝐍 𝑻𝑵 + 𝑭𝑷 II.4.3. Fausse acceptation Cette métrique calcule le taux d'acceptation à tort d'un faux message à une classe donnée, elle est donnée par le ratio entre le nombre de messages faussement classés à une classe donnée sur le nombre de messages classés par le classifieur à cette même classe. 𝐹𝑎𝑢𝑠𝑠𝑒 𝐴𝑐𝑐𝑒𝑝𝑡𝑎𝑡𝑖𝑜𝑛 = nombre de fausses acceptations 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑡𝑡𝑟𝑖𝑏𝑢é𝑠 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche) et la classe négative (à droite) : 𝑭𝒂𝒖𝒔𝒔𝒆 𝑨𝒄𝒄𝒆𝒑𝒕𝒂𝒕𝒊𝒐𝒏 = 𝐅𝐏 𝑻𝑷 + 𝑭𝑷 𝒐𝒖 𝑭𝒂𝒖𝒔𝒔𝒆 𝑨𝒄𝒄𝒆𝒑𝒕𝒂𝒕𝒊𝒐𝒏 = 𝐏𝐍 𝑻𝑵 + 𝑭𝑵 II.4.4. Faux rejet Cette métrique calcule le taux de rejet à tort d'un vrai message à une classe donnée, elle est donnée par le ratio entre le nombre de messages faussement rejetés d'une classe donnée sur le nombre de messages appartenant réellement à cette même classe. 𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 = nombre de faux rejets 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑎𝑝𝑝𝑎𝑟𝑡𝑒𝑛𝑎𝑛𝑡 à 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 En utilisant les données de la table de confusion cela donne pour la classe positive (à gauche) et la classe négative (à droite) : 𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 = FN 𝑇𝑃 + 𝐹𝑁 𝑜𝑢 𝐹𝑎𝑢𝑥 𝑅𝑒𝑗𝑒𝑡 = FP 𝑇𝑁 + 𝐹𝑃 II.4.5. F-mesure Il est possible d'augmenter la valeur de la précision, mais au détriment du rappel et vice-versa, cette métrique combine la précision et le rappel pour en donner un compromis. Elle est calculée comme suit : 𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 = 2 ∗ Précision ∗ Rappel 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
  • 33. Chapitre I : Généralités sur l’analyse de sentiments 33 II.4.6. Exactitude Cette métrique calcule les performances globales du modèle de classification indépendamment des classes, elle est donnée par le ratio entre le nombre total de messages correctement classés par le classifieur sur le nombre total de messages. 𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 = nombre de messages correctement classés 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑒𝑠𝑠𝑎𝑔𝑒𝑠 𝑡𝑜𝑡𝑎𝑙 En utilisant la table de confusion : 𝐸𝑥𝑎𝑐𝑡𝑖𝑡𝑢𝑑𝑒 = TP + TN 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁 Dans le domaine de l’analyse de données, on attend beaucoup de la mesure du sentiment ou d’opinion, l’attribution à chaque message d’une polarité positive, neutre ou négative est presque devenue un exercice obligé pour tous ceux qui écoutent le web (solutions de veille, social media analysis). On retrouve également cet indicateur dans les solutions d’analyse de données dédiées à la mesure de l’expérience client (logiciels d’analyse d’enquêtes, management de l’expérience client…). Dans la partie qui suit, nous allons citer quelques domaines et faire un aperçu sur ce que l’analyse de données a apporté de plus dans ces domaines. III. Synthèse Nous avons vu dans ce chapitre les différents concepts de base liés à l’analyse de sentiments, nous avons défini tout ce qui est sentiment, émotion et opinion. Ensuite nous avons cité les domaines d’applications et présenté en détail les problèmes liés à l’analyse de sentiments, nous avons également parlé des niveaux de la fouille de données et son processus général. Enfin nous avons abordé la phase d’évaluation et présenté ses différentes métriques qui permettent de mesurer les performances d’un système d’analyse de sentiments.
  • 34. 34 Chapitre II : Analyse de sentiments et construction du vocabulaire L’analyse des sentiments est souvent considérée comme une catégorisation des sentiments qui repose sur la construction des ressources lexicales nécessaires, une tâche importante dans ce domaine. Plusieurs approches et plusieurs outils ont été proposés pour déterminer la classe de sentiment d'un texte. Cependant, le domaine de l'analyse de sentiments ne se résume pas seulement à la tâche de la catégorisation des sentiments, mais il touche également à d'autres tâches toutes aussi importantes. La tâche cruciale dont dépend tout le processus d’analyse des sentiments est celle de la construction du lexique qui vise à collecter les expressions porteuses d’opinion. La richesse du lexique et sa précision impacte directement la qualité de la catégorisation sans oublier que les mots d'opinions peuvent changer d'orientation selon le domaine dans lequel ils sont employés. Nous abordons dans ce chapitre, les différentes approches et techniques utilisées pour la construction du lexique. Dans un second lieu nous présentons les approches de catégorisation des sentiments, les approches sont réparties en trois grandes familles : (1) celles basées sur l'apprentissage automatique, (2) celles basées sur le lexique et enfin (3) les approches hybrides. Pour chaque approche, nous présentons une synthèse des travaux les plus cités dans la littérature. Nous terminons ce chapitre par la présentation des outils d’analyse de sentiments existants avant de conclure.
  • 35. Chapitre I : Généralités sur l’analyse de sentiments 35 I. Construction du vocabulaire Le lexique est une base pour la détermination de la subjectivité du texte étudié. Nous présentons ci-dessous les définitions des concepts liés à celui du vocabulaire. I.1. Définitions Il est à noter que dans la littérature, les termes vocabulaire et lexique sont utilisés indifféremment pour désigner le même concept. I.1.1. Lexique Larousse de poche 2000 définit le lexique comme étant un Dictionnaire spécialisé et généralement succinct concernant un domaine particulier de la connaissance. En linguistique, le lexique d'une langue constitue l'ensemble de ses mots Corbin (1987). I.1.2. Vocabulaire Toujours dans le Larousse de poche 2000, un vocabulaire est défini comme un ensemble des termes propres à une science, à une technique, à un groupe, à un milieu, à un auteur ou Ouvrage comportant les termes spécifiques d'une discipline, d'une technique, le dictionnaire en ligne l'internaute quant à lui le définit comme étant un ensemble des mots appartenant à un thème particulier. Dans ce mémoire nous utilisons les terme vocabulaires et lexique, notre objectif étant de proposer un système d’analyse de sentiments qui traitant du dialecte. Par ailleurs, la fouille d'opinions ne traite pas plusieurs domaines (dans la majorité des cas) et les chercheurs ne s'intéressent généralement qu'aux mots qui expriment une opinion (ou un sentiment) afin de pouvoir constituer le vocabulaire. I.1.3. Corpus Un corpus est un ensemble de messages collectés manuellement ou automatiquement à partir d'une source donnée (journal, réseau social, site de critiques), dans un domaine précis et dans une optique précise. Dans notre cas, il s'agit de faire de l’analyse de sentiments ; les corpus prennent toutes leur importance dans les méthodes d'apprentissage automatique car ces derniers représentent la matière première pour les classifieurs qui ont besoin d'un très grand nombre de messages annotés pour construire le modèle de classification et prédire la classe de nouveaux
  • 36. Chapitre II : Analyse de sentiments et construction du vocabulaire 36 messages. Plus la taille du corpus est grande plus le modèle construit à partir de l'apprentissage sur le corpus est de meilleure qualité (P Denis, B Sagot 2013). Pour la méthode apprentissage automatique le corpus est divisé en trois parties que nous allons présenter dans ce qui suit. I.1.3.1. Corpus d'entrainement C'est avec ce corpus que le classifieur fera l'apprentissage sur les messages annotés pour construire le modèle de classification. Il doit être de taille importante, de façon à bien modéliser le modèle de classification qui traite le maximum de cas possibles. Ce corpus représente de 80% à 90% du corpus total. I.1.3.2. Corpus de développement Ce corpus sert à ajuster les paramètres du modèle d'entrainement jusqu'à l'obtention des performances optimales, cette phase peut être parfois ignorée si la taille du corpus n'est très grande. Lorsque qu'il n'est pas ignoré ce corpus représente environ 10% du corpus total. I.1.3.3. Corpus de test Ce corpus sert à évaluer la qualité du modèle de classification construit dans la phase d'entrainement avec des métriques d'évaluation, ce corpus représente de 10% à 20% du corpus total. I.2. Méthodes de construction Pour la construction du vocabulaire, il existe trois méthodes (Figure 3) : (1) méthode manuelle, (2) la méthode automatique et (3) la méthode hybride. Le choix de la méthode de construction dépend de plusieurs paramètres comme le temps, les ressources matérielles, les ressources humaines, le corpus etc. Nous allons citer dans ce qui suit les méthodes de construction de vocabulaire inhérentes à l’analyse de sentiments (P Denis, B Sagot 2013).
  • 37. Chapitre II : Analyse de sentiments et construction du vocabulaire 37 Figure 3 Classification des méthodes de construction du lexique de sentiments I.2.1. Méthodes manuelles La méthode de construction manuelle est une méthode évidente à première vue mais très peu utilisée étant donné qu'elle nécessite des ressources humaines expertes et un temps important. En effet, pour construire un vocabulaire manuellement, il est nécessaire de mobiliser des experts en linguistique et en psychologie pour pouvoir identifier tous les termes d'opinion, tout en synchronisant les travaux de chacun afin d'éviter les redondances et de vérifier que l'ensemble des experts donnent une polarité à un mot qui doit être unique à un degré près par rapport aux autres (C Quan, F Ren 2009). I.2.2. Méthodes automatiques Dans les méthodes automatiques, il existe trois manières de construction de vocabulaire : la première est celle basée sur un corpus, la seconde est la méthode basée sur les dictionnaires et la troisième est une hybridation des deux précédentes méthodes. Nous détaillons chacune de ces méthodes ci-dessous. I.2.2.1. Méthode basée corpus Dans cette méthode, on suppose un ensemble de mots de départ appelés mots graines, qui sont de polarité négative ou positive, ensuite il s’agit d’extraire les mots du corpus qui sont corrélés aux mots présents dans l'ensemble de départ (Hu and Liu 2004). L'extraction est basée sur des règles linguistiques, plusieurs chercheurs apportent leurs contributions. Nous allons voir la méthode basique d'extraction, celle-ci exploite la connectivité des adjectifs dans une phrase.
  • 38. Chapitre II : Analyse de sentiments et construction du vocabulaire 38 A partir de notre ensemble de mot de départ, si nous trouvons un adjectif de l'ensemble de départ (mot graine) connecté à un autre adjectif avec un : ➢ ET, nous rajoutons alors le mot dans la même classe que le mot graine. ➢ MAIS / CEPENDANT / PAR CONTRE, nous rajoutons alors le mot dans la classe opposée du mot graine. Par exemple, l’ensemble des mots de départ contient gentil comme un mot positif, et on a les deux phrases suivantes : 1) il est gentil et sympa, 2) il est gentil mais vicieux. Pour la 1ére phrase, le mot sympa est associé gentil, connecté avec un ET, donc il sera ajouté dans la même classe que gentil, dans la 2éme phrase, MAIS est le connecteur entre gentil et vicieux, donc il sera dans la classe opposée. Avantages ➢ Les mots récupérés sont des mots du domaine d'étude étant donné qu'ils proviennent du corpus. Inconvénients ➢ Nécessite une vérification (risque d'avoir le même mot plusieurs fois, fautes d'orthographe, abréviations etc.). ➢ Ensemble de mots acquis restreint. ➢ Le vocabulaire construit ne peut pas être appliqué à d'autres domaines. I.2.2.2. Méthode basée sur un dictionnaire Cette méthode consiste en l'utilisation d'un ensemble de mots d'opinions initial appelés mots graines et de construire à travers ces mots un ensemble de mots plus grand à travers des dictionnaires tels que SentiWordNet en cherchant les synonymes et antonymes des mots graines. (Kamps et al. 2004). Pour une construction plus avancée certains chercheurs utilisent la distance séparant les mots, tel que la distance entre deux mots m1 et m2 est dé nit par la longueur du plus court chemin reliant les deux mots dans SentiWordNet. Il existe un bon nombre de dictionnaires utilisés dans ces méthodes tels que General inquirer3, Dictionary of Affect of Language4, WordnetAffect5, WordNet6. La méthode basée sur un dictionnaire présente certains avantages et inconvénients : 3 http://www.wjh.harvard.edu/~inquirer/ 4 http://www.hdcus.com 5 http://wndomains.fbk.eu/wnaect.html 6 http://wordnetweb.princeton.edu/perl/webwn
  • 39. Chapitre II : Analyse de sentiments et construction du vocabulaire 39 Avantages ➢ Ensemble large de mots acquis à travers les synonymes et antonymes et les mots récupérés sont corrects (pas d'erreurs d'orthographe). ➢ Ne nécessite pas de vérification vue que la source est déjà validée par des experts Inconvénients ➢ Les mots récupérés sont indépendants du domaine I.2.2.3. Méthode hybride La méthode hybride vient palier aux inconvénients des deux méthodes précédentes. En effet, la méthode basée corpus offre un vocabulaire de domaine. Cependant la taille de dernier est relativement réduite comparé à la méthode basée dictionnaire qui donne un ensemble plus grand de mots mais qui ne sont pas nécessairement du domaine analysé, (Hu and Liu 2004). La méthode hybride comporte les deux étapes suivantes : a) Construire un vocabulaire initial à travers la méthode basée corpus pour avoir un vocabulaire relatif au domaine b) Enrichir ce vocabulaire avec la méthode basée dictionnaire en prenant comme ensemble de mots graines le vocabulaire obtenu dans le point précédant Ainsi, en combinant les deux méthodes précédentes, un vocabulaire riche et couvrant le domaine de l’étude est construit. I.3. Synthèse des travaux De nombreux travaux ont été menés pour la construction du vocabulaire en suivant les méthodes citées auparavant. Nous en citons les plus signifiants pour chacune des méthodes de constructions de corpus. a) Méthode basée dictionnaire Le vocabulaire de mots d'opinion initial est d’abord construit ensuite il est enrichi à travers des méthodes telle que PMI7 . Une fois ces étapes achevée les messages peuvent être catégorisés en classe positive, négative ou neutre. Cette catégorisation s’effectue en calculant pour chaque message un score basé sur les mots d'opinions présents Ding et al. (2008). Nous détaillons dans ce qui suit le détail de cette approche : 7 L'information mutuelle PMI est dérivée de la théorie de l'information, et permet de mesurer la cooccurrence entre chaque mot w et une classe i.