SlideShare une entreprise Scribd logo
‫اجل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ه‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اجل‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ائ‬‫ز‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫الدمي‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـق‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اط‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ال‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ش‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـع‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ة‬
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
‫ـ‬‫ت‬‫ال‬ ‫ارة‬‫ز‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫م‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ال‬ ‫و‬ ‫ايل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫الع‬ ‫حث‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـامعة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـردا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫غ‬
Université de Ghardaia
‫ـا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـوج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ن‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ت‬‫ال‬‫و‬ ‫ـوم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬
Faculté des Sciences et de Technologie
‫ـ‬‫س‬‫ق‬‫ـي‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫اآل‬ ‫االعالم‬ ‫و‬ ‫ياضيات‬‫ر‬‫ال‬ ‫ـم‬‫ـ‬
Département des Mathématiques et Informatique
MEMOIRE
Présenté pour l’obtention du diplôme de MASTER
En : Informatique
Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC)
Par : Soumia Elyakoute HERMA et Khadidja SAIFIA
Sujet
ANALYSE DES SENTIMENTS
CAS TWITTER
Soutenu publiquement, le 21/ Juin / 2016, devant le jury composé de :
M. Djelloul ZIADI Professeur Univ. Rouen-France Président
M. Slimane BELLAOUAR Maitre Assistant A Univ. Ghardaïa Encadreur
M. Slimane OULAD NAOUI Maitre Assistant A Univ. Ghardaïa Examinateur
M. Abderrahmane ADJILA Maitre Assistant B Univ. Ghardaïa Examinateur
Année Universitaire 2015/2016
Analyse des sentiments  cas twitter - univ ghardaia algerie
Analyse des sentiments  cas twitter - univ ghardaia algerie
R´esum´e
L’analyse des sentiments est une technologie d’analyse automatique des discours, ´ecrits ou parl´es
dans le but consiste `a extraire des informations subjectives comme des jugements, des ´evaluations ou des
´emotions pour d´etecter la polarit´e d’une opinion. L’importance de l’analyse des sentiments est pr´esente dans
plusieurs domaines, `a savoir politique, marketing, gestion de la r´eputation,... Dans ce m´emoire, notre objectif
consiste `a d´evoiler les secrets d’un tel domaine en adoptant une approche pour l’apprentissage automatique.
Pour ce faire nous avons impl´ement´e la m´ethode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des
tweets. Nous avons consid´er´e deux mod`eles de repr´esentation de donn´ees, `a savoir, le mod`ele bool´een et un
autre mod`ele s´emantique avec la pond´eration TF-IDF (Term Frequency - Inverse Document Freqency). Les
r´esultats obtenus en terme de pr´ecision, rappel et F1-mesure r´ev`elent que la repr´esentation avec un mod`ele
TF-IDF est mieux adapt´ee.
Mots-cl´es : Analyse des Sentiments, d´etection d’opinion, polarit´e, Na¨ıve Bayes, mod`ele bool´een, TF-IDF,
Twitter.
Abstract
Sentiment Analysis is an automatic analysis technology of written or spoken speeches, aims to extract
subjective information like judgments, evaluations or emotions to detect the polarity of an opinion. The
importance of sentiment analysis is present in several fields, namely: politics, marketing, reputation manage-
ment, ... In this thesis, our objective is to reveal some secrets of this field by adopting a machine learning
approach. With this intention we implemented the Naive Bayes probabilistic method on the Neik Sander
corpora of tweets. We considered two data representation models, the Boolean model and a semantic model
with TF-IDF weighting. The obtained results in terms of precision, recall and, F1-score reveal that the
representation with a TF-IDF model is best placed.
Key words: Sentiment Analysis, opinion detection, polarity, Na¨ıve Bayes, Boolean model, TF-IDF, Twitter.
‘
©
jÊÓ
¦t
©
«

reÓñÊªÓ h
F
d
©
j

tƒd
©
¬‰¦îiF D e«ñÒ¦‚Ó ð

d euF ñ

tºÓ
©
àe¦» dñƒ D r
F
e¢
©
mÌ9d ÉtÊj

tË

étË

d etkF ñËñ
©
tº

u ù

¦ë
©
­£dñ¦¦ªËd ÉtÊm

9
ú

©
¯ ©áÒº

u

é
©
®¦£eªËd Ét¦Êm

9

étÒë

d F eÓ ø


d€ ékF ñ

u ð

é

tuF e¢

®

tƒd
©
­

‚» ÉgF

f «e¦

‚ÖÏd ð

d

reÒtt

®

tËd D Ðe¾k

fd É

tÓ

ét«ñ
©
“ñÓ

éuF €e

®Ó €etF¦

t«euF ÈejF ÖÏd d
©
‰ë ¦ƒ
©
­

‚» ñë e
©
t
©
¯‰ë D

聻
©
‰ÖÏd è
©
‰¦ë ú

©
¯ FFF D

骦҂Ëd

è€dˆd

D

‡uñ¦‚

(Ëd D

éƒet‚Ëe¿ D

rfemF
×

è

‰«
F

re

tuñ

u ©áÓ
©
€€‰
©
ueƒ ½ue
©
u

ret¢ªÓ

é«ñÒmF
×
úΫ NaiveBayes

ét

ue’kfd

é

®u¢Ëd e
©
tÓ‰
©
j

tƒd ½Ë
©
ˆ ÉgF d ©áÓ F

éË

fd ÕΪ

u
l
F


9e

t
©
tËd F TF − IDF 
rdˆ
©
®ÖÏd
©
àd
©
€ð

euF

ú

Ífˆ h
F
©
ˆñÖ
©
ß ð ù


®¢
©
tÖÏd h
F
©
ˆñÒ
©
tËd D eÒë D

ret¢ªÖÏd Ét

tÒ

tË
©á0gF
©
ˆñÖ
©
ß e
©
tËeÒª

tƒd

stk
ñm
©
9
úΫ ÉÒªu TF − IDF h
F
©
ˆñÒ
©
tuF Ét

tÒ

tËd
©
à

d

s
©
®

‚» €et

®I
©
¯

d 𠁻
©
‰

tËdD

é

¯‰Ëd (ue

®ÖÏd ÈeÒª

tƒeuF eîhÊ« É’¦j

tÖÏd
F É
©
’
©
¯

d
F

0uñ

u D TF − IDF D ù


®¢
©
tÖÏd h
F
©
ˆñÒ
©
tËd D NaiveBayes D

é

tuF e¢

®

tƒd D ø


dËd
©
­

‚» D
©
­£dñªËd ÉtÊm

9 X

ét

k e

t
©
®ÖÏ d

r eÒÊ¾Ë d
D´edicace
Je d´edie ce travail:
A mon ch`ere P`ere, qui est la lumi`ere de ma vie,
A ma M`ere Dieu ait son ˆame,
A Maman que Dieu lui garde,
A mes ch`eres fr`eres et seours, sp´ecialement Saber et Islam,
A mes fid`eles amis de proche ou de loin,
A tout qui porte le nom HERMA.
Soumia Yakoute
D´edicace
Je d´edie ce modeste travail `a :
grande m`ere Dieu ait son ˆame
Celle qui est plus cher que mon ˆame et mon sang, la lumi`ere de mon chemin, `A ma m`ere
ador´ee.
Mon cher p`ere, qui m’a toujours encourag´ee et conseill´ee.
A mon fr`ere : S.Ahmed
A mes soeurs: D.Sarah, H.Amel, B.Amina
A grande m`ere et tr`es chers famille: B.Nour el houda, D.Badis ,Z.Rabah, S.houria,
S.Fatima, S.Fatiha.
A ma ch`ere Tante : S.Houria
A ma cher Tonton : Dourroussi houssine
A tous les enseignants de l’informatique, Et tous les ´etudiants de l’informatique, en
particulier la promotion 2016.
A tous ceux qui portent les noms Saifia et Salah.
A toute personne utilisant ce document pour un bon usage.
Khadidja
Table des mati`ere
LISTE DES TABLEAUX iv
LISTE DES FIGURES v
LISTE DES ALGORITHMES vi
REMERCIEMENT vii
INTRODUCTION G´EN´ERALE 1
1 PRELIMINAIRES 2
1.1 G´en´eralit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Medias sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Le Traitement automatique des langues naturelles (TAL) . . . . . . . 3
1.1.3 Le Classifieur Na¨ıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Analyse des Sentiments et Domaines d’Applications . . . . . . . . . . . . . 9
1.2.1 D´efinitions de l’analyse des sentiments . . . . . . . . . . . . . . . . . 9
1.2.2 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . 10
1.3 Sources des Donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1 Twitter et tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2 Caract´eristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . . 13
ii
TABLE DES MATI`ERE TABLE DES MATI`ERE
2 ´ETAT DE L’ART 15
2.1 Approches de l’Analyse des Sentiments et la D´etection d’Opinions . . . . . . 15
2.1.1 Approches d’apprentissage automatique . . . . . . . . . . . . . . . . . 15
2.1.2 Approche lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Approches hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Historique sur l’Analyse des Sentiments . . . . . . . . . . . . . . . . . . . . . 17
2.3 Travaux sur L’Analyse des Sentiments avec Twitter . . . . . . . . . . . . . . 18
2.3.1 Classification de sentiments . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Pr´ediction des r´esultats . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 D´etection des ´ev`enements . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Difficult´es de la Fouille d’opinions et de l’Analyse des Sentiments . . . . . . 21
3 EXP´ERIMENTATION : APPRENTISSAGE ET TEST 22
3.1 Environnement de Travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Environnement mat´eriel . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1 Source des donn´ees (Data set) . . . . . . . . . . . . . . . . . . . . . . 24
3.2.2 Pr´etraitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Extraction et pr´esentation des descripteurs . . . . . . . . . . . . . . . 29
3.2.4 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Phase de Test et Interpr´etation . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Pr´esentation des r´esultats et discussion . . . . . . . . . . . . . . . . . 32
CONCLUSION 34
BIBLIOGRAPHIE 35
iii
Liste des Tables
1.1 Exemple d’applcation de l’algorithme de Na¨ıve Bayes. . . . . . . . . . . . . . 8
3.1 Description du corpus Niek Sanders . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 A gauche -Emoticons Positive  n´egative-, `a droite -Abr´eviaton en Anglais- 26
3.3 Les formes contract´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Tweets avant et apr`es le pr´etraitement . . . . . . . . . . . . . . . . . . . . . 29
3.5 Table de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 R´esultats du classifieur en m´ethode bool´eenne . . . . . . . . . . . . . . . . . 32
3.7 R´esultats du classifieur en m´ethode de pond´eration TF-IDF . . . . . . . . . 33
iv
Liste des Figures
1.1 L’intuition du classifieur Multinomial Na¨ıve Bayes appliqu´e `a des avis d’un
film dont leur position est ignor´ee (sac de mots) . . . . . . . . . . . . . . . . 4
3.1 Processus de l’apprentissage automatique . . . . . . . . . . . . . . . . . . . . 22
v
Liste des Algorithmes
1 Algorithme Train Na¨ıve Bayes(D,C) . . . . . . . . . . . . . . . . . . . . . . . 7
2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V) . . . . . . . 7
3 Fonction getData pour r´ecup´er´e le corpus . . . . . . . . . . . . . . . . . . . 25
4 Appelle et entrainement du classifieur NB . . . . . . . . . . . . . . . . . . . 31
vi
REMERCIEMENT
Au premier temps, nous remercions Allah qui nous a aid´e `a r´ealiser ce travail, et qui a
´et´e avec nous en tout le moment.
Nous remercions ´egalement notre encadreur Monsieur Slimane BELLAOUAR pour l’aide
et les conseils concernant les missions ´evoqu´ees dans ce Projet de fin d’´etude, qu’il nous a
apport´e lors des diff´erents suivis.
Nous tenons `a remercier Pr. Djelloul ZIADI, Mr. Slimane OULAD NAOUI, Toufik
GHARIB, ADJILA Abderrahmane, et les responsables de la formation Syst`eme Intelli-
gent pour Extraction des Connaissance ”SIEC”, pour avoir assur´e cette formation, et toute
l’´equipe p´edagogique de d´epartement du Math´ematiques et Informatique de notre universit´e.
Nous adressons nos remerciements aux personnes de loin ou de proche qui nous ont aid´e
dans la r´ealisation de ce m´emoire.
vii
INTRODUCTION G´EN´ERALE
Avec l’av`enement du web et l’explosion des sources des donn´ees telles que les sites
d’avis, les blogs et les microblogs est apparu la n´ecessit´e d’analyser des millions des postes,
de tweets ou d’avis afin de savoir ce que pensent les internautes. L’analyse des sentiments
est une technologie d’analyse automatique des discours, ´ecrits ou parl´es et d’en faire ressortir
les diff´erentes opinions exprim´ees sur un sujet pr´ecis comme une marque, une actualit´e ou
un produit. L’importance de l’analyse des sentiments est pr´esente dans plusieurs domaines,
`a savoir politique, marketing, gestion de la r´eputation, ...
L’analyse des sentiments rel`eve de plusieurs disciplines en l’occurrence d’une part du
traitement automatique du la langage naturel (Naturel Langage Processing) et d’autre part
de l’apprentissage automatique (Machine Learning).
Dans ce m´emoire, notre objectif consiste `a d´evoiler les secrets de l’analyse des senti-
ments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons
impl´ement´e la m´ethode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des tweets. Nous
avons consid´er´e deux mod`eles de repr´esentation de donn´ees, `a savoir, le mod`ele bool´een et
un autre mod`ele s´emantique avec la pond´eration TF-IDF. Les r´esultats obtenus en terme
de pr´ecision, rappel et F1-mesure r´ev`elent que la repr´esentation avec un mod`ele TF-IDF est
mieux plac´ee.
Le reste du m´emoire est organis´e en trois chapitres : nous consacrons un premier chapitre
`a pr´esenter des g´en´eralit´es sur le domaine d’analyse des sentiments en particulier Twitter
comme source d’opinions. Le second chapitre se focalise sur l’´etat de l’art de l’analyse
des sentiments, notamment les travaux inh´erents `a l’analyse des sentiments Twitter. Notre
troisi`eme chapitre pr´esente l’exp´erimention et la m´ethode Na¨ıve Bayes en consid´erant les
phases d’apprentissage et de test.
Nous concluons avec une synth`ese de travail et des perspectives.
1
Chapter 1
PRELIMINAIRES
1.1 G´en´eralit´es
Dans cette section, nous d´efinissons quelques concepts de base importants utilis´es dans ce
que suit.
1.1.1 Medias sociaux
Le terme m´edia est le pluriel du mot latin medium qui signifie moyen, milieu ou lien.
En effet le terme lien exprime une relation ou une liaison entre les acteurs des m´edias. Par
cons´equence les m´edias classique tels que la t´el´evision, la presse et la radio peuvent ˆetre
consid´er´es comme des medias sociaux puisqu’ils relient les hommes par informations [1].
Selon cette vision, l’expression m´edias sociaux regroupe sous la mˆeme enseigne une grande
vari´et´e de dispositifs, tels les blogs, les wiki, les sites r´eseaux socio-num´erique (Facebook,
LinkedIn), les microblogues (Twitter, Jaiku), le bookmarking collectif, les partage de con-
tenus m´ediatique comme la musique, les photos et les vid´eos [2].
Une d´efinition technique purement informatique est pr´esent´ee dans [3], Un groupe d’applications
en ligne qui se fondent sur l’id´eologie et la technologie du Web 2.01
et permettent la cr´eation
et l’´echange du contenu g´en´er´e par les utilisateurs.
Le concept de m´edias sociaux se r´ef`ere donc aux moyens de communication, `a la tech-
nologie utilis´ee, aux modes d’interaction sociale ainsi qu’`a la culture des usagers de ces
services.
1
Web 2.0 apparu en 1999, fond´e notamment sur le partage de l’information, l’implication des utilisateurs
dans la cr´eation de contenu et les r´eseaux sociaux.
2
Chapitre 1 PRELIMINAIRES
1.1.2 Le Traitement automatique des langues naturelles (TAL)
Dans la litt´erature, Le traitement automatique des langues naturelles (TAL) ou Le
traitement du langage naturel (TALN) sont utilis´es indiff´eremment.
Pierrette bouillon [4] d´efinit le TAL comme suit : TAL a pour objet la cr´eation de
programmes informatiques capables de traiter automatiquement les langues naturelles. Ela
Kumar [5], par contre d´efinit le TAL selon une vision de l’intelligence artificielle et pro-
grammation : Le TAL est un domaine significatif de l’intelligence artificielle parce qu’un
ordinateur serait consid´er´e comme intelligent s’il peut comprendre la commande donn´ee
en langage naturel au lieu de C, Fortran ou Pascal. Par cons´equent et avec la capacit´e
d’ordinateur `a comprendre le langage naturel, il devient beaucoup plus facile de communi-
quer avec les ordinateurs. Par ailleurs le TAL peut ˆetre appliqu´e comme outil de productivit´e
dans des applications allant du r´esume des informations jusqu’`a la traduction d’une langue
`a une autre.
Une d´efinition plus technique est donn´ee par JeanVeronis [6], on regroupe sous le voca-
ble TALN l’ensemble des recherches et d´eveloppements visant `a mod´eliser et `a reproduire, `a
l’aide de machines, la capacit´e humaine `a produire et `a comprendre des ´enonc´es linguistiques
dans des buts de communication.
1.1.3 Le Classifieur Na¨ıve Bayes
Cette partie se r´ef`ere en g´en´eral `a l’ouvrage ”Speech and Language Processing” [7].
L’id´ee d’inf´erence bay´esienne est connue depuis les travaux de Bayes en 1763. Elle a ´et´e
d’abord appliqu´ee `a la classification du texte par Mosteller et Wallace des ann´ee 1964.
L’intuition de ce classifieur se pr´esente dans la Figure 1.1. Le document textuel est
repr´esent´e sous forme d’un sac de mots (bag-of-words), qui est un ensemble de mots non
ordonn´e dont les positions sont ignor´ees. Autrement dit, on ne conserve que leurs fr´equences
dans le document. Dans cet exemple, au lieu de repr´esenter l’ordre des mots dans toutes
les expressions comme ”I love this film” et ” I would recommend it”, nous remarquons
simplement que le mot ‘I’ apparait 5 fois dans tout l’extrait, le mot ‘it’ 6 fois, et le ‘movie’
une fois, et ainsi de suite.
3
Chapitre 1 PRELIMINAIRES
Figure 1.1: L’intuition du classifieur Multinomial Na¨ıve Bayes appliqu´e `a des avis d’un film
dont leur position est ignor´ee (sac de mots)
Na¨ıve Bayes est un classifieur probabiliste. Pour un document d, sur toutes les classes
c ∈ C le classifieur renvoie la classe ˆc qui a la probabilit´e a posteriori maximale donn´ee du
document, dans l’´equation 1.1. Nous utilisons le ˆc pour d´esigner l’estimation de la bonne
classe.
ˆc = arg max
c∈C
P(c/d) (1.1)
1.1.3.1 L’inf´erence Bay´esienne
L’intuition de la classification bay´esienne est d’utiliser la r`egle de Bayes pour transformer
l’´equation 1.1 en d’autres probabilit´es qui ont des propri´et´es utiles. La r`egle de Bayes
est exprim´ee dans l’´equation 1.2, elle nous donne un moyen de briser toute probabilit´e
conditionnelle P(A/B) en trois autres probabilit´es :
P(A/B) =
P(B/A) ∗ P(A)
P(B)
(1.2)
4
Chapitre 1 PRELIMINAIRES
On peut alors remplacer l’´equation 1.2 dans 1.1 pour obtenir 1.3 :
ˆc = arg max
c∈C
P(c/d) = arg max
c∈C
P(d/c) ∗ P(c)
P(d)
(1.3)
Nous pouvons facilement simplifier l’´equation 1.3 en supprimant le d´enominateur P(d).
Cela est possible parce que nous allons calculer P(d/c)∗P(c)
P(d)
pour chaque classe possible. Mais
P(d) ne change pas pour chaque classe. Ainsi, nous pouvons choisir la classe qui maximise
cette formule simple :
ˆc = arg max
c∈C
P(c/d) = arg max
c∈C
P(d/c) ∗ P(c) (1.4)
Nous calculons donc la classe la plus probable ˆc, ´etant donn´e un document d en choisissant
la classe qui a le plus grand produit de deux probabilit´es : la probabilit´e a priori de la classe
P(c), et la probabilit´e conditionnelle P(d/c) du document.
Nous pouvons repr´esenter un document d comme un ensemble des descripteurs F =
f1, f2, . . . , fn ainsi l’´equation 1.4 devient comme suit:
ˆc = arg max
c∈C
P(f1, f2, . . . , fn/c) ∗ P(c) (1.5)
Malheureusement l’´equation 1.5 est encore trop difficile `a calculer directement. Le classifieur
Na¨ıve Bayes fait donc deux hypoth`eses simplificatrices.
La premi`ere est hypoth`ese du sac de mots discut´ee intuitivement ci-avant qui suppose
que la position du mot n’a pas d’importance. Ainsi, nous supposons que les descripteurs
f1, f2, . . . , fn encodent seulement les identit´es des mots et non pas leurs positions.
Le second est appel´e l’hypoth`ese Na¨ıve Bayes : ceci est l’hypoth`ese d’ind´ependance con-
ditionnelle que les probabilit´es P(fi/c) sont ind´ependants ´etant donn´e la classe c et donc
peuvent ˆetre ”na¨ıvement” multipli´ees comme suit :
P(f1, f2, . . . , fn/c) = P(f1/c).P(f2/c). . . . .P(fn/c) (1.6)
L’´equation finale pour la classe cNB choisie par le classifieur Na¨ıve Bayes est la suivante :
cNB = arg max
c∈C
P(c)
f∈F
P(f/c) (1.7)
Pour appliquer le classifieur Na¨ıve Bayes au texte. Il suffit de consid´erer les mots comme
des descripteurs, ainsi F = w1, w2, ..., wn.
5
Chapitre 1 PRELIMINAIRES
cNB = arg max
c∈C
P(c)
wi∈F
P(wi/c) (1.8)
Le calcul de Na¨ıve Bayes, comme les calcule pour la mod´elisation du langage sont faites
de logarithme afin d’´eviter les probl`emes de calcul des petites valeurs (underflow), et pour
augmenter la rapidit´e du calcul. Ainsi, l’´equation 1.8 devient:
cNB = arg max
c∈C
logP(c) +
wi∈F
logP(wi/c) (1.9)
Il est claire que le calcul de la classe estim´ee est une fonction lin´eaire des descripteurs d’entr´ee.
Le classifieur qui utilise une combinaison lin´eaire des entr´ees pour prendre une d´ecision par
classification comme Na¨ıve Bayes sont appel´es des classifieurs lin´eaires.
Pour calculer l’´equation 1.9 nous avons besoins de calculer les valeurs P(c) et P(wi/c).
P(c): est la probabilit´e a priori de la classe c sans connaˆıtre les donn´ees.
P(c) =
Nc
Ndoc
(1.10)
Nc: est le nombre des documents ayant comme classe c.
Ndoc: est le nombre total des documents.
P(wi/c) est la proportion du nombre du mot wi parmi tous les mots dans tous les docu-
ments de la th´ematique (classe) c.
P(wi/c) =
count(wi/c)
w∈F (count(w, c))
(1.11)
Mais Na¨ıve Bayes multiplie na¨ıvement toutes les probabilit´es, la probabilit´e z´ero dans
le terme de la probabilit´e conditionnelle cause au probabilit´e z´ero de la classe, et ce-l`a est
inacceptable.
La solution la plus simple est l’ajout de 1 (Laplace) lissage. Bien que le lissage de Laplace est
g´en´eralement remplac´e par des algorithmes de lissage plus sophistiqu´es dans la mod´elisation
du langage, il est couramment utilis´e dans Na¨ıve Bayes texte cat´egorisation :
P(Fi/c) =
count(Fi/c) + 1
f∈V (count(f, c) + 1)
=
count(Fi/c) + 1
f∈V (count(f, c))+ | V |
(1.12)
| V | : le nombre des termes de tout les documents (sac de mot). Ceci ´etant, l’algorithme
r´esume le d´emarche de la m´ethode Na¨ıve Bayes pour la classification des textes:
6
Chapitre 1 PRELIMINAIRES
Algorithm 1 Algorithme Train Na¨ıve Bayes(D,C)
INPUT: D: labeled training documents
C : Classes
Ndoc = number of document in D
V = ExtractUniqueTerms(D) // V is vector of all the Bag-of-Words in the corpus
V ← vocabulary of D
for each class c in C
logprior[c] ← log Nc
Ndoc
bigdoc[c] ← append(d) for d in D with class c
for each word w in V
count(w, c) ← number of occurences of w in bigdoc[c]
loglikelihood[w, c] ← log count(w,c)+1
w inV (count(w ,c)+1)
return logprior : logP(c), logliklihood : logP(w, c), V
Algorithm 2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V)
INPUT C: Classes, d: test document, D: Document corpus,
logP(c), logP(w, c), V
for each class c in C # Calculate P(c) terms
sum[c] ← logprior
for each w in testdoc
if word[w] ∈ V
sum[c] ← sum[c] + logliklihood[word[w],c]
return argmaxc sum[c]
7
Chapitre 1 PRELIMINAIRES
1.1.3.2 Exemple d’application
L’exemple ci-dessous 1.1, pr´esente l’apprentissage et le test du classifieur Na¨ıve Bayes.
Nous utilisons un domaine d’analyse de sentiment avec deux classes positives (+) et n´egatives
(-), et prenons l’apprentissage miniature suivante et testons des simples documents des avis
d’un filme r´eelles.
Ensemble Classe Tweets
Apprentissage
− Justplainboring
− Entirely predictable and lacks energy
− No surprises and very few laughs
+ Very powerful
+ The most fun film of the summer
Test ? Predictable with no originality
Table 1.1: Exemple d’applcation de l’algorithme de Na¨ıve Bayes.
La probabilit´e `a priori P(c) pour les deux classes se calcule via l’´equation 1.10 :
P(−) =
3
5
P(+) =
2
5
les probabilit´es conditionnelles de l’ensemble d’apprentissage pr´evue pour les quatre mots
”Predictable”, ”with”, ”no”, ”originality”, sont les suivants, `a partir de l’´equation 1.12:
P(”predictable” | −) = 1+1
14+20
P(”predictable” | +) = 0+1
9+20
P(”with” | −) = 0+1
14+20
P(”with” | +) = 0+1
9+20
P(”no” | −) = 1+1
14+20
P(”no” | +) = 0+1
9+20
P(”originality” | −) = 0+1
14+20
P(”originality” | +) = 0+1
9+20
Pour la phrase de test S = ”Predictable with no originality”, la classe choisie, se calcule par
l’´equation 1.8 ou l’´equation 1.9
P(−)P(”S” | −) = 3
5
∗ 2∗1∗2∗1
344 = 1.8 ∗ 10−6
P(+)P(”S” | +) = 2
5
∗ 1∗1∗1∗1
294 = 5.7 ∗ 10−7
ou :
log(P(−)) + log(P(”S” | −)) = log(3
5
) + (log( 2
34
) + log( 1
34
) + log( 2
34
) + log( 1
34
)) = −5, 75
log(P(+)) + log(P(”S” | +)) = log(2
5
) + (log( 1
29
) + log( 1
29
) + log( 1
29
) + log( 1
29
)) = −6, 25
Le mod`ele estime une classe n´egative pour la phrase de test S.
8
Chapitre 1 PRELIMINAIRES
1.2 Analyse des Sentiments et Domaines d’Applications
1.2.1 D´efinitions de l’analyse des sentiments
Dans la litt´erature, sentiment analysis, opinion mining, opinion extraction, sentiment
mining, subjectivity analysis, affect analysis, emotion analysis, review mining, appraisal ex-
traction, sont des termes utilis´es pour d´esigner des technologies d’analyse automatique des
discours, ´ecrits ou parl´es, afin d’en extraire des informations subjectives comme des juge-
ments, des ´evaluations ou des ´emotions.
L’origine de la discipline l’analyse des sentiments se r´ef`ere aux des sciences de la psy-
chologie, la sociologie et l’anthropologie [8]. Le terme Analyse Sentimentale se r´ef`ere `a
l’extraction automatique de texte ´evaluative, qui aide `a produire des r´esultats pr´edictifs. Le
terme analyse de sentiment est apparu en Nasukawa et Yi en 2003 [9], et le terme extraction
de l’opinion terme est apparu dans Dave, Laurent et Pennock en 2003 [10]. Cependant, la
recherche sur des sentiments et des opinions est apparue plus tˆot dans [11] [12] [13] [14] [15]
[16].
Bing Liu [17] a pr´esent´e une d´efinition de l’analyse des sentiments comportant les do-
maines d’application ainsi que sa relation avec le TALN : l’analyse des sentiments est le
domaine de l’´etude qui analyse les opinions, les sentiments, les ´evaluations, les attitudes
et les ´emotions des gens vers des entit´es telles que des produits, des services, des organ-
isations, des particuliers, des probl`emes, des ´ev´enements, des sujets, et leurs attributs.
Il repr´esente un grand espace de recherche. L’analyse des sentiments est un domaine de
recherche extrˆemement actif en traitement automatique des langues.
Pour mettre en valeur l’int´erˆet de l’´echange d’opinions dans l’analyse des sentiments, Pang
et Lee en 2008 [18] consid`ere que l’opinion des autres a toujours ´et´e une pi`ece d’information
tr`es pr´ecieuse au moment de se faire une opinion ou de prendre une d´ecision. En effet, avant
l’apparition du Web et l’Internet, les gens avaient int´erˆet `a connaˆıtre les opinions de leurs
amis ou de leur famille. Il leur ´etait demand´e de faire savoir quel parti politique recevrait
leur voix lors des prochaines ´elections. Grˆace `a l’essor consid´erable qu’ont connu le Web et
l’Internet `a partir des ann´ees quatre-vingt-dix, il est devenu possible pour tous de consulter
l’opinion d’un vaste groupe de personnes `a travers le Web. Donc l’´echange d’opinion est la
phase principale qui permet d’effectuer une analyse de sentiment sur un sujet donn´e.
Selon H Tang et S Tan X la plupart des recherches existantes se sont port´ees sur la
9
Chapitre 1 PRELIMINAIRES
fouille et l’extraction de faits, par exemple, la recherche d’information, la recherche sur le
Web et beaucoup d’autres. On assiste, ces derni`eres ann´ees, `a une prise de conscience de
l’importance de l’opinion sur le web, ce qui explique les nombreux et r´ecents travaux dans
ce domaine [19]. Ils montrent l’importance de l’analyse de sentiment dans le temps actuel.
1.2.2 Domaines d’applications de l’analyse des sentiments
L’importance de la d´etection d’opinion est pr´esente dans plusieurs domaines ainsi plusieurs
applications ont vu le jour dans ce contexte. Nous citons bri`evement quelques applications
ci-dessous:
1.2.2.1 La politique
Les acteurs politiques ont suivi la tendance de d´etection d’opinion, tel qu’avant de
promulguer une nouvelle loi, les politiciens essayent de r´ecolter l’avis des internautes sur
cette loi. Il est int´eressant de connaˆıtre aussi l’avis des internautes sur un homme politique
pour une ´election pr´esidentielle [20].
1.2.2.2 Les entreprises
`A travers l’analyse des sentiments, les entreprises peuvent connaˆıtre l’opinion des
clients sur leurs produits ou leur service. Dans une perspective d’am´eliorer leurs produits et
d’augmenter leurs chiffres d’affaires [20].
Dans le domaine du Product review mining, notamment `a partir des sites de consultation.
Les consommateurs viennent y ´echanger des avis et trouver des conseils pour leurs d´ecisions
d’achat (produits technologiques, voitures, voyage et hˆotels, ... etc) [27].
Le marketing a rapidement compris l’int´erˆet de l’analyse de sentiment. Des agences
vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits [21].
1.2.2.3 Les clients
L’analyse des sentiments fait partie aussi de vie des internautes. Les sondages dans ce
domaine montrent que la majorit´e des clients avant qu’ils ach`etent un produit, ils font des
recherches d’avis sur se produit ou un service donn´e et mˆeme ils sont prˆets `a payer plus cher
un produit dont l’avis est plus favorable qu’un autre [20].
10
Chapitre 1 PRELIMINAIRES
1.2.2.4 Gestion de r´eputation de la marque (GRM)
La gestion de la r´eputation de la marque en Anglais Brand Reputation Management
(BRM) se pr´eoccupe par la gestion de le r´eputation de la marque sur le march´e. Les opin-
ions des clients ou d’autres parties peuvent endommager ou am´eliorer une telle r´eputation.
la GRM est s’int´eresse au produit et `a l’entreprise plutˆot qu’au client. Actuellement, un-
`a-plusieurs (one-to-many) conversations ont lieu en ligne `a un taux ´elev´e. Cela cr´ee des
opportunit´es pour les organisations `a g´erer et `a renforcer la r´eputation de leurs marque.
Maintenant, la perception de marque est d´etermin´ee non seulement par la publicit´e et les
relations publiques. Les marques sont devenues une somme des conversations `a leur su-
jet. L’analyse des sentiments aide `a d´eterminer comment la marque, produit ou service de
l’entreprise est per¸cue par la communaut´e en ligne [22].
1.3 Sources des Donn´ees
Les opinions des utilisateurs pr´esentent le crit`ere principal pour l’am´elioration de la qualit´e
des services fournis et la mise en valeur des produits livr´es. Ces opinions se pr´esentent sous
diff´erentes sources de donn´ees, `a savoir, sites d’avis, blog et micro-blog.
1.3.1 Sites d’avis
Les opinions ont le rˆole de d´ecideur pour tout utilisateur durant la phase d’achat.
Les avis g´en´er´es par les utilisateurs sur les produits et les services sont largement disponibles
sur internet. La classification de sentiment utilise les donn´ees de l’examinateur collect´ees `a
partir des sites Web tels que :
• www.gsmarena.com (revues de t´el´ephone portable).
• www.amazon.com (revues des produits).
• www.CNETdownload.com (revues des produits).
Ces sites accueillent des millions d’avis sur les produits par les consommateurs [24] [25].
11
Chapitre 1 PRELIMINAIRES
1.3.2 Blogs
Un blog est o`u les personnes peuvent ´ecrire les diff´erent sujets dans un but de partage avec
d’autres personnes sur le m´em´e site. La simplicit´e de la cr´eation des postes blogs ainsi que
leur forme libre `a rendue le blogging un ´ev`enement accessible. La blogosph`ere nom associ´e
`a l’univers de tous les blogs . Sur la blogosph`ere, nous trouvons un nombre important de
messages relatif `a une panoplie des sujets d’int´erˆet. Les blogs sont utilis´es sources d’opinions
dans la plupart des ´etudes relatives `a l’analyse des sentiments [24] [26].
1.3.3 Micro-blogs
Les micro-blogs sont parmi les outils de communication tr`es populaires des utilisateurs
d’internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires
pour les micro-bloging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter
expriment des opinions qui sont utilis´ees comme source de donn´ees pour classifier le sentiment
[24] [27].
1.4 Twitter
En Mars 2006, Twitter a ´et´e cr´ee par le d´eveloppeur Jack Dorsey comme un outil pour
rester en contact avec les amis, Twitter est un service sur le Web qui permet aux utilisateurs
d’envoyer et de lire un message court [28].
1.4.1 Twitter et tweet
Twitter est un r´eseau social et un microblog qui permet aux utilisateurs de publier
des messages en temps r´eel, appel´es tweets. Les tweets sont des messages courts, limit´es `a
140 caract`eres. En raison de la nature de ce service de microblogging (messages rapides et
courts), les gens utilisent des acronymes, commissent des erreurs d’orthographe, utilisent des
´emoticˆones et d’autres caract´eristiques qui expriment des significations particuli`eres [29].
Twitter est actuellement l’un des plates-formes de micro-blogage les plus populaires. Son
premier slogan ´etait Que faites-vous ? n´eanmoins l’utilisation a pris une autre piste o`u les
utilisateurs ´echangent des avis et des informations, le slogan devient ” Quoi de neuf ? ”.
Plusieurs c´el´ebrit´es utilisent Twitter, on y trouve mˆeme des chefs d’´Etat.
12
Chapitre 1 PRELIMINAIRES
Selon les derniers chiffres 2
:
• Twitter a plus que 645 millions utilisateurs inscrits.
• 58 millions de tweets envoy´es chaque jour.
Dans le cadre de l’analyse des sentiments, la petite taille de message formule l’hypoth`ese que
ce message ne renferme pas a priori plus d’une seule id´ee, ce qui facilite l’identification de
la cible d’une opinion. Mais certains tweets apparaissent comme des messages cod´es `a cause
de l’usage des hashtags, abr´eviations en tout genre, argot, et ´emoticons.
Les termes `a connaˆıtre pour bien utiliser Twitter, des vocabulaires sp´ecifiques sont utilis´e
sur Twitter plus couramment[30] :
- Followers : les personnes qui vous suivent.
- Followings : les personnes que vous suivez.
- Friends : les personnes que vous suivez et qui vous suivent.
- Twittos : les utilisateurs de Twitter.
- Tweet : court message.
- Tweeter : envoyer/poster un message.
1.4.2 Caract´eristique d’un tweet
On peut se sentir un peu perdu du vocabulaire de la langue dans les tweets, notamment, `a
cause du vocabulaire et symboles sp´ecifiques `a l’utilisation de Twitter. A quoi sert le et # ?
C’est quoi RT? Toutes ces abr´eviations peuvent paraitre un peu floues. Dans une perspective
de classification, un petit lexique des principaux mots et signes Twitter est pr´esent´e [31] [32]:
• Mention @ : se pr´esente sous la forme @NomUtilistauer Il cible un utilisateur de
Twitter dans le tweet post´e. Exemple : salut `a vous de la part de @FredColantonio et
@alinler.
Dans le cadre d’une r´eponse `a un tweet, l’auteur du tweet d’origine est mentionn´e
automatiquement dans la r´eponse.
2
http://www.statisticbrain.com/twitter-statistics/
13
Chapitre 1 PRELIMINAIRES
• Hashtag # : se pr´esente sous la forme #mot-cl´e. Il identifie le mot-cl´e en question
comme important et peut en faire un sujet populaire. Exemple : #gouvernement,
#graphisme ou encore #facebook.
• RT (ReTweet) : se pr´esente sous la forme RT NomUtilisateur. Il permet de partager
le tweet d’un utilisateur. Exemple : RT fredcolantonio Excellent .
• URL (Lien) : se pr´esente sous la forme https:// ou http://www. Twitter permet au
utilisateur de rejoindre les lien dans son tweet. Exemple : https://web.stanford.edu
ou http://www-nlp.stanford.edu/IR-book/.
• VIA : s’utilise pour mentionner votre source d’information, dans votre tweet.
Exemple : Via YouTube, Via Facebook.
14
Chapter 2
´ETAT DE L’ART
Les donn´ees des m´edias sociaux permettent `a l’analyse du sentiment de prendre un
grande espace de recherche.
2.1 Approches de l’Analyse des Sentiments et la D´etection
d’Opinions
Dans la litt´eratures, nous pouvons distinguer trois types d’approches pour la d´etection
d’opinions et l’analyse des sentiments :
2.1.1 Approches d’apprentissage automatique
Appel´e aussi approche statistique, cette approche se bas´ee sur l’apprentissage automa-
tique. Elle utilise la technique de classification pour classer le texte en des classes d´ef´erentes.
Il existe principalement deux types de techniques d’apprentissage [33]:
2.1.1.1 Apprentissage supervis´e
Il est bas´e sur les donn´ees libell´ees et par cons´equent, les ´etiquettes sont fournies au mod`ele
au cours du processus d’apprentissage. Ces donn´ees libell´ees sont utilis´ees par l’algorithme
d’apprentissage pour donner un mod`ele qui sera utilis´ee lors de la prise de d´ecision.
Certains mod`eles d’apprentissage automatique ont ´et´e formul´ees pour classer les tweets en
classes. Les techniques d’apprentissage automatique comme Na¨ıve Bayes (NB), l’entropie
maximale (ME), et les machines `a vecteurs de support (SVM) ont donn´e un grand succ`es
15
Chapitre 2 ´ETAT DE L’ART
dans l’analyse des sentiments.
L’apprentissage automatique commence par la collection des donn´ees d’apprentissage.
Ensuite, on entraine un classificateur sur ces donn´ees. Une fois une technique de classification
supervis´ee est s´electionn´ee, une d´ecision importante `a faire est la s´election des descripteurs.
Ces derniers nous disent comment les documents sont caract´eris´es. Les descripteurs les plus
couramment utilis´es dans la classification de sentiment sont:
• Pr´esence de termes et leur fr´equence.
• Information de la partie de discours (POS).
• N´egations.
• Mots et des phrases d’opinion.
2.1.1.2 Apprentissage non supervis´e
Il ne consiste pas d’une classification pr´ecise, donc il se base sur le regroupement.
Le succ`es de ces deux m´ethodes d’apprentissage d´epend principalement de la s´election et
l’extraction de l’ensemble des descripteurs utilis´es pour d´etecter le sentiment (la classe), les
algorithmes d’apprentissage non supervis´es classification hi´erarchique ascendante, centres
mobiles, r`egles d’association,... etc.
2.1.2 Approche lexique
M´ethode bas´ee sur le lexique, elle utilise le dictionnaire des sentiments avec des mots
d’opinion et les faire correspondre avec les donn´ees pour d´eterminer la polarit´e. Elle attribue
les scores de sentiment aux mots d’opinion d´ecrivant si les mots sont positifs, n´egatif ou
neutre.
Les approches fond´ees sur le lexique reposent principalement sur un lexique de sentiment, `a
savoir, une collection de termes de sentiment connue et pr´ecompil´ee, des phrases et mˆeme
des expressions idiomatiques, d´evelopp´es pour les genres traditionnels de communication,
tels que le lexique OpinionFinder [33].
16
Chapitre 2 ´ETAT DE L’ART
2.1.3 Approches hybride
Cette approche est appel´ee aussi classification semi-supervis´ees. Elles combinent les
points forts des deux approches pr´ec´edentes. Elles prennent en compte tout le traitement
linguistique des approches symboliques avant de lancer le processus d’apprentissage comme
dans les approches statistiques [27].
2.2 Historique sur l’Analyse des Sentiments
Dans cette partie nous pr´esentons une brief historique de l’analyse des sentiments. Nous
nous somme bas´es sur l’article [34].
Hatzivassiloglou et McKeown en 1997, travaillaient au niveau de document et utilisaient ”
World Street Journal ” comme source de donn´ees. leurs travaux se basent sur les conjonctions
et les adjectives et cr´eent un mod`ele de Log Linear Regression. Dans le mˆeme niveau
document Pang et al. en 2002 effectuaient une analyse avec des mod`eles d’apprentissage
Na¨ıve Bayes (NB), Support Vector Machine (SVM), Maximum Entropy (ME). Il ont utilis´e
Unigram, bigram, effet contextuel de la n´egation,et les fr´equences. Ils ont appliqu´e de
tels mod`eles sur les critiques des films. Nous citons aussi autres travaux sur l’anlyse des
sentiments au niveau documents : Das et Chen en 2001, Turney 2002, Morinaga et al 2002,
Turney et Littman 2003 et Pang et Lee 2004.
Nigam et Hurst `a l’ann´ee 2004, travaillaient au niveau des expressions en se basant sur
le lexique des phrases polaires et leurs parties du discours (POS Part Of Speech) avec un
mod`ele bas´e sur des r`egles syntacsiques en utilisant Usenet message board et autres sources
enligne comme source de donnes. Au niveau des phrase Wilson et al en 2005, d´eveloppent
un mod`ele nomm´e BoosTexter qui s’int´eresse `a la subjectivit´e lexique avec un corpus de
MQPA. Dans les niveaux de phrase et expression nous pouvons cit´e aussi Aue et Gamon
`a l’ann´ee 2005, les descripteurs utilis´es sont les termes lematis´es, leur fr´equences et poids,
Popescu et Etzioni en 2005, proposent un mod`ele de d´ependance syntaxique qui se bases sur
les conjonctions et disjonctions de WordNet, Cesarano en 2006, mis en jeux les mod`eles sur
POS et N − grams.
Hu et Liu en 2005, d´eveloppaient un mod`ele d’extraction d’opinions `a base de mots et
extension d’aggregation avec WordNet. les descripteurs utilis´es sont les mots d’opinion et
les phrases d’opinions. Ils utilisaient Cnn.net de Amazon comme source de donn´es. En
17
Chapitre 2 ´ETAT DE L’ART
2007 Godbole et al, ont d´evelopp´e un mod`ele lexicale `a base de WordNet. Il ont utilis´e
des descripteurs qui se basent sur des mesures de distance dans le graphe entre les mots
en tenant compte les relations de synonymie,anonyme, commun des mots. les sources de
donn´ees utilis´ees sont les journaux et les les publications.
Ferguson et al `a l’ann´ee 2009, utilisaient les articles de blog financiers comme source de
donn´ees pour cr´eer un mod`ele Multinomial Na¨ıve Bayes (MNB) en manipulant des vecteurs
binaires des descripteurs au niveau des phrases.
Au niveau des mots, Melville et al en 2009, effectuaient une classification bay´esienne avec
les lexiques et documents d’apprentissage en utilisant les posts des blogs, site des avis, des
blogs politiques et des critiques des filmes.
Concernant l’analyse des sentiments sur Twitter, Pak et Paroubek en 2010, Barbosa et
Feng `a l’ann´ee 2010, ont travaill´e au niveau des phrases des messages Twitter. Les premiers
auteurs utilisent les N − gram et POS − tags comme des descripteurs avec le classificateur
MNB, tandis que les derniers utilisent les retweets, hashtags, liens et le point ponctuations
en conjonction avec les descripteurs comme les polarit´es `a prioris des mots ainsi que les POS
de mots pour cr´eer le mod`ele SVM.
2.3 Travaux sur L’Analyse des Sentiments avec Twit-
ter
Pour pr´esenter les recherches sur l’analyse des sentiments avec Twitter; nous considerons
trois cat´egories `a savoir, Classification de sentiments, Pr´ediction des r´esultats, D´etection des
´ev`enements.
2.3.1 Classification de sentiments
Twitter est un moyen de publication les avis et les opinions dans divers domaines.
En 2009 [35]d´eveloppent une application qui s’appelle twitter sentiment
(http://twittersentiment.appspot.com/). Cette application d´etermine la polarit´e de tweet
positif ou n´egatif, les auteurs testent trois types d’algorithmes sur les tweets Na¨ıve Bayes
(NB), Maximum Entropy (ME) et Support Vector Machine (SVM). Ces trois m´ethodes
ont montr´e des r´esultats similaires, entre 80% et 83% de r´eussite quant `a la pr´ediction de
sentiment (positif ou n´egatif) par rapport aux messages publi´es. Les auteurs appliquent un
18
Chapitre 2 ´ETAT DE L’ART
pr´etraitement aux donn´ees de Twitter utilisent des ´emoticˆones ´etiquettes.
Barbosa et Feng en 2010 [36] [37] ont rapport´e une m´ethode d’analyse de sentiment en
deux ´etapes pour twitter en utilisant des donn´ees d’entrainement contenant du bruit. Ils ont
classifi´e les tweets pour la premi`ere fois en deux clases subjectif (polaire) et objectif (non
polaire). Ils ont la m´ethode SVM, des donn´ees d’entrainement rassembl´ees de trois sites Web
(twendz , twittersentimen , tweetfeel ). Ils se sont focalis´es sur l’utilisation des descripteurs
plus abstraits au-del`a des N−gram simples tels que des m´eta-descripteurs et des descripteurs
syntactiques de tweet. Les m´eta- descripteurs incluent POS − tag, la subjectivit´e et la
polarit´e ant´erieure des mots `a base de dictionnaire, les expressions n´egatives. Les descripteurs
de syntaxe de tweet incluent le retweet, hashtag, r´eponse, hyperliens, ponctuation, symboles
d’expression d’´emotion, aussi bien que des majuscules. Ces descripteurs se sont av´er´es plus
robustes que des N − gram.
2.3.2 Pr´ediction des r´esultats
Ces travaux traitent la pr´ediction des r´esultats `a partir des messages publi´es dans Twitter :
En 2010 Lampos et Cristianini [38] d´eveloppent un outil de surveillance pour d´epister des
mod`eles ILI (Influenza-like Illness) en utilisant des donn´ees Twitter sp´ecifiques de la r´egion
Britanniques. Des tweets contenant des mots cl´es symptˆome-connexes ont ´et´e rassembl´es
pendant 6 mois pendant 2009 avec Une moyenne quotidienne de 160.000 tweets. Ces
donn´ees, converties en mesures score-grippe (flu-score), ont ´et´e compar´ees aux rapports
H1N1 hebdomadaires de l’agence de protection sanitaire. Le score de r´esultant est fortement
corr´el´e avec les rapports ( 95%). Cette m´ethode fonctionne ind´ependamment de la langue,
peut d´eterminer des rapports auto-diagnostiques dans les tweets, et la s´erie chronologique
d’utilisations g´eolocalis´ees des donn´ees.
En 2010, une analyse des s´eries chronologiques est appliqu´ee au sondage d’opinion publique
politique aux messages Twitter qui ont mentionn´e le pr´esident Barrack Obama [39]. Les au-
teurs employaient le logiciel qui a mesur´e le sentiment dans les messages de Twitter, pour
comparer le sentiment public d’Obama aux sondages d’opinion publique collect´es tradition-
nellement. Les auteurs ont conclu que Twitter est une mesure fiable de l’opinion publique
[40].
Sakaki,Okazaki,et Matsuo en 2010 [41] [42] ont essay´e de d´etecter les tremblements de
terre de l’information g´en´er´ee par les capteurs sociaux repr´esent´es par les utilisateurs de twit-
19
Chapitre 2 ´ETAT DE L’ART
ter. En utilisant le mod`ele `a la fois temporelle et g´eo-spatiale, les auteurs ont d´emontr´e que
les tweets pourraient ˆetre utilis´e pour pr´edire les tremblements de terre quelques instants
apr`es qu’ils se produisent et mˆeme de pr´edire l’emplacement d’un tremblement de terre.
De mˆeme, les auteurs montrent qu’il est possible de pr´edire la trajectoire des ouragans en
utilisant tweets g´en´er´es par la r´egion affect´ee.
2.3.3 D´etection des ´ev`enements
Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des
´ev`enements et pour donner des avis.
`A partir du message publi´e sur Twitter on peut d´etecter un ´ev´enement.
En l’ann´ee 2011 Weng et Lee [43] s’int´eressent `a la d´etection d’´ev´enement sur Twitter en
analysant le contenu des tweets publi´es dans la plateforme. Ils ont introduit une structure
nomm´e EDCoW (Event Detection with Clustering of Wavelet-based Signals). Dans EDCoW,
le signal de chaque mot est calcul´e en appliquant l’analyse en ondelettes sur la fr´equence
des signaux bruts des mots. En consid´erant l’autocorr´elation des signaux correspondants,
les mots sans importance sont supprim´es. Les mots restants sont ensuite regroup´es pour
construire des ´ev´enements avec une technique graphique. Sur la base de leur exp´erimentation,
les auteurs affirment que EDCoW atteint une bonne performance dans l’´etude.
Ozdikis et al en 2012 [44] proposent une m´ethode de d´etection d’´ev´enements sur Twitter
en se base sur le regroupement de hashtag, le symbole # est utilis´e pour marquer des mots-
cl´es ou sujets dans twitter, et l’expansion s´emantique aux vecteurs de message. Pour chaque
hashtag, les trois hashtags sontles plus similaires sont extraits en utilisant la similitude
cosinus. Un vecteur de tweet avec un seul hashtag est ´elargi avec trois hashtags similaires,
puis utilis´e dans le processus de regroupement. Cependant, en utilisant uniquement les
messages avec un seul hashtag peut conduire `a ignorer certains ´ev´enements importants. En
outre, ils surent un ´ev´enement ou non En outre, ils ne mettent pas aucun filtre de cr´edibilit´e
pour d´ecider si un tweet est un ´ev´enement ou non.
20
Chapitre 2 ´ETAT DE L’ART
2.4 Difficult´es de la Fouille d’opinions et de l’Analyse
des Sentiments
L’extraction du sentiment ou d’opinion consiste `a d´eterminer la polarit´e d’un tel opinion.
Cette derni`ere est en g´en´eral peut ˆetre positive (pour d´ecrits une opinion favorable), n´egative,
ou neutre. Dans ce qui suit nous citons quelques difficult´es de cette proc´edure [20] [21] [23].
- Ambigu¨ıt´e de certains mots positifs ou n´egatifs selon les contextes et qui ne peut pas
toujours ˆetre lev´ee.
- Difficult´e due aux structures syntaxiques et s´emantiques d’une phrase et l’expression
de l’opinion qu’elle v´ehicule. Par exemple ” l’histoire du film est int´eressante mais les
acteurs ´etaient mauvais ”. Dans ce cas la polarit´e de la deuxi`eme partie est oppos´ee `a
la premi`ere.
- Difficult´e due au contexte : la n´ecessit´e d’une bonne analyse syntaxique du texte ;
analyse qui peut se r´ev´eler particuli`erement difficile dans des cas de coordination entre
plusieurs parties d’une phrase. Par exemple ”ma tonte a bien pr´epar´e le gˆateau, son
d´ecor est bonne mais je n’ai pas aim´ee le goˆut”, l’opinion de la derni`ere partie de la
phrase est la plus importante.
- Difficult´e due `a l’analyse de la phrase par ” paquets de mots ”. Les deux phrases
suivantes contiennent les mˆemes paquets de mots sans pour autant exprimer les mˆemes
sentiments. La premi`ere phrase contient un sentiment positif alors que la deuxi`eme
est n´egative : ” Je l’ai appr´eci´e pas seulement `a cause de ...”, ” Je l’ai pas appr´eci´e
seulement `a cause de ... ” o`u se pr´esente la gestion de n´egation.
21
Chapter 3
EXP´ERIMENTATION :
APPRENTISSAGE ET TEST
Comme de coutumes des travaux d’apprentissage, notre exp´erimentation passe par les
deux phases d’apprentissage et de test, tel que illustr´e par la Figure 3.1. N´eanmoins, avant
d’entrer dans les d´etails, nous d´ecrivons d’abord notre environnement de travail.
Figure 3.1: Processus de l’apprentissage automatique
3.1 Environnement de Travail
D’abord, nous donnons une description de l’environnement de notre exp´erimentation :
22
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
3.1.1 Environnement mat´eriel
Afin de mener notre exp´erimentation et ´evaluation, nous avons utilis´e un PC marque HP
Pavilion, ´equip´e d’un processeur multi-cor´e I3, cadenc´e par une horloge d’une fr´equence de
2.40GHZ, avec 4 GO Octets de RAM, un disque dur d’une capacit´e de 400 Giga Octets.
3.1.2 Environnement logiciel
Nous avons utilis´e le langage de programmation Python. Python est un langage de
programmation portable, dynamique, extensible, gratuit, qui permet (sans l’imposer) une
approche modulaire et orient´ee objet de la programmation. Python est d´evelopp´e depuis
1989 par Guido van Rossum et de nombreux contributeurs b´en´evoles.
pour ce l`a nous avons utilis´e l’environnement de d´eveloppement Spyder (Scientific PYthon
Development EnviRonment)qui est un IDE orient´e vers un usage scientifique de Python.
Pour se focaliser sur notre exp´erimentation et tirer profit des puissance du langage Python,
nous avons utilis´e les packages suivants :
• Package CSV : CSV (Comma Separated Values) module pour lire et ´ecrire des donn´ees
au format CSV.
• Package re : (Regular expressions) Ce module fournit des op´erations correspondant
aux expressions r´eguli`eres.
• Package numpy : numpy (NUMeric Python) est une biblioth`eque num´erique apportant
le support efficace de larges tableaux multidimensionnels, et de routines math´ematiques
de haut niveau (alg`ebre lin´eaire, statistiques, .. etc.).
• Package Nltk : Nltk (Natural Language Toolkit) est une plate-forme pour la cr´eation
de programmes Python pour travailler avec des donn´ees de langage humain.
• Package Sklearn : est un module en Python pour l’apprentissage automatique.
Il est a noter qu’un bon point de d´epart pour le d´eveloppement d’un module d’analyse
des sentiments sur Twitter se trouve dans [45]
23
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
3.2 Phase d’Apprentissage
La phase d’apprentissage comporte le pr´etraitement des donn´ees d’apprentissage ainsi
que l’extraction et la pr´esentation de descripteurs :
3.2.1 Source des donn´ees (Data set)
Nous avons utilis´e l’ensemble des donn´ees des tweets ´etiquet´e par Niek Sanders `a partir du
site Sanders Analytics 1
. Il se pr´esente sous forme d’un fichier d’extension (.csv) contenant
5113 tweets ´etiquet´es manuellement. Cet ensemble de donn´ees comporte quatre classes des
sentiments, `a savoir positive, n´egative, neutre et hors du sujet.
Il traite quatre diff´erents sujets Apple, Google, Microsoft et Twitter. Chaque entr´ee de notre
ensemble de donn´ees est structur´e comme suit :
• Tweet id : un identifiant du tweet.
• Tweet texte : il contient le texte du tweet publi´e par l’utilisateur.
• TweetDate : date de publication du tweet.
• Topic : le sujet du tweet (Apple, Google, Microsoft ou Twitter).
• Sentiment : ´Etiquette du tweet, qui peut ˆetre(”positif”, ”n´egatif”, ”neutre” ou ”hors
de sujet”).
La r´epartition des donn´ees selon leurs sujets et leurs sentiments est illustr´e dans le
Tableau 3.1 :
Sujet Positif Neutre N´egatif Hors de sujet
Apple 191 581 377 164
Google 218 604 61 498
Microsoft 93 671 138 513
Twitter 68 647 78 611
Table 3.1: Description du corpus Niek Sanders
1
http://www.sananalytics.com/lab/twitter-sentiment/
24
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
Pour assurer un bon apprentissage nous devons imposer un ordre al´eatoire au corpus comme
montr´e dans le code algorithme 3.
Algorithm 3 Fonction getData pour r´ecup´er´e le corpus
def getData(corpus):
fp = open(corpus , ’rb’ )
reader = csv.reader( fp, delimiter=’,’, quotechar=’”’, escapechar=’ // ’ )
csvv = islice(reader, 1, None, None)
tweets = []
for row in csvv:
t= row[4]
sentiment= row[1]
tweets.append([t, sentiment]);
random.shuffle( tweets );
return tweets
3.2.2 Pr´etraitement
Nous avons d´ej`a abord´e dans la Section 1.4.2 les caract´eristiques des tweets qui se
r´esume en g´en´eral dans les longueurs limite´es et l’utilisation d’un langage informel. Ainsi,
l’utilisateur de Twitter utilise des abr´eviations, des ´emoticons, et des argots pour exprimer
ses opinions et ses sentiments. Par cons´equence une ´etape de pr´etraitement est indispens-
able.
Dans ce qui suit nous allons pr´esenter la proc´edure de pr´etraitement suivie dans notre travail,
dont le but de cette ´etape est de nettoyer les tweets et leur rendre le plus proche possible `a
un langage formel.
D’abord nous avons commenc´e par le filtrage de tweets, en ne considerant que ceux ´ecrit
en langue anglaise. Car un corpus de differents langages est un corpus qui contient du bruit.
Pour se faire nous avons utilis´e une biblioth`eque dans Python SentiWordNet qui se r´ef´erer
`a le package nltk.
Pour assurer une correspondance entre le langage informel des ´emoticons et des abr´eviations,
nous avons cr´ee deux dictionnaires (Table 3.2).Ces dictionnaire sont cr´ees sur la base des
25
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
ressources23
qui fonctionnent avec les tweets.
# positive emoticons
”lt;3”: ” pretty ”,
”:d”: ” pretty ”,
”:D”: ” pretty ”,
”:-)”: ” pretty ”,
”:=)”: ” pretty ”,
”=)”: ” pretty ”,
”:)”: ” pretty ”,
”;)”: ” pretty ”,
# negative emoticons:
”:/”: ” sad ”,
”:gt;”: ” sad ”,
”:’)”: ” sad ”,
”:-(”: ” awful ”,
”:(”: ” awful ”,
”:S”: ” awful ”,
”:-S”: ” awful ”,
#Abvr´evioation
”2”: ”To”
”AKA”: ”Also known as”
”AOL”: ”America Online”
”AP”: ”Associated Press”
”app”: ”Application”
”ASL”: ”Age, sex, location”
”ATM”: ”At the moment”
”b/c”: ”Because”
”b/w”: ”Between”
”b4”: ”Before”
”bf”: ”Boyfriend”
”BFF”: ”Best friends forever”
”gf”: ”Girlfriend”
”GJ”: ”Good job”
Table 3.2: A gauche -Emoticons Positive  n´egative-, `a droite -Abr´eviaton en Anglais-
Par ailleurs nous avons utilis´e une liste de formes contract´ees se pr´esente dans le Tableau
3.3 pour rendre quelque mots ou groupe des mots plus clair.
2
http://slangit.com/terms/common
3
http://slangit.com/emoticons/common
26
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
Forme contract´ee Forme non contract´ee
Won’t Will not
Can’t Can not
I’m I am
Isn’t Is not
‘ll will
‘ve have
‘re are
‘d would
Table 3.3: Les formes contract´es
Une fois les dictionnaires cr´ees nous avons proc´ed´e `a un pr´etraitement qui suit les ´etapes
suivantes :
1- Remplacer les ´emoticons : en utilisant le dictionnaire des ´emoticons.
2- Remplacer les abr´eviations : en utilisant le dictionnaire des abr´eviations.
3- Supprimer les identifiants des utilisateurs (USER) : nous avons utilis´e l’expression
r´eguli`ere @[  s]+ pour d´etecter les mots qui repr´esentent les identifiants des utilisa-
teurs Twitter dont le signe il le faut d´etecter.
4- Supprimer les liens web (URL) : nous avons utilis´e l’expression r´eguli`ere ‘((www  .[ 
s]+)|(https? : //[  s]+)) pour d´etecter les liens des sites cit´e dans le tweet.
5- Supprimer les Hashtags (TAG) : nous avons utilis´e l’expression r´eguli`ere r #([  s]+)
pour d´etecter les mots cl´e (sur des sujet pr´ecis) dans le tweet.
6- ´Eliminer les caract`eres r´ep´et´es : nous avons ´elimin´e les r´ep´etitions des caract`eres dans
les mots comme ( coooool : cool, hhhhhhh :hh) que l’utilisateur l’utilise pour affirmer
et assurer le sens.
7- Supprimer les chiffres : il faut supprimer les chiffres qui n’ont aucun impact sur la
classification.
8- ´Eliminer les commandes VIA, RT : Twitter poss`ede son propre vocabulaire et fonc-
tions, il y’a les commande VIA et RT indique que le tweet a ´et´e rediffus´e par un
27
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
autre utilisateur, nous les avons ´elimin´e `a cause de son influence n´egligeable sur la
classification.
9- ´Eliminer les ponctuations : les utilisateurs utilisent dans leurs tweets beaucoup de
ponctuations qui n’ont pas une importance dans notre classification, donc il a ´et´e
mieux de les ´eliminer dans cette phase.
10- Supprimer les mots vides (Stop-words), nous avons utilis´e les mots vides en langue
Anglaise pr´ed´efinies dans le package nltk.corpus.
Le Tableau suivant 3.4 donne quelques exemples de tweets avant et apr`es le pr´etraitement:
28
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
Tweets avant pr´etraitement Tweets apr`es traitement
- Thank you to everyone who made this Eu-
rope 2016 tour possible :) !
- thank you to everyone who made this europe
tour possible pretty
- thank you so much for teaching us values on
Twtr. I am waking up :o3 at 4am for the last
2 wks. Salute sir!
- thank you so much for teaching us values on
twiitr i am waking up ordinary at am for the
last weeks salute sir
- I don’t lurk cause I don’t care anymore - i do not lurk cause i do not care anymore
- @DZfoot @Mahrez22 @algeria #Fearless-
Foxes Makes me believe in dreams. ..legend
vive Dz
- makes me believe in dreams legend vive dz
- Hey guys wish you had a super doper day ..
¡3 ¡3 i’m here in @algeria and it’s hot day. ..
- hey guys wish you had a super doper day
heart heart i am here in and it is hot day
- Find jobs in Algeria
https://www.bayt.com/en/algeria/ via
@Baytcom
- find jobs in algeria
- DUUUUUUDE HHHHHH THIS IS
COOOOOL O:-)
- duude hh this is cool pretty
- WHY WOULD YOU DO THIS :/ !?!?! - why would you do this sad
- MAY2016 (08) RT this to enter our
£20.00 Amazon voucher #competition
(TC on web) http://grandslam.uk.com via
@GrandSlamEvents
- this to enter our amazon voucher on web
Table 3.4: Tweets avant et apr`es le pr´etraitement
3.2.3 Extraction et pr´esentation des descripteurs
Dans cette ´etape, nous considderons les termes restant apr`es l’´etape de pr´etraitement
comme descripteurs. Nous avons recensai 4002 descripteurs. Ces descrepteurs ont un role
important pour la classification des sentiments.
Pour r´ealiser l’op´eration d’apprentissage, nous avons propos´e deux repr´esetation : le
mod`ele bool´een et le mod`ele de pond´eration TF-IDF.
le mod`ele bool´een consid`ere un document d est repr´esent´e sous forme d’un vecteur
29
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
bool´een. Ce vecteur est l’ensemble des descripteurs, chaque descripteur peut prendre une
valeur 0(faux) si le terme n’existe pas dans le document, ou 1 (vrai) sinon. La repr´esentation
d’un document dans le mod`ele bool´een se pr´esente comme suit: d = (1, 0, 0, 0, 1, 1, 0, 0...).
Tandis que le mod`ele de pod´eration TF-IDF (Term Frequency – Inverse Document Fre-
quency) dans le mod`ele vectoriel un document est repr´esent´e sous forme d’un vecteur dans un
espace engendre par tous les termes d’indexation. La dimension de cet espace est le nombre
de termes d’indexation de la collection de document. Les coordonn´ees d’un vecteur docu-
ment sont les poids des termes d’index dans ce document, est donne un poids plus important
aux mots caract´eristiques d’un document pr´esente ce forme d = (w1, w2, w3, ..., wn). Dans,
un premier temps, il est n´ecessaire de calculer la fr´equence d’un terme (Term Frequency).
Celle-ci correspond au nombre d’occurrences de ce terme dans le document consid´er´e. Ainsi,
pour le document dj et le terme ti, la fr´equence du terme dans le document est donn´ee par
l’´equation suivante :
TFi,j =
ni,j
k nk,j
(3.1)
• ni,j: est le nombre d’occurrences du terme ti dans dj.
• sumknk,j: est le nombre de termes dans le document.
La fr´equence inverse de document (Inverse Document Frequency) mesure l’importance du
terme dans l’ensemble du corpus. Elle consiste `a calculer le logarithme de l’inverse de la
proportion de documents du corpus qui contiennent le terme. Elle est d´efinie de la mani`ere
suivante:
IDFi = log2
|D|
|dj : ti ∈ dj|
(3.2)
|D| repr´esente le nombre total de documents dans le corpus et | dj : ti ∈ dj | est le nombre
de documents dans lesquels le terme ti apparaˆıt. Enfin, le poids s’obtient en multipliant les
deux mesures :
TF − IDFi,j = TFi,j ∗ IDFi (3.3)
30
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
3.2.4 Apprentissage
Notre d´emarche d’analyse de sentiments s’inscrit dans l’approche d’apprentissage au-
tomatique supervis´e. Nous avons utilis´e l’algorithme d’apprentissage Na¨ıve Bayes qui sera
utilis´e dans l’´etape de pr´ediction.
concernant le cot´e impl´ementation, nous avons utiliser l’impl´ementation de Na¨ıve Bayes
d’apr`es sklearn.naive bayes du package Sklearn mentionn´e dans la section 3.1.2, l’appel du
classifieur pour l’apprentissage se fait par le biais du code algorithme 4.
tel que:
Algorithm 4 Appelle et entrainement du classifieur NB
- NBClassifier ¯MultinomialNB() # Appelle du clssifieur
- NBClassifier.fit(X vec train, y train) # Entrainement du classifieur
• X vec train est les tweets d’ensemble d’apprentissage
• y train est les sentiments d’ensemble d’apprentissage
3.3 Phase de Test et Interpr´etation
Apr`es la phase d’apprentissage, nous passons `a la phase de test pour ´evaluer notre
classifieur.
Pour la validation des performances, nous utilisons la m´ethode 80% 20% pour valider notre
mod`ele , telle que 80% utilis´e dans la phase d’apprentissage, et 20% pour la phase de test.
les mesures de performance utilis´ees sont la pr´ecision, le rappel et le F1-mesure dont leurs
bases de calcul se fait par rapport `a la Table 3.5 :
Pr´edictive
R´eel
Poitive N´egative
Positive VP FP
N´egative FN VN
Table 3.5: Table de confusion
31
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
Avec :
VP : Vrai Positif
FP : Faux Positif
VN : Vrai N´egatif
FN : Faux N´egatif
Tel que les mesures que nous avons ´etudi´e sont pr´esent´es dans les formules suivantes :
Pr´ecision = VP/(VP + FP) : Proportion d’´el´ements bien class´es pour une classe donn´ee.
Rappel = VP/(VP + FN) : Proportion d’´el´ements bien class´es par rapport au nombre
d’´el´ements de la classe `a pr´edite.
F1-mesure = 2 * Pr´ecision * Rappel/(Pr´ecision + Rappel) : Mesure de compromis entre
pr´ecision et rappel.
3.3.1 Pr´esentation des r´esultats et discussion
La Table 3.6 montre les r´esultats du classifieur pour le mod`ele de pr´esentation bool´eenne :
Classifieur Pr´ecision Rappel F1-mesure Support
Positive 0.43 0.31 0.36 107
N´egative 0.57 0.51 0.54 126
Neutre 0.70 0.69 0.69 494
Hors du sujet 0.76 0.87 0.81 341
Avg/ Total 0.68 0.69 0.68 1023
Table 3.6: R´esultats du classifieur en m´ethode bool´eenne
32
Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS
La Table 3.7 montre les r´esultats du classifieur pour le mod`ele de pond´eration TF-IDF:
Classifieur Pr´ecision Rappel F1-mesure Support
Positive 0.44 0.30 0.35 94
N´egative 0.55 0.41 0.47 110
Neutre 0.73 0.88 0.79 494
Hors du sujet 0.92 0.79 0.85 325
Avg/ Total 0.74 0.75 0.74 1023
Table 3.7: R´esultats du classifieur en m´ethode de pond´eration TF-IDF
Selon les r´esultats obtenus, il est claire que le classifieur pour le mod`ele de pond´eration
TF-IDF avec un F1- mesure de 0.74 est meilleur que claire que le classifieur pour le mod`ele
bool´een avec un F1- mesure de 0.68.
Ceci peut s’interpr´eter par l’influence positive de l’aspect s´emantique sur la qualit´e du
classifieur. Nous croyons que l’implication d’autres aspects linguistiques de n´egation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent am´eliorer le processus d’analyse des sentiments.
Ceci dit, il existe d’autres algorithmes d’apprentissage automatiques appliqu´es `a l’analyse
des sentiments Twitter. A titre d’exemple SVM Seport Vector Machine et ME Maximum
Entropy, .. etc, qui m´eritent d’ˆetre ´etudi´es et compar´es si l’espace de temps le permet.
33
CONCLUSION
L’analyse des sentiments se r´ef`ere `a l’extraction automatique de texte ´evaluative, qui
aide `a produire des r´esultats pr´edictifs. Dans ce m´emoire nous avons ´etudi´e les diff´erents
approches d’analyse des sentiments en particulier celles appliqu´ees sur les donn´ees Twitter.
Nous avons impl´ement´e la m´ethode probabiliste Na¨ıve Bayes en consid´erant model´es de
repr´esentations de donn´ees, `a savoir, les mod`eles bool´een et celui utilisant une pond´eration
TF-IDF. L’exp´erimentation conduite sur l’ensemble de donn´ee Sanders Analytics r´ev`elent
que la repr´esentation s´emantique TF-IDF donne de meilleurs r´esultats en terme de pr´ecision,
rappel et F-mesure.
Ceci ´etant dit, il faut noter que l’environnement mat´eriel utilis´e est relativement limit´e.
Par cons´equent nous n’avons pas pu conduire nous exp´erimentations sur des corpus de tailles
importantes. En plus, cette limite nous a priv´e d’utiliser des m´ethodes de validation plus
sophistiqu´ees de l’approche impl´ement´ee. Par ailleurs, le temps octroy´e pour notre m´emoire
ne nous a pas permis d’explorer d’autres m´ethodes de l’analyse des sentiments telles que la
m´ethode de Support Vector Machine (SVM), Maximum Entropy (ME).
En fin nous conjecturons que l’implication d’autres aspects linguistiques de n´egation, type
de mots (sujet, verbe, adjectifs. . . ) peuvent am´eliorer le processus d’analyse des sentiments.
34
Bibliographies
[1] Risson Romain, les r´eseaux sociaux : Facebook,Twitter ,Linkedln, Viadeo, Google+:
comprendre et maitriser ces nouveaux outils de communication, 2011.
[2] Serge Proulx, M´elanie Millette et Lorna Heaton M´edias sociaux: enjeux pour la
communication. Presse de l’Universit´e du Qu´ebec, 2011.
[3] Andreas M. Kaplan et Michael Haenlein Users of the world, unite! The challenges
and opportunities of Social Media. Paris, France .ESCP Europe, 2010.
[4] Bouillon Pierrette Traitement automatique des langues naturelles, paris, bruxelle
1998.
[5] Kumar Ela Natural Language Processing, India,I.K.International Publishing
House Pvt. Ltd 2011.
[6] Jean V´eronis Natural Language Processing, URL : http://sites.univ-
provence.fr/veronis, 2001.
[7] Daniel Jurafsky et James H. Martin Speech and Language Processing, 2015.
[8] Meena Rambocas and Jo?o Gama Marketing Research : The Role of Sentiment
Analysis, FEP Economics and Managment, 2013.
[9] Nasukawa, Tetsuya et Jeonghee Yi Sentiment analysis: Capturing favorability
using natural language processing, Knowledge Capture, 2003.
[10] Kushal Dave, Steve Lawrence and David M. Pennock Mining the peanut gallery:
Opinion extraction and semantic classification of product reviews, 2003.
[11] Sanjiv R. Das et Mike Y. Chen Yahoo! for Amazon: Extracting market sentiment
from stock message boards,2001.
35
R´ef´erences
[12] Satoshi Morinaga,Kenji Yamanish,Kenji Tateishi,and Toshikazu Fukushima
Mining product reputations on the web,Proceedings of the eighth ACM SIGKDD
international conference on Knowledge discovery and data mining, New
York, NY, USA, 2002.
[13] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up?: sentiment classi-
fication using machine learning techniques, Proceedings of the ACL-02 conference
on Empirical methods in natural language processing - Volume 10,Strouds-
burg, PA, USA 2002.
[14] R. M. Tong An operational system for detecting and tracking opinions in on-line dis-
cussion, In Working Notes of the ACM SIGIR 2001 Workshop on Operational
Text Classification 2001.
[15] Peter D. Turney, Thumbs up or thumbs down?: semantic orientation applied to
unsupervised classification of reviews, Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002.
[16] Janyce Wiebe, Learning Subjective Adjectives from Corpora,Proceedings of the
Seventeenth National Conference on Artificial Intelligence and Twelfth Con-
ference on Innovative Applications of Artificial Intelligence, 2000.
[17] Bing Liu, Opinions, Sentiment, and Emotion in Text,Cambridge University Press,
2015.
[18] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis,Now Publishers
Inc, 2008.
[19] Huifeng Tang, Songbo Tan and Xueqi Cheng, A survey on sentiment detection
of reviews,Information Security Center, Institute of Computing Technology,
Chinese Academy of Sciences, Beijing 100080, PR China, 2009.
[20] Faiza Belbachir, Exp´erimentation de fonctions pour la d´etection d’opinions dans les
blogs, Universit´e de Paul Sabatier, Institut de Recherche en Informatique de
Toulouse 2010.
[21] Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis:
M´ethodes et outils, 2012.
36
R´ef´erences
[22] Mr. Saifee Vohra et Prof. Jay Teraiya, Applications and Challenges for Senti-
ment Analysis : A Survey, International Journal of Engineering Research  Technology
(IJERT), 2013.
[23] Sigrid Maurel, Paolo Curtoni et Luca Dini, L’analyse des sentiments dans les
forums, CELI France, SAS.
[24] Arti Buche, Dr. M. B. Chandak and Akshay Zadgaonkar, Opinion mining
and analysis:a survey, International Journal on Natural Language Computing
(IJNLC), India 2013.
[25] G.Vinodhini and RM.Chandrasekaran, Sentiment Analysis and Opinion Mining:
A Survey,International Journal of Advanced Research in Computer Science
and Software Engineering ,India 2012.
[26] Vivek Kumar Singh and Debanjan Mahata, A clustering and opinion mining
approach to socio-political analysis of the blogosphere, Computational Intelligence
and Computing Research (ICCIC), 2010 IEEE International Conference on
2010.
[27] Alexander Pak and Patrick Paroubek, Twitter as a Corpus for Sentiment
Analysis and Opinion Mining, Universit´e de Paris-Sud, Laboratoire LIMSI-
CNRS,France 2010.
[28] Matthew Eric Glassman, Jacob R. Straus and Colleen J. Shogan, Social Net-
working and Constituent Communications: Members Use of Twitter and Facebook Dur-
ing a Two-Month Period in the 112th Congress,Congressional Research Service,
2009.
[29] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passon-
neau, Sentiment analysis of Twitter data, LSM 11 Proceedings of the Workshop
on Languages in Social Media,2011.
[30] Laurent Dijoux, Boostez votre business avec Twitter,Almabic, 2009.
[31] Fred Colantonio, Communication professionnelle en ligne: comprendre et exploiter
les m´edias et r´eseaux sociaux,Edipro, 2011.
37
R´ef´erences
[32] Tim O’Reilly and Sarah Milstein, The Twitter Book, 2012.
[33] Vishal A. Kharde and S.S. Sonawane, TSentiment Analysis of Twitter Data: A
Survey of Techniques,International Journal of Intelligent Systems and Appli-
cations(IJISA), 2016.
[34] Prem Melville, Wojciech Gryc and Richard D. Lawrence, Sentiment analysis
of blogs by combining lexical knowledge with text classification ,KDD 09 Proceedings
of the 15th ACM SIGKDD international conference on Knowledge discovery
and data mining, 2009.
[35] Alec Go, Richa Bhayani and Lei Huang, Twitter sentiment classification using
distant supervision, 2009.
[36] Luciano Barbosa and Junlan Feng, Robust sentiment detection on Twitter from
biased and noisy data, COLING 10 Proceedings of the 23rd International Con-
ference on Computational Linguistics: Posters, 2010.
[37] Yiannis Kompatsiaris, Bernard Merialdo and Shiguo Lian, TV Content Anal-
ysis: Techniques and Applications, CRC Press, 2011.
[38] Vasileios Lampos and Nello Cristianini , Tracking the flu pandemic by monitoring
the Social Web.
[39] Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge et
Noah A. Smith , From Tweets to Polls: Linking Text Sentiment to Public Opin-
ion Time Series, the International AAAI Conference on Weblogs and Social
Media, 2010.
[40] Laura Robinson, Shelia R. Cotton et Jeremy Schulz, Communication and
Information Technologies Annual: Politics and Participation, Emerald, 2015.
[41] Yelena Mejova, Ingmar Weber et Michael W.Macy, Twitter: A Digital Socio-
scope, Cambrdige University Press, 2015.
[42] Takeshi Sakaki, Makoto Okazaki et Yutaka Matsuo, Earthquake shakes Twitter
users: real-time event detection by social sensors, WWW 10 Proceedings of the
19th international conference on World wide web, 2010.
38
R´ef´erences
[43] Francis Harvey et Yee Leung, Advances in Spatial Data Handling and Analysis:
Select Papers from the 16th IGU Spatial Data Handling Symposium, Springer, 2015.
[44] Basant Agarwal et Namita Mittal, Prominent Feature Extraction for Sentiment
Analysis, Cham Heidelberg New York Dordrecht London, 2013.
[45] Willi Richert et Luis Pedro Coelho, Building Machine Learning Systems with
Python, Packt Publishing Ltd., Birmingham B3 2PB, UK, 2013.
39

Contenu connexe

Tendances

Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
MOHAMMED MOURADI
 
La veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clésLa veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clés
Loïc Haÿ
 
Mémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - SharitizMémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - Sharitiz
Philippe JEAN-BAPTISTE, Executive MBA, MSc, MA
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
Aziz Darouichi
 
Cours de Gestion de la « E- Réputation»
Cours de Gestion de la « E- Réputation» Cours de Gestion de la « E- Réputation»
Cours de Gestion de la « E- Réputation»
Babacar LO
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
 
Rapport de projet de fin d'étude licence informatique et multimédia
Rapport de projet de fin d'étude licence informatique et multimédiaRapport de projet de fin d'étude licence informatique et multimédia
Rapport de projet de fin d'étude licence informatique et multimédia
Nazih Heni
 
Implémentation d’une solution E-CRM
Implémentation d’une solution E-CRMImplémentation d’une solution E-CRM
Implémentation d’une solution E-CRM
Nassim Bahri
 
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING PRIVÉ BASÉE SUR UN ...
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING  PRIVÉ BASÉE SUR UN ...ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING  PRIVÉ BASÉE SUR UN ...
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING PRIVÉ BASÉE SUR UN ...
Borel NZOGANG
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
Lilia Sfaxi
 
Big data
Big dataBig data
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Haytam EL YOUSSFI
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
Maaouia Hamza
 
Réseaux Sociaux et le WEB 2.0
Réseaux Sociaux et le WEB 2.0Réseaux Sociaux et le WEB 2.0
Réseaux Sociaux et le WEB 2.0
simeon
 
Reconnaissance faciale
Reconnaissance facialeReconnaissance faciale
Reconnaissance faciale
Aymen Fodda
 
Cahier des charges site internet
Cahier des charges site internetCahier des charges site internet
Cahier des charges site internet
EPC Familia
 

Tendances (20)

Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
Rapport application web (Spring BOOT,angular4) et mobile(ionc3) gestion des a...
 
La veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clésLa veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clés
 
Mémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - SharitizMémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - Sharitiz
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Exposé 1
Exposé   1Exposé   1
Exposé 1
 
Approche Mda
Approche MdaApproche Mda
Approche Mda
 
Cours de Gestion de la « E- Réputation»
Cours de Gestion de la « E- Réputation» Cours de Gestion de la « E- Réputation»
Cours de Gestion de la « E- Réputation»
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Rapport de projet de fin d'étude licence informatique et multimédia
Rapport de projet de fin d'étude licence informatique et multimédiaRapport de projet de fin d'étude licence informatique et multimédia
Rapport de projet de fin d'étude licence informatique et multimédia
 
Implémentation d’une solution E-CRM
Implémentation d’une solution E-CRMImplémentation d’une solution E-CRM
Implémentation d’une solution E-CRM
 
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING PRIVÉ BASÉE SUR UN ...
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING  PRIVÉ BASÉE SUR UN ...ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING  PRIVÉ BASÉE SUR UN ...
ETUDE ET MISE EN PLACE D'UNE SOLUTION DE CLOUD COMPUTING PRIVÉ BASÉE SUR UN ...
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Big data
Big dataBig data
Big data
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
 
Réseaux Sociaux et le WEB 2.0
Réseaux Sociaux et le WEB 2.0Réseaux Sociaux et le WEB 2.0
Réseaux Sociaux et le WEB 2.0
 
Td dw1
Td dw1Td dw1
Td dw1
 
Reconnaissance faciale
Reconnaissance facialeReconnaissance faciale
Reconnaissance faciale
 
خرائط المفاهيم عبدالحميد السيد
خرائط المفاهيم  عبدالحميد السيدخرائط المفاهيم  عبدالحميد السيد
خرائط المفاهيم عبدالحميد السيد
 
Cahier des charges site internet
Cahier des charges site internetCahier des charges site internet
Cahier des charges site internet
 

En vedette

Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
Nour El Houda Megherbi
 
Introduction to Sentiment Analysis
Introduction to Sentiment AnalysisIntroduction to Sentiment Analysis
Introduction to Sentiment Analysis
Makrand Patil
 
How Sentiment Analysis works
How Sentiment Analysis worksHow Sentiment Analysis works
How Sentiment Analysis works
CJ Jenkins
 
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoises
Michelle Blanc
 
La datavisualisation
La datavisualisationLa datavisualisation
La datavisualisation
Soft Computing
 
Opinion mining: où en est-on ?
Opinion mining: où en est-on ?Opinion mining: où en est-on ?
Opinion mining: où en est-on ?
bnc77510
 
Tutorial of Sentiment Analysis
Tutorial of Sentiment AnalysisTutorial of Sentiment Analysis
Tutorial of Sentiment Analysis
Fabio Benedetti
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)
Kavita Ganesan
 
Opinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applicationsOpinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applications
Lingway
 
Sentiment Analysis in Twitter
Sentiment Analysis in TwitterSentiment Analysis in Twitter
Sentiment Analysis in Twitter
Ayushi Dalmia
 
Sentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSentiment Analysis of Twitter Data
Sentiment Analysis of Twitter Data
Sumit Raj
 
Big Data & Sentiment Analysis
Big Data & Sentiment AnalysisBig Data & Sentiment Analysis
Big Data & Sentiment Analysis
Michel Bruley
 

En vedette (12)

Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Introduction to Sentiment Analysis
Introduction to Sentiment AnalysisIntroduction to Sentiment Analysis
Introduction to Sentiment Analysis
 
How Sentiment Analysis works
How Sentiment Analysis worksHow Sentiment Analysis works
How Sentiment Analysis works
 
Analyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoisesAnalyse de sentiment - Charte des valeurs québécoises
Analyse de sentiment - Charte des valeurs québécoises
 
La datavisualisation
La datavisualisationLa datavisualisation
La datavisualisation
 
Opinion mining: où en est-on ?
Opinion mining: où en est-on ?Opinion mining: où en est-on ?
Opinion mining: où en est-on ?
 
Tutorial of Sentiment Analysis
Tutorial of Sentiment AnalysisTutorial of Sentiment Analysis
Tutorial of Sentiment Analysis
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)
 
Opinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applicationsOpinion Mining : Etat de l'art et exemples d'applications
Opinion Mining : Etat de l'art et exemples d'applications
 
Sentiment Analysis in Twitter
Sentiment Analysis in TwitterSentiment Analysis in Twitter
Sentiment Analysis in Twitter
 
Sentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSentiment Analysis of Twitter Data
Sentiment Analysis of Twitter Data
 
Big Data & Sentiment Analysis
Big Data & Sentiment AnalysisBig Data & Sentiment Analysis
Big Data & Sentiment Analysis
 

Similaire à Analyse des sentiments cas twitter - univ ghardaia algerie

Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
Anticipation et gestion du risque numérique : Proposition d’un guide de trava...Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
Andres Coronado
 
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en françaisGénération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
louisdv
 
Guide Twitter pour les préfectures
Guide Twitter pour les préfecturesGuide Twitter pour les préfectures
Guide Twitter pour les préfectures
Service d'information du Gouvernement
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2
hassan1488
 
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
YounesAGABI
 
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Rim ENNOUR
 
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdfRapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
JihenBenfredj
 
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
JeanPhilippeTurcotte5
 
La génération 2.0 chinoise
La génération 2.0 chinoiseLa génération 2.0 chinoise
La génération 2.0 chinoise
svenska33
 
Rapport_PFE_analyse_de_données_BI_2021.pdf
Rapport_PFE_analyse_de_données_BI_2021.pdfRapport_PFE_analyse_de_données_BI_2021.pdf
Rapport_PFE_analyse_de_données_BI_2021.pdf
RihabBenSalem5
 
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
Kévin BISIAUX
 
Extrait de la 2nd édition de la Boîte à Outils du mind mapping
Extrait de la 2nd édition de la Boîte à Outils du mind mappingExtrait de la 2nd édition de la Boîte à Outils du mind mapping
Extrait de la 2nd édition de la Boîte à Outils du mind mapping
delengaigne xavier
 
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
POD Maatschappelijke Integratie - SPP Intégration Sociale
 
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
Cahuzac Alexandre
 
Guide Mediametrie Netratings - Interface France
Guide Mediametrie Netratings - Interface FranceGuide Mediametrie Netratings - Interface France
Guide Mediametrie Netratings - Interface France
Romain Fonnier
 
Rapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesRapport Projet de Fin d'Etudes
Rapport Projet de Fin d'Etudes
Hosni Mansour
 
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
medecin dentiste
 

Similaire à Analyse des sentiments cas twitter - univ ghardaia algerie (20)

Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
Anticipation et gestion du risque numérique : Proposition d’un guide de trava...Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
Anticipation et gestion du risque numérique : Proposition d’un guide de trava...
 
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en françaisGénération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
 
Guide Twitter pour les préfectures
Guide Twitter pour les préfecturesGuide Twitter pour les préfectures
Guide Twitter pour les préfectures
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2
 
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
YouTaQA : Système de Questions-Réponses Intelligent basé sur le Deep Learning...
 
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.Concéption et réalisation d'un processus décisionnel, tableau de bord social.
Concéption et réalisation d'un processus décisionnel, tableau de bord social.
 
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdfRapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
Rapport_PFE__Sesame__SAF INEZ_V0 (2).pdf
 
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
 
La génération 2.0 chinoise
La génération 2.0 chinoiseLa génération 2.0 chinoise
La génération 2.0 chinoise
 
Rapport_PFE_analyse_de_données_BI_2021.pdf
Rapport_PFE_analyse_de_données_BI_2021.pdfRapport_PFE_analyse_de_données_BI_2021.pdf
Rapport_PFE_analyse_de_données_BI_2021.pdf
 
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
Les aidants de personnes âgées dépendantes. Quelle place dans les services de...
 
Extrait de la 2nd édition de la Boîte à Outils du mind mapping
Extrait de la 2nd édition de la Boîte à Outils du mind mappingExtrait de la 2nd édition de la Boîte à Outils du mind mapping
Extrait de la 2nd édition de la Boîte à Outils du mind mapping
 
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
 
thesis
thesisthesis
thesis
 
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
LE PLACEMENT DE PRODUITS ET DE MARQUES DANS LES JEUX EN-LIGNE MASSIVEMENT MUL...
 
jeux
jeuxjeux
jeux
 
Guide Mediametrie Netratings - Interface France
Guide Mediametrie Netratings - Interface FranceGuide Mediametrie Netratings - Interface France
Guide Mediametrie Netratings - Interface France
 
Rapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesRapport Projet de Fin d'Etudes
Rapport Projet de Fin d'Etudes
 
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
 

Plus de Soumia Elyakote HERMA

Memoire licence informatique application gestion personnel par herma - zita...
Memoire licence  informatique application gestion personnel  par herma - zita...Memoire licence  informatique application gestion personnel  par herma - zita...
Memoire licence informatique application gestion personnel par herma - zita...
Soumia Elyakote HERMA
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
Soumia Elyakote HERMA
 
Compte rendu : Le routage dynamique RIP V1
Compte rendu : Le routage dynamique RIP V1Compte rendu : Le routage dynamique RIP V1
Compte rendu : Le routage dynamique RIP V1
Soumia Elyakote HERMA
 
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
Soumia Elyakote HERMA
 
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Soumia Elyakote HERMA
 
Diapo fin d'étude bdd université ghardaia licence informatique
Diapo fin d'étude bdd université ghardaia  licence informatiqueDiapo fin d'étude bdd université ghardaia  licence informatique
Diapo fin d'étude bdd université ghardaia licence informatique
Soumia Elyakote HERMA
 

Plus de Soumia Elyakote HERMA (6)

Memoire licence informatique application gestion personnel par herma - zita...
Memoire licence  informatique application gestion personnel  par herma - zita...Memoire licence  informatique application gestion personnel  par herma - zita...
Memoire licence informatique application gestion personnel par herma - zita...
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
 
Compte rendu : Le routage dynamique RIP V1
Compte rendu : Le routage dynamique RIP V1Compte rendu : Le routage dynamique RIP V1
Compte rendu : Le routage dynamique RIP V1
 
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
L'impact des incriments des séquences de tri Shell. Expérimentation des séque...
 
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
 
Diapo fin d'étude bdd université ghardaia licence informatique
Diapo fin d'étude bdd université ghardaia  licence informatiqueDiapo fin d'étude bdd université ghardaia  licence informatique
Diapo fin d'étude bdd université ghardaia licence informatique
 

Analyse des sentiments cas twitter - univ ghardaia algerie

  • 1. ‫اجل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ه‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اجل‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ائ‬‫ز‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫الدمي‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـق‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫اط‬‫ر‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ال‬ ‫ة‬‫ـ‬‫ـ‬‫ـ‬‫ش‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـع‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ة‬ REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE ‫ـ‬‫ت‬‫ال‬ ‫ارة‬‫ز‬‫و‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫م‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ب‬‫ال‬ ‫و‬ ‫ايل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫الع‬ ‫حث‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬ Ministère de l’Enseignement Supérieur et de la Recherche Scientifique ‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـامعة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـردا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫غ‬ Université de Ghardaia ‫ـا‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـوج‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ن‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ت‬‫ال‬‫و‬ ‫ـوم‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ع‬‫ال‬ ‫ـة‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ي‬‫ـل‬‫ـ‬‫ـ‬‫ـ‬‫ـ‬‫ك‬ Faculté des Sciences et de Technologie ‫ـ‬‫س‬‫ق‬‫ـي‬‫ـ‬‫ـ‬‫ـ‬‫ل‬‫اآل‬ ‫االعالم‬ ‫و‬ ‫ياضيات‬‫ر‬‫ال‬ ‫ـم‬‫ـ‬ Département des Mathématiques et Informatique MEMOIRE Présenté pour l’obtention du diplôme de MASTER En : Informatique Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC) Par : Soumia Elyakoute HERMA et Khadidja SAIFIA Sujet ANALYSE DES SENTIMENTS CAS TWITTER Soutenu publiquement, le 21/ Juin / 2016, devant le jury composé de : M. Djelloul ZIADI Professeur Univ. Rouen-France Président M. Slimane BELLAOUAR Maitre Assistant A Univ. Ghardaïa Encadreur M. Slimane OULAD NAOUI Maitre Assistant A Univ. Ghardaïa Examinateur M. Abderrahmane ADJILA Maitre Assistant B Univ. Ghardaïa Examinateur Année Universitaire 2015/2016
  • 4. R´esum´e L’analyse des sentiments est une technologie d’analyse automatique des discours, ´ecrits ou parl´es dans le but consiste `a extraire des informations subjectives comme des jugements, des ´evaluations ou des ´emotions pour d´etecter la polarit´e d’une opinion. L’importance de l’analyse des sentiments est pr´esente dans plusieurs domaines, `a savoir politique, marketing, gestion de la r´eputation,... Dans ce m´emoire, notre objectif consiste `a d´evoiler les secrets d’un tel domaine en adoptant une approche pour l’apprentissage automatique. Pour ce faire nous avons impl´ement´e la m´ethode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des tweets. Nous avons consid´er´e deux mod`eles de repr´esentation de donn´ees, `a savoir, le mod`ele bool´een et un autre mod`ele s´emantique avec la pond´eration TF-IDF (Term Frequency - Inverse Document Freqency). Les r´esultats obtenus en terme de pr´ecision, rappel et F1-mesure r´ev`elent que la repr´esentation avec un mod`ele TF-IDF est mieux adapt´ee. Mots-cl´es : Analyse des Sentiments, d´etection d’opinion, polarit´e, Na¨ıve Bayes, mod`ele bool´een, TF-IDF, Twitter. Abstract Sentiment Analysis is an automatic analysis technology of written or spoken speeches, aims to extract subjective information like judgments, evaluations or emotions to detect the polarity of an opinion. The importance of sentiment analysis is present in several fields, namely: politics, marketing, reputation manage- ment, ... In this thesis, our objective is to reveal some secrets of this field by adopting a machine learning approach. With this intention we implemented the Naive Bayes probabilistic method on the Neik Sander corpora of tweets. We considered two data representation models, the Boolean model and a semantic model with TF-IDF weighting. The obtained results in terms of precision, recall and, F1-score reveal that the representation with a TF-IDF model is best placed. Key words: Sentiment Analysis, opinion detection, polarity, Na¨ıve Bayes, Boolean model, TF-IDF, Twitter.
  • 5. ‘ © jÊÓ ¦t © « reÓñÊªÓ h F d © j tƒd © ¬‰¦îiF D e«ñÒ¦‚Ó ð d euF ñ tºÓ © àe¦» dñƒ D r F e¢ © mÌ9d ÉtÊj tË étË d etkF ñËñ © tº u ù ¦ë © ­£dñ¦¦ªËd ÉtÊm 9 ú © ¯ ©áÒº u é © ®¦£eªËd Ét¦Êm 9 étÒë d F eÓ ø d€ ékF ñ u ð é tuF e¢ ® tƒd © ­ ‚» ÉgF f «e¦ ‚ÖÏd ð d reÒtt ® tËd D Ðe¾k fd É tÓ ét«ñ © “ñÓ éuF €e ®Ó €etF¦ t«euF ÈejF ÖÏd d © ‰ë ¦ƒ © ­ ‚» ñë e © t © ¯‰ë D 聻 © ‰ÖÏd è © ‰¦ë ú © ¯ FFF D 骦҂Ëd è€dˆd D ‡uñ¦‚ (Ëd D éƒet‚Ëe¿ D rfemF × è ‰« F re tuñ u ©áÓ © €€‰ © ueƒ ½ue © u ret¢ªÓ é«ñÒmF × úΫ NaiveBayes ét ue’kfd é ®u¢Ëd e © tÓ‰ © j tƒd ½Ë © ˆ ÉgF d ©áÓ F éË fd ÕΪ u l F 9e t © tËd F TF − IDF rdˆ © ®ÖÏd © àd © €ð euF ú Ífˆ h F © ˆñÖ © ß ð ù ®¢ © tÖÏd h F © ˆñÒ © tËd D eÒë D ret¢ªÖÏd Ét tÒ tË ©á0gF © ˆñÖ © ß e © tËeÒª tƒd stk ñm © 9 úΫ ÉÒªu TF − IDF h F © ˆñÒ © tuF Ét tÒ tËd © à d s © ® ‚» €et ®I © ¯ d 𠁻 © ‰ tËdD é ¯‰Ëd (ue ®ÖÏd ÈeÒª tƒeuF eîhÊ« É’¦j tÖÏd F É © ’ © ¯ d F 0uñ u D TF − IDF D ù ®¢ © tÖÏd h F © ˆñÒ © tËd D NaiveBayes D é tuF e¢ ® tƒd D ø dËd © ­ ‚» D © ­£dñªËd ÉtÊm 9 X ét k e t © ®ÖÏ d r eÒÊ¾Ë d
  • 6. D´edicace Je d´edie ce travail: A mon ch`ere P`ere, qui est la lumi`ere de ma vie, A ma M`ere Dieu ait son ˆame, A Maman que Dieu lui garde, A mes ch`eres fr`eres et seours, sp´ecialement Saber et Islam, A mes fid`eles amis de proche ou de loin, A tout qui porte le nom HERMA. Soumia Yakoute
  • 7. D´edicace Je d´edie ce modeste travail `a : grande m`ere Dieu ait son ˆame Celle qui est plus cher que mon ˆame et mon sang, la lumi`ere de mon chemin, `A ma m`ere ador´ee. Mon cher p`ere, qui m’a toujours encourag´ee et conseill´ee. A mon fr`ere : S.Ahmed A mes soeurs: D.Sarah, H.Amel, B.Amina A grande m`ere et tr`es chers famille: B.Nour el houda, D.Badis ,Z.Rabah, S.houria, S.Fatima, S.Fatiha. A ma ch`ere Tante : S.Houria A ma cher Tonton : Dourroussi houssine A tous les enseignants de l’informatique, Et tous les ´etudiants de l’informatique, en particulier la promotion 2016. A tous ceux qui portent les noms Saifia et Salah. A toute personne utilisant ce document pour un bon usage. Khadidja
  • 8. Table des mati`ere LISTE DES TABLEAUX iv LISTE DES FIGURES v LISTE DES ALGORITHMES vi REMERCIEMENT vii INTRODUCTION G´EN´ERALE 1 1 PRELIMINAIRES 2 1.1 G´en´eralit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.1 Medias sociaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.2 Le Traitement automatique des langues naturelles (TAL) . . . . . . . 3 1.1.3 Le Classifieur Na¨ıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Analyse des Sentiments et Domaines d’Applications . . . . . . . . . . . . . 9 1.2.1 D´efinitions de l’analyse des sentiments . . . . . . . . . . . . . . . . . 9 1.2.2 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . 10 1.3 Sources des Donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.1 Twitter et tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.2 Caract´eristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . . 13 ii
  • 9. TABLE DES MATI`ERE TABLE DES MATI`ERE 2 ´ETAT DE L’ART 15 2.1 Approches de l’Analyse des Sentiments et la D´etection d’Opinions . . . . . . 15 2.1.1 Approches d’apprentissage automatique . . . . . . . . . . . . . . . . . 15 2.1.2 Approche lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.1.3 Approches hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Historique sur l’Analyse des Sentiments . . . . . . . . . . . . . . . . . . . . . 17 2.3 Travaux sur L’Analyse des Sentiments avec Twitter . . . . . . . . . . . . . . 18 2.3.1 Classification de sentiments . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.2 Pr´ediction des r´esultats . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.3 D´etection des ´ev`enements . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4 Difficult´es de la Fouille d’opinions et de l’Analyse des Sentiments . . . . . . 21 3 EXP´ERIMENTATION : APPRENTISSAGE ET TEST 22 3.1 Environnement de Travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1.1 Environnement mat´eriel . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.1 Source des donn´ees (Data set) . . . . . . . . . . . . . . . . . . . . . . 24 3.2.2 Pr´etraitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.3 Extraction et pr´esentation des descripteurs . . . . . . . . . . . . . . . 29 3.2.4 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3 Phase de Test et Interpr´etation . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.1 Pr´esentation des r´esultats et discussion . . . . . . . . . . . . . . . . . 32 CONCLUSION 34 BIBLIOGRAPHIE 35 iii
  • 10. Liste des Tables 1.1 Exemple d’applcation de l’algorithme de Na¨ıve Bayes. . . . . . . . . . . . . . 8 3.1 Description du corpus Niek Sanders . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 A gauche -Emoticons Positive n´egative-, `a droite -Abr´eviaton en Anglais- 26 3.3 Les formes contract´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.4 Tweets avant et apr`es le pr´etraitement . . . . . . . . . . . . . . . . . . . . . 29 3.5 Table de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.6 R´esultats du classifieur en m´ethode bool´eenne . . . . . . . . . . . . . . . . . 32 3.7 R´esultats du classifieur en m´ethode de pond´eration TF-IDF . . . . . . . . . 33 iv
  • 11. Liste des Figures 1.1 L’intuition du classifieur Multinomial Na¨ıve Bayes appliqu´e `a des avis d’un film dont leur position est ignor´ee (sac de mots) . . . . . . . . . . . . . . . . 4 3.1 Processus de l’apprentissage automatique . . . . . . . . . . . . . . . . . . . . 22 v
  • 12. Liste des Algorithmes 1 Algorithme Train Na¨ıve Bayes(D,C) . . . . . . . . . . . . . . . . . . . . . . . 7 2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V) . . . . . . . 7 3 Fonction getData pour r´ecup´er´e le corpus . . . . . . . . . . . . . . . . . . . 25 4 Appelle et entrainement du classifieur NB . . . . . . . . . . . . . . . . . . . 31 vi
  • 13. REMERCIEMENT Au premier temps, nous remercions Allah qui nous a aid´e `a r´ealiser ce travail, et qui a ´et´e avec nous en tout le moment. Nous remercions ´egalement notre encadreur Monsieur Slimane BELLAOUAR pour l’aide et les conseils concernant les missions ´evoqu´ees dans ce Projet de fin d’´etude, qu’il nous a apport´e lors des diff´erents suivis. Nous tenons `a remercier Pr. Djelloul ZIADI, Mr. Slimane OULAD NAOUI, Toufik GHARIB, ADJILA Abderrahmane, et les responsables de la formation Syst`eme Intelli- gent pour Extraction des Connaissance ”SIEC”, pour avoir assur´e cette formation, et toute l’´equipe p´edagogique de d´epartement du Math´ematiques et Informatique de notre universit´e. Nous adressons nos remerciements aux personnes de loin ou de proche qui nous ont aid´e dans la r´ealisation de ce m´emoire. vii
  • 14. INTRODUCTION G´EN´ERALE Avec l’av`enement du web et l’explosion des sources des donn´ees telles que les sites d’avis, les blogs et les microblogs est apparu la n´ecessit´e d’analyser des millions des postes, de tweets ou d’avis afin de savoir ce que pensent les internautes. L’analyse des sentiments est une technologie d’analyse automatique des discours, ´ecrits ou parl´es et d’en faire ressortir les diff´erentes opinions exprim´ees sur un sujet pr´ecis comme une marque, une actualit´e ou un produit. L’importance de l’analyse des sentiments est pr´esente dans plusieurs domaines, `a savoir politique, marketing, gestion de la r´eputation, ... L’analyse des sentiments rel`eve de plusieurs disciplines en l’occurrence d’une part du traitement automatique du la langage naturel (Naturel Langage Processing) et d’autre part de l’apprentissage automatique (Machine Learning). Dans ce m´emoire, notre objectif consiste `a d´evoiler les secrets de l’analyse des senti- ments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons impl´ement´e la m´ethode probabiliste Na¨ıve Bayes sur le corpus Neik Sander des tweets. Nous avons consid´er´e deux mod`eles de repr´esentation de donn´ees, `a savoir, le mod`ele bool´een et un autre mod`ele s´emantique avec la pond´eration TF-IDF. Les r´esultats obtenus en terme de pr´ecision, rappel et F1-mesure r´ev`elent que la repr´esentation avec un mod`ele TF-IDF est mieux plac´ee. Le reste du m´emoire est organis´e en trois chapitres : nous consacrons un premier chapitre `a pr´esenter des g´en´eralit´es sur le domaine d’analyse des sentiments en particulier Twitter comme source d’opinions. Le second chapitre se focalise sur l’´etat de l’art de l’analyse des sentiments, notamment les travaux inh´erents `a l’analyse des sentiments Twitter. Notre troisi`eme chapitre pr´esente l’exp´erimention et la m´ethode Na¨ıve Bayes en consid´erant les phases d’apprentissage et de test. Nous concluons avec une synth`ese de travail et des perspectives. 1
  • 15. Chapter 1 PRELIMINAIRES 1.1 G´en´eralit´es Dans cette section, nous d´efinissons quelques concepts de base importants utilis´es dans ce que suit. 1.1.1 Medias sociaux Le terme m´edia est le pluriel du mot latin medium qui signifie moyen, milieu ou lien. En effet le terme lien exprime une relation ou une liaison entre les acteurs des m´edias. Par cons´equence les m´edias classique tels que la t´el´evision, la presse et la radio peuvent ˆetre consid´er´es comme des medias sociaux puisqu’ils relient les hommes par informations [1]. Selon cette vision, l’expression m´edias sociaux regroupe sous la mˆeme enseigne une grande vari´et´e de dispositifs, tels les blogs, les wiki, les sites r´eseaux socio-num´erique (Facebook, LinkedIn), les microblogues (Twitter, Jaiku), le bookmarking collectif, les partage de con- tenus m´ediatique comme la musique, les photos et les vid´eos [2]. Une d´efinition technique purement informatique est pr´esent´ee dans [3], Un groupe d’applications en ligne qui se fondent sur l’id´eologie et la technologie du Web 2.01 et permettent la cr´eation et l’´echange du contenu g´en´er´e par les utilisateurs. Le concept de m´edias sociaux se r´ef`ere donc aux moyens de communication, `a la tech- nologie utilis´ee, aux modes d’interaction sociale ainsi qu’`a la culture des usagers de ces services. 1 Web 2.0 apparu en 1999, fond´e notamment sur le partage de l’information, l’implication des utilisateurs dans la cr´eation de contenu et les r´eseaux sociaux. 2
  • 16. Chapitre 1 PRELIMINAIRES 1.1.2 Le Traitement automatique des langues naturelles (TAL) Dans la litt´erature, Le traitement automatique des langues naturelles (TAL) ou Le traitement du langage naturel (TALN) sont utilis´es indiff´eremment. Pierrette bouillon [4] d´efinit le TAL comme suit : TAL a pour objet la cr´eation de programmes informatiques capables de traiter automatiquement les langues naturelles. Ela Kumar [5], par contre d´efinit le TAL selon une vision de l’intelligence artificielle et pro- grammation : Le TAL est un domaine significatif de l’intelligence artificielle parce qu’un ordinateur serait consid´er´e comme intelligent s’il peut comprendre la commande donn´ee en langage naturel au lieu de C, Fortran ou Pascal. Par cons´equent et avec la capacit´e d’ordinateur `a comprendre le langage naturel, il devient beaucoup plus facile de communi- quer avec les ordinateurs. Par ailleurs le TAL peut ˆetre appliqu´e comme outil de productivit´e dans des applications allant du r´esume des informations jusqu’`a la traduction d’une langue `a une autre. Une d´efinition plus technique est donn´ee par JeanVeronis [6], on regroupe sous le voca- ble TALN l’ensemble des recherches et d´eveloppements visant `a mod´eliser et `a reproduire, `a l’aide de machines, la capacit´e humaine `a produire et `a comprendre des ´enonc´es linguistiques dans des buts de communication. 1.1.3 Le Classifieur Na¨ıve Bayes Cette partie se r´ef`ere en g´en´eral `a l’ouvrage ”Speech and Language Processing” [7]. L’id´ee d’inf´erence bay´esienne est connue depuis les travaux de Bayes en 1763. Elle a ´et´e d’abord appliqu´ee `a la classification du texte par Mosteller et Wallace des ann´ee 1964. L’intuition de ce classifieur se pr´esente dans la Figure 1.1. Le document textuel est repr´esent´e sous forme d’un sac de mots (bag-of-words), qui est un ensemble de mots non ordonn´e dont les positions sont ignor´ees. Autrement dit, on ne conserve que leurs fr´equences dans le document. Dans cet exemple, au lieu de repr´esenter l’ordre des mots dans toutes les expressions comme ”I love this film” et ” I would recommend it”, nous remarquons simplement que le mot ‘I’ apparait 5 fois dans tout l’extrait, le mot ‘it’ 6 fois, et le ‘movie’ une fois, et ainsi de suite. 3
  • 17. Chapitre 1 PRELIMINAIRES Figure 1.1: L’intuition du classifieur Multinomial Na¨ıve Bayes appliqu´e `a des avis d’un film dont leur position est ignor´ee (sac de mots) Na¨ıve Bayes est un classifieur probabiliste. Pour un document d, sur toutes les classes c ∈ C le classifieur renvoie la classe ˆc qui a la probabilit´e a posteriori maximale donn´ee du document, dans l’´equation 1.1. Nous utilisons le ˆc pour d´esigner l’estimation de la bonne classe. ˆc = arg max c∈C P(c/d) (1.1) 1.1.3.1 L’inf´erence Bay´esienne L’intuition de la classification bay´esienne est d’utiliser la r`egle de Bayes pour transformer l’´equation 1.1 en d’autres probabilit´es qui ont des propri´et´es utiles. La r`egle de Bayes est exprim´ee dans l’´equation 1.2, elle nous donne un moyen de briser toute probabilit´e conditionnelle P(A/B) en trois autres probabilit´es : P(A/B) = P(B/A) ∗ P(A) P(B) (1.2) 4
  • 18. Chapitre 1 PRELIMINAIRES On peut alors remplacer l’´equation 1.2 dans 1.1 pour obtenir 1.3 : ˆc = arg max c∈C P(c/d) = arg max c∈C P(d/c) ∗ P(c) P(d) (1.3) Nous pouvons facilement simplifier l’´equation 1.3 en supprimant le d´enominateur P(d). Cela est possible parce que nous allons calculer P(d/c)∗P(c) P(d) pour chaque classe possible. Mais P(d) ne change pas pour chaque classe. Ainsi, nous pouvons choisir la classe qui maximise cette formule simple : ˆc = arg max c∈C P(c/d) = arg max c∈C P(d/c) ∗ P(c) (1.4) Nous calculons donc la classe la plus probable ˆc, ´etant donn´e un document d en choisissant la classe qui a le plus grand produit de deux probabilit´es : la probabilit´e a priori de la classe P(c), et la probabilit´e conditionnelle P(d/c) du document. Nous pouvons repr´esenter un document d comme un ensemble des descripteurs F = f1, f2, . . . , fn ainsi l’´equation 1.4 devient comme suit: ˆc = arg max c∈C P(f1, f2, . . . , fn/c) ∗ P(c) (1.5) Malheureusement l’´equation 1.5 est encore trop difficile `a calculer directement. Le classifieur Na¨ıve Bayes fait donc deux hypoth`eses simplificatrices. La premi`ere est hypoth`ese du sac de mots discut´ee intuitivement ci-avant qui suppose que la position du mot n’a pas d’importance. Ainsi, nous supposons que les descripteurs f1, f2, . . . , fn encodent seulement les identit´es des mots et non pas leurs positions. Le second est appel´e l’hypoth`ese Na¨ıve Bayes : ceci est l’hypoth`ese d’ind´ependance con- ditionnelle que les probabilit´es P(fi/c) sont ind´ependants ´etant donn´e la classe c et donc peuvent ˆetre ”na¨ıvement” multipli´ees comme suit : P(f1, f2, . . . , fn/c) = P(f1/c).P(f2/c). . . . .P(fn/c) (1.6) L’´equation finale pour la classe cNB choisie par le classifieur Na¨ıve Bayes est la suivante : cNB = arg max c∈C P(c) f∈F P(f/c) (1.7) Pour appliquer le classifieur Na¨ıve Bayes au texte. Il suffit de consid´erer les mots comme des descripteurs, ainsi F = w1, w2, ..., wn. 5
  • 19. Chapitre 1 PRELIMINAIRES cNB = arg max c∈C P(c) wi∈F P(wi/c) (1.8) Le calcul de Na¨ıve Bayes, comme les calcule pour la mod´elisation du langage sont faites de logarithme afin d’´eviter les probl`emes de calcul des petites valeurs (underflow), et pour augmenter la rapidit´e du calcul. Ainsi, l’´equation 1.8 devient: cNB = arg max c∈C logP(c) + wi∈F logP(wi/c) (1.9) Il est claire que le calcul de la classe estim´ee est une fonction lin´eaire des descripteurs d’entr´ee. Le classifieur qui utilise une combinaison lin´eaire des entr´ees pour prendre une d´ecision par classification comme Na¨ıve Bayes sont appel´es des classifieurs lin´eaires. Pour calculer l’´equation 1.9 nous avons besoins de calculer les valeurs P(c) et P(wi/c). P(c): est la probabilit´e a priori de la classe c sans connaˆıtre les donn´ees. P(c) = Nc Ndoc (1.10) Nc: est le nombre des documents ayant comme classe c. Ndoc: est le nombre total des documents. P(wi/c) est la proportion du nombre du mot wi parmi tous les mots dans tous les docu- ments de la th´ematique (classe) c. P(wi/c) = count(wi/c) w∈F (count(w, c)) (1.11) Mais Na¨ıve Bayes multiplie na¨ıvement toutes les probabilit´es, la probabilit´e z´ero dans le terme de la probabilit´e conditionnelle cause au probabilit´e z´ero de la classe, et ce-l`a est inacceptable. La solution la plus simple est l’ajout de 1 (Laplace) lissage. Bien que le lissage de Laplace est g´en´eralement remplac´e par des algorithmes de lissage plus sophistiqu´es dans la mod´elisation du langage, il est couramment utilis´e dans Na¨ıve Bayes texte cat´egorisation : P(Fi/c) = count(Fi/c) + 1 f∈V (count(f, c) + 1) = count(Fi/c) + 1 f∈V (count(f, c))+ | V | (1.12) | V | : le nombre des termes de tout les documents (sac de mot). Ceci ´etant, l’algorithme r´esume le d´emarche de la m´ethode Na¨ıve Bayes pour la classification des textes: 6
  • 20. Chapitre 1 PRELIMINAIRES Algorithm 1 Algorithme Train Na¨ıve Bayes(D,C) INPUT: D: labeled training documents C : Classes Ndoc = number of document in D V = ExtractUniqueTerms(D) // V is vector of all the Bag-of-Words in the corpus V ← vocabulary of D for each class c in C logprior[c] ← log Nc Ndoc bigdoc[c] ← append(d) for d in D with class c for each word w in V count(w, c) ← number of occurences of w in bigdoc[c] loglikelihood[w, c] ← log count(w,c)+1 w inV (count(w ,c)+1) return logprior : logP(c), logliklihood : logP(w, c), V Algorithm 2 Algorithme Test Na¨ıve Bayes(testdoc, logprior, liklihood, C, V) INPUT C: Classes, d: test document, D: Document corpus, logP(c), logP(w, c), V for each class c in C # Calculate P(c) terms sum[c] ← logprior for each w in testdoc if word[w] ∈ V sum[c] ← sum[c] + logliklihood[word[w],c] return argmaxc sum[c] 7
  • 21. Chapitre 1 PRELIMINAIRES 1.1.3.2 Exemple d’application L’exemple ci-dessous 1.1, pr´esente l’apprentissage et le test du classifieur Na¨ıve Bayes. Nous utilisons un domaine d’analyse de sentiment avec deux classes positives (+) et n´egatives (-), et prenons l’apprentissage miniature suivante et testons des simples documents des avis d’un filme r´eelles. Ensemble Classe Tweets Apprentissage − Justplainboring − Entirely predictable and lacks energy − No surprises and very few laughs + Very powerful + The most fun film of the summer Test ? Predictable with no originality Table 1.1: Exemple d’applcation de l’algorithme de Na¨ıve Bayes. La probabilit´e `a priori P(c) pour les deux classes se calcule via l’´equation 1.10 : P(−) = 3 5 P(+) = 2 5 les probabilit´es conditionnelles de l’ensemble d’apprentissage pr´evue pour les quatre mots ”Predictable”, ”with”, ”no”, ”originality”, sont les suivants, `a partir de l’´equation 1.12: P(”predictable” | −) = 1+1 14+20 P(”predictable” | +) = 0+1 9+20 P(”with” | −) = 0+1 14+20 P(”with” | +) = 0+1 9+20 P(”no” | −) = 1+1 14+20 P(”no” | +) = 0+1 9+20 P(”originality” | −) = 0+1 14+20 P(”originality” | +) = 0+1 9+20 Pour la phrase de test S = ”Predictable with no originality”, la classe choisie, se calcule par l’´equation 1.8 ou l’´equation 1.9 P(−)P(”S” | −) = 3 5 ∗ 2∗1∗2∗1 344 = 1.8 ∗ 10−6 P(+)P(”S” | +) = 2 5 ∗ 1∗1∗1∗1 294 = 5.7 ∗ 10−7 ou : log(P(−)) + log(P(”S” | −)) = log(3 5 ) + (log( 2 34 ) + log( 1 34 ) + log( 2 34 ) + log( 1 34 )) = −5, 75 log(P(+)) + log(P(”S” | +)) = log(2 5 ) + (log( 1 29 ) + log( 1 29 ) + log( 1 29 ) + log( 1 29 )) = −6, 25 Le mod`ele estime une classe n´egative pour la phrase de test S. 8
  • 22. Chapitre 1 PRELIMINAIRES 1.2 Analyse des Sentiments et Domaines d’Applications 1.2.1 D´efinitions de l’analyse des sentiments Dans la litt´erature, sentiment analysis, opinion mining, opinion extraction, sentiment mining, subjectivity analysis, affect analysis, emotion analysis, review mining, appraisal ex- traction, sont des termes utilis´es pour d´esigner des technologies d’analyse automatique des discours, ´ecrits ou parl´es, afin d’en extraire des informations subjectives comme des juge- ments, des ´evaluations ou des ´emotions. L’origine de la discipline l’analyse des sentiments se r´ef`ere aux des sciences de la psy- chologie, la sociologie et l’anthropologie [8]. Le terme Analyse Sentimentale se r´ef`ere `a l’extraction automatique de texte ´evaluative, qui aide `a produire des r´esultats pr´edictifs. Le terme analyse de sentiment est apparu en Nasukawa et Yi en 2003 [9], et le terme extraction de l’opinion terme est apparu dans Dave, Laurent et Pennock en 2003 [10]. Cependant, la recherche sur des sentiments et des opinions est apparue plus tˆot dans [11] [12] [13] [14] [15] [16]. Bing Liu [17] a pr´esent´e une d´efinition de l’analyse des sentiments comportant les do- maines d’application ainsi que sa relation avec le TALN : l’analyse des sentiments est le domaine de l’´etude qui analyse les opinions, les sentiments, les ´evaluations, les attitudes et les ´emotions des gens vers des entit´es telles que des produits, des services, des organ- isations, des particuliers, des probl`emes, des ´ev´enements, des sujets, et leurs attributs. Il repr´esente un grand espace de recherche. L’analyse des sentiments est un domaine de recherche extrˆemement actif en traitement automatique des langues. Pour mettre en valeur l’int´erˆet de l’´echange d’opinions dans l’analyse des sentiments, Pang et Lee en 2008 [18] consid`ere que l’opinion des autres a toujours ´et´e une pi`ece d’information tr`es pr´ecieuse au moment de se faire une opinion ou de prendre une d´ecision. En effet, avant l’apparition du Web et l’Internet, les gens avaient int´erˆet `a connaˆıtre les opinions de leurs amis ou de leur famille. Il leur ´etait demand´e de faire savoir quel parti politique recevrait leur voix lors des prochaines ´elections. Grˆace `a l’essor consid´erable qu’ont connu le Web et l’Internet `a partir des ann´ees quatre-vingt-dix, il est devenu possible pour tous de consulter l’opinion d’un vaste groupe de personnes `a travers le Web. Donc l’´echange d’opinion est la phase principale qui permet d’effectuer une analyse de sentiment sur un sujet donn´e. Selon H Tang et S Tan X la plupart des recherches existantes se sont port´ees sur la 9
  • 23. Chapitre 1 PRELIMINAIRES fouille et l’extraction de faits, par exemple, la recherche d’information, la recherche sur le Web et beaucoup d’autres. On assiste, ces derni`eres ann´ees, `a une prise de conscience de l’importance de l’opinion sur le web, ce qui explique les nombreux et r´ecents travaux dans ce domaine [19]. Ils montrent l’importance de l’analyse de sentiment dans le temps actuel. 1.2.2 Domaines d’applications de l’analyse des sentiments L’importance de la d´etection d’opinion est pr´esente dans plusieurs domaines ainsi plusieurs applications ont vu le jour dans ce contexte. Nous citons bri`evement quelques applications ci-dessous: 1.2.2.1 La politique Les acteurs politiques ont suivi la tendance de d´etection d’opinion, tel qu’avant de promulguer une nouvelle loi, les politiciens essayent de r´ecolter l’avis des internautes sur cette loi. Il est int´eressant de connaˆıtre aussi l’avis des internautes sur un homme politique pour une ´election pr´esidentielle [20]. 1.2.2.2 Les entreprises `A travers l’analyse des sentiments, les entreprises peuvent connaˆıtre l’opinion des clients sur leurs produits ou leur service. Dans une perspective d’am´eliorer leurs produits et d’augmenter leurs chiffres d’affaires [20]. Dans le domaine du Product review mining, notamment `a partir des sites de consultation. Les consommateurs viennent y ´echanger des avis et trouver des conseils pour leurs d´ecisions d’achat (produits technologiques, voitures, voyage et hˆotels, ... etc) [27]. Le marketing a rapidement compris l’int´erˆet de l’analyse de sentiment. Des agences vendent aux entreprises la traque des moindres mots sur leur image, sur leurs produits [21]. 1.2.2.3 Les clients L’analyse des sentiments fait partie aussi de vie des internautes. Les sondages dans ce domaine montrent que la majorit´e des clients avant qu’ils ach`etent un produit, ils font des recherches d’avis sur se produit ou un service donn´e et mˆeme ils sont prˆets `a payer plus cher un produit dont l’avis est plus favorable qu’un autre [20]. 10
  • 24. Chapitre 1 PRELIMINAIRES 1.2.2.4 Gestion de r´eputation de la marque (GRM) La gestion de la r´eputation de la marque en Anglais Brand Reputation Management (BRM) se pr´eoccupe par la gestion de le r´eputation de la marque sur le march´e. Les opin- ions des clients ou d’autres parties peuvent endommager ou am´eliorer une telle r´eputation. la GRM est s’int´eresse au produit et `a l’entreprise plutˆot qu’au client. Actuellement, un- `a-plusieurs (one-to-many) conversations ont lieu en ligne `a un taux ´elev´e. Cela cr´ee des opportunit´es pour les organisations `a g´erer et `a renforcer la r´eputation de leurs marque. Maintenant, la perception de marque est d´etermin´ee non seulement par la publicit´e et les relations publiques. Les marques sont devenues une somme des conversations `a leur su- jet. L’analyse des sentiments aide `a d´eterminer comment la marque, produit ou service de l’entreprise est per¸cue par la communaut´e en ligne [22]. 1.3 Sources des Donn´ees Les opinions des utilisateurs pr´esentent le crit`ere principal pour l’am´elioration de la qualit´e des services fournis et la mise en valeur des produits livr´es. Ces opinions se pr´esentent sous diff´erentes sources de donn´ees, `a savoir, sites d’avis, blog et micro-blog. 1.3.1 Sites d’avis Les opinions ont le rˆole de d´ecideur pour tout utilisateur durant la phase d’achat. Les avis g´en´er´es par les utilisateurs sur les produits et les services sont largement disponibles sur internet. La classification de sentiment utilise les donn´ees de l’examinateur collect´ees `a partir des sites Web tels que : • www.gsmarena.com (revues de t´el´ephone portable). • www.amazon.com (revues des produits). • www.CNETdownload.com (revues des produits). Ces sites accueillent des millions d’avis sur les produits par les consommateurs [24] [25]. 11
  • 25. Chapitre 1 PRELIMINAIRES 1.3.2 Blogs Un blog est o`u les personnes peuvent ´ecrire les diff´erent sujets dans un but de partage avec d’autres personnes sur le m´em´e site. La simplicit´e de la cr´eation des postes blogs ainsi que leur forme libre `a rendue le blogging un ´ev`enement accessible. La blogosph`ere nom associ´e `a l’univers de tous les blogs . Sur la blogosph`ere, nous trouvons un nombre important de messages relatif `a une panoplie des sujets d’int´erˆet. Les blogs sont utilis´es sources d’opinions dans la plupart des ´etudes relatives `a l’analyse des sentiments [24] [26]. 1.3.3 Micro-blogs Les micro-blogs sont parmi les outils de communication tr`es populaires des utilisateurs d’internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires pour les micro-bloging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter expriment des opinions qui sont utilis´ees comme source de donn´ees pour classifier le sentiment [24] [27]. 1.4 Twitter En Mars 2006, Twitter a ´et´e cr´ee par le d´eveloppeur Jack Dorsey comme un outil pour rester en contact avec les amis, Twitter est un service sur le Web qui permet aux utilisateurs d’envoyer et de lire un message court [28]. 1.4.1 Twitter et tweet Twitter est un r´eseau social et un microblog qui permet aux utilisateurs de publier des messages en temps r´eel, appel´es tweets. Les tweets sont des messages courts, limit´es `a 140 caract`eres. En raison de la nature de ce service de microblogging (messages rapides et courts), les gens utilisent des acronymes, commissent des erreurs d’orthographe, utilisent des ´emoticˆones et d’autres caract´eristiques qui expriment des significations particuli`eres [29]. Twitter est actuellement l’un des plates-formes de micro-blogage les plus populaires. Son premier slogan ´etait Que faites-vous ? n´eanmoins l’utilisation a pris une autre piste o`u les utilisateurs ´echangent des avis et des informations, le slogan devient ” Quoi de neuf ? ”. Plusieurs c´el´ebrit´es utilisent Twitter, on y trouve mˆeme des chefs d’´Etat. 12
  • 26. Chapitre 1 PRELIMINAIRES Selon les derniers chiffres 2 : • Twitter a plus que 645 millions utilisateurs inscrits. • 58 millions de tweets envoy´es chaque jour. Dans le cadre de l’analyse des sentiments, la petite taille de message formule l’hypoth`ese que ce message ne renferme pas a priori plus d’une seule id´ee, ce qui facilite l’identification de la cible d’une opinion. Mais certains tweets apparaissent comme des messages cod´es `a cause de l’usage des hashtags, abr´eviations en tout genre, argot, et ´emoticons. Les termes `a connaˆıtre pour bien utiliser Twitter, des vocabulaires sp´ecifiques sont utilis´e sur Twitter plus couramment[30] : - Followers : les personnes qui vous suivent. - Followings : les personnes que vous suivez. - Friends : les personnes que vous suivez et qui vous suivent. - Twittos : les utilisateurs de Twitter. - Tweet : court message. - Tweeter : envoyer/poster un message. 1.4.2 Caract´eristique d’un tweet On peut se sentir un peu perdu du vocabulaire de la langue dans les tweets, notamment, `a cause du vocabulaire et symboles sp´ecifiques `a l’utilisation de Twitter. A quoi sert le et # ? C’est quoi RT? Toutes ces abr´eviations peuvent paraitre un peu floues. Dans une perspective de classification, un petit lexique des principaux mots et signes Twitter est pr´esent´e [31] [32]: • Mention @ : se pr´esente sous la forme @NomUtilistauer Il cible un utilisateur de Twitter dans le tweet post´e. Exemple : salut `a vous de la part de @FredColantonio et @alinler. Dans le cadre d’une r´eponse `a un tweet, l’auteur du tweet d’origine est mentionn´e automatiquement dans la r´eponse. 2 http://www.statisticbrain.com/twitter-statistics/ 13
  • 27. Chapitre 1 PRELIMINAIRES • Hashtag # : se pr´esente sous la forme #mot-cl´e. Il identifie le mot-cl´e en question comme important et peut en faire un sujet populaire. Exemple : #gouvernement, #graphisme ou encore #facebook. • RT (ReTweet) : se pr´esente sous la forme RT NomUtilisateur. Il permet de partager le tweet d’un utilisateur. Exemple : RT fredcolantonio Excellent . • URL (Lien) : se pr´esente sous la forme https:// ou http://www. Twitter permet au utilisateur de rejoindre les lien dans son tweet. Exemple : https://web.stanford.edu ou http://www-nlp.stanford.edu/IR-book/. • VIA : s’utilise pour mentionner votre source d’information, dans votre tweet. Exemple : Via YouTube, Via Facebook. 14
  • 28. Chapter 2 ´ETAT DE L’ART Les donn´ees des m´edias sociaux permettent `a l’analyse du sentiment de prendre un grande espace de recherche. 2.1 Approches de l’Analyse des Sentiments et la D´etection d’Opinions Dans la litt´eratures, nous pouvons distinguer trois types d’approches pour la d´etection d’opinions et l’analyse des sentiments : 2.1.1 Approches d’apprentissage automatique Appel´e aussi approche statistique, cette approche se bas´ee sur l’apprentissage automa- tique. Elle utilise la technique de classification pour classer le texte en des classes d´ef´erentes. Il existe principalement deux types de techniques d’apprentissage [33]: 2.1.1.1 Apprentissage supervis´e Il est bas´e sur les donn´ees libell´ees et par cons´equent, les ´etiquettes sont fournies au mod`ele au cours du processus d’apprentissage. Ces donn´ees libell´ees sont utilis´ees par l’algorithme d’apprentissage pour donner un mod`ele qui sera utilis´ee lors de la prise de d´ecision. Certains mod`eles d’apprentissage automatique ont ´et´e formul´ees pour classer les tweets en classes. Les techniques d’apprentissage automatique comme Na¨ıve Bayes (NB), l’entropie maximale (ME), et les machines `a vecteurs de support (SVM) ont donn´e un grand succ`es 15
  • 29. Chapitre 2 ´ETAT DE L’ART dans l’analyse des sentiments. L’apprentissage automatique commence par la collection des donn´ees d’apprentissage. Ensuite, on entraine un classificateur sur ces donn´ees. Une fois une technique de classification supervis´ee est s´electionn´ee, une d´ecision importante `a faire est la s´election des descripteurs. Ces derniers nous disent comment les documents sont caract´eris´es. Les descripteurs les plus couramment utilis´es dans la classification de sentiment sont: • Pr´esence de termes et leur fr´equence. • Information de la partie de discours (POS). • N´egations. • Mots et des phrases d’opinion. 2.1.1.2 Apprentissage non supervis´e Il ne consiste pas d’une classification pr´ecise, donc il se base sur le regroupement. Le succ`es de ces deux m´ethodes d’apprentissage d´epend principalement de la s´election et l’extraction de l’ensemble des descripteurs utilis´es pour d´etecter le sentiment (la classe), les algorithmes d’apprentissage non supervis´es classification hi´erarchique ascendante, centres mobiles, r`egles d’association,... etc. 2.1.2 Approche lexique M´ethode bas´ee sur le lexique, elle utilise le dictionnaire des sentiments avec des mots d’opinion et les faire correspondre avec les donn´ees pour d´eterminer la polarit´e. Elle attribue les scores de sentiment aux mots d’opinion d´ecrivant si les mots sont positifs, n´egatif ou neutre. Les approches fond´ees sur le lexique reposent principalement sur un lexique de sentiment, `a savoir, une collection de termes de sentiment connue et pr´ecompil´ee, des phrases et mˆeme des expressions idiomatiques, d´evelopp´es pour les genres traditionnels de communication, tels que le lexique OpinionFinder [33]. 16
  • 30. Chapitre 2 ´ETAT DE L’ART 2.1.3 Approches hybride Cette approche est appel´ee aussi classification semi-supervis´ees. Elles combinent les points forts des deux approches pr´ec´edentes. Elles prennent en compte tout le traitement linguistique des approches symboliques avant de lancer le processus d’apprentissage comme dans les approches statistiques [27]. 2.2 Historique sur l’Analyse des Sentiments Dans cette partie nous pr´esentons une brief historique de l’analyse des sentiments. Nous nous somme bas´es sur l’article [34]. Hatzivassiloglou et McKeown en 1997, travaillaient au niveau de document et utilisaient ” World Street Journal ” comme source de donn´ees. leurs travaux se basent sur les conjonctions et les adjectives et cr´eent un mod`ele de Log Linear Regression. Dans le mˆeme niveau document Pang et al. en 2002 effectuaient une analyse avec des mod`eles d’apprentissage Na¨ıve Bayes (NB), Support Vector Machine (SVM), Maximum Entropy (ME). Il ont utilis´e Unigram, bigram, effet contextuel de la n´egation,et les fr´equences. Ils ont appliqu´e de tels mod`eles sur les critiques des films. Nous citons aussi autres travaux sur l’anlyse des sentiments au niveau documents : Das et Chen en 2001, Turney 2002, Morinaga et al 2002, Turney et Littman 2003 et Pang et Lee 2004. Nigam et Hurst `a l’ann´ee 2004, travaillaient au niveau des expressions en se basant sur le lexique des phrases polaires et leurs parties du discours (POS Part Of Speech) avec un mod`ele bas´e sur des r`egles syntacsiques en utilisant Usenet message board et autres sources enligne comme source de donnes. Au niveau des phrase Wilson et al en 2005, d´eveloppent un mod`ele nomm´e BoosTexter qui s’int´eresse `a la subjectivit´e lexique avec un corpus de MQPA. Dans les niveaux de phrase et expression nous pouvons cit´e aussi Aue et Gamon `a l’ann´ee 2005, les descripteurs utilis´es sont les termes lematis´es, leur fr´equences et poids, Popescu et Etzioni en 2005, proposent un mod`ele de d´ependance syntaxique qui se bases sur les conjonctions et disjonctions de WordNet, Cesarano en 2006, mis en jeux les mod`eles sur POS et N − grams. Hu et Liu en 2005, d´eveloppaient un mod`ele d’extraction d’opinions `a base de mots et extension d’aggregation avec WordNet. les descripteurs utilis´es sont les mots d’opinion et les phrases d’opinions. Ils utilisaient Cnn.net de Amazon comme source de donn´es. En 17
  • 31. Chapitre 2 ´ETAT DE L’ART 2007 Godbole et al, ont d´evelopp´e un mod`ele lexicale `a base de WordNet. Il ont utilis´e des descripteurs qui se basent sur des mesures de distance dans le graphe entre les mots en tenant compte les relations de synonymie,anonyme, commun des mots. les sources de donn´ees utilis´ees sont les journaux et les les publications. Ferguson et al `a l’ann´ee 2009, utilisaient les articles de blog financiers comme source de donn´ees pour cr´eer un mod`ele Multinomial Na¨ıve Bayes (MNB) en manipulant des vecteurs binaires des descripteurs au niveau des phrases. Au niveau des mots, Melville et al en 2009, effectuaient une classification bay´esienne avec les lexiques et documents d’apprentissage en utilisant les posts des blogs, site des avis, des blogs politiques et des critiques des filmes. Concernant l’analyse des sentiments sur Twitter, Pak et Paroubek en 2010, Barbosa et Feng `a l’ann´ee 2010, ont travaill´e au niveau des phrases des messages Twitter. Les premiers auteurs utilisent les N − gram et POS − tags comme des descripteurs avec le classificateur MNB, tandis que les derniers utilisent les retweets, hashtags, liens et le point ponctuations en conjonction avec les descripteurs comme les polarit´es `a prioris des mots ainsi que les POS de mots pour cr´eer le mod`ele SVM. 2.3 Travaux sur L’Analyse des Sentiments avec Twit- ter Pour pr´esenter les recherches sur l’analyse des sentiments avec Twitter; nous considerons trois cat´egories `a savoir, Classification de sentiments, Pr´ediction des r´esultats, D´etection des ´ev`enements. 2.3.1 Classification de sentiments Twitter est un moyen de publication les avis et les opinions dans divers domaines. En 2009 [35]d´eveloppent une application qui s’appelle twitter sentiment (http://twittersentiment.appspot.com/). Cette application d´etermine la polarit´e de tweet positif ou n´egatif, les auteurs testent trois types d’algorithmes sur les tweets Na¨ıve Bayes (NB), Maximum Entropy (ME) et Support Vector Machine (SVM). Ces trois m´ethodes ont montr´e des r´esultats similaires, entre 80% et 83% de r´eussite quant `a la pr´ediction de sentiment (positif ou n´egatif) par rapport aux messages publi´es. Les auteurs appliquent un 18
  • 32. Chapitre 2 ´ETAT DE L’ART pr´etraitement aux donn´ees de Twitter utilisent des ´emoticˆones ´etiquettes. Barbosa et Feng en 2010 [36] [37] ont rapport´e une m´ethode d’analyse de sentiment en deux ´etapes pour twitter en utilisant des donn´ees d’entrainement contenant du bruit. Ils ont classifi´e les tweets pour la premi`ere fois en deux clases subjectif (polaire) et objectif (non polaire). Ils ont la m´ethode SVM, des donn´ees d’entrainement rassembl´ees de trois sites Web (twendz , twittersentimen , tweetfeel ). Ils se sont focalis´es sur l’utilisation des descripteurs plus abstraits au-del`a des N−gram simples tels que des m´eta-descripteurs et des descripteurs syntactiques de tweet. Les m´eta- descripteurs incluent POS − tag, la subjectivit´e et la polarit´e ant´erieure des mots `a base de dictionnaire, les expressions n´egatives. Les descripteurs de syntaxe de tweet incluent le retweet, hashtag, r´eponse, hyperliens, ponctuation, symboles d’expression d’´emotion, aussi bien que des majuscules. Ces descripteurs se sont av´er´es plus robustes que des N − gram. 2.3.2 Pr´ediction des r´esultats Ces travaux traitent la pr´ediction des r´esultats `a partir des messages publi´es dans Twitter : En 2010 Lampos et Cristianini [38] d´eveloppent un outil de surveillance pour d´epister des mod`eles ILI (Influenza-like Illness) en utilisant des donn´ees Twitter sp´ecifiques de la r´egion Britanniques. Des tweets contenant des mots cl´es symptˆome-connexes ont ´et´e rassembl´es pendant 6 mois pendant 2009 avec Une moyenne quotidienne de 160.000 tweets. Ces donn´ees, converties en mesures score-grippe (flu-score), ont ´et´e compar´ees aux rapports H1N1 hebdomadaires de l’agence de protection sanitaire. Le score de r´esultant est fortement corr´el´e avec les rapports ( 95%). Cette m´ethode fonctionne ind´ependamment de la langue, peut d´eterminer des rapports auto-diagnostiques dans les tweets, et la s´erie chronologique d’utilisations g´eolocalis´ees des donn´ees. En 2010, une analyse des s´eries chronologiques est appliqu´ee au sondage d’opinion publique politique aux messages Twitter qui ont mentionn´e le pr´esident Barrack Obama [39]. Les au- teurs employaient le logiciel qui a mesur´e le sentiment dans les messages de Twitter, pour comparer le sentiment public d’Obama aux sondages d’opinion publique collect´es tradition- nellement. Les auteurs ont conclu que Twitter est une mesure fiable de l’opinion publique [40]. Sakaki,Okazaki,et Matsuo en 2010 [41] [42] ont essay´e de d´etecter les tremblements de terre de l’information g´en´er´ee par les capteurs sociaux repr´esent´es par les utilisateurs de twit- 19
  • 33. Chapitre 2 ´ETAT DE L’ART ter. En utilisant le mod`ele `a la fois temporelle et g´eo-spatiale, les auteurs ont d´emontr´e que les tweets pourraient ˆetre utilis´e pour pr´edire les tremblements de terre quelques instants apr`es qu’ils se produisent et mˆeme de pr´edire l’emplacement d’un tremblement de terre. De mˆeme, les auteurs montrent qu’il est possible de pr´edire la trajectoire des ouragans en utilisant tweets g´en´er´es par la r´egion affect´ee. 2.3.3 D´etection des ´ev`enements Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des ´ev`enements et pour donner des avis. `A partir du message publi´e sur Twitter on peut d´etecter un ´ev´enement. En l’ann´ee 2011 Weng et Lee [43] s’int´eressent `a la d´etection d’´ev´enement sur Twitter en analysant le contenu des tweets publi´es dans la plateforme. Ils ont introduit une structure nomm´e EDCoW (Event Detection with Clustering of Wavelet-based Signals). Dans EDCoW, le signal de chaque mot est calcul´e en appliquant l’analyse en ondelettes sur la fr´equence des signaux bruts des mots. En consid´erant l’autocorr´elation des signaux correspondants, les mots sans importance sont supprim´es. Les mots restants sont ensuite regroup´es pour construire des ´ev´enements avec une technique graphique. Sur la base de leur exp´erimentation, les auteurs affirment que EDCoW atteint une bonne performance dans l’´etude. Ozdikis et al en 2012 [44] proposent une m´ethode de d´etection d’´ev´enements sur Twitter en se base sur le regroupement de hashtag, le symbole # est utilis´e pour marquer des mots- cl´es ou sujets dans twitter, et l’expansion s´emantique aux vecteurs de message. Pour chaque hashtag, les trois hashtags sontles plus similaires sont extraits en utilisant la similitude cosinus. Un vecteur de tweet avec un seul hashtag est ´elargi avec trois hashtags similaires, puis utilis´e dans le processus de regroupement. Cependant, en utilisant uniquement les messages avec un seul hashtag peut conduire `a ignorer certains ´ev´enements importants. En outre, ils surent un ´ev´enement ou non En outre, ils ne mettent pas aucun filtre de cr´edibilit´e pour d´ecider si un tweet est un ´ev´enement ou non. 20
  • 34. Chapitre 2 ´ETAT DE L’ART 2.4 Difficult´es de la Fouille d’opinions et de l’Analyse des Sentiments L’extraction du sentiment ou d’opinion consiste `a d´eterminer la polarit´e d’un tel opinion. Cette derni`ere est en g´en´eral peut ˆetre positive (pour d´ecrits une opinion favorable), n´egative, ou neutre. Dans ce qui suit nous citons quelques difficult´es de cette proc´edure [20] [21] [23]. - Ambigu¨ıt´e de certains mots positifs ou n´egatifs selon les contextes et qui ne peut pas toujours ˆetre lev´ee. - Difficult´e due aux structures syntaxiques et s´emantiques d’une phrase et l’expression de l’opinion qu’elle v´ehicule. Par exemple ” l’histoire du film est int´eressante mais les acteurs ´etaient mauvais ”. Dans ce cas la polarit´e de la deuxi`eme partie est oppos´ee `a la premi`ere. - Difficult´e due au contexte : la n´ecessit´e d’une bonne analyse syntaxique du texte ; analyse qui peut se r´ev´eler particuli`erement difficile dans des cas de coordination entre plusieurs parties d’une phrase. Par exemple ”ma tonte a bien pr´epar´e le gˆateau, son d´ecor est bonne mais je n’ai pas aim´ee le goˆut”, l’opinion de la derni`ere partie de la phrase est la plus importante. - Difficult´e due `a l’analyse de la phrase par ” paquets de mots ”. Les deux phrases suivantes contiennent les mˆemes paquets de mots sans pour autant exprimer les mˆemes sentiments. La premi`ere phrase contient un sentiment positif alors que la deuxi`eme est n´egative : ” Je l’ai appr´eci´e pas seulement `a cause de ...”, ” Je l’ai pas appr´eci´e seulement `a cause de ... ” o`u se pr´esente la gestion de n´egation. 21
  • 35. Chapter 3 EXP´ERIMENTATION : APPRENTISSAGE ET TEST Comme de coutumes des travaux d’apprentissage, notre exp´erimentation passe par les deux phases d’apprentissage et de test, tel que illustr´e par la Figure 3.1. N´eanmoins, avant d’entrer dans les d´etails, nous d´ecrivons d’abord notre environnement de travail. Figure 3.1: Processus de l’apprentissage automatique 3.1 Environnement de Travail D’abord, nous donnons une description de l’environnement de notre exp´erimentation : 22
  • 36. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS 3.1.1 Environnement mat´eriel Afin de mener notre exp´erimentation et ´evaluation, nous avons utilis´e un PC marque HP Pavilion, ´equip´e d’un processeur multi-cor´e I3, cadenc´e par une horloge d’une fr´equence de 2.40GHZ, avec 4 GO Octets de RAM, un disque dur d’une capacit´e de 400 Giga Octets. 3.1.2 Environnement logiciel Nous avons utilis´e le langage de programmation Python. Python est un langage de programmation portable, dynamique, extensible, gratuit, qui permet (sans l’imposer) une approche modulaire et orient´ee objet de la programmation. Python est d´evelopp´e depuis 1989 par Guido van Rossum et de nombreux contributeurs b´en´evoles. pour ce l`a nous avons utilis´e l’environnement de d´eveloppement Spyder (Scientific PYthon Development EnviRonment)qui est un IDE orient´e vers un usage scientifique de Python. Pour se focaliser sur notre exp´erimentation et tirer profit des puissance du langage Python, nous avons utilis´e les packages suivants : • Package CSV : CSV (Comma Separated Values) module pour lire et ´ecrire des donn´ees au format CSV. • Package re : (Regular expressions) Ce module fournit des op´erations correspondant aux expressions r´eguli`eres. • Package numpy : numpy (NUMeric Python) est une biblioth`eque num´erique apportant le support efficace de larges tableaux multidimensionnels, et de routines math´ematiques de haut niveau (alg`ebre lin´eaire, statistiques, .. etc.). • Package Nltk : Nltk (Natural Language Toolkit) est une plate-forme pour la cr´eation de programmes Python pour travailler avec des donn´ees de langage humain. • Package Sklearn : est un module en Python pour l’apprentissage automatique. Il est a noter qu’un bon point de d´epart pour le d´eveloppement d’un module d’analyse des sentiments sur Twitter se trouve dans [45] 23
  • 37. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS 3.2 Phase d’Apprentissage La phase d’apprentissage comporte le pr´etraitement des donn´ees d’apprentissage ainsi que l’extraction et la pr´esentation de descripteurs : 3.2.1 Source des donn´ees (Data set) Nous avons utilis´e l’ensemble des donn´ees des tweets ´etiquet´e par Niek Sanders `a partir du site Sanders Analytics 1 . Il se pr´esente sous forme d’un fichier d’extension (.csv) contenant 5113 tweets ´etiquet´es manuellement. Cet ensemble de donn´ees comporte quatre classes des sentiments, `a savoir positive, n´egative, neutre et hors du sujet. Il traite quatre diff´erents sujets Apple, Google, Microsoft et Twitter. Chaque entr´ee de notre ensemble de donn´ees est structur´e comme suit : • Tweet id : un identifiant du tweet. • Tweet texte : il contient le texte du tweet publi´e par l’utilisateur. • TweetDate : date de publication du tweet. • Topic : le sujet du tweet (Apple, Google, Microsoft ou Twitter). • Sentiment : ´Etiquette du tweet, qui peut ˆetre(”positif”, ”n´egatif”, ”neutre” ou ”hors de sujet”). La r´epartition des donn´ees selon leurs sujets et leurs sentiments est illustr´e dans le Tableau 3.1 : Sujet Positif Neutre N´egatif Hors de sujet Apple 191 581 377 164 Google 218 604 61 498 Microsoft 93 671 138 513 Twitter 68 647 78 611 Table 3.1: Description du corpus Niek Sanders 1 http://www.sananalytics.com/lab/twitter-sentiment/ 24
  • 38. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS Pour assurer un bon apprentissage nous devons imposer un ordre al´eatoire au corpus comme montr´e dans le code algorithme 3. Algorithm 3 Fonction getData pour r´ecup´er´e le corpus def getData(corpus): fp = open(corpus , ’rb’ ) reader = csv.reader( fp, delimiter=’,’, quotechar=’”’, escapechar=’ // ’ ) csvv = islice(reader, 1, None, None) tweets = [] for row in csvv: t= row[4] sentiment= row[1] tweets.append([t, sentiment]); random.shuffle( tweets ); return tweets 3.2.2 Pr´etraitement Nous avons d´ej`a abord´e dans la Section 1.4.2 les caract´eristiques des tweets qui se r´esume en g´en´eral dans les longueurs limite´es et l’utilisation d’un langage informel. Ainsi, l’utilisateur de Twitter utilise des abr´eviations, des ´emoticons, et des argots pour exprimer ses opinions et ses sentiments. Par cons´equence une ´etape de pr´etraitement est indispens- able. Dans ce qui suit nous allons pr´esenter la proc´edure de pr´etraitement suivie dans notre travail, dont le but de cette ´etape est de nettoyer les tweets et leur rendre le plus proche possible `a un langage formel. D’abord nous avons commenc´e par le filtrage de tweets, en ne considerant que ceux ´ecrit en langue anglaise. Car un corpus de differents langages est un corpus qui contient du bruit. Pour se faire nous avons utilis´e une biblioth`eque dans Python SentiWordNet qui se r´ef´erer `a le package nltk. Pour assurer une correspondance entre le langage informel des ´emoticons et des abr´eviations, nous avons cr´ee deux dictionnaires (Table 3.2).Ces dictionnaire sont cr´ees sur la base des 25
  • 39. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS ressources23 qui fonctionnent avec les tweets. # positive emoticons ”lt;3”: ” pretty ”, ”:d”: ” pretty ”, ”:D”: ” pretty ”, ”:-)”: ” pretty ”, ”:=)”: ” pretty ”, ”=)”: ” pretty ”, ”:)”: ” pretty ”, ”;)”: ” pretty ”, # negative emoticons: ”:/”: ” sad ”, ”:gt;”: ” sad ”, ”:’)”: ” sad ”, ”:-(”: ” awful ”, ”:(”: ” awful ”, ”:S”: ” awful ”, ”:-S”: ” awful ”, #Abvr´evioation ”2”: ”To” ”AKA”: ”Also known as” ”AOL”: ”America Online” ”AP”: ”Associated Press” ”app”: ”Application” ”ASL”: ”Age, sex, location” ”ATM”: ”At the moment” ”b/c”: ”Because” ”b/w”: ”Between” ”b4”: ”Before” ”bf”: ”Boyfriend” ”BFF”: ”Best friends forever” ”gf”: ”Girlfriend” ”GJ”: ”Good job” Table 3.2: A gauche -Emoticons Positive n´egative-, `a droite -Abr´eviaton en Anglais- Par ailleurs nous avons utilis´e une liste de formes contract´ees se pr´esente dans le Tableau 3.3 pour rendre quelque mots ou groupe des mots plus clair. 2 http://slangit.com/terms/common 3 http://slangit.com/emoticons/common 26
  • 40. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS Forme contract´ee Forme non contract´ee Won’t Will not Can’t Can not I’m I am Isn’t Is not ‘ll will ‘ve have ‘re are ‘d would Table 3.3: Les formes contract´es Une fois les dictionnaires cr´ees nous avons proc´ed´e `a un pr´etraitement qui suit les ´etapes suivantes : 1- Remplacer les ´emoticons : en utilisant le dictionnaire des ´emoticons. 2- Remplacer les abr´eviations : en utilisant le dictionnaire des abr´eviations. 3- Supprimer les identifiants des utilisateurs (USER) : nous avons utilis´e l’expression r´eguli`ere @[ s]+ pour d´etecter les mots qui repr´esentent les identifiants des utilisa- teurs Twitter dont le signe il le faut d´etecter. 4- Supprimer les liens web (URL) : nous avons utilis´e l’expression r´eguli`ere ‘((www .[ s]+)|(https? : //[ s]+)) pour d´etecter les liens des sites cit´e dans le tweet. 5- Supprimer les Hashtags (TAG) : nous avons utilis´e l’expression r´eguli`ere r #([ s]+) pour d´etecter les mots cl´e (sur des sujet pr´ecis) dans le tweet. 6- ´Eliminer les caract`eres r´ep´et´es : nous avons ´elimin´e les r´ep´etitions des caract`eres dans les mots comme ( coooool : cool, hhhhhhh :hh) que l’utilisateur l’utilise pour affirmer et assurer le sens. 7- Supprimer les chiffres : il faut supprimer les chiffres qui n’ont aucun impact sur la classification. 8- ´Eliminer les commandes VIA, RT : Twitter poss`ede son propre vocabulaire et fonc- tions, il y’a les commande VIA et RT indique que le tweet a ´et´e rediffus´e par un 27
  • 41. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS autre utilisateur, nous les avons ´elimin´e `a cause de son influence n´egligeable sur la classification. 9- ´Eliminer les ponctuations : les utilisateurs utilisent dans leurs tweets beaucoup de ponctuations qui n’ont pas une importance dans notre classification, donc il a ´et´e mieux de les ´eliminer dans cette phase. 10- Supprimer les mots vides (Stop-words), nous avons utilis´e les mots vides en langue Anglaise pr´ed´efinies dans le package nltk.corpus. Le Tableau suivant 3.4 donne quelques exemples de tweets avant et apr`es le pr´etraitement: 28
  • 42. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS Tweets avant pr´etraitement Tweets apr`es traitement - Thank you to everyone who made this Eu- rope 2016 tour possible :) ! - thank you to everyone who made this europe tour possible pretty - thank you so much for teaching us values on Twtr. I am waking up :o3 at 4am for the last 2 wks. Salute sir! - thank you so much for teaching us values on twiitr i am waking up ordinary at am for the last weeks salute sir - I don’t lurk cause I don’t care anymore - i do not lurk cause i do not care anymore - @DZfoot @Mahrez22 @algeria #Fearless- Foxes Makes me believe in dreams. ..legend vive Dz - makes me believe in dreams legend vive dz - Hey guys wish you had a super doper day .. ¡3 ¡3 i’m here in @algeria and it’s hot day. .. - hey guys wish you had a super doper day heart heart i am here in and it is hot day - Find jobs in Algeria https://www.bayt.com/en/algeria/ via @Baytcom - find jobs in algeria - DUUUUUUDE HHHHHH THIS IS COOOOOL O:-) - duude hh this is cool pretty - WHY WOULD YOU DO THIS :/ !?!?! - why would you do this sad - MAY2016 (08) RT this to enter our £20.00 Amazon voucher #competition (TC on web) http://grandslam.uk.com via @GrandSlamEvents - this to enter our amazon voucher on web Table 3.4: Tweets avant et apr`es le pr´etraitement 3.2.3 Extraction et pr´esentation des descripteurs Dans cette ´etape, nous considderons les termes restant apr`es l’´etape de pr´etraitement comme descripteurs. Nous avons recensai 4002 descripteurs. Ces descrepteurs ont un role important pour la classification des sentiments. Pour r´ealiser l’op´eration d’apprentissage, nous avons propos´e deux repr´esetation : le mod`ele bool´een et le mod`ele de pond´eration TF-IDF. le mod`ele bool´een consid`ere un document d est repr´esent´e sous forme d’un vecteur 29
  • 43. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS bool´een. Ce vecteur est l’ensemble des descripteurs, chaque descripteur peut prendre une valeur 0(faux) si le terme n’existe pas dans le document, ou 1 (vrai) sinon. La repr´esentation d’un document dans le mod`ele bool´een se pr´esente comme suit: d = (1, 0, 0, 0, 1, 1, 0, 0...). Tandis que le mod`ele de pod´eration TF-IDF (Term Frequency – Inverse Document Fre- quency) dans le mod`ele vectoriel un document est repr´esent´e sous forme d’un vecteur dans un espace engendre par tous les termes d’indexation. La dimension de cet espace est le nombre de termes d’indexation de la collection de document. Les coordonn´ees d’un vecteur docu- ment sont les poids des termes d’index dans ce document, est donne un poids plus important aux mots caract´eristiques d’un document pr´esente ce forme d = (w1, w2, w3, ..., wn). Dans, un premier temps, il est n´ecessaire de calculer la fr´equence d’un terme (Term Frequency). Celle-ci correspond au nombre d’occurrences de ce terme dans le document consid´er´e. Ainsi, pour le document dj et le terme ti, la fr´equence du terme dans le document est donn´ee par l’´equation suivante : TFi,j = ni,j k nk,j (3.1) • ni,j: est le nombre d’occurrences du terme ti dans dj. • sumknk,j: est le nombre de termes dans le document. La fr´equence inverse de document (Inverse Document Frequency) mesure l’importance du terme dans l’ensemble du corpus. Elle consiste `a calculer le logarithme de l’inverse de la proportion de documents du corpus qui contiennent le terme. Elle est d´efinie de la mani`ere suivante: IDFi = log2 |D| |dj : ti ∈ dj| (3.2) |D| repr´esente le nombre total de documents dans le corpus et | dj : ti ∈ dj | est le nombre de documents dans lesquels le terme ti apparaˆıt. Enfin, le poids s’obtient en multipliant les deux mesures : TF − IDFi,j = TFi,j ∗ IDFi (3.3) 30
  • 44. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS 3.2.4 Apprentissage Notre d´emarche d’analyse de sentiments s’inscrit dans l’approche d’apprentissage au- tomatique supervis´e. Nous avons utilis´e l’algorithme d’apprentissage Na¨ıve Bayes qui sera utilis´e dans l’´etape de pr´ediction. concernant le cot´e impl´ementation, nous avons utiliser l’impl´ementation de Na¨ıve Bayes d’apr`es sklearn.naive bayes du package Sklearn mentionn´e dans la section 3.1.2, l’appel du classifieur pour l’apprentissage se fait par le biais du code algorithme 4. tel que: Algorithm 4 Appelle et entrainement du classifieur NB - NBClassifier ¯MultinomialNB() # Appelle du clssifieur - NBClassifier.fit(X vec train, y train) # Entrainement du classifieur • X vec train est les tweets d’ensemble d’apprentissage • y train est les sentiments d’ensemble d’apprentissage 3.3 Phase de Test et Interpr´etation Apr`es la phase d’apprentissage, nous passons `a la phase de test pour ´evaluer notre classifieur. Pour la validation des performances, nous utilisons la m´ethode 80% 20% pour valider notre mod`ele , telle que 80% utilis´e dans la phase d’apprentissage, et 20% pour la phase de test. les mesures de performance utilis´ees sont la pr´ecision, le rappel et le F1-mesure dont leurs bases de calcul se fait par rapport `a la Table 3.5 : Pr´edictive R´eel Poitive N´egative Positive VP FP N´egative FN VN Table 3.5: Table de confusion 31
  • 45. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS Avec : VP : Vrai Positif FP : Faux Positif VN : Vrai N´egatif FN : Faux N´egatif Tel que les mesures que nous avons ´etudi´e sont pr´esent´es dans les formules suivantes : Pr´ecision = VP/(VP + FP) : Proportion d’´el´ements bien class´es pour une classe donn´ee. Rappel = VP/(VP + FN) : Proportion d’´el´ements bien class´es par rapport au nombre d’´el´ements de la classe `a pr´edite. F1-mesure = 2 * Pr´ecision * Rappel/(Pr´ecision + Rappel) : Mesure de compromis entre pr´ecision et rappel. 3.3.1 Pr´esentation des r´esultats et discussion La Table 3.6 montre les r´esultats du classifieur pour le mod`ele de pr´esentation bool´eenne : Classifieur Pr´ecision Rappel F1-mesure Support Positive 0.43 0.31 0.36 107 N´egative 0.57 0.51 0.54 126 Neutre 0.70 0.69 0.69 494 Hors du sujet 0.76 0.87 0.81 341 Avg/ Total 0.68 0.69 0.68 1023 Table 3.6: R´esultats du classifieur en m´ethode bool´eenne 32
  • 46. Chapitre 3 EXP´ERIMENTATIONS ET INTERPR´ETATIONS La Table 3.7 montre les r´esultats du classifieur pour le mod`ele de pond´eration TF-IDF: Classifieur Pr´ecision Rappel F1-mesure Support Positive 0.44 0.30 0.35 94 N´egative 0.55 0.41 0.47 110 Neutre 0.73 0.88 0.79 494 Hors du sujet 0.92 0.79 0.85 325 Avg/ Total 0.74 0.75 0.74 1023 Table 3.7: R´esultats du classifieur en m´ethode de pond´eration TF-IDF Selon les r´esultats obtenus, il est claire que le classifieur pour le mod`ele de pond´eration TF-IDF avec un F1- mesure de 0.74 est meilleur que claire que le classifieur pour le mod`ele bool´een avec un F1- mesure de 0.68. Ceci peut s’interpr´eter par l’influence positive de l’aspect s´emantique sur la qualit´e du classifieur. Nous croyons que l’implication d’autres aspects linguistiques de n´egation, type de mots (sujet, verbe, adjectifs. . . ) peuvent am´eliorer le processus d’analyse des sentiments. Ceci dit, il existe d’autres algorithmes d’apprentissage automatiques appliqu´es `a l’analyse des sentiments Twitter. A titre d’exemple SVM Seport Vector Machine et ME Maximum Entropy, .. etc, qui m´eritent d’ˆetre ´etudi´es et compar´es si l’espace de temps le permet. 33
  • 47. CONCLUSION L’analyse des sentiments se r´ef`ere `a l’extraction automatique de texte ´evaluative, qui aide `a produire des r´esultats pr´edictifs. Dans ce m´emoire nous avons ´etudi´e les diff´erents approches d’analyse des sentiments en particulier celles appliqu´ees sur les donn´ees Twitter. Nous avons impl´ement´e la m´ethode probabiliste Na¨ıve Bayes en consid´erant model´es de repr´esentations de donn´ees, `a savoir, les mod`eles bool´een et celui utilisant une pond´eration TF-IDF. L’exp´erimentation conduite sur l’ensemble de donn´ee Sanders Analytics r´ev`elent que la repr´esentation s´emantique TF-IDF donne de meilleurs r´esultats en terme de pr´ecision, rappel et F-mesure. Ceci ´etant dit, il faut noter que l’environnement mat´eriel utilis´e est relativement limit´e. Par cons´equent nous n’avons pas pu conduire nous exp´erimentations sur des corpus de tailles importantes. En plus, cette limite nous a priv´e d’utiliser des m´ethodes de validation plus sophistiqu´ees de l’approche impl´ement´ee. Par ailleurs, le temps octroy´e pour notre m´emoire ne nous a pas permis d’explorer d’autres m´ethodes de l’analyse des sentiments telles que la m´ethode de Support Vector Machine (SVM), Maximum Entropy (ME). En fin nous conjecturons que l’implication d’autres aspects linguistiques de n´egation, type de mots (sujet, verbe, adjectifs. . . ) peuvent am´eliorer le processus d’analyse des sentiments. 34
  • 48. Bibliographies [1] Risson Romain, les r´eseaux sociaux : Facebook,Twitter ,Linkedln, Viadeo, Google+: comprendre et maitriser ces nouveaux outils de communication, 2011. [2] Serge Proulx, M´elanie Millette et Lorna Heaton M´edias sociaux: enjeux pour la communication. Presse de l’Universit´e du Qu´ebec, 2011. [3] Andreas M. Kaplan et Michael Haenlein Users of the world, unite! The challenges and opportunities of Social Media. Paris, France .ESCP Europe, 2010. [4] Bouillon Pierrette Traitement automatique des langues naturelles, paris, bruxelle 1998. [5] Kumar Ela Natural Language Processing, India,I.K.International Publishing House Pvt. Ltd 2011. [6] Jean V´eronis Natural Language Processing, URL : http://sites.univ- provence.fr/veronis, 2001. [7] Daniel Jurafsky et James H. Martin Speech and Language Processing, 2015. [8] Meena Rambocas and Jo?o Gama Marketing Research : The Role of Sentiment Analysis, FEP Economics and Managment, 2013. [9] Nasukawa, Tetsuya et Jeonghee Yi Sentiment analysis: Capturing favorability using natural language processing, Knowledge Capture, 2003. [10] Kushal Dave, Steve Lawrence and David M. Pennock Mining the peanut gallery: Opinion extraction and semantic classification of product reviews, 2003. [11] Sanjiv R. Das et Mike Y. Chen Yahoo! for Amazon: Extracting market sentiment from stock message boards,2001. 35
  • 49. R´ef´erences [12] Satoshi Morinaga,Kenji Yamanish,Kenji Tateishi,and Toshikazu Fukushima Mining product reputations on the web,Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, New York, NY, USA, 2002. [13] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up?: sentiment classi- fication using machine learning techniques, Proceedings of the ACL-02 conference on Empirical methods in natural language processing - Volume 10,Strouds- burg, PA, USA 2002. [14] R. M. Tong An operational system for detecting and tracking opinions in on-line dis- cussion, In Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification 2001. [15] Peter D. Turney, Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA, 2002. [16] Janyce Wiebe, Learning Subjective Adjectives from Corpora,Proceedings of the Seventeenth National Conference on Artificial Intelligence and Twelfth Con- ference on Innovative Applications of Artificial Intelligence, 2000. [17] Bing Liu, Opinions, Sentiment, and Emotion in Text,Cambridge University Press, 2015. [18] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis,Now Publishers Inc, 2008. [19] Huifeng Tang, Songbo Tan and Xueqi Cheng, A survey on sentiment detection of reviews,Information Security Center, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, PR China, 2009. [20] Faiza Belbachir, Exp´erimentation de fonctions pour la d´etection d’opinions dans les blogs, Universit´e de Paul Sabatier, Institut de Recherche en Informatique de Toulouse 2010. [21] Dominique Boullier et Audrey Lohard, Opinion mining et Sentiment analysis: M´ethodes et outils, 2012. 36
  • 50. R´ef´erences [22] Mr. Saifee Vohra et Prof. Jay Teraiya, Applications and Challenges for Senti- ment Analysis : A Survey, International Journal of Engineering Research Technology (IJERT), 2013. [23] Sigrid Maurel, Paolo Curtoni et Luca Dini, L’analyse des sentiments dans les forums, CELI France, SAS. [24] Arti Buche, Dr. M. B. Chandak and Akshay Zadgaonkar, Opinion mining and analysis:a survey, International Journal on Natural Language Computing (IJNLC), India 2013. [25] G.Vinodhini and RM.Chandrasekaran, Sentiment Analysis and Opinion Mining: A Survey,International Journal of Advanced Research in Computer Science and Software Engineering ,India 2012. [26] Vivek Kumar Singh and Debanjan Mahata, A clustering and opinion mining approach to socio-political analysis of the blogosphere, Computational Intelligence and Computing Research (ICCIC), 2010 IEEE International Conference on 2010. [27] Alexander Pak and Patrick Paroubek, Twitter as a Corpus for Sentiment Analysis and Opinion Mining, Universit´e de Paris-Sud, Laboratoire LIMSI- CNRS,France 2010. [28] Matthew Eric Glassman, Jacob R. Straus and Colleen J. Shogan, Social Net- working and Constituent Communications: Members Use of Twitter and Facebook Dur- ing a Two-Month Period in the 112th Congress,Congressional Research Service, 2009. [29] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passon- neau, Sentiment analysis of Twitter data, LSM 11 Proceedings of the Workshop on Languages in Social Media,2011. [30] Laurent Dijoux, Boostez votre business avec Twitter,Almabic, 2009. [31] Fred Colantonio, Communication professionnelle en ligne: comprendre et exploiter les m´edias et r´eseaux sociaux,Edipro, 2011. 37
  • 51. R´ef´erences [32] Tim O’Reilly and Sarah Milstein, The Twitter Book, 2012. [33] Vishal A. Kharde and S.S. Sonawane, TSentiment Analysis of Twitter Data: A Survey of Techniques,International Journal of Intelligent Systems and Appli- cations(IJISA), 2016. [34] Prem Melville, Wojciech Gryc and Richard D. Lawrence, Sentiment analysis of blogs by combining lexical knowledge with text classification ,KDD 09 Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, 2009. [35] Alec Go, Richa Bhayani and Lei Huang, Twitter sentiment classification using distant supervision, 2009. [36] Luciano Barbosa and Junlan Feng, Robust sentiment detection on Twitter from biased and noisy data, COLING 10 Proceedings of the 23rd International Con- ference on Computational Linguistics: Posters, 2010. [37] Yiannis Kompatsiaris, Bernard Merialdo and Shiguo Lian, TV Content Anal- ysis: Techniques and Applications, CRC Press, 2011. [38] Vasileios Lampos and Nello Cristianini , Tracking the flu pandemic by monitoring the Social Web. [39] Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge et Noah A. Smith , From Tweets to Polls: Linking Text Sentiment to Public Opin- ion Time Series, the International AAAI Conference on Weblogs and Social Media, 2010. [40] Laura Robinson, Shelia R. Cotton et Jeremy Schulz, Communication and Information Technologies Annual: Politics and Participation, Emerald, 2015. [41] Yelena Mejova, Ingmar Weber et Michael W.Macy, Twitter: A Digital Socio- scope, Cambrdige University Press, 2015. [42] Takeshi Sakaki, Makoto Okazaki et Yutaka Matsuo, Earthquake shakes Twitter users: real-time event detection by social sensors, WWW 10 Proceedings of the 19th international conference on World wide web, 2010. 38
  • 52. R´ef´erences [43] Francis Harvey et Yee Leung, Advances in Spatial Data Handling and Analysis: Select Papers from the 16th IGU Spatial Data Handling Symposium, Springer, 2015. [44] Basant Agarwal et Namita Mittal, Prominent Feature Extraction for Sentiment Analysis, Cham Heidelberg New York Dordrecht London, 2013. [45] Willi Richert et Luis Pedro Coelho, Building Machine Learning Systems with Python, Packt Publishing Ltd., Birmingham B3 2PB, UK, 2013. 39