SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
Ismail Badache1 — Aya Abu-Thaher2 — Mariam Hamdan2 — Lara Abu-Jaish2
1Aix Marseille Univ, Université de Toulon, CNRS, LIS, Marseille, France
2Faculty of Engineering and Technology, Birzeit University, Palestine
PLAN
CONCLUSION
Leçons
Limites et perspectives
RI SOCIALE EN ARABE : FACEBOOK
Processus de RI sociale en arabe sur Facebook
LTR basé sur les signaux sélectionnés
EXPÉRIMENTATION
Collection de test : Facebook
Résultats
5
6
4
RI SOCIALE : VUE D’ENSEMBLE
Définition
Axes de RI sociale
INTRODUCTION
Facebook en chiffres
Contenus Générés par l’Utilisateur UGC
CONTEXTE ET CONTRIBUTIONS
Contexte : RI et facteurs de pertinence
Contributions
2
3
1
3
Source:
blogdumoderateur.com
quantcast.com
semiocast.com
Facebook en chiffres
Introduction
42.3 1.52
Nombre de “J’aime” par minute
milliards
Utilisateurs actifs par jourUtilisateurs actifs
millionsmilliards
4.39 milliards d’internautes
3.48 milliards sont au moins inscrits dans un réseau social
4
Soulèvement populaire : “Printemps Arabe”
Evénements : Sport, Politiques, Festivités, etc.
Démocratisation des moyens de production et d’interaction
Utilisateurs Facebook dans le monde arabe
164 Millions
1.1 mds
Anglais
310 mns
Espagnol
170 mns
Indonésien
Source : https://www.arabianbusiness.com/technology/412823-over-164m-active-facebook-users-in-the-middle-east-study-shows
https://blog.hootsuite.com/facebook-statistics/
150 mns
Arabe
14 Millions Utilisateurs arabe MAIS
qui ne s’expriment pas en langue Arabe
Facebook en chiffres
Introduction
5
Contenus Générés par l’Utilisateur UGC
2.3 milliardsmilliards
Sihem Amer Yahia, Michael Benedikt, and Philip Bohannon. Challenges in searching online communities. In IEEE Data Eng. Bull. Citeseer, 2007
Graphe du contenu social (Sihem Amer-Yahia et al, 2007)
Introduction
6
Types des UGCs
2.3 milliardsmilliards
Liste des différents types d’UGCs (signaux sociaux) actuels
Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017.
Introduction
7
Caractéristiques des UGCs
2.3 milliardsmilliards
Nature
Provenance
Signification
Temporalité
Rating
5
4
3
2
1
Émotion
Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017.
Introduction
8
Contexte
2.3 1.52milliardsmilliards
Contexte et Contributions
Facteurs textuels liés à la requête
- TF
- IDF
Facteurs non-textuels / partiellement ou non liés à la requêtes
- PageRank
- Présence d’URL
- Popularité
- Auteurs (popularité, influence, etc)
- Critères sociaux (UGCs)
9
2.3 1.52milliardsmilliards
Contribution I
Évaluer l’impact des signaux sociaux ainsi que l’analyse
de sentiment des commentaires sur la recherche en
langue arabe sur Facebook.
a) Quels sont les meilleurs signaux et groupes de
signaux adaptés à cette tâche ?
b) Quel est l’impact de ces critères sociaux sur les
performances du moteur de recherche de
Facebook ?
Contribution II
Construire une collection de test (documents, requêtes,
qrels) issue de Facebook. Cette collection est utile pour
l’évaluation des systèmes de RI sociale en langue arabe.
a) Des études expérimentales orientées utilisateurs « user
studies » ont été menées pour collecter les jugements de
pertinence.
Contexte et Contributions
10
Bref Historique
RI Sociale
20182002 - 2004 2005 2010 2011
Social Bing
Twitter
Facebook : social SideBar
Social Signals as Ranking Factors
SearchMetrics
GooglePlus
Social Search
(Brusilovsky et al., 2018)
LinkedIn - Facebook
Parmi les plus réussi
réseaux sociaux
Thèse Doctorat
(Kirsch, 2005)
Kirsch, Sebastian Marius. "Social information retrieval." These de Doctorat. Université de Rheinische Friedrich-Wilhelms (2005).
Brusilovsky, Peter, Barry Smyth, and Bracha Shapira. "Social search." Social Information Access. Springer, Cham, 2018. 213-276.
11
Définition de la RI Sociale
2.3 1.52milliards
Social search is an emerging research area that explores how social
interactions and social data can enhance existing information-seeking
experiences, as well as enable new information retrieval scenarios.
This session will showcase different models of social search, including
1) the use of social data to augment search, 2) social data as new
information to be searched, and 3) social interaction and collaboration
as part of the search process.
RI Sociale
Jaime Teevan (Microsoft) - 2012
Source : https://www.microsoft.com/en-us/research/video/social-search-panel/
12
Axes de la RI Sociale
2.3 1.52
RI Sociale
Recherche bibliographique
RI médicale
Achats en ligne
Planification de voyage
RI technique
RI dans les réseaux sociaux
Question-Réponse sociale
Recherche de conversations
Recherche d’opinions
Recherche de personnes (experts)
Recherche d’information
collaborative
Recherche d’information
dans les contenus sociaux
Quelques références
(Yue et He, 2018)
(Soulier, 2014)
(Damak, 2014)
Indexation sociale
Reformulation de la requête
Reclassement de résultats
Classement social des résultats
Classement social personnalisé
Exploitation des contenus
sociaux pour améliorer la RI
Quelques références
(Bullock et al, 2018)
(Badache, 2016)
Quelques références
Damak, Firas. Étude des facteurs de pertinence dans la recherche de microblogs. Diss. Université Paul Sabatier, 2014.
Bullock, Beate Navarro, Andreas Hotho, and Gerd Stumme. "Accessing Information with Tags: Search and Ranking." Social Information Access. Springer, Cham, 2018. 310-343.
Badache, Ismail. Recherche d'information sociale: exploitation des signaux sociaux pour améliorer la recherche d'information. Diss. Université de Toulouse, Université Toulouse III-Paul Sabatier, 2016.
Yue, Zhen, and Daqing He. "Collaborative information search." Social Information Access. Springer, Cham, 2018. 108-141.
Soulier, Laure. Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs. Diss. Université de Toulouse, 2014.
13
RI sociale en arabe sur Facebook
2.3 1.52milliards
RI Sociale en arabe
Facebook
Collection
d’apprentissage
Algorithmes de
sélection de
critères
Résultats
d’évaluation
par itération
Répéter pour 5-itérations de validation croisée
Résultats du moteur
de Facebook pour
les 45 requêtes
Extraction des critères
J’aime, Partage,
Haha, J’adore,
Commentaires, etc
Analyse de
sentiments des
commentaires
Learning to Rank
SVM Rank
Random Forest
Processus de « Learning To Rank » en utilisant les techniques de sélection
14
milliards
RI sociale en arabe sur Facebook
RI Sociale en arabe
Liste des signaux Facebook exploités
15
milliards
Analyseur de sentiments
RI Sociale en arabe
Dahou A., Xiong S., Zhou J., Haddoud M. H., Duan P. "Word embeddings and convolutional neural network for arabic sentiment classification." COLING 2016, the 26th international conference on computational linguistics, 2016.
CodeSource disponible sur : https://pan.baidu.com/s/1eS2mxCe#list/path=%2F
• Identifier la polarité des commentaires en langue arabe.
• Approche proposée par (Dahou et al, 2016) et basée sur :
 CNN (Convolutional Neural Network)
 Word Embedding à l’aide d’un corpus de 3.4
milliards de mots choisi parmi un corpus de 10
milliards de mots analysés sur le Web.
• Meilleur système par rapport à ceux de (Aly et Atiya, 2013
; Nabil et al., 2015 ; Refaee et Rieser, 2014 ; Abdulla et al.,
2013 ; ElSahar et El-Beltagy, 2015).
https://pageperso.lis-lab.fr/ismail.badache/SentimentAnalysisAR/
16
milliards
Sélection des meilleurs critères de pertinence
RI Sociale en arabe
Comment sélectionner les meilleurs groupes de critères de pertinence ?
Meilleur groupe
de critères
Tous les critères
Stratégie de
sélection
Evaluation du
Critère
Algorithme de sélection d’attributs
Filter Framework
17
milliards
Combinaison des algorithmes de LTR
avec les techniques de sélection
RI Sociale en arabe
Hall, Mark A., and Geoffrey Holmes. "Benchmarking attribute selection techniques for discrete class data mining." (2002)
Meilleur groupe de critères
Algorithme de sélection d’attributs
Filter Framework
Algorithmes LTR
Résultats & Performance
• Inspiration : travaux de (Hall et Holmes, 2003)
• Objectif double :
1) Vérifier si la sélection des critères améliore
effectivement les résultats d’une tâche de RI.
2) Mesurer la performance de certains algorithmes
d’apprentissage d’ordonnancement (LTR) combinés
avec les techniques de sélection dans ce type de
tâches.
18
milliards
Collection de test : Facebook
Expérimentation
Meilleur groupe
de critères
• Collecter entre le 16 et le 28 Janvier 2018
• En utilisant Facebook API et le parsing
• 45 requêtes en langue arabe (300 doc / req)
• Exemple de requête :
‫عمران‬ ‫السوري‬ ‫الطفل‬
Traduction : l’enfant syrien Omran
• User Study :
 3 utilisateurs pour chaque requête
 Echelle : non-pertinent, peu pertinent et pertinent
 Mesure de l’accord est de 75% (un accord fort)
Les chiffres des données issues de Facebook
(pour 45 requêtes en langue arabe)
19
milliards
Collection de test : Facebook
Expérimentation
Meilleur groupe
de critères
Statistiques sur la nature des 45 requêtes
20
milliards
Résultats : sélection des critères
Expérimentation
Meilleur groupe
de critères
• 300 premiers documents pour chaque
requête  13500 documents au total :
o 2971 documents pertinents
o 10529 documents non pertinents
• Equilibrer la collection :
o 2971 documents pertinents
o 2971 documents non pertinents
• Validation croisée à 5 itérations pour
10 critères en utilisant Weka.
• « + » : critère sélectionné
• « - » : critère non sélectionné
Les critères sélectionnés par les algorithmes de sélection
c10 : J’aime
c20 : Partage
c60 : J’adore
c90 : Commentaire Positif
c10 : Commentaire Négatif
21
milliards
Résultats : LTR avec les critères sélectionnés
Expérimentation
Meilleur groupe
de critères
• Les meilleurs couples des algorithmes d’apprentissage d’ordonnancement et des techniques de
sélection d’attributs sont les suivants :
 L’ensemble des critères sélectionnés par CfsSubsetEval (CFS) et WrapperSubsetEval (WRP) sont
appris par RankSVM et Random Forests.
 L’ensemble des critères sélectionnés par ReliefFAttributeEval (RLF) sont appris par Random Forests.
 L’ensemble des critères sélectionnés par SVMAttributeEval (SVM) sont appris par RankSVM.
Ensembles des critères sélectionnés par CFS, WRP, SVM et RLF
22
Résultats : LTR avec les critères sélectionnés
Expérimentation
Les résultats de P@{5, 10}, nDCG et MAP du Learning to Rank
• RankSVM : Implémentation et paramètres par défaut proposés par Joachims
• Random Forests : Implémentation proposée par Weka (max depth à 0 et 100 trees)
• Validation croisée pour 5 itérations (5-folds cross-validation)
Tous les critères sauf le #commentaire.
Amélioration : 80% nDCG
Tous les critères sauf #commentaire et #wouah
Amélioration : 57% nDCG
23
Résultats : LTR avec les critères sélectionnés
Expérimentation
• Certaines requêtes telles que :
(traduction : l’enfant syrien Omran) (traduction : blocus de Gaza)
P@10 P@10
0.8957 20090 9840 0.9324 96 312
24
Leçons
Conclusion
SÉLECTION DES CRITÈRES
La sélection des critères est effectivement une étape intéressante
pour évaluer l’importance des critères dans une tâche de RI.
SIGNAL SUR UN POST EN ARABE
Un signal est influencé par la culture de son créateur (langue, croyances,
intérêts, région, etc.)
LTR COMBINÉS AVEC DES TECHNIQUES DE SÉLECTION
Les algorithmes de LTR basés sur les critères les plus pertinents selon
les algorithmes de sélection sont généralement meilleurs comparés à
ceux obtenus lorsque les algorithmes de sélection sont ignorés.
PROFIL D’UN UTILISATEUR ARABOPHONE
Un profil arabophone sur Facebook est influencé directement par les
événements de sa communauté, sa région, sa culture.
25
Limites et Perspectives
Conclusion
DÉPENDANCE DU MODÈLE DE SENTIMENT
Approche dépendante de la qualité et la performance du
modèle de sentiment utilisé.
COMPARAISON ENTRE LES CULTURES DES SIGNAUX
Faire une étude comparative entre les signaux générés par un
anglophone/francophone et les signaux générés par un
arabophone sur le même sujet du contenu.
TRAITEMENT DES DIALECTES
Une étape de traitement essentielle pour une RI efficace en langue
arabe consiste à utiliser un stemmer pour l’arabe dialectal.
EXPERIMENTATION À GRANDE ECHELLE
D’autres expérimentations à plus grande échelle sur d’autres
collections sont également nécessaires (défis BigData).
MERCI POUR VOTRE ATTENTION
https://twitter.com/Ismail_badache
https://pageperso.lis-lab.fr/ismail.badache/
Modèle
social
Modèle
classique
Modèle
social
Modèle
classique

Contenu connexe

Similaire à Recherche d'Information Sociale en Langue Arabe : Cas de Facebook

Veille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancVeille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancAlex Suter
 
Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3BELVEZE Damien
 
Les clés du référencement
Les clés du référencementLes clés du référencement
Les clés du référencementOpenEdition
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Lamjed Ben Jabeur
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter at Backbook
 
Conf Afeit Brest 090616
Conf Afeit Brest 090616Conf Afeit Brest 090616
Conf Afeit Brest 090616AFEIT
 
La recherche d'information sur internet
La recherche  d'information sur internetLa recherche  d'information sur internet
La recherche d'information sur internetAhmed Mesellem
 
Aider les organisations à intégrer les médias sociaux
Aider les organisations à intégrer les médias sociauxAider les organisations à intégrer les médias sociaux
Aider les organisations à intégrer les médias sociauxNURUNconseils
 
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...Antoine Courtin
 
Usages de Twitter chez des pros du web
Usages de Twitter chez des pros du webUsages de Twitter chez des pros du web
Usages de Twitter chez des pros du webJCDomenget
 
Analyse critiques des réseaux sociaux slides de base
Analyse critiques des réseaux sociaux   slides de baseAnalyse critiques des réseaux sociaux   slides de base
Analyse critiques des réseaux sociaux slides de baseacmjanimweb
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Arial Analyse critiques des réseaux sociaux slides de base
Arial Analyse critiques des réseaux sociaux   slides de baseArial Analyse critiques des réseaux sociaux   slides de base
Arial Analyse critiques des réseaux sociaux slides de baseacmjanimweb
 
Recruté et recruteur osez les réseaux sociaux
Recruté et recruteur osez les réseaux sociauxRecruté et recruteur osez les réseaux sociaux
Recruté et recruteur osez les réseaux sociauxRégis Gautheron
 
Recrutement osez les réseaux sociaux
Recrutement osez les réseaux sociauxRecrutement osez les réseaux sociaux
Recrutement osez les réseaux sociauxRégis Gautheron
 
La recommandation d'articles scientifiques dans une bibliothèque numérique
La recommandation d'articles scientifiques dans une bibliothèque numériqueLa recommandation d'articles scientifiques dans une bibliothèque numérique
La recommandation d'articles scientifiques dans une bibliothèque numériqueAndre Vellino
 
lisibleAnalyse critiques des réseaux sociaux slides de base
lisibleAnalyse critiques des réseaux sociaux   slides de baselisibleAnalyse critiques des réseaux sociaux   slides de base
lisibleAnalyse critiques des réseaux sociaux slides de baseacmjanimweb
 

Similaire à Recherche d'Information Sociale en Langue Arabe : Cas de Facebook (20)

Veille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancVeille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blanc
 
Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3Internet 2011 2012 illustré v3
Internet 2011 2012 illustré v3
 
Les clés du référencement
Les clés du référencementLes clés du référencement
Les clés du référencement
 
Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...Leveraging social relevance: Using social networks to enhance literature acce...
Leveraging social relevance: Using social networks to enhance literature acce...
 
Recherche
RechercheRecherche
Recherche
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter
Médias sociaux & CoM mobile : Community Manager, Facbook, Twitter
 
Conf Afeit Brest 090616
Conf Afeit Brest 090616Conf Afeit Brest 090616
Conf Afeit Brest 090616
 
La recherche d'information sur internet
La recherche  d'information sur internetLa recherche  d'information sur internet
La recherche d'information sur internet
 
Aider les organisations à intégrer les médias sociaux
Aider les organisations à intégrer les médias sociauxAider les organisations à intégrer les médias sociaux
Aider les organisations à intégrer les médias sociaux
 
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...
Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre a...
 
Usages de Twitter chez des pros du web
Usages de Twitter chez des pros du webUsages de Twitter chez des pros du web
Usages de Twitter chez des pros du web
 
Analyse critiques des réseaux sociaux slides de base
Analyse critiques des réseaux sociaux   slides de baseAnalyse critiques des réseaux sociaux   slides de base
Analyse critiques des réseaux sociaux slides de base
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Intro1 REP2400
Intro1 REP2400 Intro1 REP2400
Intro1 REP2400
 
Arial Analyse critiques des réseaux sociaux slides de base
Arial Analyse critiques des réseaux sociaux   slides de baseArial Analyse critiques des réseaux sociaux   slides de base
Arial Analyse critiques des réseaux sociaux slides de base
 
Recruté et recruteur osez les réseaux sociaux
Recruté et recruteur osez les réseaux sociauxRecruté et recruteur osez les réseaux sociaux
Recruté et recruteur osez les réseaux sociaux
 
Recrutement osez les réseaux sociaux
Recrutement osez les réseaux sociauxRecrutement osez les réseaux sociaux
Recrutement osez les réseaux sociaux
 
La recommandation d'articles scientifiques dans une bibliothèque numérique
La recommandation d'articles scientifiques dans une bibliothèque numériqueLa recommandation d'articles scientifiques dans une bibliothèque numérique
La recommandation d'articles scientifiques dans une bibliothèque numérique
 
lisibleAnalyse critiques des réseaux sociaux slides de base
lisibleAnalyse critiques des réseaux sociaux   slides de baselisibleAnalyse critiques des réseaux sociaux   slides de base
lisibleAnalyse critiques des réseaux sociaux slides de base
 

Plus de Ismail BADACHE

Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Ismail BADACHE
 
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Ismail BADACHE
 
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Ismail BADACHE
 
Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Ismail BADACHE
 
Emotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingEmotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingIsmail BADACHE
 
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Ismail BADACHE
 
Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsIsmail BADACHE
 
Détection de contradiction dans les commentaires
Détection de contradiction dans les commentairesDétection de contradiction dans les commentaires
Détection de contradiction dans les commentairesIsmail BADACHE
 
Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Ismail BADACHE
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Ismail BADACHE
 
Multimodal Social Book Search
Multimodal Social Book SearchMultimodal Social Book Search
Multimodal Social Book SearchIsmail BADACHE
 
A Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsA Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsIsmail BADACHE
 
Priors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsPriors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsIsmail BADACHE
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014Ismail BADACHE
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceIsmail BADACHE
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a searchIsmail BADACHE
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information SocialeIsmail BADACHE
 

Plus de Ismail BADACHE (17)

Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?Predicting Contradiction Intensity: Low, Strong or Very Strong?
Predicting Contradiction Intensity: Low, Strong or Very Strong?
 
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...
 
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...
 
Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?Contradiction in Reviews: is it Strong or Low?
Contradiction in Reviews: is it Strong or Low?
 
Emotional Social Signals for Search Ranking
Emotional Social Signals for Search RankingEmotional Social Signals for Search Ranking
Emotional Social Signals for Search Ranking
 
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...
 
Finding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in ReviewsFinding and Quantifying Temporal-Aware Contradiction in Reviews
Finding and Quantifying Temporal-Aware Contradiction in Reviews
 
Détection de contradiction dans les commentaires
Détection de contradiction dans les commentairesDétection de contradiction dans les commentaires
Détection de contradiction dans les commentaires
 
Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?Fresh and Diverse Social Signals: Any Impacts on Search?
Fresh and Diverse Social Signals: Any Impacts on Search?
 
Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?Social Signals: Any Impacts in Search?
Social Signals: Any Impacts in Search?
 
Multimodal Social Book Search
Multimodal Social Book SearchMultimodal Social Book Search
Multimodal Social Book Search
 
A Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social SignalsA Priori Relevance Based On Quality and Diversity Of Social Signals
A Priori Relevance Based On Quality and Diversity Of Social Signals
 
Priors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social SignalsPriors Based On Time-Sensitive Social Signals
Priors Based On Time-Sensitive Social Signals
 
Social Networks Statistics 2014
Social Networks Statistics 2014Social Networks Statistics 2014
Social Networks Statistics 2014
 
Social Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a ResourceSocial Priors to Estimate Relevance of a Resource
Social Priors to Estimate Relevance of a Resource
 
Harnessing social signals to enhance a search
Harnessing social signals to enhance a searchHarnessing social signals to enhance a search
Harnessing social signals to enhance a search
 
Poster Recherche d'Information Sociale
Poster Recherche d'Information SocialePoster Recherche d'Information Sociale
Poster Recherche d'Information Sociale
 

Recherche d'Information Sociale en Langue Arabe : Cas de Facebook

  • 1. Ismail Badache1 — Aya Abu-Thaher2 — Mariam Hamdan2 — Lara Abu-Jaish2 1Aix Marseille Univ, Université de Toulon, CNRS, LIS, Marseille, France 2Faculty of Engineering and Technology, Birzeit University, Palestine
  • 2. PLAN CONCLUSION Leçons Limites et perspectives RI SOCIALE EN ARABE : FACEBOOK Processus de RI sociale en arabe sur Facebook LTR basé sur les signaux sélectionnés EXPÉRIMENTATION Collection de test : Facebook Résultats 5 6 4 RI SOCIALE : VUE D’ENSEMBLE Définition Axes de RI sociale INTRODUCTION Facebook en chiffres Contenus Générés par l’Utilisateur UGC CONTEXTE ET CONTRIBUTIONS Contexte : RI et facteurs de pertinence Contributions 2 3 1
  • 3. 3 Source: blogdumoderateur.com quantcast.com semiocast.com Facebook en chiffres Introduction 42.3 1.52 Nombre de “J’aime” par minute milliards Utilisateurs actifs par jourUtilisateurs actifs millionsmilliards 4.39 milliards d’internautes 3.48 milliards sont au moins inscrits dans un réseau social
  • 4. 4 Soulèvement populaire : “Printemps Arabe” Evénements : Sport, Politiques, Festivités, etc. Démocratisation des moyens de production et d’interaction Utilisateurs Facebook dans le monde arabe 164 Millions 1.1 mds Anglais 310 mns Espagnol 170 mns Indonésien Source : https://www.arabianbusiness.com/technology/412823-over-164m-active-facebook-users-in-the-middle-east-study-shows https://blog.hootsuite.com/facebook-statistics/ 150 mns Arabe 14 Millions Utilisateurs arabe MAIS qui ne s’expriment pas en langue Arabe Facebook en chiffres Introduction
  • 5. 5 Contenus Générés par l’Utilisateur UGC 2.3 milliardsmilliards Sihem Amer Yahia, Michael Benedikt, and Philip Bohannon. Challenges in searching online communities. In IEEE Data Eng. Bull. Citeseer, 2007 Graphe du contenu social (Sihem Amer-Yahia et al, 2007) Introduction
  • 6. 6 Types des UGCs 2.3 milliardsmilliards Liste des différents types d’UGCs (signaux sociaux) actuels Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017. Introduction
  • 7. 7 Caractéristiques des UGCs 2.3 milliardsmilliards Nature Provenance Signification Temporalité Rating 5 4 3 2 1 Émotion Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017. Introduction
  • 8. 8 Contexte 2.3 1.52milliardsmilliards Contexte et Contributions Facteurs textuels liés à la requête - TF - IDF Facteurs non-textuels / partiellement ou non liés à la requêtes - PageRank - Présence d’URL - Popularité - Auteurs (popularité, influence, etc) - Critères sociaux (UGCs)
  • 9. 9 2.3 1.52milliardsmilliards Contribution I Évaluer l’impact des signaux sociaux ainsi que l’analyse de sentiment des commentaires sur la recherche en langue arabe sur Facebook. a) Quels sont les meilleurs signaux et groupes de signaux adaptés à cette tâche ? b) Quel est l’impact de ces critères sociaux sur les performances du moteur de recherche de Facebook ? Contribution II Construire une collection de test (documents, requêtes, qrels) issue de Facebook. Cette collection est utile pour l’évaluation des systèmes de RI sociale en langue arabe. a) Des études expérimentales orientées utilisateurs « user studies » ont été menées pour collecter les jugements de pertinence. Contexte et Contributions
  • 10. 10 Bref Historique RI Sociale 20182002 - 2004 2005 2010 2011 Social Bing Twitter Facebook : social SideBar Social Signals as Ranking Factors SearchMetrics GooglePlus Social Search (Brusilovsky et al., 2018) LinkedIn - Facebook Parmi les plus réussi réseaux sociaux Thèse Doctorat (Kirsch, 2005) Kirsch, Sebastian Marius. "Social information retrieval." These de Doctorat. Université de Rheinische Friedrich-Wilhelms (2005). Brusilovsky, Peter, Barry Smyth, and Bracha Shapira. "Social search." Social Information Access. Springer, Cham, 2018. 213-276.
  • 11. 11 Définition de la RI Sociale 2.3 1.52milliards Social search is an emerging research area that explores how social interactions and social data can enhance existing information-seeking experiences, as well as enable new information retrieval scenarios. This session will showcase different models of social search, including 1) the use of social data to augment search, 2) social data as new information to be searched, and 3) social interaction and collaboration as part of the search process. RI Sociale Jaime Teevan (Microsoft) - 2012 Source : https://www.microsoft.com/en-us/research/video/social-search-panel/
  • 12. 12 Axes de la RI Sociale 2.3 1.52 RI Sociale Recherche bibliographique RI médicale Achats en ligne Planification de voyage RI technique RI dans les réseaux sociaux Question-Réponse sociale Recherche de conversations Recherche d’opinions Recherche de personnes (experts) Recherche d’information collaborative Recherche d’information dans les contenus sociaux Quelques références (Yue et He, 2018) (Soulier, 2014) (Damak, 2014) Indexation sociale Reformulation de la requête Reclassement de résultats Classement social des résultats Classement social personnalisé Exploitation des contenus sociaux pour améliorer la RI Quelques références (Bullock et al, 2018) (Badache, 2016) Quelques références Damak, Firas. Étude des facteurs de pertinence dans la recherche de microblogs. Diss. Université Paul Sabatier, 2014. Bullock, Beate Navarro, Andreas Hotho, and Gerd Stumme. "Accessing Information with Tags: Search and Ranking." Social Information Access. Springer, Cham, 2018. 310-343. Badache, Ismail. Recherche d'information sociale: exploitation des signaux sociaux pour améliorer la recherche d'information. Diss. Université de Toulouse, Université Toulouse III-Paul Sabatier, 2016. Yue, Zhen, and Daqing He. "Collaborative information search." Social Information Access. Springer, Cham, 2018. 108-141. Soulier, Laure. Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs. Diss. Université de Toulouse, 2014.
  • 13. 13 RI sociale en arabe sur Facebook 2.3 1.52milliards RI Sociale en arabe Facebook Collection d’apprentissage Algorithmes de sélection de critères Résultats d’évaluation par itération Répéter pour 5-itérations de validation croisée Résultats du moteur de Facebook pour les 45 requêtes Extraction des critères J’aime, Partage, Haha, J’adore, Commentaires, etc Analyse de sentiments des commentaires Learning to Rank SVM Rank Random Forest Processus de « Learning To Rank » en utilisant les techniques de sélection
  • 14. 14 milliards RI sociale en arabe sur Facebook RI Sociale en arabe Liste des signaux Facebook exploités
  • 15. 15 milliards Analyseur de sentiments RI Sociale en arabe Dahou A., Xiong S., Zhou J., Haddoud M. H., Duan P. "Word embeddings and convolutional neural network for arabic sentiment classification." COLING 2016, the 26th international conference on computational linguistics, 2016. CodeSource disponible sur : https://pan.baidu.com/s/1eS2mxCe#list/path=%2F • Identifier la polarité des commentaires en langue arabe. • Approche proposée par (Dahou et al, 2016) et basée sur :  CNN (Convolutional Neural Network)  Word Embedding à l’aide d’un corpus de 3.4 milliards de mots choisi parmi un corpus de 10 milliards de mots analysés sur le Web. • Meilleur système par rapport à ceux de (Aly et Atiya, 2013 ; Nabil et al., 2015 ; Refaee et Rieser, 2014 ; Abdulla et al., 2013 ; ElSahar et El-Beltagy, 2015). https://pageperso.lis-lab.fr/ismail.badache/SentimentAnalysisAR/
  • 16. 16 milliards Sélection des meilleurs critères de pertinence RI Sociale en arabe Comment sélectionner les meilleurs groupes de critères de pertinence ? Meilleur groupe de critères Tous les critères Stratégie de sélection Evaluation du Critère Algorithme de sélection d’attributs Filter Framework
  • 17. 17 milliards Combinaison des algorithmes de LTR avec les techniques de sélection RI Sociale en arabe Hall, Mark A., and Geoffrey Holmes. "Benchmarking attribute selection techniques for discrete class data mining." (2002) Meilleur groupe de critères Algorithme de sélection d’attributs Filter Framework Algorithmes LTR Résultats & Performance • Inspiration : travaux de (Hall et Holmes, 2003) • Objectif double : 1) Vérifier si la sélection des critères améliore effectivement les résultats d’une tâche de RI. 2) Mesurer la performance de certains algorithmes d’apprentissage d’ordonnancement (LTR) combinés avec les techniques de sélection dans ce type de tâches.
  • 18. 18 milliards Collection de test : Facebook Expérimentation Meilleur groupe de critères • Collecter entre le 16 et le 28 Janvier 2018 • En utilisant Facebook API et le parsing • 45 requêtes en langue arabe (300 doc / req) • Exemple de requête : ‫عمران‬ ‫السوري‬ ‫الطفل‬ Traduction : l’enfant syrien Omran • User Study :  3 utilisateurs pour chaque requête  Echelle : non-pertinent, peu pertinent et pertinent  Mesure de l’accord est de 75% (un accord fort) Les chiffres des données issues de Facebook (pour 45 requêtes en langue arabe)
  • 19. 19 milliards Collection de test : Facebook Expérimentation Meilleur groupe de critères Statistiques sur la nature des 45 requêtes
  • 20. 20 milliards Résultats : sélection des critères Expérimentation Meilleur groupe de critères • 300 premiers documents pour chaque requête  13500 documents au total : o 2971 documents pertinents o 10529 documents non pertinents • Equilibrer la collection : o 2971 documents pertinents o 2971 documents non pertinents • Validation croisée à 5 itérations pour 10 critères en utilisant Weka. • « + » : critère sélectionné • « - » : critère non sélectionné Les critères sélectionnés par les algorithmes de sélection c10 : J’aime c20 : Partage c60 : J’adore c90 : Commentaire Positif c10 : Commentaire Négatif
  • 21. 21 milliards Résultats : LTR avec les critères sélectionnés Expérimentation Meilleur groupe de critères • Les meilleurs couples des algorithmes d’apprentissage d’ordonnancement et des techniques de sélection d’attributs sont les suivants :  L’ensemble des critères sélectionnés par CfsSubsetEval (CFS) et WrapperSubsetEval (WRP) sont appris par RankSVM et Random Forests.  L’ensemble des critères sélectionnés par ReliefFAttributeEval (RLF) sont appris par Random Forests.  L’ensemble des critères sélectionnés par SVMAttributeEval (SVM) sont appris par RankSVM. Ensembles des critères sélectionnés par CFS, WRP, SVM et RLF
  • 22. 22 Résultats : LTR avec les critères sélectionnés Expérimentation Les résultats de P@{5, 10}, nDCG et MAP du Learning to Rank • RankSVM : Implémentation et paramètres par défaut proposés par Joachims • Random Forests : Implémentation proposée par Weka (max depth à 0 et 100 trees) • Validation croisée pour 5 itérations (5-folds cross-validation) Tous les critères sauf le #commentaire. Amélioration : 80% nDCG Tous les critères sauf #commentaire et #wouah Amélioration : 57% nDCG
  • 23. 23 Résultats : LTR avec les critères sélectionnés Expérimentation • Certaines requêtes telles que : (traduction : l’enfant syrien Omran) (traduction : blocus de Gaza) P@10 P@10 0.8957 20090 9840 0.9324 96 312
  • 24. 24 Leçons Conclusion SÉLECTION DES CRITÈRES La sélection des critères est effectivement une étape intéressante pour évaluer l’importance des critères dans une tâche de RI. SIGNAL SUR UN POST EN ARABE Un signal est influencé par la culture de son créateur (langue, croyances, intérêts, région, etc.) LTR COMBINÉS AVEC DES TECHNIQUES DE SÉLECTION Les algorithmes de LTR basés sur les critères les plus pertinents selon les algorithmes de sélection sont généralement meilleurs comparés à ceux obtenus lorsque les algorithmes de sélection sont ignorés. PROFIL D’UN UTILISATEUR ARABOPHONE Un profil arabophone sur Facebook est influencé directement par les événements de sa communauté, sa région, sa culture.
  • 25. 25 Limites et Perspectives Conclusion DÉPENDANCE DU MODÈLE DE SENTIMENT Approche dépendante de la qualité et la performance du modèle de sentiment utilisé. COMPARAISON ENTRE LES CULTURES DES SIGNAUX Faire une étude comparative entre les signaux générés par un anglophone/francophone et les signaux générés par un arabophone sur le même sujet du contenu. TRAITEMENT DES DIALECTES Une étape de traitement essentielle pour une RI efficace en langue arabe consiste à utiliser un stemmer pour l’arabe dialectal. EXPERIMENTATION À GRANDE ECHELLE D’autres expérimentations à plus grande échelle sur d’autres collections sont également nécessaires (défis BigData).
  • 26. MERCI POUR VOTRE ATTENTION https://twitter.com/Ismail_badache https://pageperso.lis-lab.fr/ismail.badache/ Modèle social Modèle classique Modèle social Modèle classique