Cet article propose une approche de recherche d'information (RI) en langue arabe sur Facebook, qui exploite toutes les traces des utilisateurs (ex. polarité, partage, j'aime, haha) laissées sur des publications Facebook pour estimer leur importance sociale. Notre objectif est de montrer comment ces signaux peuvent jouer un rôle vital dans l'amélioration de la recherche en langue arabe sur Facebook. Premièrement, des polarités (positive ou négative) portée par les signaux textuels (ex. commentaires) et non textuels (ex. les réactions j'adore et triste) ont été identifiées pour chaque publication Facebook. Par conséquent, la polarité de chaque commentaire exprimé sur une publication donnée, est estimée sur la base d'un modèle neuronal de sentiment en langue arabe. Deuxièmement, des signaux en fonction de leur complémentarité ont été regroupés en utilisant des algorithmes de sélection. Troisièmement, des algorithmes de learning to rank ont été appliqués pour re-ordonner les résultats de recherche de Facebook en fonction des groupes de signaux sélectionnés. Enfin, des expérimentations sont réalisées sur 13500 publications Facebook, collectées à partir de 45 requêtes en langue arabe. Les expérimentations révèlent des résultats prometteurs pour la RI en langue arabe sur Facebook.
Recherche d'Information Sociale en Langue Arabe : Cas de Facebook
1. Ismail Badache1 — Aya Abu-Thaher2 — Mariam Hamdan2 — Lara Abu-Jaish2
1Aix Marseille Univ, Université de Toulon, CNRS, LIS, Marseille, France
2Faculty of Engineering and Technology, Birzeit University, Palestine
2. PLAN
CONCLUSION
Leçons
Limites et perspectives
RI SOCIALE EN ARABE : FACEBOOK
Processus de RI sociale en arabe sur Facebook
LTR basé sur les signaux sélectionnés
EXPÉRIMENTATION
Collection de test : Facebook
Résultats
5
6
4
RI SOCIALE : VUE D’ENSEMBLE
Définition
Axes de RI sociale
INTRODUCTION
Facebook en chiffres
Contenus Générés par l’Utilisateur UGC
CONTEXTE ET CONTRIBUTIONS
Contexte : RI et facteurs de pertinence
Contributions
2
3
1
4. 4
Soulèvement populaire : “Printemps Arabe”
Evénements : Sport, Politiques, Festivités, etc.
Démocratisation des moyens de production et d’interaction
Utilisateurs Facebook dans le monde arabe
164 Millions
1.1 mds
Anglais
310 mns
Espagnol
170 mns
Indonésien
Source : https://www.arabianbusiness.com/technology/412823-over-164m-active-facebook-users-in-the-middle-east-study-shows
https://blog.hootsuite.com/facebook-statistics/
150 mns
Arabe
14 Millions Utilisateurs arabe MAIS
qui ne s’expriment pas en langue Arabe
Facebook en chiffres
Introduction
5. 5
Contenus Générés par l’Utilisateur UGC
2.3 milliardsmilliards
Sihem Amer Yahia, Michael Benedikt, and Philip Bohannon. Challenges in searching online communities. In IEEE Data Eng. Bull. Citeseer, 2007
Graphe du contenu social (Sihem Amer-Yahia et al, 2007)
Introduction
6. 6
Types des UGCs
2.3 milliardsmilliards
Liste des différents types d’UGCs (signaux sociaux) actuels
Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017.
Introduction
7. 7
Caractéristiques des UGCs
2.3 milliardsmilliards
Nature
Provenance
Signification
Temporalité
Rating
5
4
3
2
1
Émotion
Badache, Ismail, and Mohand Boughanem. "Fresh and Diverse Social Signals: any impacts on search?." Proceedings of the 2017 CHIIR. ACM, 2017.
Introduction
8. 8
Contexte
2.3 1.52milliardsmilliards
Contexte et Contributions
Facteurs textuels liés à la requête
- TF
- IDF
Facteurs non-textuels / partiellement ou non liés à la requêtes
- PageRank
- Présence d’URL
- Popularité
- Auteurs (popularité, influence, etc)
- Critères sociaux (UGCs)
9. 9
2.3 1.52milliardsmilliards
Contribution I
Évaluer l’impact des signaux sociaux ainsi que l’analyse
de sentiment des commentaires sur la recherche en
langue arabe sur Facebook.
a) Quels sont les meilleurs signaux et groupes de
signaux adaptés à cette tâche ?
b) Quel est l’impact de ces critères sociaux sur les
performances du moteur de recherche de
Facebook ?
Contribution II
Construire une collection de test (documents, requêtes,
qrels) issue de Facebook. Cette collection est utile pour
l’évaluation des systèmes de RI sociale en langue arabe.
a) Des études expérimentales orientées utilisateurs « user
studies » ont été menées pour collecter les jugements de
pertinence.
Contexte et Contributions
10. 10
Bref Historique
RI Sociale
20182002 - 2004 2005 2010 2011
Social Bing
Twitter
Facebook : social SideBar
Social Signals as Ranking Factors
SearchMetrics
GooglePlus
Social Search
(Brusilovsky et al., 2018)
LinkedIn - Facebook
Parmi les plus réussi
réseaux sociaux
Thèse Doctorat
(Kirsch, 2005)
Kirsch, Sebastian Marius. "Social information retrieval." These de Doctorat. Université de Rheinische Friedrich-Wilhelms (2005).
Brusilovsky, Peter, Barry Smyth, and Bracha Shapira. "Social search." Social Information Access. Springer, Cham, 2018. 213-276.
11. 11
Définition de la RI Sociale
2.3 1.52milliards
Social search is an emerging research area that explores how social
interactions and social data can enhance existing information-seeking
experiences, as well as enable new information retrieval scenarios.
This session will showcase different models of social search, including
1) the use of social data to augment search, 2) social data as new
information to be searched, and 3) social interaction and collaboration
as part of the search process.
RI Sociale
Jaime Teevan (Microsoft) - 2012
Source : https://www.microsoft.com/en-us/research/video/social-search-panel/
12. 12
Axes de la RI Sociale
2.3 1.52
RI Sociale
Recherche bibliographique
RI médicale
Achats en ligne
Planification de voyage
RI technique
RI dans les réseaux sociaux
Question-Réponse sociale
Recherche de conversations
Recherche d’opinions
Recherche de personnes (experts)
Recherche d’information
collaborative
Recherche d’information
dans les contenus sociaux
Quelques références
(Yue et He, 2018)
(Soulier, 2014)
(Damak, 2014)
Indexation sociale
Reformulation de la requête
Reclassement de résultats
Classement social des résultats
Classement social personnalisé
Exploitation des contenus
sociaux pour améliorer la RI
Quelques références
(Bullock et al, 2018)
(Badache, 2016)
Quelques références
Damak, Firas. Étude des facteurs de pertinence dans la recherche de microblogs. Diss. Université Paul Sabatier, 2014.
Bullock, Beate Navarro, Andreas Hotho, and Gerd Stumme. "Accessing Information with Tags: Search and Ranking." Social Information Access. Springer, Cham, 2018. 310-343.
Badache, Ismail. Recherche d'information sociale: exploitation des signaux sociaux pour améliorer la recherche d'information. Diss. Université de Toulouse, Université Toulouse III-Paul Sabatier, 2016.
Yue, Zhen, and Daqing He. "Collaborative information search." Social Information Access. Springer, Cham, 2018. 108-141.
Soulier, Laure. Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs. Diss. Université de Toulouse, 2014.
13. 13
RI sociale en arabe sur Facebook
2.3 1.52milliards
RI Sociale en arabe
Facebook
Collection
d’apprentissage
Algorithmes de
sélection de
critères
Résultats
d’évaluation
par itération
Répéter pour 5-itérations de validation croisée
Résultats du moteur
de Facebook pour
les 45 requêtes
Extraction des critères
J’aime, Partage,
Haha, J’adore,
Commentaires, etc
Analyse de
sentiments des
commentaires
Learning to Rank
SVM Rank
Random Forest
Processus de « Learning To Rank » en utilisant les techniques de sélection
15. 15
milliards
Analyseur de sentiments
RI Sociale en arabe
Dahou A., Xiong S., Zhou J., Haddoud M. H., Duan P. "Word embeddings and convolutional neural network for arabic sentiment classification." COLING 2016, the 26th international conference on computational linguistics, 2016.
CodeSource disponible sur : https://pan.baidu.com/s/1eS2mxCe#list/path=%2F
• Identifier la polarité des commentaires en langue arabe.
• Approche proposée par (Dahou et al, 2016) et basée sur :
CNN (Convolutional Neural Network)
Word Embedding à l’aide d’un corpus de 3.4
milliards de mots choisi parmi un corpus de 10
milliards de mots analysés sur le Web.
• Meilleur système par rapport à ceux de (Aly et Atiya, 2013
; Nabil et al., 2015 ; Refaee et Rieser, 2014 ; Abdulla et al.,
2013 ; ElSahar et El-Beltagy, 2015).
https://pageperso.lis-lab.fr/ismail.badache/SentimentAnalysisAR/
16. 16
milliards
Sélection des meilleurs critères de pertinence
RI Sociale en arabe
Comment sélectionner les meilleurs groupes de critères de pertinence ?
Meilleur groupe
de critères
Tous les critères
Stratégie de
sélection
Evaluation du
Critère
Algorithme de sélection d’attributs
Filter Framework
17. 17
milliards
Combinaison des algorithmes de LTR
avec les techniques de sélection
RI Sociale en arabe
Hall, Mark A., and Geoffrey Holmes. "Benchmarking attribute selection techniques for discrete class data mining." (2002)
Meilleur groupe de critères
Algorithme de sélection d’attributs
Filter Framework
Algorithmes LTR
Résultats & Performance
• Inspiration : travaux de (Hall et Holmes, 2003)
• Objectif double :
1) Vérifier si la sélection des critères améliore
effectivement les résultats d’une tâche de RI.
2) Mesurer la performance de certains algorithmes
d’apprentissage d’ordonnancement (LTR) combinés
avec les techniques de sélection dans ce type de
tâches.
18. 18
milliards
Collection de test : Facebook
Expérimentation
Meilleur groupe
de critères
• Collecter entre le 16 et le 28 Janvier 2018
• En utilisant Facebook API et le parsing
• 45 requêtes en langue arabe (300 doc / req)
• Exemple de requête :
عمران السوري الطفل
Traduction : l’enfant syrien Omran
• User Study :
3 utilisateurs pour chaque requête
Echelle : non-pertinent, peu pertinent et pertinent
Mesure de l’accord est de 75% (un accord fort)
Les chiffres des données issues de Facebook
(pour 45 requêtes en langue arabe)
19. 19
milliards
Collection de test : Facebook
Expérimentation
Meilleur groupe
de critères
Statistiques sur la nature des 45 requêtes
20. 20
milliards
Résultats : sélection des critères
Expérimentation
Meilleur groupe
de critères
• 300 premiers documents pour chaque
requête 13500 documents au total :
o 2971 documents pertinents
o 10529 documents non pertinents
• Equilibrer la collection :
o 2971 documents pertinents
o 2971 documents non pertinents
• Validation croisée à 5 itérations pour
10 critères en utilisant Weka.
• « + » : critère sélectionné
• « - » : critère non sélectionné
Les critères sélectionnés par les algorithmes de sélection
c10 : J’aime
c20 : Partage
c60 : J’adore
c90 : Commentaire Positif
c10 : Commentaire Négatif
21. 21
milliards
Résultats : LTR avec les critères sélectionnés
Expérimentation
Meilleur groupe
de critères
• Les meilleurs couples des algorithmes d’apprentissage d’ordonnancement et des techniques de
sélection d’attributs sont les suivants :
L’ensemble des critères sélectionnés par CfsSubsetEval (CFS) et WrapperSubsetEval (WRP) sont
appris par RankSVM et Random Forests.
L’ensemble des critères sélectionnés par ReliefFAttributeEval (RLF) sont appris par Random Forests.
L’ensemble des critères sélectionnés par SVMAttributeEval (SVM) sont appris par RankSVM.
Ensembles des critères sélectionnés par CFS, WRP, SVM et RLF
22. 22
Résultats : LTR avec les critères sélectionnés
Expérimentation
Les résultats de P@{5, 10}, nDCG et MAP du Learning to Rank
• RankSVM : Implémentation et paramètres par défaut proposés par Joachims
• Random Forests : Implémentation proposée par Weka (max depth à 0 et 100 trees)
• Validation croisée pour 5 itérations (5-folds cross-validation)
Tous les critères sauf le #commentaire.
Amélioration : 80% nDCG
Tous les critères sauf #commentaire et #wouah
Amélioration : 57% nDCG
23. 23
Résultats : LTR avec les critères sélectionnés
Expérimentation
• Certaines requêtes telles que :
(traduction : l’enfant syrien Omran) (traduction : blocus de Gaza)
P@10 P@10
0.8957 20090 9840 0.9324 96 312
24. 24
Leçons
Conclusion
SÉLECTION DES CRITÈRES
La sélection des critères est effectivement une étape intéressante
pour évaluer l’importance des critères dans une tâche de RI.
SIGNAL SUR UN POST EN ARABE
Un signal est influencé par la culture de son créateur (langue, croyances,
intérêts, région, etc.)
LTR COMBINÉS AVEC DES TECHNIQUES DE SÉLECTION
Les algorithmes de LTR basés sur les critères les plus pertinents selon
les algorithmes de sélection sont généralement meilleurs comparés à
ceux obtenus lorsque les algorithmes de sélection sont ignorés.
PROFIL D’UN UTILISATEUR ARABOPHONE
Un profil arabophone sur Facebook est influencé directement par les
événements de sa communauté, sa région, sa culture.
25. 25
Limites et Perspectives
Conclusion
DÉPENDANCE DU MODÈLE DE SENTIMENT
Approche dépendante de la qualité et la performance du
modèle de sentiment utilisé.
COMPARAISON ENTRE LES CULTURES DES SIGNAUX
Faire une étude comparative entre les signaux générés par un
anglophone/francophone et les signaux générés par un
arabophone sur le même sujet du contenu.
TRAITEMENT DES DIALECTES
Une étape de traitement essentielle pour une RI efficace en langue
arabe consiste à utiliser un stemmer pour l’arabe dialectal.
EXPERIMENTATION À GRANDE ECHELLE
D’autres expérimentations à plus grande échelle sur d’autres
collections sont également nécessaires (défis BigData).
26. MERCI POUR VOTRE ATTENTION
https://twitter.com/Ismail_badache
https://pageperso.lis-lab.fr/ismail.badache/
Modèle
social
Modèle
classique
Modèle
social
Modèle
classique