RÉSUMÉ. Les signaux sociaux associés aux ressources web peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource indépendamment de la requête. Dans cet article, nous nous intéressons particulièrement à la temporalité associée à ces signaux ainsi qu’à leur diversité. Nous supposons que l’importance a priori d’un document (ressource) dépend non seulement de la qualité de ces signaux mais aussi de la date de leur création, leur diversité ainsi que la date de publication de la ressource. De ce fait, plutôt que d’estimer cette importance (probabilité) a priori par un simple comptage des signaux liés au document, nous intégrons également la date de publication de la ressource, pour ne pas pénaliser les nouvelles ressources, les dates des signaux pour privilégier les signaux récents, ainsi que la diversité de ces signaux. Nous évaluons la performance de notre approche sur la collection d’IMDb contenant 167438 ressources et leurs données sociales collectées à partir de plusieurs réseaux sociaux. Nos résultats montrent l’intérêt des signaux temporellement sensibilisés à la sélection des ressources pertinentes.
ABSTRACT. Social signals associated with web resources can be considered as an additional information that can play a role to measure a priori importance of the resource regardless of the query. In this paper, we are particularly interested in the temporality associated with these signals and their diversity. We assume that the a priori importance of a document (resource) depends not only on the quality of these signals, but also on the dates of their creation, their diversity and the publication date of the resource. Therefore, rather than estimating the significance (probability) a priori by simply counting the number of signals associated to a resource, we also integrate the publication date of the resource, to avoid penalizing recent resources, the date of signals to boost recent actions, as well as their diversity. We evaluate the effectiveness of our approach on IMDb dataset containing 167438 resources and their social data collected from social networks. Our experiments show the interest of temporally-aware signals at capturing relevant resources.
MOTS-CLÉS : Signaux sociaux, Date du signal, Date de Publication de la ressource, Diversité.
KEYWORDS: Social signals, Signal date, Resource publication date, Diversity.
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...Ismail BADACHE
Dans cet article nous proposons une approche de recherche d’information (RI) qui prend en compte le contenu social associé à une ressource pour mesurer sa pertinence a priori vis-à-vis d’une requête. Nous démontrons comment ces caractéristiques, qui sont sous forme d’actions (signaux sociaux) tels que le nombre de "j’aime" et de "partage", peuvent être combinées pour quantifier des propriétés sociales telles que la popularité et la réputation. Nous proposons de modéliser ces propriétés comme des probabilités a priori que nous intégrons dans un modèle de langue. Nous avons évalué l’efficacité de notre approche sur la collection d’IMDb contenant 32706 documents et leurs caractéristiques sociales collectées sur plusieurs réseaux sociaux. Nos résultats expérimentaux sont très prometteurs et montrent l'intérêt de l'intégration des propriétés sociales dans un modèle de recherche pour améliorer la RI.
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ? Ismail BADACHE
RÉSUMÉ. Une grande partie des traces des utilisateurs exprimées par des signaux sociaux (ex. j’aime, +1, rating) sont attribuées aux ressources web. Ces signaux sont souvent exploités par les systèmes de RI comme des sources d’évidence additionnelles pour trier les résultats de recherche. Notre objectif dans cet article est d’étudier l’impact des nouveaux signaux sociaux, appelés Facebook reactions (j’adore, haha, grrr, wouah, triste) sur le tri de ces résultats. Ces réactions permettent aux utilisateurs d’exprimer des émotions plus nuancés par rapport aux signaux classiques (ex. like, share). Nous analysons tout d’abord ces réactions et montrons la manière dont les internautes les utilisent pour interagir avec les ressources (ex. posts, vidéo, etc). Ensuite, nous évaluons l’impact de ces réactions dans le tri des résultats de recherche en les comparant à un modèles de tri textuel et à un modèle qui prend en compte le signal j’aime. Ces caractéristiques sociales sont modélisées comme une probabilité a priori du document et elles sont intégrées dans un modèle de langue. Nous avons effectué une série d’expérimentations sur la collection INEX IMDb. Nos résultats révèlent que la prise en compte de ces signaux améliore significativement la qualité des résultats de recherche.
ABSTRACT. A large amount of social feedback expressed by social signals (e.g. like, +1, rating) are assigned to web resources. These signals are often exploited as additional sources of evidence in search engines. Our objective in this paper is to study the impact of the new social signals, called Facebook reactions (love, haha, angry, wow, sad) in the retrieval. These reactions allow users to express more nuanced emotions compared to classic signals (e.g. like, share). First, we analyze these reactions and show how users use these signals to interact with resources (e.g. posts, video, etc). Second, we evaluate the impact of each such reaction in the retrieval, by comparing them to both the textual model without social features and the first classical signal (like-based model). These social features are modeled as document prior and are integrated into a language model. We conducted a series of experiments on INEX IMDb dataset. Our findings reveal that incorporating social features is a promising approach for improving the retrieval ranking performance.
Recherche d'Information Sociale en Langue Arabe : Cas de FacebookIsmail BADACHE
Cet article propose une approche de recherche d'information (RI) en langue arabe sur Facebook, qui exploite toutes les traces des utilisateurs (ex. polarité, partage, j'aime, haha) laissées sur des publications Facebook pour estimer leur importance sociale. Notre objectif est de montrer comment ces signaux peuvent jouer un rôle vital dans l'amélioration de la recherche en langue arabe sur Facebook. Premièrement, des polarités (positive ou négative) portée par les signaux textuels (ex. commentaires) et non textuels (ex. les réactions j'adore et triste) ont été identifiées pour chaque publication Facebook. Par conséquent, la polarité de chaque commentaire exprimé sur une publication donnée, est estimée sur la base d'un modèle neuronal de sentiment en langue arabe. Deuxièmement, des signaux en fonction de leur complémentarité ont été regroupés en utilisant des algorithmes de sélection. Troisièmement, des algorithmes de learning to rank ont été appliqués pour re-ordonner les résultats de recherche de Facebook en fonction des groupes de signaux sélectionnés. Enfin, des expérimentations sont réalisées sur 13500 publications Facebook, collectées à partir de 45 requêtes en langue arabe. Les expérimentations révèlent des résultats prometteurs pour la RI en langue arabe sur Facebook.
Fresh and Diverse Social Signals: Any Impacts on Search?Ismail BADACHE
In this paper, we extensively study the impact of social signals (users' actions) obtained from several social networks on search ranking task. Social signals associated with web resources (documents) can be considered as an additional information that can play a vital role to estimate a priori importance of these resources. Particularly, we are interested in the freshness of signals and their diversity. We hypothesize that the moment (the date) when the user actions occur and the diversity of actions may impact the search performance. We propose to model these heterogeneous social features as document prior. We evaluate the effectiveness of our approach by carrying out extensive experiments on two different INEX datasets, namely SBS and IMDb, enriched with several social signals collected from social networks. Our experimental results consistently demonstrate the interest of integrating fresh and diverse signals in the retrieval process.
Priors Based On Time-Sensitive Social SignalsIsmail BADACHE
Abstract. Relevance estimation of a Web resource (document) can benefit from using social signals. In this paper, we propose a language model document prior exploiting temporal characteristics of social signals. We assume that a priori significance of a document depends on the date of users actions (social signals) and on the publication date (first occurrence) of the document. Particularly, rather than estimating the priors by simply counting signals related to the document, we bias this counting by taking into account the dates of the resource and the action. We evaluate our approach on IMDb dataset containing 167438 resources and their social data collected from several social networks. The experiments show the interest of temporally-aware signals at capturing relevant resources.
Keywords: Social Information Retrieval, Social Signals, Signal Time, Resource Publication Date, Social Ranking, Language Models.
Today’s information retrieval applications have become increasingly complex. The Social Book Search (SBS) lab at CLEF 2015 allows evaluating retrieval methods on a complex search task with several textual and non-textual meta-data fields. The challenge is to incorporate the different information types (modalities) into a single ranked list. We build a strong textual baseline and combine it with a document prior based on social signals. Further, we include non-textual modalities in relation to the user preferences using random forest learning to rank. Our experiments show that both the social document prior and the learning to rank approach improve the search results.
A Priori Relevance Based On Quality and Diversity Of Social SignalsIsmail BADACHE
Social signals (users' actions) associated with web resources (documents) can be considered as an additional information that can play a role to estimate a priori importance of the resource. In this paper, we are particularly interested in: rst, showing the impact of signals diversity associated to a resource on information retrieval performance; second, studying the influence of their social networks origin on their quality. We propose to model these social features as prior that we integrate into language model. We evaluated the effectiveness of our approach on IMDb dataset containing 167438 resources and their social signals collected from several social networks. Our experimental results are statistically signicant and show the interest of integrating signals diversity in the retrieval process.
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une res...Ismail BADACHE
Dans cet article nous proposons une approche de recherche d’information (RI) qui prend en compte le contenu social associé à une ressource pour mesurer sa pertinence a priori vis-à-vis d’une requête. Nous démontrons comment ces caractéristiques, qui sont sous forme d’actions (signaux sociaux) tels que le nombre de "j’aime" et de "partage", peuvent être combinées pour quantifier des propriétés sociales telles que la popularité et la réputation. Nous proposons de modéliser ces propriétés comme des probabilités a priori que nous intégrons dans un modèle de langue. Nous avons évalué l’efficacité de notre approche sur la collection d’IMDb contenant 32706 documents et leurs caractéristiques sociales collectées sur plusieurs réseaux sociaux. Nos résultats expérimentaux sont très prometteurs et montrent l'intérêt de l'intégration des propriétés sociales dans un modèle de recherche pour améliorer la RI.
Les Signaux Sociaux Émotionnels : Quel impact sur la RI ? Ismail BADACHE
RÉSUMÉ. Une grande partie des traces des utilisateurs exprimées par des signaux sociaux (ex. j’aime, +1, rating) sont attribuées aux ressources web. Ces signaux sont souvent exploités par les systèmes de RI comme des sources d’évidence additionnelles pour trier les résultats de recherche. Notre objectif dans cet article est d’étudier l’impact des nouveaux signaux sociaux, appelés Facebook reactions (j’adore, haha, grrr, wouah, triste) sur le tri de ces résultats. Ces réactions permettent aux utilisateurs d’exprimer des émotions plus nuancés par rapport aux signaux classiques (ex. like, share). Nous analysons tout d’abord ces réactions et montrons la manière dont les internautes les utilisent pour interagir avec les ressources (ex. posts, vidéo, etc). Ensuite, nous évaluons l’impact de ces réactions dans le tri des résultats de recherche en les comparant à un modèles de tri textuel et à un modèle qui prend en compte le signal j’aime. Ces caractéristiques sociales sont modélisées comme une probabilité a priori du document et elles sont intégrées dans un modèle de langue. Nous avons effectué une série d’expérimentations sur la collection INEX IMDb. Nos résultats révèlent que la prise en compte de ces signaux améliore significativement la qualité des résultats de recherche.
ABSTRACT. A large amount of social feedback expressed by social signals (e.g. like, +1, rating) are assigned to web resources. These signals are often exploited as additional sources of evidence in search engines. Our objective in this paper is to study the impact of the new social signals, called Facebook reactions (love, haha, angry, wow, sad) in the retrieval. These reactions allow users to express more nuanced emotions compared to classic signals (e.g. like, share). First, we analyze these reactions and show how users use these signals to interact with resources (e.g. posts, video, etc). Second, we evaluate the impact of each such reaction in the retrieval, by comparing them to both the textual model without social features and the first classical signal (like-based model). These social features are modeled as document prior and are integrated into a language model. We conducted a series of experiments on INEX IMDb dataset. Our findings reveal that incorporating social features is a promising approach for improving the retrieval ranking performance.
Recherche d'Information Sociale en Langue Arabe : Cas de FacebookIsmail BADACHE
Cet article propose une approche de recherche d'information (RI) en langue arabe sur Facebook, qui exploite toutes les traces des utilisateurs (ex. polarité, partage, j'aime, haha) laissées sur des publications Facebook pour estimer leur importance sociale. Notre objectif est de montrer comment ces signaux peuvent jouer un rôle vital dans l'amélioration de la recherche en langue arabe sur Facebook. Premièrement, des polarités (positive ou négative) portée par les signaux textuels (ex. commentaires) et non textuels (ex. les réactions j'adore et triste) ont été identifiées pour chaque publication Facebook. Par conséquent, la polarité de chaque commentaire exprimé sur une publication donnée, est estimée sur la base d'un modèle neuronal de sentiment en langue arabe. Deuxièmement, des signaux en fonction de leur complémentarité ont été regroupés en utilisant des algorithmes de sélection. Troisièmement, des algorithmes de learning to rank ont été appliqués pour re-ordonner les résultats de recherche de Facebook en fonction des groupes de signaux sélectionnés. Enfin, des expérimentations sont réalisées sur 13500 publications Facebook, collectées à partir de 45 requêtes en langue arabe. Les expérimentations révèlent des résultats prometteurs pour la RI en langue arabe sur Facebook.
Fresh and Diverse Social Signals: Any Impacts on Search?Ismail BADACHE
In this paper, we extensively study the impact of social signals (users' actions) obtained from several social networks on search ranking task. Social signals associated with web resources (documents) can be considered as an additional information that can play a vital role to estimate a priori importance of these resources. Particularly, we are interested in the freshness of signals and their diversity. We hypothesize that the moment (the date) when the user actions occur and the diversity of actions may impact the search performance. We propose to model these heterogeneous social features as document prior. We evaluate the effectiveness of our approach by carrying out extensive experiments on two different INEX datasets, namely SBS and IMDb, enriched with several social signals collected from social networks. Our experimental results consistently demonstrate the interest of integrating fresh and diverse signals in the retrieval process.
Priors Based On Time-Sensitive Social SignalsIsmail BADACHE
Abstract. Relevance estimation of a Web resource (document) can benefit from using social signals. In this paper, we propose a language model document prior exploiting temporal characteristics of social signals. We assume that a priori significance of a document depends on the date of users actions (social signals) and on the publication date (first occurrence) of the document. Particularly, rather than estimating the priors by simply counting signals related to the document, we bias this counting by taking into account the dates of the resource and the action. We evaluate our approach on IMDb dataset containing 167438 resources and their social data collected from several social networks. The experiments show the interest of temporally-aware signals at capturing relevant resources.
Keywords: Social Information Retrieval, Social Signals, Signal Time, Resource Publication Date, Social Ranking, Language Models.
Today’s information retrieval applications have become increasingly complex. The Social Book Search (SBS) lab at CLEF 2015 allows evaluating retrieval methods on a complex search task with several textual and non-textual meta-data fields. The challenge is to incorporate the different information types (modalities) into a single ranked list. We build a strong textual baseline and combine it with a document prior based on social signals. Further, we include non-textual modalities in relation to the user preferences using random forest learning to rank. Our experiments show that both the social document prior and the learning to rank approach improve the search results.
A Priori Relevance Based On Quality and Diversity Of Social SignalsIsmail BADACHE
Social signals (users' actions) associated with web resources (documents) can be considered as an additional information that can play a role to estimate a priori importance of the resource. In this paper, we are particularly interested in: rst, showing the impact of signals diversity associated to a resource on information retrieval performance; second, studying the influence of their social networks origin on their quality. We propose to model these social features as prior that we integrate into language model. We evaluated the effectiveness of our approach on IMDb dataset containing 167438 resources and their social signals collected from several social networks. Our experimental results are statistically signicant and show the interest of integrating signals diversity in the retrieval process.
Scénographie des controverses 2013 à Sciences Po, Ecole de la ComStéphane Rouilly
Cours de représentation des cartographies de controverses conçu par Stéphane Rouilly & Nicolas Benvegnu. Il a été dispensé à l'Ecole de la Com de Sciences Po le 21 janvier 2013.
Présentation des stratégies de recherche efficaces pour les étudiants qui débutent leur doctorat. On y présente une méthode de recherche d'information ainsi que plusieurs outils qui permettent d'effectuer une revue de littérature.
Exploiter les données issues de WikipediaRobert Viseur
Wikipedia est un projet collaboratif de référence. Il s’agit aussi d’un formidable réservoir de données, utilisable par exemple pour des applications reposant sur les technologies du Web sémantique (DBpedia).
Cette conférence proposera un cas pratique d’extraction et d’intégration de données biographiques, ainsi que les résultats d’une évaluation de la qualité des données.
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMANDLa Cuisine du Web
Les ressources limitées des projets de conception incitent souvent à appliquer des méthodes UX rapides, low-cost, « quick & dirty ». Mais le « guerilla UX » peut aussi être « quick » sans être « dirty », être inspirant, et constituer une alternative valide aux méthodes traditionnelles de design UX. Au-delà des célèbres tests utilisateurs à la mode Starbucks, cette conférence vous présentera de nombreuses alternatives guérilla aux entretiens, questionnaires, observations, en passant aussi par l’idéation, le storyboarding ou le maquettage. Une bonne dose d’inspiration pour se donner les moyens de faire de l’UX quand on n’en a pas les moyens !
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine LallemandCarine Lallemand
Les ressources limitées des projets de conception incitent souvent à appliquer des méthodes UX rapides, low-cost, « quick & dirty ». Mais le « guerilla UX » peut aussi être « quick » sans être « dirty », être inspirant, et constituer une alternative valide aux méthodes traditionnelles de design UX. Au-delà des célèbres tests utilisateurs à la mode Starbucks, cette conférence vous présentera de nombreuses alternatives guérilla aux entretiens, questionnaires, observations, en passant aussi par l’idéation, le tri de cartes ou le maquettage. Une bonne dose d’inspiration pour se donner les moyens de faire de l’UX quand on n’en a pas les moyens !
« Le discours et les choses. Matières technolangagières dans les environnements numériques », conférence au Colloque interdisciplinaire doctorant-e-s & jeunes chercheurs-ses Donnees hybrides et contextualisation des corpus. nouvelles approches, Universités SPC, 24 mai 2014
Veille documentaire et outils de communication du web 2.0Claire Chignard
Atelier Canopé sur la thématique des outils de veille documentaire. Formation 1 sur 3 : les outils de communication du web 2.0 : messageries, listes de diffusion, newsletters et réseaux sociaux.
Analyse des traces laissées par un apprenant sur une plate-forme de formation en e-learning en vue de l'évaluation de sa participation (quantitative et qualitative).
Support de formation au PAF de l'Académie de Nantes sur le thème de la veille documentaire et des outils du web 2.0 à destination d'un public de professeurs documentalistes.
Predicting Contradiction Intensity: Low, Strong or Very Strong?Ismail BADACHE
Reviews on web resources (e.g. courses, movies) become increasingly exploited in text analysis tasks (e.g. opinion detection, controversy detection). This paper investigates contradiction intensity in reviews exploiting different features such as variation of ratings and variation of polarities around specific entities (e.g. aspects, topics). Firstly, aspects are identified according to the distributions of the emotional terms in the vicinity of the most frequent nouns in the reviews collection. Secondly, the polarity of each review segment containing an aspect is estimated. Only resources containing these aspects with opposite polarities are considered. Finally, some features are evaluated, using feature selection algorithms, to determine their impact on the effectiveness of contradiction intensity detection. The selected features are used to learn some state-of-the-art learning approaches. The experiments are conducted on the Massive Open Online Courses data set containing 2244 courses and their 73,873 reviews, collected from coursera.org. Results showed that variation of ratings, variation of polarities, and reviews quantity are the best predictors of contradiction intensity. Also, J48 was the most effective learning approach for this type of classification.
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Ismail BADACHE
Les commentaires sur des ressources Web (ex. des cours, des films) deviennent de plus en plus exploitées dans des tâches d’analyse de texte (ex. détection d’opinion, détection de controverses). Cet article étudie l’intensité de contradiction dans les commentaires en exploitant différents critères tels que la variation des notations et la variation des polarités autour d’entités spécifiques (ex. aspects, sujets). Premièrement, les aspects sont identifiés en fonction des distributions des termes émotionnels à proximité des noms les plus fréquents dans la collection des commentaires. Deuxièmement, la polarité est estimée pour chaque segment de commentaire contenant un aspect. Seules les ressources ayant des commentaires contenant des aspects avec des polarités opposées sont prises en compte. Enfin, les critères sont évalués, en utilisant des algorithmes de sélection d’attributs, pour déterminer leur impact sur l’efficacité de la détection de l’intensité des contradictions. Les critères sélectionnés sont ensuite introduits dans des modèles d’apprentissage pour prédire l’intensité de contradiction. L’évaluation expérimentale est menée sur une collection contenant 2244 cours et leurs 73873 commentaires, collectés à partir de coursera.org. Les résultats montrent que la variation des notations, la variation des polarités et la quantité de commentaires sont les meilleurs prédicteurs de l’intensité de contradiction. En outre, J48 est l’approche d’apprentissage la plus efficace pour cette tâche.
Contenu connexe
Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Scénographie des controverses 2013 à Sciences Po, Ecole de la ComStéphane Rouilly
Cours de représentation des cartographies de controverses conçu par Stéphane Rouilly & Nicolas Benvegnu. Il a été dispensé à l'Ecole de la Com de Sciences Po le 21 janvier 2013.
Présentation des stratégies de recherche efficaces pour les étudiants qui débutent leur doctorat. On y présente une méthode de recherche d'information ainsi que plusieurs outils qui permettent d'effectuer une revue de littérature.
Exploiter les données issues de WikipediaRobert Viseur
Wikipedia est un projet collaboratif de référence. Il s’agit aussi d’un formidable réservoir de données, utilisable par exemple pour des applications reposant sur les technologies du Web sémantique (DBpedia).
Cette conférence proposera un cas pratique d’extraction et d’intégration de données biographiques, ainsi que les résultats d’une évaluation de la qualité des données.
Guérilla UX, "quick" mais pas "dirty" par Carine LALLEMANDLa Cuisine du Web
Les ressources limitées des projets de conception incitent souvent à appliquer des méthodes UX rapides, low-cost, « quick & dirty ». Mais le « guerilla UX » peut aussi être « quick » sans être « dirty », être inspirant, et constituer une alternative valide aux méthodes traditionnelles de design UX. Au-delà des célèbres tests utilisateurs à la mode Starbucks, cette conférence vous présentera de nombreuses alternatives guérilla aux entretiens, questionnaires, observations, en passant aussi par l’idéation, le storyboarding ou le maquettage. Une bonne dose d’inspiration pour se donner les moyens de faire de l’UX quand on n’en a pas les moyens !
BlendWebMix 2017 - Guérilla UX, "quick" mais pas "dirty" - Carine LallemandCarine Lallemand
Les ressources limitées des projets de conception incitent souvent à appliquer des méthodes UX rapides, low-cost, « quick & dirty ». Mais le « guerilla UX » peut aussi être « quick » sans être « dirty », être inspirant, et constituer une alternative valide aux méthodes traditionnelles de design UX. Au-delà des célèbres tests utilisateurs à la mode Starbucks, cette conférence vous présentera de nombreuses alternatives guérilla aux entretiens, questionnaires, observations, en passant aussi par l’idéation, le tri de cartes ou le maquettage. Une bonne dose d’inspiration pour se donner les moyens de faire de l’UX quand on n’en a pas les moyens !
« Le discours et les choses. Matières technolangagières dans les environnements numériques », conférence au Colloque interdisciplinaire doctorant-e-s & jeunes chercheurs-ses Donnees hybrides et contextualisation des corpus. nouvelles approches, Universités SPC, 24 mai 2014
Veille documentaire et outils de communication du web 2.0Claire Chignard
Atelier Canopé sur la thématique des outils de veille documentaire. Formation 1 sur 3 : les outils de communication du web 2.0 : messageries, listes de diffusion, newsletters et réseaux sociaux.
Analyse des traces laissées par un apprenant sur une plate-forme de formation en e-learning en vue de l'évaluation de sa participation (quantitative et qualitative).
Support de formation au PAF de l'Académie de Nantes sur le thème de la veille documentaire et des outils du web 2.0 à destination d'un public de professeurs documentalistes.
Similaire à Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux (20)
Predicting Contradiction Intensity: Low, Strong or Very Strong?Ismail BADACHE
Reviews on web resources (e.g. courses, movies) become increasingly exploited in text analysis tasks (e.g. opinion detection, controversy detection). This paper investigates contradiction intensity in reviews exploiting different features such as variation of ratings and variation of polarities around specific entities (e.g. aspects, topics). Firstly, aspects are identified according to the distributions of the emotional terms in the vicinity of the most frequent nouns in the reviews collection. Secondly, the polarity of each review segment containing an aspect is estimated. Only resources containing these aspects with opposite polarities are considered. Finally, some features are evaluated, using feature selection algorithms, to determine their impact on the effectiveness of contradiction intensity detection. The selected features are used to learn some state-of-the-art learning approaches. The experiments are conducted on the Massive Open Online Courses data set containing 2244 courses and their 73,873 reviews, collected from coursera.org. Results showed that variation of ratings, variation of polarities, and reviews quantity are the best predictors of contradiction intensity. Also, J48 was the most effective learning approach for this type of classification.
Prédire l’intensité de contradiction dans les commentaires : faible, forte ou...Ismail BADACHE
Les commentaires sur des ressources Web (ex. des cours, des films) deviennent de plus en plus exploitées dans des tâches d’analyse de texte (ex. détection d’opinion, détection de controverses). Cet article étudie l’intensité de contradiction dans les commentaires en exploitant différents critères tels que la variation des notations et la variation des polarités autour d’entités spécifiques (ex. aspects, sujets). Premièrement, les aspects sont identifiés en fonction des distributions des termes émotionnels à proximité des noms les plus fréquents dans la collection des commentaires. Deuxièmement, la polarité est estimée pour chaque segment de commentaire contenant un aspect. Seules les ressources ayant des commentaires contenant des aspects avec des polarités opposées sont prises en compte. Enfin, les critères sont évalués, en utilisant des algorithmes de sélection d’attributs, pour déterminer leur impact sur l’efficacité de la détection de l’intensité des contradictions. Les critères sélectionnés sont ensuite introduits dans des modèles d’apprentissage pour prédire l’intensité de contradiction. L’évaluation expérimentale est menée sur une collection contenant 2244 cours et leurs 73873 commentaires, collectés à partir de coursera.org. Les résultats montrent que la variation des notations, la variation des polarités et la quantité de commentaires sont les meilleurs prédicteurs de l’intensité de contradiction. En outre, J48 est l’approche d’apprentissage la plus efficace pour cette tâche.
Intensité de contradiction dans les commentaires (Séminaire à l'EHESS 04 avri...Ismail BADACHE
L’analyse des avis (commentaires) générés par les utilisateurs devient de plus en plus exploitable par une variété d’applications. Elle permet de suivre l’évolution des avis ou d’effectuer des enquêtes sur des produits. La détection d’avis contradictoires autour d’une ressource Web (ex. cours, film, produit, etc.) est une tâche importante pour évaluer cette dernière. Dans cet article, nous nous concentrons sur le problème de détection des contradictions et de la mesure de leur intensité en se basant sur l’analyse du sentiment autour des aspects spécifiques à une ressource (document). Premièrement, nous identifions certains aspects, selon les distributions des termes émotionnels au voisinage des noms les plus fréquents dans l’ensemble des commentaires. Deuxièmement, nous estimons la polarité de chaque segment de commentaire contenant un aspect. Ensuite, nous prenons uniquement les ressources contenant ces aspects avec des polarités opposées (positive, négative). Troisièmement, nous introduisons une mesure de l’intensité de la contradiction basée sur la dispersion conjointe de la polarité et du rating des commentaires contenant les aspects au sein de chaque ressource. Nous évaluons l’efficacité de notre approche sur une collection de MOOC (Massive Open Online Courses) contenant 2244 cours et leurs 73873 commentaires, collectés à partir de Coursera. Nos résultats montrent l’efficacité de l’approche proposée pour capturer les contradictions de manière significative.
Contradiction in Reviews: is it Strong or Low?Ismail BADACHE
Analysis of opinions (reviews) generated by users becomes increasingly exploited by a variety of applications. It allows to follow the evolution of the opinions or to carry out investigations on web resource (e.g. courses, movies, products). The detection of contradictory opinions is an important task to evaluate the latter. This paper focuses on the problem of detecting and estimating contradiction intensity based on the sentiment analysis around specific aspects of a resource. Firstly, certain aspects are identified, according to the distributions of the emotional terms in the vicinity of the most frequent names in the whole of the reviews. Secondly, the polarity of each review segment containing an aspect is estimated using the state-of-the-art approach SentiNeuron. Then, only the resources containing these aspects with opposite polarities (positive, negative) are considered. Thirdly, a measure of the intensity of the contradiction is introduced. It is based on the joint dispersion of the polarity and the rating of the reviews containing the aspects within each resource. The evaluation of the proposed approach is conducted on the Massive Open Online Courses collection containing 2244 courses and their 73,873 reviews, collected from Coursera. The results revealed the effectiveness of the proposed approach to detect and quantify contradictions.
Emotional Social Signals for Search RankingIsmail BADACHE
A large amount of social feedback expressed by social signals (e.g. like, +1, rating) are assigned to web resources. These signals are often exploited as additional sources of evidence in search engines. Our objective in this paper is to study the impact of the new social signals, called Facebook reactions (love, haha, angry, wow, sad) in the retrieval. These reactions allow users to express more nuanced emotions compared to classic signals (e.g. like, share). First, we analyze these reactions and show how users use these signals to interact with posts. Second, we evaluate the impact of each such reaction in the retrieval, by comparing them to both the textual model without social features and the first classical signal (like-based model). These social features are modeled as document prior and are integrated into a language model. We conducted a series of experiments on IMDb dataset. Our findings reveal that incorporating social features is a promising approach for improving the retrieval ranking performance.
Harnessing Ratings and Aspect-Sentiment to Estimate Contradiction Intensity i...Ismail BADACHE
Analysis of opinions (reviews) generated by users becomes increasingly exploited by a variety of applications. It allows to follow the evolution of the opinions or to carry out investigations on products. The detection of contradictory opinions about a web resource (e.g., courses, movies, products, etc.) is an important task to evaluate the latter. This paper focuses on the problem of detecting contradictions in reviews based on the sentiment analysis around specific aspects of a resource (document). In general, for web resources such as online courses (e.g. on Coursera or edX), reviews are often generated during course sessions. Between each session users stop reviewing on the course, and this course may have updates. So, in order to avoid the confusion of contradictory reviews coming from two or more different sessions, the reviews related to a given resource should be firstly grouped according to their session. Secondly, certain aspects are extracted according to the distributions of the emotional terms in the vicinity of the most frequent names in the reviews collection. Thirdly, the polarity of each review segment containing an aspect is identified. Then taking only the resources containing these aspects with opposite polarities (positive, negative). Finally, we propose a measure of contradiction intensity based on the joint dispersion of the polarity and the rating of the reviews containing the aspects within each resource. The evaluation of our approach is conducted on the Massive Open Online Courses (MOOC) collection containing 2244 courses and their 73,873 reviews, collected from Coursera. The results of experiments revealed the effectiveness of the proposed approach to capture and quantify contradiction intensity.
Finding and Quantifying Temporal-Aware Contradiction in ReviewsIsmail BADACHE
Opinions (reviews) on web resources (e.g., courses, movies), generated by users, become increasingly exploited in text analysis tasks, the detection of contradictory opinions being one of them. This paper focuses on the quantification of sentiment-based contradictions around specific aspects in reviews. However, it is necessary to study the contradictions with respect to the temporal dimension of reviews (their sessions). In general, for web resources such as online courses (e.g. coursera or edX), reviews are often generated during the course sessions. Between sessions, users stop reviewing courses, and there are chances that courses will be updated. So, in order to avoid the confusion of contradictory reviews coming from two or more different sessions, the reviews related to a given resource should be firstly grouped according to their corresponding session. Secondly, aspects are identified according to the distributions of the emotional terms in the vicinity of the most frequent nouns in the reviews collection. Thirdly, the polarity of each review segment containing an aspect is estimated. Then, only resources containing these aspects with opposite polarities are considered. Finally, the contradiction intensity is estimated based on the joint dispersion of polarities and ratings of the reviews containing aspects. The experiments are conducted on the Massive Open Online Courses data set containing 2244 courses and their 73,873 reviews, collected from \textit{coursera.org}. The results confirm the effectiveness of our approach to find and quantify contradiction intensity.
Détection de contradiction dans les commentairesIsmail BADACHE
RÉSUMÉ. L’analyse des avis (commentaires) générés par les utilisateurs devient de plus en plus exploitable par une variété d’applications. Elle permet de suivre l’évolution des avis ou d’effectuer des enquêtes sur des produits. La détection d’avis contradictoires autour d’une ressource Web (ex. cours, film, produit, etc.) est une tâche importante pour évaluer cette dernière. Dans cet article, nous nous concentrons sur le problème de détection des contradictions et de la mesure de leur intensité en se basant sur l’analyse du sentiment autour des aspects spécifiques à une ressource (document). Premièrement, nous identifions certains aspects, selon les distributions des termes émotionnels au voisinage des noms les plus fréquents dans l’ensemble des commentaires. Deuxièmement, nous estimons la polarité de chaque segment de commentaire contenant un aspect. Ensuite, nous prenons uniquement les ressources contenant ces aspects avec des polarités opposées (positive, négative). Troisièmement, nous introduisons une mesure de l’intensité de la contradiction basée sur la dispersion conjointe de la polarité et du rating des commentaires contenant les aspects au sein de chaque ressource. Nous évaluons l’efficacité de notre approche sur une collection de MOOC (Massive Open Online Courses) contenant 2244 cours et leurs 73873 commentaires, collectés à partir de Coursera. Nos résultats montrent l’efficacité de l’approche proposée pour capturer les contradictions de manière significative.
ABSTRACT. Analysis of opinions (reviews) generated by users becomes increasingly exploited by a variety of applications. It allows to follow the evolution of the opinions or to carry out investigations on products. The detection of contradictory opinions about a Web resource (e.g., courses, movies, products, etc.) is an important task to evaluate the latter. In this paper, we focus on the problem of detecting contradictions based on the sentiment analysis around specific aspects of a resource (document). First, we identify certain aspects, according to the distributions of the emotional terms in the vicinity of the most frequent names in the whole of the reviews. Second, we estimate the polarity of each review segment containing one aspect. Then we take only the resources containing these aspects with opposite polarities (positive, negative). Third, we introduce a measure of the intensity of the contradiction based on the joint dispersion of the polarity and the rating of the reviews containing the aspects within each resource. We evaluate the effectiveness of our approach on the Massive Open Online Courses (MOOC) collection containing 2244 courses and their 73873 reviews, collected from Coursera. Our results show the effectiveness of the proposed approach to capture contradictions significantly.
Social Priors to Estimate Relevance of a ResourceIsmail BADACHE
In this paper we propose an approach that exploits social data associated with a Web resource to measure its a priori relevance. We show how these interaction traces left by the users on the resources, which are in the form of social signals as the number of like and share, can be exploited to quantify social properties such as popularity and reputation. We propose to model these properties as a priori probability that we integrate into language model. We evaluated the effectiveness of our approach on IMDb dataset containing 167438 resources and their social signals collected from several social networks. Our experimental results are statistically significant and show the interest of integrating social properties in a search model to enhance the information retrieval.
Harnessing social signals to enhance a searchIsmail BADACHE
This paper describes an approach of information retrieval which takes into account social signals associated with Web resources to estimate its relevance to a query. We show how these data, which are in the form of actions within social activities (e.g. like, tweet), can be exploited to quantify social properties such as popularity and reputation. We propose a model that combines the social relevance, estimated from these properties, with the conventional textual relevance. We evaluated the effectiveness of our approach on IMDb dataset containing 32706 resources and their social characteristics collected from several social networks. We used also the selected criteria to learn models to determine their effectiveness in information retrieval. Our experimental results are promising and show the interest of integrating social signals in retrieval model to enhance a search.
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
1. Mars 2015
Pertinence a Priori Basée
sur la Diversité et la
Temporalité des Signaux
Sociaux
Ismail BADACHE
Mohand BOUGHANEM
CORIA 2015
2. Plan de la présentation
4
1
3
2
5
Introduction
Etat de l’art
Approche Proposée
Evaluation expérimentale
Conclusion
3. CORIA 2015 3
1.1 Chiffres Internet
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
1,2 1,4 1,7
2,4
3,025
2011 2012 2013 2014 2015
Nombre d’internautes
86% 80% 83%
18% 12%
Canada USA France Afrique Asie du sud
Taux % de pénétration d’Internet dans le Monde
Temps passé sur Internet
Dans le monde :
4,8 heures par jour via un ordinateur.
2,1 heures via un mobile.
En France :
4,1 heures par jour via un ordinateur.
1 heure via un mobile.
Chaque minute sur Internet
2 millions de recherches Google sont effectuées.
204 millions de mails sont envoyés.
3472 images sont épinglées sur Pinterest.
216000 photos sont partagées sur Instagram.
347222 photos sont partagées sur WhatsApp.
72 heures de vidéo sont téléchargées sur YouTube.
70% des internautes sont des utilisateurs quotidiens
822 240 nouveaux sites Internet sont mis en ligne chaque jour
Source:
blogdumoderateur.com
4. CORIA 2015 4
1.2 Chiffres Réseaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Contenu social par 1 min
50000 Publications
2,3 Millions J’aime
~410 GO de données
Facebook
Nombre d’utilisateurs actifs Décembre 2014
Source:
blogdumoderateur.com
quantcast.com
semiocast.com
% Partages dans les RS
6. CORIA 2015 6
1.4 Exemple de Ressource Contenant des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Date de la capture : 13/03/2015 à 16h48
7. CORIA 2015 7
1.5 Questions de Recherche
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Comment estimer la diversité des signaux sociaux au sein d’une
ressource ?
2
Quel est l’impact de la diversité et du temps associés aux signaux
sociaux sur la performance de la RI ?
3
Comment prendre en compte les signaux sociaux et leur date de
création ainsi que la date de la ressource pour estimer la probabilité a
priori de la ressource ?
1
8. CORIA 2015 8
2. Etat de l’Art
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Sources d’évidence Propriétés Modèles Auteurs
Critères sociaux indépendamment du temps
• Nombre de : clicks, votes, enregistrement et
recommandation.
Popularité
Importance
Combinaison
linéaire
(Karweg et al., 2011)
• Nombre de : j’aime, j’aime pas,
commentaire sur YouTube et nombre de
lecture d’un titre sur Last.fm.
Importance
Apprentissage
et
Combinaison
linéaire
(Chelaru et al., 2012)
(Khodaei et al. 2012)
• Nombre de retweet. Popularité
Technique
d’apprentissage
(Yang et al., 2012)
(Hong et al., 2011)
Critères sociaux sensibles au temps
• Analyse des signaux sociaux pour classer
l’intérêt des utilisateurs en 5 classes : recent,
ongoing, seasonal, past et random.
Intérêt
temporel
Etude
statistique
(Khodaei et Alonso,
2012)
• Exploiter le clic temporelle appelé ClickBuzz
pour mesurer l’intérêt d’un document à
travers le temps.
Buzz dans le
temps
Technique
d’apprentissage
(Inagaki et al., 2010)
9. CORIA 2015 9
3.1 Modèle de Langue
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Un document D peut être représenté à la fois par un ensemble de mots-
clés 𝐷 𝑚={𝑚1, 𝑚2, … 𝑚 𝑛} et des caractéristiques non-textuelles.
• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document
indépendamment de son contenu textuel.
• Dans notre approche : un document (ressource) est représenté par un
ensemble de mots-clés 𝐷 𝑚 et un ensemble de caractéristiques sociales
𝐷𝑠={𝑎1, 𝑎2, … 𝑎 𝑚}.
Probabilité a priori du
document D
Modèle textuel
Requête/Contenu
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘
𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)
𝑃 𝐷 𝑄 = 𝑟𝑎𝑛𝑘 𝑷 𝑫 𝒔 ∙ 𝑃 𝑄 𝐷)
10. CORIA 2015 10
3.2 Estimation de P(D)
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Une manière simple d’estimer la probabilité a priori est d’effectuer un
simple comptage du nombre d’actions effectuées sur une ressource.
• 𝑃(𝑎𝑖) est estimée en utilisant le maximum de vraisemblance :
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝑃(𝑎𝑖)
𝑃 𝑎𝑖 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐶𝑜𝑢𝑛𝑡(𝑎•, 𝐷)
𝑃 𝐷 =
𝑎 𝑖∈𝐴
𝐶𝑜𝑢𝑛𝑡 𝑎𝑖, 𝐷 + 𝜇 ∙ 𝑃(𝑎𝑖|𝐶)
𝐶𝑜𝑢𝑛𝑡 𝑎•, 𝐷 + 𝜇
• Pour éviter une probabilité nulle, nous lissons 𝑃 𝑎𝑖 par la collection C
en utilisant Dirichlet.
11. CORIA 2015 11
3.2 Estimation de P(D) : Temporalité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Le temps T intervient à deux niveaux dans notre approche. Il représente
deux types de dimensions temporelles :
1. L’historique de chaque signal (action), soit 𝑇𝑎 𝑖
= {𝑡1,𝑎𝑖
, 𝑡2,𝑎 𝑖
,... 𝑡 𝑘,𝑎 𝑖
}
l’ensemble de k moments (date) à laquelle une action ai a été produite.
Un instant de temps 𝑡 𝑘,𝑎 𝑖
représente la date et l’heure (datetime) de
l’action effectuée par un utilisateur u sur une ressource D.
2. La date de publication de la ressource, soit 𝑇 𝐷 = {𝑡 𝐷1
, 𝑡 𝐷2
,... 𝑡 𝐷 𝑛
}
l’ensemble de n date à laquelle chaque ressource D de la collection R a
été créée. 𝑡 𝐷 est la date de publication de la ressource D, cette date est
fournie en format datetime.
12. CORIA 2015 12
3.2.1 Date du Signal
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝐶𝑜𝑢𝑛𝑡𝑡 𝑎
𝑡𝑗,𝑎 𝑖
, 𝐷 =
𝑗=1
𝑘
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷
𝑓 𝑡𝑗,𝑎 𝑖
, 𝐷 = 𝑒𝑥𝑝 −
∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2
2𝜎2
• Nous supposons que les ressources associées aux signaux frais devraient
être favorisées par rapport à ceux qui sont associées à des signaux anciens.
• Nous utilisons une pondération exponentielle (noyau Gaussien) qui
boosterait d’avantage les signaux récents vis-à-vis les vieux signaux.
• Plus la distance euclidienne relative au temps ∥ 𝑡 𝑎𝑐𝑡𝑢𝑒𝑙 −𝑡𝑗,𝑎 𝑖
∥2 augmente,
plus la valeur du noyau Gaussien diminue.
13. CORIA 2015 13
3.2.2 Âge de la Ressource
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝐶𝑜𝑢𝑛𝑡𝑡 𝐷
𝑎𝑖, 𝐷 =
𝐶𝑜𝑢𝑛𝑡(𝑎𝑖, 𝐷)
𝐴𝑔𝑒(𝐷)
𝐴𝑔𝑒(𝐷) = 𝑒𝑥𝑝 −
‖𝑡 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝑡 𝐷‖2
2𝜎2
• Une vieille ressource a une plus grande chance d’avoir un grand nombre
d’interactions par rapport à une ressource publiée récemment. Donc, pour
résoudre ce problème, nous proposons de normaliser la distribution des
signaux sociaux associés à une ressource par la date de publication de la
ressource. On divise le nombre de signaux par l’âge de la ressource.
• La fonction temporelle du document 𝐴𝑔𝑒(𝐷) est estimée en utilisant une
fonction exponentielle (noyau Gaussien).
14. CORIA 2015 14
3.3 Estimation de P(D) : Diversité des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
𝑃 𝐷 =
𝑎 𝑖 ∈ 𝐴
𝑃 𝑎𝑖 ∙ 𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠
𝐸𝑞𝑢𝑖𝑡
𝐷 =
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 (𝐷)
𝑙𝑜𝑔(𝑚)
Avec m représente le nombre de signaux sociaux étudiés.
𝐷𝑖𝑣𝑒𝑟𝑠𝑖𝑡é 𝑠 𝐷 = −
𝑖=1
𝑚
𝑃(𝑎𝑖) ∙ 𝑙𝑜𝑔 𝑃 𝑎𝑖
• Une ressource dominée par un seul signal doit être défavorisée par rapport
à une ressource ayant une équi-répartition des signaux. On propose
d’évaluer cette diversité en utilisant l’indice de diversité de Shannon.
• L’indice de Shannon est souvent accompagné par l’indice d’équitabilité
de Piélou.
Donc :
15. CORIA 2015 15
4.1 Objectifs de l’Evaluation
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
1) Etudier l’impact de la temporalité des signaux sociaux (date du signal
et l’âge de la ressource) sur la performance de la RI.
2) Etudier l’apport de la prise en compte de la diversité des signaux au
sein de la ressource.
• Cadre d’évaluation :
- Utilisation de la collection INEX IMDb.
- Collecter des signaux sociaux et leur caractéristiques temporelles
pour chaque document IMDb et monter l’expérimentation.
16. CORIA 2015 16
4.2 Description de la Collection de Test
Champ Description Statut
ID identifiant du film (le document). -
Title le titre du film. indexé
Year l’année de sortie du film. indexé
Rated classement des films selon le type du contenu. -
Released date de réalisation du film. indexé
Runtime durée du film. indexé
Genre genre de film (Action, Drame, etc.). indexé
Director le directeur du projet du film. indexé
Writer les écrivains et les scénaristes du film. indexé
Actors les acteurs principaux du film. indexé
Plot résumé textuel du film. indexé
Poster le lien URL de l’affiche du film. -
url le lien URL qui mène à la source originale du document. -
UGC Les différents signaux sociaux récupérés. -
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.2.1 Contenu Textuel : INEX IMDb 2011
17. CORIA 2015 17
4.2 Description de la Collection de Test
ACEBOOK
J’aime
Partage
Commentaire
Date du Signal
WITTER
Tweet
GOOGLE+
Mention +1
Partage
LINKED
DELICIOUS
Bookmark
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.2.2 Contenu Social : 8 données sociales collectées de 5 réseaux sociaux
Fig 1. Pourcentage de distribution des signaux dans les documents
18. CORIA 2015 18
4.2 Description de la Collection de Test
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Réseau social Signaux Somme Min Max Moyenne
Facebook
J’aime 2478498 0 76842 85.8027
Partage 2718918 0 43918 94.1258
Commentaire 2845169 0 62281 98.4964
Twitter Tweet 499232 0 12223 17.2830
Google+ +1 73392 0 1475 2.5407
Delicious Bookmark 26143 0 986 0.9050
LinkedIn Partage 42787 0 29988 1.4812
4.2.3 Requêtes et Jugements de Pertinence : INEX IMDb
- 30 Requêtes et leur Qrels issus d’INEX IMDb.
- 1000 premiers documents retournés par chaque requête.
19. CORIA 2015 19
4.3 Résultats : Temporalité des Signaux Sociaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Base (B) : Sans Prise en Compte de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
J'aime Partage Commentaire TotalFacebook Tweet +1 Bookmark Partage(LIn) Tous
Avec Prise en Compte de la Date de Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité
a Priori
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
Partage Commentaire
Avec Prise en Compte de
la Date de l’Action
P@10 P@20 nDCG MAP
20. CORIA 2015 20
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
4.3 Résultats : Diversité des Signaux Sociaux
0
0,1
0,2
0,3
0,4
0,5
Lucene Solr ML.Hiemstra
Base (A) : Sans Probabilité a
Priori
P@10 P@20 nDCG MAP
0
0,2
0,4
0,6
0,8
TotalFacebook Tous
Base (B) : Sans Prise en Compte
de Diversité et du Temps
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de Diversité et la Date de
Publication de la Ressource
P@10 P@20 nDCG MAP
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
TotalFacebook Tous
Avec Prise en Compte de la
Date de Publication
P@10 P@20 nDCG MAP
21. CORIA 2015 21
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Tableau 1. Statistiques sur la distribution des signaux dans les documents
(pertinents et non-pertinents) retournés par les 30 requêtes
22. CORIA 2015 22
4.4 Analyse Quantitative et Qualitative des Signaux
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
Fig 3. Pourcentage des documents pertinents contenants des signaux
Fig 2. Pourcentage des signaux dans les documents pertinents
23. CORIA 2015 23
5. Conclusion
1. Introduction 2. Etat de l’art 3. Approche proposée
5. Conclusion4. Evaluation expérimentale
• Modèle de recherche d’information sociale
- Evidence thématique (Modèle de langue)
- Evidence sociale :
1) Signaux sociaux.
2) Temporalité des signaux.
3) Diversité des signaux.
• Expérimentation sur une collection IMDb
- Amélioration significative par rapport aux modèles de base.
• Perspectives
- Intégration d’autres critères sociaux.
- Etude approfondie sur l’impact du temps de chaque action.
- Comparer le modèle proposé avec d’autres modèles sociaux.