Introduction sur les domaines scientifiques impliqués dans la fouille de textes
- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...
Panorama méthodologique de l'offre logicielle académique ou commerciale
- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs
IRIT at clef 2015: A product search model for head queriesLamjed Ben Jabeur
We describe in this paper our participation in the product search task of LL4IR CLEF 2015 Lab. This task aims to evaluate, with living labs protective point of view,
the retrieval effectiveness over e-commerce search engines. During the online shopping process, users would search for interesting products and quickly access those that fit with their needs among a long tail of similar or closely related products. Our contribution addresses head queries that are frequently submitted on e-commerce Web sites. Head queries usually target featured products with several variations, accessories, and complementary products. We propose a probabilistic model for product search based on the intuition that descriptive fields and the category might fit with the query.
Finaly, we present results obtained during the second round of the product search task.
Introduction sur les domaines scientifiques impliqués dans la fouille de textes
- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...
Panorama méthodologique de l'offre logicielle académique ou commerciale
- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs
IRIT at clef 2015: A product search model for head queriesLamjed Ben Jabeur
We describe in this paper our participation in the product search task of LL4IR CLEF 2015 Lab. This task aims to evaluate, with living labs protective point of view,
the retrieval effectiveness over e-commerce search engines. During the online shopping process, users would search for interesting products and quickly access those that fit with their needs among a long tail of similar or closely related products. Our contribution addresses head queries that are frequently submitted on e-commerce Web sites. Head queries usually target featured products with several variations, accessories, and complementary products. We propose a probabilistic model for product search based on the intuition that descriptive fields and the category might fit with the query.
Finaly, we present results obtained during the second round of the product search task.
This document discusses collaborative information retrieval models based on users' domain expertise and roles. It presents two main types of models:
1. Domain expertise-based CIR models that personalize collaborative rankings based on a vertical/horizontal distinction of users' domain expertise levels.
2. User-driven system-mediated CIR models that adapt the system's mediation based on users' predefined or dynamically determined roles during collaboration. These models aim to better support collaborators' behaviors, strategies and division of labor.
The document provides an overview and comparison of these expertise-based and role-based CIR models, highlighting how they leverage different evidence sources like relevance feedback or user behaviors to optimize collaborative search. It contributes to the research by
The document is a seminar presentation on the Unified Medical Language System (UMLS). It defines UMLS as a compendium of controlled biomedical vocabularies that provides a mapping structure between them to allow translation. UMLS was started in 1986 at the National Library of Medicine as a long-term research project to develop tools for understanding medical meaning across systems and to facilitate information retrieval and communication between different medical systems and literature. It consists of three main knowledge sources - the Metathesaurus, Semantic Network, and SPECIALIST Lexicon - which can be accessed remotely through terminology services browsers and downloads or locally using subset browsers.
Unified Medical Language System & MetaMapOsama Jomaa
UMLS is a metathesaurus that facilitates the development of computer systems that behave as if they "understand"
the meaning of the language of biomedicine
and health. It comprises a controlled vocabulary, semantic network and specialist lexicon and lexical tools. MetaMap is a tool for recognizing UMLS concepts in text
This document provides an overview of a company called QualityMetric that offers health surveys and tools for capturing patient-reported outcomes. It discusses QualityMetric's smart measurement system which allows for health surveys to be administered and scored via various modes including phone, online, paper, and mobile devices. It also describes how QualityMetric's tools can be used to monitor population health metrics like disease burden, risk prediction, cost-benefit analysis, and program evaluation. The document concludes with a case study of Alberta Health Services which used QualityMetric's surveys and reporting features to evaluate outcomes of diabetes and obesity management programs.
This document discusses techniques for analyzing and summarizing medical images using language modeling. It presents several technical contributions, including multi-scale texture description using wavelet and Riesz transforms, developing a visual grammar from bags of visual words, and detecting regions of interest using geodesic operations. Experiments are described applying these methods to analyze texture in 2D and 3D medical images from datasets of lung CT and brain MRI scans.
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...lorrainegoeuriot
Talk given at the International Workshop on Knowledge Discovery from (Big) Text: Challenges and Opportunities when Mining Biomedical Text in Leuven on the 18th of May 2015
This document discusses challenges with a data science project including the experimental and unpredictable nature, difficulties with scheduling due to unknown completion times, proposing new products with data and technology limitations, and addressing failures by breaking the work into smaller pieces with increased visibility and producing functional interim results to stay on track.
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Lamjed Ben Jabeur
Laure Soulier, Lamjed Ben Jabeur, Paul Mousset, Lynda Tamine. Quels facteurs de pertinence pour la recherche de produits e-commerce ?. Dans : Conférence francophone en Recherche d'Information et Applications (CORIA 2016), Toulouse, 09/03/2016-11/03/2016, Association Francophone de Recherche d'Information et Applications (ARIA), p. 415-430, mars 2016. https://www.irit.fr/publis/SIG/2016_CORIA_SOULIER.pdf
Un moteur de recherche e-commerce vise à fournir un accès rapide et efficace à des produits qui correspondent aux besoins et aux préférences de l'utilisateur parmi une liste de produits similaires ou étroitement liés. Nous avons participé à la campagne d'évaluation « Living Lab for Information Retrieval » qui proposait une tâche de recherche de produits évaluée par des utilisateurs réels lors de scénarios de recherche réelle sur un site de e-commerce. L’évaluation expérimentale a montré des résultats prometteurs de notre modèle. Dans ce papier, nous proposons une analyse des fichiers logs issus de notre modèle afin d'identifier des facteurs d’efficacité liés à la requête et aux produits. L'objectif de cette étude est d'ouvrir des pistes de recherche pour la formalisation de modèles de recherche de produits.
E-commerce product retrieval aims to provide a quick and efficient access to products that fit user’s needs and preferences among a tail of similar or closely related products. We participated to the ``Living Lab for Information Retrieval'' evaluation campaign devoted to a product search task in which real users evaluated participants' retrieval models in real search scenarios on e-commerce websites. The experimental evaluation has shown encouraging results for our proposed model. In this paper, we conduct an analysis of users' feeadback with respect to the clicks obtained by our model. The goal of the paper is therefore to identify the effectiveness factors underlying the user's queries and the retrieved products in order to open perspectives in the formalization of product search models.
INTRODUCTION TO INFORMATION RETRIEVAL
This lecture will introduce the information retrieval problem, introduce the terminology related to IR, and provide a history of IR. In particular, the history of the web and its impact on IR will be discussed. Special attention and emphasis will be given to the concept of relevance in IR and the critical role it has played in the development of the subject. The lecture will end with a conceptual explanation of the IR process, and its relationships with other domains as well as current research developments.
INFORMATION RETRIEVAL MODELS
This lecture will present the models that have been used to rank documents according to their estimated relevance to user given queries, where the most relevant documents are shown ahead to those less relevant. Many of these models form the basis for many of the ranking algorithms used in many of past and today’s search applications. The lecture will describe models of IR such as Boolean retrieval, vector space, probabilistic retrieval, language models, and logical models. Relevance feedback, a technique that either implicitly or explicitly modifies user queries in light of their interaction with retrieval results, will also be discussed, as this is particularly relevant to web search and personalization.
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Lamjed Ben Jabeur
Nous présentons dans cet article une analyse exploratoire dans l’objectif d’identifier les patrons de collaboration au sein des réseaux sociaux pour l’accès à l’information. Nous nous focalisons sur le cas de la gestion de crise au travers de la plateforme sociale Twitter. Nous nous appuyons ainsi sur deux types de crises : une catastrophe naturelle (l’ouragan Sandy) et une crise sanitaire (Ebola). Nous proposons une méthodologie en trois étapes qui permet 1) d’analyser les structures de collaboration, 2) d’identifier les thématiques de collaboration et 3) de présenter les réseaux latents de collaboration sur l’ensemble du réseau. Les résultats montrent paradoxalement que le périmètre de la collaboration est réduit, que les sujets sousjacents sont diversifiés et impliquent des utilisateurs qui peuvent être à l’interface de différents sujets.
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Bilel Moulahi
Présentation de thèse intitulée : Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multi-dimensionnelle en recherche d'information
Thèse soutenue le 11/12/2015 à l'IRIT (UPS, Toulouse)
Télécharger la présentation (.pptx) : http://www.irit.fr/publis/SIG/Presentation_thesis_Moulahi_2015.pptx
Télécharger la thèse : http://www.irit.fr/publis/SIG/Thesis_Moulahi_2015.pdf
El documento describe el método y técnicas de estudio efectivo. Explica que el orden y la distribución del tiempo son elementos clave para adquirir nuevos conocimientos. También destaca varias técnicas útiles como la prelectura, el subrayado, la lectura comprensiva, las notas al margen, los esquemas y los resúmenes para comprender y memorizar la información de manera efectiva.
Este documento describe los marcadores sociales y cómo usar el servicio Delicious. Explica que los marcadores sociales permiten a los usuarios guardar y compartir enlaces de Internet mediante etiquetas. Señala que Delicious es uno de los servicios más populares y que ofrece ventajas como disponibilidad desde cualquier lugar, seguridad al guardar los enlaces en la nube, y la posibilidad de crear una red social. A continuación, detalla los pasos para crear una cuenta en Delicious y empezar a guardar y etiquetar enlaces.
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en FranceCIDJ
Sommaire de ce n°45 :
Découvrirlemonde.jeunes.gouv.fr : le portail national de la mobilité internationale
L’Europe dans le réseau IJ
L’actualité Ofaj
Nouvelles de l’Union
À découvrir
Clic sur le Royaume-Uni
Où s’informer
La potencia es una medida de la energía transferida o consumida por unidad de tiempo. Existen diferentes tipos de potencia como la potencia eléctrica, activa, aparente y reactiva. La potencia se mide en vatios y se puede medir usando instrumentos como el voltímetro o medidores de potencia.
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
This document discusses collaborative information retrieval models based on users' domain expertise and roles. It presents two main types of models:
1. Domain expertise-based CIR models that personalize collaborative rankings based on a vertical/horizontal distinction of users' domain expertise levels.
2. User-driven system-mediated CIR models that adapt the system's mediation based on users' predefined or dynamically determined roles during collaboration. These models aim to better support collaborators' behaviors, strategies and division of labor.
The document provides an overview and comparison of these expertise-based and role-based CIR models, highlighting how they leverage different evidence sources like relevance feedback or user behaviors to optimize collaborative search. It contributes to the research by
The document is a seminar presentation on the Unified Medical Language System (UMLS). It defines UMLS as a compendium of controlled biomedical vocabularies that provides a mapping structure between them to allow translation. UMLS was started in 1986 at the National Library of Medicine as a long-term research project to develop tools for understanding medical meaning across systems and to facilitate information retrieval and communication between different medical systems and literature. It consists of three main knowledge sources - the Metathesaurus, Semantic Network, and SPECIALIST Lexicon - which can be accessed remotely through terminology services browsers and downloads or locally using subset browsers.
Unified Medical Language System & MetaMapOsama Jomaa
UMLS is a metathesaurus that facilitates the development of computer systems that behave as if they "understand"
the meaning of the language of biomedicine
and health. It comprises a controlled vocabulary, semantic network and specialist lexicon and lexical tools. MetaMap is a tool for recognizing UMLS concepts in text
This document provides an overview of a company called QualityMetric that offers health surveys and tools for capturing patient-reported outcomes. It discusses QualityMetric's smart measurement system which allows for health surveys to be administered and scored via various modes including phone, online, paper, and mobile devices. It also describes how QualityMetric's tools can be used to monitor population health metrics like disease burden, risk prediction, cost-benefit analysis, and program evaluation. The document concludes with a case study of Alberta Health Services which used QualityMetric's surveys and reporting features to evaluate outcomes of diabetes and obesity management programs.
This document discusses techniques for analyzing and summarizing medical images using language modeling. It presents several technical contributions, including multi-scale texture description using wavelet and Riesz transforms, developing a visual grammar from bags of visual words, and detecting regions of interest using geodesic operations. Experiments are described applying these methods to analyze texture in 2D and 3D medical images from datasets of lung CT and brain MRI scans.
Medical Information Retrieval and its Evaluation: an Overview of CLEF eHealth...lorrainegoeuriot
Talk given at the International Workshop on Knowledge Discovery from (Big) Text: Challenges and Opportunities when Mining Biomedical Text in Leuven on the 18th of May 2015
This document discusses challenges with a data science project including the experimental and unpredictable nature, difficulties with scheduling due to unknown completion times, proposing new products with data and technology limitations, and addressing failures by breaking the work into smaller pieces with increased visibility and producing functional interim results to stay on track.
Quels facteurs de pertinence pour la recherche de produits e-commerce ?Lamjed Ben Jabeur
Laure Soulier, Lamjed Ben Jabeur, Paul Mousset, Lynda Tamine. Quels facteurs de pertinence pour la recherche de produits e-commerce ?. Dans : Conférence francophone en Recherche d'Information et Applications (CORIA 2016), Toulouse, 09/03/2016-11/03/2016, Association Francophone de Recherche d'Information et Applications (ARIA), p. 415-430, mars 2016. https://www.irit.fr/publis/SIG/2016_CORIA_SOULIER.pdf
Un moteur de recherche e-commerce vise à fournir un accès rapide et efficace à des produits qui correspondent aux besoins et aux préférences de l'utilisateur parmi une liste de produits similaires ou étroitement liés. Nous avons participé à la campagne d'évaluation « Living Lab for Information Retrieval » qui proposait une tâche de recherche de produits évaluée par des utilisateurs réels lors de scénarios de recherche réelle sur un site de e-commerce. L’évaluation expérimentale a montré des résultats prometteurs de notre modèle. Dans ce papier, nous proposons une analyse des fichiers logs issus de notre modèle afin d'identifier des facteurs d’efficacité liés à la requête et aux produits. L'objectif de cette étude est d'ouvrir des pistes de recherche pour la formalisation de modèles de recherche de produits.
E-commerce product retrieval aims to provide a quick and efficient access to products that fit user’s needs and preferences among a tail of similar or closely related products. We participated to the ``Living Lab for Information Retrieval'' evaluation campaign devoted to a product search task in which real users evaluated participants' retrieval models in real search scenarios on e-commerce websites. The experimental evaluation has shown encouraging results for our proposed model. In this paper, we conduct an analysis of users' feeadback with respect to the clicks obtained by our model. The goal of the paper is therefore to identify the effectiveness factors underlying the user's queries and the retrieved products in order to open perspectives in the formalization of product search models.
INTRODUCTION TO INFORMATION RETRIEVAL
This lecture will introduce the information retrieval problem, introduce the terminology related to IR, and provide a history of IR. In particular, the history of the web and its impact on IR will be discussed. Special attention and emphasis will be given to the concept of relevance in IR and the critical role it has played in the development of the subject. The lecture will end with a conceptual explanation of the IR process, and its relationships with other domains as well as current research developments.
INFORMATION RETRIEVAL MODELS
This lecture will present the models that have been used to rank documents according to their estimated relevance to user given queries, where the most relevant documents are shown ahead to those less relevant. Many of these models form the basis for many of the ranking algorithms used in many of past and today’s search applications. The lecture will describe models of IR such as Boolean retrieval, vector space, probabilistic retrieval, language models, and logical models. Relevance feedback, a technique that either implicitly or explicitly modifies user queries in light of their interaction with retrieval results, will also be discussed, as this is particularly relevant to web search and personalization.
Accès à l’information dans les réseaux sociaux : quelles formes de collaborat...Lamjed Ben Jabeur
Nous présentons dans cet article une analyse exploratoire dans l’objectif d’identifier les patrons de collaboration au sein des réseaux sociaux pour l’accès à l’information. Nous nous focalisons sur le cas de la gestion de crise au travers de la plateforme sociale Twitter. Nous nous appuyons ainsi sur deux types de crises : une catastrophe naturelle (l’ouragan Sandy) et une crise sanitaire (Ebola). Nous proposons une méthodologie en trois étapes qui permet 1) d’analyser les structures de collaboration, 2) d’identifier les thématiques de collaboration et 3) de présenter les réseaux latents de collaboration sur l’ensemble du réseau. Les résultats montrent paradoxalement que le périmètre de la collaboration est réduit, que les sujets sousjacents sont diversifiés et impliquent des utilisateurs qui peuvent être à l’interface de différents sujets.
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Bilel Moulahi
Présentation de thèse intitulée : Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multi-dimensionnelle en recherche d'information
Thèse soutenue le 11/12/2015 à l'IRIT (UPS, Toulouse)
Télécharger la présentation (.pptx) : http://www.irit.fr/publis/SIG/Presentation_thesis_Moulahi_2015.pptx
Télécharger la thèse : http://www.irit.fr/publis/SIG/Thesis_Moulahi_2015.pdf
El documento describe el método y técnicas de estudio efectivo. Explica que el orden y la distribución del tiempo son elementos clave para adquirir nuevos conocimientos. También destaca varias técnicas útiles como la prelectura, el subrayado, la lectura comprensiva, las notas al margen, los esquemas y los resúmenes para comprender y memorizar la información de manera efectiva.
Este documento describe los marcadores sociales y cómo usar el servicio Delicious. Explica que los marcadores sociales permiten a los usuarios guardar y compartir enlaces de Internet mediante etiquetas. Señala que Delicious es uno de los servicios más populares y que ofrece ventajas como disponibilidad desde cualquier lugar, seguridad al guardar los enlaces en la nube, y la posibilidad de crear una red social. A continuación, detalla los pasos para crear una cuenta en Delicious y empezar a guardar y etiquetar enlaces.
Europe Information Jeunesse n°45 - La lettre du réseau Eurodesk en FranceCIDJ
Sommaire de ce n°45 :
Découvrirlemonde.jeunes.gouv.fr : le portail national de la mobilité internationale
L’Europe dans le réseau IJ
L’actualité Ofaj
Nouvelles de l’Union
À découvrir
Clic sur le Royaume-Uni
Où s’informer
La potencia es una medida de la energía transferida o consumida por unidad de tiempo. Existen diferentes tipos de potencia como la potencia eléctrica, activa, aparente y reactiva. La potencia se mide en vatios y se puede medir usando instrumentos como el voltímetro o medidores de potencia.
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
Support de l'intervention effectuée au cours de la séance dédiée aux lacs de données du séminaire "Nouveaux paradigmes de l'Archive" organisée par le DICEN-CNAM et les Archives nationales
Présentation de Franck Ghitalla et de l'équipe de webatlas à l'occasion de l'inauguration du médialab de sciences po le Lundi 25 Mai 2009. http://medialab.sciences-po.fr
Présentation faite lors d'une réunion du projet animitex à Montpellier en aôut 2014. Cette présentation brosse un apercu des standards du web sémantique disponible sur le web de données. Puis nous introduisons brièvement les travaux de Fabien Amarger sur la transformation de SKOS en ontologie.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar LAKEL, PhD
Les humanités numériques sont la rencontre entre la numérisation des traces de l’activité humaine et la démarche scientifique des SHS. Si le digital turn est une révolution sociétale, la pratique du chercheur ne peut échapper aux enjeux majeurs d’une innovation radicale de ses pratiques. Dans le cadre de cette master class, Amar LAKEL s’est interrogé sur la capacité d’innovation du chercheur en SHS qu’il distingue de ses capacités de professionnel de la recherche. Il enjoint alors la recherche à réussir une série d’épreuves pour réussir son entrer dans le XXIe siècle.
Vous trouverez la présentation video ici : https://youtu.be/YHj953Yb95w
Et l’article sur lequel se fonde cette présentation dans la revue Etudes digitales N°6 : https://www.researchgate.net/publication/332671854_Recherches_digitales_et_production_des_donnees_bouleversement_des_agencements_pour_le_chercheur_en_SIC
Présentation faite lors d'une réunion du projet animitex à montpellier en aôut 2014. Cette présentation introduit certains formats du web sémantique en particulier ceux accessible sur le web de données . Ensuite les travaux de Fabien Amarger sur la transformation de SKOS en ontologies OWL sont survollés.
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
L'émergence du phénomène du web 2.0, des nouveaux outils d'accès à l'information qu'il propose, des nouveaux types de contenus qu'il met en ligne, et des nouveaux protocoles de filtrage et de validation qu'il abolit ou transcende, interroge les pratiques actuelles de formation à l'IST. Parmi d'autres, le phénomène des blogs d'experts gagne le domaine de l'enseignement en général et de l'université en particulier. Des institutions, des composantes, des formations, des services, des communautés scientifiques, mais aussi des enseignants-chercheurs ouvrent de nouveaux espaces de paroles, mettant en œuvre de nouvelles dynamique de collaboration. Ces nouveaux collaboratoires, sous l'angle des rapports entre science et société, permettent d'articuler différemment un grand nombre de pratiques scientifiques en terme de diffusion, de collecte, de recherche, de publication et d'enseignement. Le domaine de la culture informationnelle et de la maîtrise de l'information en particulier, et celui des sciences de l'information et de la communication en général est à la fois un terrain et un révélateur particulièrement pertinent pour analyser les problématiques sous-jacentes de ces nouveaux collaboratoires, au rang desquelles la construction d'une culture du préprint, la mise à disposition d'indicateurs adaptés, la facilitation du déploiement rapide d'expertises dispersées et la reconfiguration des champs.
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationAntidot
Toute organisation subit les limites de son système d’information : entrepôts de données cloisonnés, données hétérogènes, documents non structurés, thésaurus incomplets, taxonomies incohérentes…
Les utilisateurs en souffrent et attendent un véritable « accès unifié à l’information » : trouver l’information par les concepts plutôt que la chercher par les mots, naviguer aisément dans l’information, mieux l’exploiter en collaborant. L’entreprise doit évoluer vers un « espace informationnel enrichi », servant différents usages selon le profil ou la mission de chaque collaborateur.
La vision innovante d'Antidot permet d’aller bien au-delà de ce que permettent les approchent traditionnelles comme la « recherche fédérée » ou encore les « search based applications » car Antidot Information Factory et Antidot Finder Suite permettent de modéliser l’information, de capter, normaliser, décrire et agréger des données puis d’en inférer des informations nouvelles, facilement accessibles.
Intégrant nativement les technologies du web sémantique, Antidot apporte les solutions les plus en pointe dans le domaine et démontre à travers une réalisation emblématique - le projet ISIDORE du CNRS TGE Adonis - comment capter, remodeler et rendre accessible une information à forte valeur ajoutée.
Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ?
L'utilisation du terme « Sémantique » a souvent été porteur de confusions donnant à penser que le Web sémantique visait la compréhension du langage naturel par les machines. Même si les objectifs réels du Web sémantique semblent en réalité éloignées des techniques du traitement automatique de la langue, les technologies du Web sémantique n'en restent pas moins intéressantes pour les solutions d'accès et de recherche d'information. En effet, celles-ci sont déployée dans des contextes de plus en plus complexes mêlant données structurées et données non structurées et, dans ce cadre, les technologies du Web sémantique permettent de résoudre de nombreux problèmes de par le cadre d'interopérabilité et l'écosystème de standards et d'outils qu'elles offrent.
Impliqués depuis plusieurs années dans le domaine, nous montrerons comment les technologies du Web sémantique aide les équipes Antidot à mieux gérer, traiter et valoriser les données de leurs clients. Dans cette présentation, nous parcourrons une palette assez large de manipulations des objets sémantiques pratiquées couramment dans nos réalisations et basées sur les technologies du Web sémantique.
Nous illustrerons notre exposé par des réalisations concrètes et nous montrerons en quoi l’utilisation du Web sémantique nous a épargné des heures de développements spécifiques et nous a permis d’adresser des problématiques de plus en plus complexes.
Nous aborderons notamment l’extension sémantique, la navigation par facette, la mise en relation de silos d’informations hétérogènes, l’alignement des données sur des référentiels, l’utilisation du Web des données et d’autres techniques originales que nous avons développées pour la nouvelle version d’AFS.
1. Ontologies et accès aux contenus,
un exemple de fertilisation
croisée entre SIG et IA
Nathalie Aussenac-Gilles
(IRIT – CNRS, Toulouse, France)
aussenac@irit.fr
2. Plan
• Systèmes d’information et IA: différences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI : Représenter un texte par un graphe sémantique
– Une vue IA : les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des relations
sémantiques
2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
3. SI, IA : Différences fondatrices
« Si tu ne sais pas où tu vas, regarde d’où tu viens »
• Des sous-disciplines de l’informatique
• Questions des recherche et problématiques propres
• Applications différentes
• Ma lorgnette : les textes
• Données, Informations
• vs connaissances
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de plus en
plus nombreux, les frontières entre ces deux domaines de
l'informatique sont de moins en moins nettes, tant sur le terrain
des applications que celui des questions de recherche.
Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de
réseaux sociaux ou encore adapter les réponses aux usages et
préférences des utilisateurs sont des questions étudiées par le
traitement automatique des langues, la recherche
d'information et les systèmes d'information du web, l'ingénierie
des connaissances, ou le web sémantique, mais aussi par les
mathématiciens et statisticiens. Or une réponse opérationnelle
fait souvent appel à tous ces domaines.
4. SI, IA : Différences fondatrices
Les textes dans les SIG
• Des données : Documents comme fichiers, mots
comme Chaînes de caractères
• Statut : sources d’information, traces d’activités,
restitution de traitements
• Traitements
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les
frontières entre ces deux domaines de l'informatique sont de moins
en moins nettes, tant sur le terrain des applications que celui des
questions de recherche. Aujourd'hui, faire progresser la recherche
d'information, répondre à des questions précises, analyser des
données de réseaux sociaux ou encore adapter les réponses aux
usages et préférences des utilisateurs sont des questions étudiées par
le traitement automatique des langues, la recherche d'information et
les systèmes d'information du web, l'ingénierie des connaissances, ou
le web sémantique, mais aussi par les mathématiciens et
statisticiens. Or une réponse opérationnelle fait souvent appel à tous
ces domaines.
Rechercher des fichiers
Stocker, archiver
Représentations
optimisées : Indexer
Documenter
Méta-données
... Systèmes d’information … Afficher, mettre en
forme, éditer
5. SI, IA : Différences fondatrices
Les textes en IA > la langage en IA
• Approche symbolique
• Langage et raisonnement, ref. linguistique
• La logique comme modèle cognitif
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5
Alors que les points de convergence entre Systèmes
d'information et Intelligence Artificielle semblent de
plus en plus nombreux, les frontières entre ces deux
domaines de l'informatique sont de moins en moins
nettes, tant sur le terrain des applications que celui
des questions de recherche.
Relation de causalité
Valeurs graduelles : plus les convergences sont nombreuses,
moins les frontières sont nettes
Formalisation : Pour tout p et f, Convergence(p) & nombreuses (p) &
frontière(f) > non nette (f)
Computational
linguistics vs NLP
Symboles, Connaissances
(prédicats, règles, faits)
Description, analyses manuelles,
corpus « artificiels »
6. Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6
Logiques
Base de
connaissances
Décision et
incertitude
…
TAL
Ingénierie des
connaissances
7. Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
8. SI, IA : exemples d’évolutions
Les textes dans les SIG
• Chercher des réponses précises
• Affichage et accès sur le web
• Mettre en relation : hypertexte
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Dissocier forme et contenu
Découper, structurer, étiqueter, baliser
Représentations sémantiques :
Index sémantiques
Documenter des fragments
Méta-données
... Ingénierie des connaissances…
Fonctions
« cognitives »
plus complexes …
intelligence ?
9. SI, IA : exemples d’évolutions
Les textes en IA : le succès du TAL
• Sémantique formelle
• TAL à base de règles linguistiques : analyses syntaxiques
• Plus de corpus sur le web : TAL statistique
• Plus de ressources, lexiques, dictionnaires …
• Apport du Machine Learning
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9
Alors que les points de convergence entre Systèmes d'information et
Intelligence Artificielle semblent de plus en plus nombreux, les frontières
entre ces deux domaines de l'informatique sont de moins en moins nettes,
tant sur le terrain des applications que celui des questions de recherche.
<partie 1 > Aujourd'hui, faire progresser la recherche d'information,
répondre à des questions précises, analyser des données de réseaux sociaux
ou encore adapter les réponses aux usages et préférences des utilisateurs
sont des questions étudiées par le traitement automatique des langues, la
recherche d'information et les systèmes d'information du web, <a href =
« http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique,
mais aussi par les mathématiciens et statisticiens.
</partie1> Or une réponse opérationnelle fait souvent appel à tous ces
domaines.
Corriger, analyser, étiqueter
automatiquement
Résumer, traduire
Construire des arbres
syntaxiques, sémantiques
10. Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10
Additional informations on web pages
Situation in a taxonomy
Close and
similar animals
Dynamic generation of the page
content using various knowledge
sourcesDefinition
Properties
Relevant BBC documents
11. Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac 11
Fert
ilisa
tion
croi
sée
entr
A life science taxonomy
Semantic
distance
Dynamic generation of the page
content using various knowledge
sources
The Semantic options to answer these
needs
- Unified representation
- Standard meta-data
- Ontologies
- Formal definitions
- Inference capabilities
Rich and
formal
concept
descriptions
12. Le défi du web sémantique :
exemple du site de la BBC
27/05/2015 - Aussenac 12
Fert
ilisa
tion
croi
sée
entr
Dynamic “data semantisation”
Semantic search
Standard query language
Dynamic generation of the page
content using various knowledge
sources
Semantic annotation
13. • Ontologies and vocabularies for
– Tagging videos and papers
– Collecting additional information on the web
– Providing synthetic information about wildlife
• Ontologies
– 6 main ontologies
• wildlife ontology
http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml
27/05/2015 - Aussenac 13
Fertilisation
croisée entre
Le défi du web sémantique :
exemple du site de la BBC
14. Deux domaines dans l’informatique
Recherche
d’information
BD
SIAD
Recommandations
Gestion
documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14
Logique,
représentation
des connaissances
Base de
connaissances
Décision et
incertitude
Ontologies
TAL, …
Ingénierie des
connaissances
Web
sémantique
Questions-réponses
Apprentissage
automatique
Web des données,
Entrepôts de
données RDF
Fouille de
données
RI sur le web
Rapprochement entre
données et connaissances
15. Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
17. Indexation
• Qu’est ce qu’indexer ?
– Associer des descripteurs à un document pour le
retrouver [Calabretto et Prié,04]
– Extraire d’un document une représentation
caractéristique de son contenu [Baziz,05]
• Nature variable des descripteurs :
– RI non sémantique : descripteur = groupe de mots
– RI sémantique : descripteur = élément d’ontologie
17
Le moteur manque de puissance en accélération
et en vitesse de pointe.
Phase moteur : accélération
Phase véhicule : grande vitesse
Motorisation Manque de puissance
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
18. 27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18
t1, t4
t7 t9
tk,
Schéma général de l’approche
des réseaux sémantiques pour représenter les documents [Baziz, 05]
ontologie
n1
n4
n3
n2
n6
n5
P13
P23
P12
P14
P42
P4i
P2i
Pmi
P3m
P2m
Un réseau
sémantique
Projeter un document sur une ontologie
Questions:
• Comment identifier les noeuds ?
• Comment les pondérer ?
• Comment pondérer les liens entre eux ?
un document
• noeuds + arcs
• noeuds = concepts
• arcs = liens étiqueté entre concepts
Réseau sémantique [Quillian, 68][Lee, 93]
19. Des réseaux sémantiques pour
représenter les documents
• Quelle ontologie ?
– Wordnet …. qui n’est pas une ontologie mais un
réseau lexical (Cf Guarino et Welty)
• Projeter un document sur une ontologie
1. Détection et extraction de concepts candidats
2. Calcul de similarité entre concepts candidats
3. Construire le meilleur réseau (noyau)
sémantique
1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
20. Détection de concepts
20
Exemple1 :
Exemple2 :
Exemple3 :
Solar energy
C1
The structure of an organism 2 concepts formés
de mots simples
The abdominal external oblique muscle
C1
C2
Ck=tjtj+1..tmConcept= Max CkText=t1t2...tn
with m<=nk
C3
Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans
l’ontologie est sélectionné:
Le plus long (C3)
est le bon.
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
21. Problémtisation de l’indexation
du point de vue du TAL et de l’IA
• Articuler texte et représentation sémantique
• Disposer de représentations
– Sémantiquement valides et précises : ontologies validées
– Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS
– De logiciels pour retrouver des éléments de modèle dans les textes
• Etre conscient des distorsions, ambiguïtés entre mots /
représentations / interprétation des représentations
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21
Indices
linguistiques
RTO
22. Meta-modèle de Ressource
Termino-Ontologique
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 22
Termes manipulés
comme classes
Associer des informations
(POS, langue, ..)
Meta-modèle
OBIR (Reymonet 2007 et 2009)
Autres modèles
LingInfo (Buitelaar et al. 2006)
LexOnto [Cimiano et al. 2007]
LexInfo [Buitelaar et al. 2009]
LIR in NEON (Monteil Ponsoda
et al., 2008, 2011)
24. Meta-modèle pour ontologies lexicales : le
méta-modèle NEON
27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA
LIR :
Linguistic
Information
Repository
25. the LEMON meta-model
27/05/2015 - Aussenac
Fertilisation croisée entre SIG et IA 26
Main Classes of the meta-
model:
● Lexical Entry
● Form: inflectional variant
– Representation: written versions) of
the entry
● Sense (one of the meanings of the
lexical Entry)
– Reference: actual meaning in the
ontology
26. Questions à approfondir
• Annotation sémantique
– Quelle richesse des annotations ? Avec quel type
de ressources ? Quelle fidélité au langage suivant
les applications ?
• Passage à l’échelle, complexité
– Mieux étudié en RI
– Quelle efficacité de l’ensemble du processus ?
Sachant le coût de construction d’une ontologie,
la place requise par des annotations sem etc
– Jusqu’où enrichir les
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27
27. Plan
• Systèmes d’information et IA: differences fondatrices
– Un point de vue : la gestion des textes
– Approches et problématiques
• Convergences
– Évolutions dans chaque domaine
– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique
– Une vue RI: ex de la thèse de M. Baziz
– Une vue IA: les modèles de RTO
– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
28. Semantic relations,
what do we mean?
Research field
• Domain Ontology engineering
– Formal (logic, RDF, OWL …) and
may lead to infer new
knowledge
– The relation is part of a network
– May be shared or not
• Semantic web
– Independent triples
– Publically available in data
repositories with W3C Standard
format
– Connect triples with existing
ones, with web ontologies
What is a relation
bot:Tree bot:has_part bot:Branch
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29
Trunk
Has-part
Root
Plant
Fonguscereals
Has-
part
Root
is_a
Tree
Has-
part
Branch
bot:myTr
ee
bot:has-
part
bot:MyTre
eRoots
bot:Tree
bot:has-
part
bot:Branch
rdf:Type
29. Finding semantic relations,
what are the issues?
• Knowledge sources:
– where can we find relations?
• Extraction techniques
– How can we identify them?
• Representation
– Which way do I represent this information?
• Validation
– What makes a relation representation valild? Relevant?
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30
30. Finding semantic relations,
what are the issues?
• Knowledge sources
– text, human experts, existing “semantic” resources (lexicon,
terminologies, ontologies, Linked Data vocabularies)
– Domain specific vs general knowledge
• Extraction techniques
– “obvious” language regularities, known relations and classes (or
entities) -> Patterns
• Issues : domain dependence, domain coverage, variation and
flexibility, rigidity (need to be regularly updated)
• Research issues: automatic building by machine learning
– “more implicit” language regularities, medium size corpora,
open list of classes/entities -> supervised learning
– Very large corpora, unexpected relations -> unsupervised
learning
31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
31. Pattern based relation extraction,
an issue: variation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the ground,
the willow is an ornamental tree.
• The tree of the neighbor has been
delimed.
• He climbs on the branches of the tree.
• This tree is wonderful. Its branches
reach the ground.
• Contains: very systematic pattern; the
parts may be difficult to spot;
enumeration > various parts
• With: meronymy pattern only in some
genres (such as catalogs, biology
documents)
• Delimed : Term and pattern are in the
same word; requires background
knowledge: delimed -> has_part
branches (and branches are cut)
• Of : Very ambiguous pattern; polysemy
reduced in [verb N1 of N2]
• Its : very ambiguous pattern; necessity
to take into account two sentences
32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
32. Relation extraction:
learning relations from enumerative structures
• Corpus
– 745 enumerative structures from
Wikipedia pages
– 3 relation types: taxonomic,
ontological_non_taxonomic,
non_ontological
• Classification task
– Feature definition
– Automatic evaluation of features
– 3 algorithms are compared : SVM,
MaxEntropy and baseline (majority)
– Training of the 2 algorithms
• Results
– 82% f-measure for SVM
– Best result with a 2 step process
(ontological yes/no -> feature and
then taxonomic yes/no)
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33
33. From intepretation to representation
• A tree comprises at least a trunk,
roots and branches.
• With branches reaching the
ground, the willow is an
ornamental tree.
• The tree of the neighbor has been
delimed.
• He’s climbing on the branches of
the tree.
• This tree is wonderful. Its
branches reach the ground.
Tree
Trunk
Branches
Has-part Roots
Ornamental
Tree
Willow Tree Has-part Branches
Has-part Branches
Has-part Branches
Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac
Neighbor
Tree
Instance _of
34. Convergences SIG / IA
• La complémentarité est encore plus diverse
– Logique floue : réponses “approchées” à des requêtes
– Réseaux bayésiens et classifieurs pour la recherche d’information
(documents classés en fonction de la requête)
– Exploitation des standards du W3C : entrepôts de données etc.
– Passage à l’échelle des index sémantiques …
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35