mleenhardt@le-semiopole.fr
rdelaplace@le-semiopole.fr
www.le-semiopole.fr
Tel : +33 (0) 141 585 636
Fax : +33 (0) 148 593 ...
PLAN
1. Introduction : contexte, problématiques
2. Objectifs : apports opérationnels et qualitatifs de la solution
3. Verr...
1. INTRODUCTION : CONTEXTE, PROBLÉMATIQUES
CONTEXTE MÉTIER
- Veille sociétale, en particulier analyse des retombées médiat...
2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION
Web hétérogène et multilingue
Moteur d'extraction Grill...
OpinionsCorpus
Module
d’agrégation
de données
Choix format du corpus
Extraction
Décomptes sur les
données agrégées
Analyse...
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
CONTEXTE
- Fort accroissement du multilinguisme sur int...
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
HÉTÉROGÉNÉITÉ DES SUPPORTS
- Grande variété des types d...
Développer une passerelle pour fluidifier les étapes de traitement, depuis l’extraction de données signifiantes jusqu’à
l’ana...
PRISE EN COMPTE DU CONTEXTE ET GAIN QUALITATIF
L’application du principe de résonance textuelle permet de contextualiser l...
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
OUTILS ET RÔLE DE L’ANALYSTE
- Quatre fonctions d’explo...
- Corpus PS : 4,8 millions de mots, monolingue (FR) - polémiques autour de l’élection de M. Aubry à la tête du PS et de sa...
- Corpus Cocoon : analyse d’opinion en contexte bilingue (FR/EN) suite à un lancement produit - corpus de 40 000 mots -
ré...
- Corpus Cocoon : on effectue des calculs volumétriques à partir des discours annotés en fonction des opinions exprimées,
...
- Corpus Affiliation : 1 700 sources web analysées en fonction de leur thématique dans différents domaines ciblés par la st...
POUR CONCLURE...
La solution conçue associe les technologies de récolte de données textuelles et les moteurs de traitement...
Merci !
Le Sémiopôle 66 rue Marceau 93100 Montreuil ~ tél. 00 33 (1) 41 585 636 Fax 00 33 (1) 48 593 532
Contacts Frédéric...
Prochain SlideShare
Chargement dans…5
×

Vsst 2010 le_semiopole_26102010

660 vues

Publié le

Le Sémiopôle multilingual opinion & argument mining system presentation at VSST'10

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
660
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
















  • Vsst 2010 le_semiopole_26102010

    1. 1. mleenhardt@le-semiopole.fr rdelaplace@le-semiopole.fr www.le-semiopole.fr Tel : +33 (0) 141 585 636 Fax : +33 (0) 148 593 532 66, rue Marceau - 93100 Montreuil - France lcwu@le-semiopole.fr SYLED/CLA2T - ILPGA Paris 3 CRIM/ERTIM - INaLCO SYLED/CLA2T - ILPGA Paris 3 Marguerite Leenhardt Richard Delaplace Li-Chi Wu 26 octobre 2010 Méthode de conception d’une application de veille et d’Analyse Linguistique Assistée par Ordinateur Colloque international VSST‘2010 - Université Paul Sabatier - Toulouse ‘Veille stratégique, scientifique et technologique - Systèmes d’information élaborée, bibliométrie, linguistique, intelligence économique’ 1mercredi 27 octobre 2010
    2. 2. PLAN 1. Introduction : contexte, problématiques 2. Objectifs : apports opérationnels et qualitatifs de la solution 3. Verrous technologiques : multilinguisme, hétérogénéité, analyse - Gestion du multilinguisme - Hétérogénéité des supports - Prise en compte du contexte, rôle de l’analyste et gain qualitatif 4. Etudes de cas 5. Pour conclure... RAPPELS - Les traitements Textométriques opèrent à partir d’une trame de contenants dans lesquels le fil textuel est segmenté en unités : la problématique de la segmentation du fil textuel est donc centrale. - Les technologies de TAL (Traitement Automatique des Langues) visent à appliquer les méthodologies d’analyses, notamment issues de la Linguistique Appliquée et de la Sémantique Textuelle, à l’aide d’une chaîne de traitement informatisée. - Le principe de résonance textuelle : «variations conjointes des différentes unités textuelles dans [plusieurs volets] du corpus» (Salem, 2004) 2mercredi 27 octobre 2010
    3. 3. 1. INTRODUCTION : CONTEXTE, PROBLÉMATIQUES CONTEXTE MÉTIER - Veille sociétale, en particulier analyse des retombées médiatiques et des opinions exprimées par les internautes sur une marque, une institution, un produit et des thématiques sur lesquelles elles portent et des arguments auxquelles elles sont liées. - Veille multilingue et multisupports, pour répondre aux évolutions du web et de la demande client. - Solutions techniques existantes exploitant encore peu les innovations technologiques en TAL et les méthodes d’analyse de données textuelles développées en Textométrie. CONTEXTE R&D - Conception d’un système d’agrégation et d’analyse de données web. - Modulable, opérationnel en contexte multilingue (langues européennes et asiatiques). - Enrichissement flexible de corpus : trames d’annotation dédiées à des besoins d’analyse particuliers. - Problématiques : Linguistique Appliquée, TAL (multilingue), Textométrie, analyse de la CMO. - Focus particulier : Analyse des conversations et analyse des opinions. 3mercredi 27 octobre 2010
    4. 4. 2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION Web hétérogène et multilingue Moteur d'extraction Grilles d'analyse Interface Analyste Serveur de données Heuristics Interface Client Avec l’objectif d’optimiser les systèmes d’analyse qualitative de données web utilisés en veille stratégique sociétale, notre contribution vise à : - opérationnaliser la tâche de récolte d’informations textuelles à partir de structures erratiques, en contexte multilingue ; - développer des séquences de traitement génériques pour fluidifier les étapes de traitement, depuis l’extraction d’informations identifiées comme pertinentes, jusqu’à l’analyse proprement dite. Export de résultats Web service dédié à la veille, intégration des résultats d’analyses linguistiques et Textométriques 4mercredi 27 octobre 2010
    5. 5. OpinionsCorpus Module d’agrégation de données Choix format du corpus Extraction Décomptes sur les données agrégées Analyses Textométriques Trames d’annotation structurelleDescription XPath Création de corpus structuré standard XML Résonance (inter)textuelle Thématiques 2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION Trames d’annotation analytiques Web bruité, supports hétérogènes, données multilingues Statistiques Textuelles Cartographie Textuelle riche IDENTIFICATION ACQUISITION ANALYSE Data Table Mixed Graphs Exports dans des formats standard (.csv, .xml, .jpg, ...) Prétraitements Statistiques Textuelles Supervision et validation qualité à chaque étape par l’analyste - veilleur Processus métier centré sur l’analyste : l’ALAO (Analyse Linguistique Assistée par Ordinateur) 5mercredi 27 octobre 2010
    6. 6. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE CONTEXTE - Fort accroissement du multilinguisme sur internet depuis 2000. - Depuis 2004, développement de l’effort de recherche pour l’adaptation des technologies de TAL aux langues peu présentes sur le web. - Depuis 2008, les besoins du marché de la veille sociétale se globalisent. - Un facteur de complexité supplémentaire pour l’acquisition d’informations. - Un critère incontournable dans un outil de veille qui répond aux besoins actuels du marché. LA SEGMENTATION, UNE PROBLÉMATIQUE MAJEURE EN CONTEXTE MULTILINGUE - Ambiguïtés sémantiques importantes pour certaines langues agglutinantes (japonais et coréen) et isolantes (chinois), car la notion de mot graphique n’existe pas. Un exemple en chinois : 乒乓球_拍卖 les balles de ping-pong (n)_vendre aux enchères (v) 乒乓球拍_卖_Les raquettes de ping-pong (n)_vendre (v) 6mercredi 27 octobre 2010
    7. 7. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE HÉTÉROGÉNÉITÉ DES SUPPORTS - Grande variété des types de support et métalangages utilisés pour décrire l’affichage des textes faiblement contraints : des difficultés importantes pour repérer les données pertinentes. STRATÉGIE DE RÉCUPÉRATION FONDÉE SUR XPATH - XPath est un langage d’indication de chemin dans une structure de type XML : il permet d’exprimer une requête pour extraire le contenu d’un ou plusieurs éléments estimés pertinents au sein de cette structure. - Approche semi-automatique économe : description des contenants de données pertinentes pour minimiser la récolte de données bruitées et conserver la structuration textuelle. ! ! ! Exemple de page d’article à extraire : LeFigaro.fr Exemple de description XPath de la structure à extraire Exemple de structure XML de l’article extrait Tableau 1 - Etapes de l'extraction appliquée à une page de journal en ligne en français 7mercredi 27 octobre 2010
    8. 8. Développer une passerelle pour fluidifier les étapes de traitement, depuis l’extraction de données signifiantes jusqu’à l’analyse proprement dite, implique une gestion robuste de la segmentation dans les différentes langues traitées. A ce niveau de l’applicatif, on communique avec un moteur de traitement Textométrique, pour analyser les textes dans des strates de contenants homogènes. ETABLIR DES TRAMES DE CONTENANTS HOMOGÈNES Les informations récupérées à partir de différents supports de production en ligne doivent avoir une structure commune, pour effectuer des analyses sur corpus dans des contenants comparables : cela est un prérequis pour mettre en oeuvre le principe de résonance textuelle. Résultat d’extraction structurée à partir d’un journal français Résultat d’extraction structurée à partir d’un journal coréen 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE ! Tableau 2 - Résultats du module d’extraction de données en français et en coréen : définir des trames de contenants homogènes 8mercredi 27 octobre 2010
    9. 9. PRISE EN COMPTE DU CONTEXTE ET GAIN QUALITATIF L’application du principe de résonance textuelle permet de contextualiser les productions linguistiques. Il s’agit d’étudier la distribution de segments textuels (sèmes, Entités Nommées, segments textuels, ...) dans différents volets de corpus, monolingues ou multilingues. On peut définir, typer les relations de résonance textuelle et ainsi obtenir une strate complémentaire d’analyse qui permet un meilleur accès au contexte (ancrage textuel des Entités Nommées, des opinions, analyse distributionnelle sur un plan synchronique ou diachronique). 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE <Article> <Commentaires> LEGENDE relation de résonance 1 relation de résonance 2 hors résonance Figure 1 – Principe de la résonance textuelle : cas d’application entre un article et la série de commentaires qui lui correspondent. 9mercredi 27 octobre 2010
    10. 10. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE OUTILS ET RÔLE DE L’ANALYSTE - Quatre fonctions d’exploration Textométrique sont particulièrement adaptées à l’analyse de corpus de veille : 1) Calcul des Spécificités : méthode statistique visant à projeter pour un sous-ensemble donné d’un corpus, les objets dont la présence est représentative ou sous-représentative de celui-ci. 2) Analyse Factorielle des Correspondances (AFC) : représentation graphique de la distance des objets comparés sur la base d’algorithme de similarités. 3) Calcul des Segments Répétés (SR) : ensemble d’objets ordonnés dont les occurrences dans le co-texte d’un corpus lui suppose un signifié particulier. 4) (Poly)cooccurrence : ensemble d’objets non ordonnés dont la cooccurrence contextuelle indique l’existence d’un réseau sémantique. Ces outils, entre autres, constituent l’ « équipement » de l’analyste veilleur et lui permettent de mettre en valeur son expertise du domaine et sa compréhension des méthodes d’analyse linguistique. En effet, celui-ci, sur la base des résultats fournis par les outils d’exploration Textométrique, peut enrichir le corpus en définissant des grilles d’analyse complémentaires, voire des Ressources Linguistiques et taxinomiques. 10mercredi 27 octobre 2010
    11. 11. - Corpus PS : 4,8 millions de mots, monolingue (FR) - polémiques autour de l’élection de M. Aubry à la tête du PS et de sa légitimité à ce poste - données récoltées entre novembre 2008 et août 2009. - Décomptes volumétriques produits à l’issue de l’étape d’extraction de données : on compare les effectifs de différents contenants textuels, i.e. les «Articles», les «Commentaires» ; on met ces volumes en regard du nombre de contributeurs auteurs des commentaires. (Figure 2) - Analyses distributionnelles sur le vocabulaire spécifique, résultant du moteur Textométrique : on observe la mise en place du vocabulaire spécifique employé par les internautes dans les commentaires, au fil du temps. Cela permet d’aborder les problématiques de fouille de données pour la détection d’arguments (argument mining) en contexte de débat social. (Figure 3) 4. ETUDES DE CAS (1/4) ! Figure 2 – Volumétries des publications, des commentaires et des contributeurs dans le corpus. Les courbes sont générées par un logiciel de tableur informatique, à partir de l’export de résultats volumétriques fournis par le système au format .csv ! Figure 3 – Graphique de ventilation du vocabulaire spécifique des articles (bleu) et des commentaires (rouge), fondé sur le calcul des Spécificités et permet d’observer la mise en place du vocabulaire distinctif des commentaires d’un point de vue diachronique. 11mercredi 27 octobre 2010
    12. 12. - Corpus Cocoon : analyse d’opinion en contexte bilingue (FR/EN) suite à un lancement produit - corpus de 40 000 mots - résultats obtenus à l’issue de l’étape d’analyse des données (résultat du moteur Textométrique) - Exploitation de l’AFC pour apprécier le positionnement des discours selon la proximité linguistique des textes - On remarque que les supports qui entretiennent de fortes proximités ont eu tendance à reprendre textuellement le communiqué de presse (Portail, Webzine, Presse, Forum). L’ensemble des blogs ont abondamment cité les entités nommées liées au produit et à la marque, mais sans reprendre les éléments du communiqué. 4. ETUDES DE CAS (2/4) ! Figure 4 – Résultat d’une AFC pour positionner les commentaires d’internautes produits sur des supports différents ; corpus français, analyse des retombées autour d’un lancement produit. 12mercredi 27 octobre 2010
    13. 13. - Corpus Cocoon : on effectue des calculs volumétriques à partir des discours annotés en fonction des opinions exprimées, dont la détection est fondée sur une grille adaptant le modèle de l’Appraisal Theory. - Ces éléments sont produits à l’issue des calculs effectués à partir des grilles d’analyse des opinions. - On remarque que les opinions exprimées dans les supports de type Webzine sont liées à une évaluation négative du produit et/ou de la marque et n’ont recueilli que peu de contributions des internautes. - A l’inverse, si les blogs ont suscité un nombre d’opinions plus important, la majorité d’entre elles sont non pertinentes, c’est-à-dire ne portent ni sur la marque, ni sur le produit, mais sur les blogueuses partenaires de la marque qui sont félicitées par leur audience. 4. ETUDES DE CAS (3/4) ! ! Figure 5 – Répartition des évaluations (opinions) dans les commentaires d’internautes dans différents supports du web français. A gauche, la répartition par orientation des opinions dans les supports de type webzine (rouge) ; à droite, dans les supports blog (bleu). 13mercredi 27 octobre 2010
    14. 14. - Corpus Affiliation : 1 700 sources web analysées en fonction de leur thématique dans différents domaines ciblés par la stratégie d’affiliation du client. L’objectif est d’identifier les sources les plus pertinentes par rapport à ces thématiques, en vue de lancer des campagnes d’affiliation web. - Ces résultats sont obtenus à l’issue des calculs effectués à partir des grilles d’analyse des thématiques. - Nous exploitons la carte des sections pour ventiler des Entités Nommées et ainsi observer la façon dont elles sont réparties dans un type de contenant particulier, en l’occurrence dans les différents supports du corpus. 4. ETUDES DE CAS (4/4) Figure 6 – Répartition des textes du corpus en fonction de leur thématique de prédilection - analyse de sources francophones dans le cadre d’une étude de support à la stratégie d’affiliation web sur le domaine de la Musique Classique. Figure 7 – Répartition des Entités Nommées de noms d’auteurs en fonction des différents supports pris en compte dans la récolte du corpus, sur le domaine Musique Classique. 14mercredi 27 octobre 2010
    15. 15. POUR CONCLURE... La solution conçue associe les technologies de récolte de données textuelles et les moteurs de traitements Textométriques. Outres les bénéfices opérationnels qui en découlent (flexibilité du système, gain de temps, enrichissement de corpus avec trames d’annotation dédiées), cette solution remet l’analyste expert au coeur du système. La fluidification des étapes de traitement jusqu’à l’analyse en elle-même permet de tirer un profit nettement plus élevée de l’expertise du linguiste. Ce flux de travail correspond au processus d’Analyse Linguistique Assistée par Ordinateur (ALAO). PERSPECTIVES Dans la suite de ce travail, on s’intéressera en particulier à : - la détection semi-automatisée des structures conversationnelles en ligne ; - l’optimisation des processus de constitution de Ressources Linguistiques multilingues ; - la mise en place d’un système de prédiction de l’évolution des opinions, à long terme. 15mercredi 27 octobre 2010
    16. 16. Merci ! Le Sémiopôle 66 rue Marceau 93100 Montreuil ~ tél. 00 33 (1) 41 585 636 Fax 00 33 (1) 48 593 532 Contacts Frédéric Pierron fpierron@le-semiopole.fr 00 33 (6) 16 331 810 Marguerite Leenhardt mleenhardt@le-semiopole.fr 00 33 (6) 79 741 152 www.le-semiopole.fr 16mercredi 27 octobre 2010

    ×