Le traitement automatique des langues 
face aux données textuelles 
volumineuses et potentiellement 
dégradées : qu’est-ce...
2 
04/10/2014 
LinkMedia 
Creating and exploiting explicit links between multimedia fragments 
Périmètre de LinkMedia 
Obj...
3 
04/10/2014 
Mon parcours de recherche 
• Domaine : traitement automatique des langues (TAL) 
• Thèse en syntaxe passage...
4 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution ?
5 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution : NON 
– Révolution du TAL fa...
6 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution : OUI 
– Nouveaux types de do...
7 
04/10/2014 
Impact du Big Data sur le TAL 
Organisation de la présentation 
1. Spécificités des données textuelles dans...
8 
1- Spécificités des données textuelles 
04/10/2014 
dans le monde du Big Data 
• Les 3 V (volume, variété, vélocité) ap...
9 
04/10/2014 
Variété 
• Données produites (directement) sous une forme 
textuelle 
– Textes écrits, emails, sites Web 
–...
10 
04/10/2014 
Variété 
• Données produites (directement) sous une forme 
textuelle 
– Textes écrits, emails, sites Web 
...
11 
04/10/2014 
Variété 
• Données langagières issues d’un média différent 
– Système de reconnaissance… générateur d’erre...
Système de reconnaissance automatique de 
12 
04/10/2014 
la parole 
Système de RAP 
Signal de parole 
Hypothèse de 
trans...
Système de reconnaissance automatique de 
13 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractér...
Système de reconnaissance automatique de 
14 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractér...
Système de reconnaissance automatique de 
15 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractér...
Système de reconnaissance automatique de 
16 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractér...
17 
quant aux voix catholiques de serge adda alberta _ il est 
tout ce qu' il y a de strictes _ série sous le menton _ l 
...
18 
04/10/2014 
Volume et Vélocité 
Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) 
Go-gl...
19 
Propriétés intrinsèques compliquant 
04/10/2014 
l’accès au sens 
• Données non structurées 
– Pas de sémantique porté...
20 
04/10/2014 
Ambiguïté 
• Lexicale 
– Statique : président : verbe / nom ? 
– Dynamique : rat : nom / adjectif 
• Synta...
21 
04/10/2014 
Implicite 
• Connaissances partagées par les locuteurs 
– Encyclopédiques 
– De sens commun 
– De scenarii...
22 
Formulations différentes d’une même idée 
• Problème pour compter des occurrences d’un concept 
• Variation 
04/10/201...
23 
• Volumes, variété, propriétés intrinsèques des données 
textuelles 
04/10/2014 
Spécificités des données textuelles 
...
24 
2- Représentations et exploitation des 
04/10/2014 
données textuelles 
• Représentation du sens « rationaliste » 
– V...
25 
2- Représentations et exploitation des 
04/10/2014 
données textuelles 
• Représentation du sens « empirique » 
– Sens...
26 
04/10/2014 
Changement de paradigme 
• Expertise Données 
– Extraction de la connaissance des données par 
apprentissa...
27 
04/10/2014 
Éléments de représentation 
• N-grammes de caractères, de mots 
• Mots : tous ou filtrés 
– Type précis : ...
28 
04/10/2014 
Représentation 
Taille de la collection 
Nb documents contenant le mot
29 
04/10/2014 
Représentation 
• Exploitation 
– Par comparaison des représentations via des 
mesures de similarité 
• Fo...
30 
Des outils pour manipuler et représenter 
• Segmenteurs 
04/10/2014 
– Pas toujours simple : l’opéra / aujourd’hui ou ...
31 
04/10/2014 
Apprentissage artificiel 
• Branche de l’IA qui étudie l’écriture de programmes qui 
s’améliorent en se co...
32 
Le chercheur en TAL à l’heure du Big Data 
• Transformation en scientifique des données (data 
scientist) 
04/10/2014 ...
33 
3- Applications pour faire face aux masses 
04/10/2014 
de données
34 
3- Applications pour faire face aux masses 
04/10/2014 
de données 
• De très nombreuses applications pour aider 
l’hu...
35 
04/10/2014 
3.1- Résumé automatique 
• Intérêt : savoir si texte à lire in extenso 
• Domaine ancien du TAL 
– Début d...
36 
04/10/2014 
Typologie(s) 
• Un ou des document(s) 
• Point de départ : document(s) ou requête 
• Résumé par abstractio...
37 
04/10/2014 
Typologie(s) 
• Un ou des document(s) 
• Point de départ : document(s) ou requête 
• Résumé par abstractio...
38 
04/10/2014 
Résumé par extraction 
• Saillance 
– Score pour chaque phrase / passage 
– Indicateurs combinés 
• Score ...
39 
04/10/2014 
Résumé par extraction 
• Redondance 
– Saillance seule insuffisante 
– Non redondance par rapport aux phra...
40 
04/10/2014 
Extraction fondée centroïde 
• Score d’une phrase : fonction de sa centralité par 
rapport au thème des(du...
41 
04/10/2014 
Extraction fondée graphe 
• Score d’une phrase : fonction globalement du score des 
phrases avec lesquelle...
42 
04/10/2014 
Extraction fondée contraintes ou 
optimisation 
• Choix des phrases qui maximisent une fonction 
objectif ...
43 
04/10/2014 
Extraction fondée contraintes ou 
optimisation 
• Un exemple : [Gillick et Favre 2009] 
• Fonction à optim...
44 
04/10/2014 
Évaluation 
• Problème épineux, accord faible entre humains 
• De nombreuses campagnes d’évaluation 
– Con...
45 
04/10/2014 
Résumé de l’oral transcrit 
• Moins de travaux 
– Résumés de réunions, d’émissions TV 
• Application de mé...
46 
04/10/2014 
Résumé automatique 
• Bilan 
– Méthodologies fonctionnelles 
– Qualité / cohésion textuelle encore moyenne...
47 
04/10/2014 
3.2- Structuration et navigation 
• Données textuelles 
– Très nombreuses 
– Non organisées (« vrac ») 
– ...
48 
Organisation a posteriori d’une requête 
• Recherche d’information (RI) 
une colonne par 
segment du texte 
04/10/2014...
49 
Organisation a posteriori d’une requête 
• Recherche d’information (RI) 
04/10/2014 
– Mise en évidence des termes de ...
50 
Organisation a posteriori d’une requête 
04/10/2014
51 
Organisation a posteriori d’une requête 
• Également une version par apprentissage à partir 
de chronologies manuelles...
52 
INDEX Requête : révolution tunisienne 
04/10/2014 
Le président égyptien Hosni 
Mubarak, qui a démissionné 
vendredi, ...
53 
04/10/2014 
Regroupés par dates normalisées 
Ordonnés selon l’importance de 
la date 
La révolte s’est propagée le 
24...
54 
04/10/2014 
Requête : révolution tunisienne 
Regroupés par dates normalisées 
Ordonnés selon l’importance de 
la date ...
55 
• Chronologie événementielle 
04/10/2014 
Requête : révolution tunisienne 
17 déc. 2010 : Mohamed Bouazizi s’immole 
p...
Autre réponse de la recherche d’information 
56 
• Les systèmes questions-réponses [Hirschman et Gaizauskas 
2001] 
04/10/...
57 
Liens entre documents fondés contenu 
• Création de liens initiée par la communauté 
hypertexte [Allan 1997] 
04/10/20...
58 
04/10/2014 
Systèmes de recommandation 
• Souvent mélange de filtrages fondé 
contenu et collaboratif 
• Filtrage coll...
59 
Graphes temporels d’événements [Tannier 2014] 
• Dépêches AFP contenant des événements 
• Organisation temporelle fond...
60 
Graphes temporels d’événements [Tannier 2014] 
04/10/2014 
2 avril, 21:05 
Georges Bush déclare que 
le Pape était un ...
61 
Structuration et navigation dans une 
04/10/2014 
collection de journaux TV 
• Segmentation automatique de journaux TV...
62 
04/10/2014 
Segmentation thématique 
• La plupart des techniques fondée sur la cohésion 
lexicale 
– Changement de thè...
63 
04/10/2014 
Adaptation aux transcriptions 
• Particularités problématiques 
– Erreurs de transcription 
– Manque de ré...
64 
04/10/2014 
Résultats de la segmentation 
• Corpus 
– 57 JT de France 2 – février et mars 2007 
• Système de reconnais...
65 
04/10/2014 
Résultats de la segmentation 
• Mesures de confiance et relations sémantiques
• Mais aussi, forme de résumé informatif du contenu 
• Modifications du tf*idf car oral transcrit 
66 
Caractérisation des...
67 
Extraction de mots-clés 
• Tf*idf classique sur les lemmes 
04/10/2014 
1.000 voile 
0.756 adda 
0.521 bernadette 
0.5...
68 
04/10/2014 
Extraction de mots-clés 
• + Pénalités sur les noms propres 
- 1.000 voile 
- 0.567 adda 
↑ 0.501 laïcité ...
69 
Extraction de mots-clés 
• + Prise en compte des mesures de confiance 
04/10/2014 
- 0.992 voile 
↑ 0.500 laïcité 
↑ 0...
Récupération de pages Web liées à l’aide de 
erreurs de transcription 
70 
04/10/2014 
requêtes 
• Conservation des premie...
71 
04/10/2014 
Texmix 
• Application : système de navigation au sein d’une collection 
de journaux TV 
• Utilisation de t...
72 
04/10/2014 
Texmix
73 
04/10/2014 
Texmix
74 
04/10/2014 
3.3- Fouille d’opinions 
• Analyse de données exprimant des opinions : réseaux 
sociaux, blogs, fora, comm...
75 
04/10/2014 
Un travail compliqué 
• Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un 
Samsung avec...
76 
04/10/2014 
4 tâches essentielles 
• Extraction d’opinions 
– Identifications des textes porteurs d’opinions 
– Locali...
Approches supervisées de classification de 
77 
04/10/2014 
documents et phrases 
• De très nombreux travaux aux deux nive...
78 
04/10/2014 
Approches non supervisées de 
classification de documents et phrases 
• Également de nombreux travaux aux ...
79 
04/10/2014 
Constitution de ressources 
• Lexiques de mots / d’expressions : petit, coûte un bras 
• Développement man...
80 
04/10/2014 
Constitution de ressources 
• Des mots amorces (ou un lexique amorce) +… 
– Approche fondée corpus 
• Par ...
81 
04/10/2014 
Du gros grain au grain fin 
• Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant ses 
principales...
82 
04/10/2014 
Résumé d’opinions 
• Nombreuses opinions émises sur une entité ou ses 
parties besoin de synthèse 
• Synth...
83 
04/10/2014 
Résumé d’opinions 
• Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
84 
04/10/2014 
Résumé d’opinions 
• Synthèse graphique exemple extrait des transparents associés à [Liu 2012] 
– Synthèse...
85 
04/10/2014 
Résumé d’opinions 
Extrait de 
Booking.com
86 
04/10/2014 
Résumé d’opinions 
• Agrégation d’opinions OpinionEQ 
exemple extrait des transparents associés à [Liu 201...
87 
04/10/2014 
Encore du travail… 
• De nouvelles recherches 
– Faux commentaires 
• Commentaires positifs sur ses propre...
88 
4- Applications tirant profit de la profusion 
04/10/2014 
de données
89 
4- Applications tirant profit de la profusion 
04/10/2014 
de données 
• Profusion et redondance 
– Masses de données ...
90 
04/10/2014 
4.1- Traduction automatique
91 
04/10/2014 
Une histoire ancienne 
• 1954 : 1re démonstration publique d’un traducteur Russe / 
Anglais IBM - universi...
92 
04/10/2014 
Jusqu’à la fin des années 80 
• Trois approches fondées sur des règles (lexicales, d’analyse 
morphologiqu...
93 
04/10/2014 
Début des années 90 
• Développement d’Internet 
• Besoins nouveaux 
– Traduction pour tous 
– Production ...
Traduction automatique statistique [Brown et al. 1990] 
• f : phrase en langue source (Français) ; e phrase en langue 
cib...
95 
04/10/2014 
Corpus multilingues parallèles 
• Hansard : débats parlementaires canadiens en Français et 
Anglais (envir...
96 
04/10/2014 
Modèles de traduction 
• Rappel rôles des modèles de traduction et de langue 
– Modèle de traduction : gui...
97 
04/10/2014 
Modèles de traduction initiaux 
• Table de transfert (lexique bilingue probabilisé) 
le (the 0.38) (of 0.1...
98 
04/10/2014 
Modèles de traduction = modèles 
d’alignements de segments 
• Début des années 2000 [Zens, Och, Ney 2002] ...
• En fait, information en règle générale plus riche que 
dans l’exemple précédent 
99 
Modèles d’alignements de segments 
...
100 
04/10/2014 
Traduction automatique statistique 
• Traduction 
– Segmentation de f en segments de longueurs variables ...
101 
04/10/2014 
Exemple 
transparent emprunté à F. Yvon
102 
04/10/2014 
Ressources [Allauzen et Yvon 2011] 
• Outre les corpora monolingues ou parallèles, voire 
comparables… 
•...
103 
04/10/2014 
Évaluation 
• Tâche complexe : fidélité au texte source, 
compréhensibilité, caractère naturel… 
• Évalua...
104 
04/10/2014 
Traduction fondée exemples 
• [Nagao 1984] mais essor fin des années 80 
• Utilisation d’une mémoire de t...
105 
04/10/2014 
Traduction de la parole 
• Initialement des travaux portant sur des domaines restreints 
– Négociations m...
106 
04/10/2014 
4.2- Journalisme de données 
• Collecte, filtrage, combinaison, analyse de grands 
volumes de données pou...
107 
04/10/2014 
4.2- Journalisme de données 
• Collecte, filtrage, combinaison, analyse de grands 
volumes de données pou...
108 
04/10/2014 
Une nouveauté qui vient de loin… 
• 1854 – John Snow : carte d’une épidémie de cholera 
permettant de com...
109 
04/10/2014 
Une nouveauté qui vient de loin… 
• 1854 – John Snow : carte d’une épidémie de cholera 
permettant de com...
110 
04/10/2014 
Une nouveauté qui vient de loin… 
• À partir des années 2000 : beaucoup de bases de données disponibles 
...
111 
04/10/2014 
Exemple 1 : Gapminder
112 
Exemple 2 : émeutes 2011 en Angleterre 
• The Guardian 
− Lien entre 
les adresses 
des accusés 
et les zones 
de pau...
113 
04/10/2014 
Quelles données ? 
• Collectivités, services publics www.data.gouv.fr
114 
04/10/2014 
Quelles données ? 
• Collectivités, services publics www.data.gouv.fr 
• Web… 
• Éventuellement des donné...
115 
04/10/2014 
Techniques de RI textuelle 
• J. Stray et J. Burges 2010 
• Travail sur les rapports d’enquêtes de l’US A...
116 
04/10/2014 
J. Stray et J. Burges 2010 
• Caractérisation 
thématique
117 
04/10/2014 
J. Stray et J. Burges 2010 
Événements criminels 
Risque d’explosion
118 
04/10/2014 
Plus de TAL et de linguistique 
• J. Véronis : analyse linguistique fine de discours 
politiques 
• Focus...
119 
04/10/2014 
Observatoire des discours
120 
Vers de l’automatisation grâce au TAL 
• [Tannier 2014] : identification automatique de relations 
d’alliance ou d’op...
• Apprentissage d’un classifieur (SVM) classant chaque 
phrase avec au moins deux EN et un déclencheur 
121 
Vers de l’aut...
• Chaque phrase contenant au moins une relation : 
contenu, pays impliqués, relation(s) et date indexés 
• Interrogation v...
Requête « Syria » entre « USA » et « Russia » 
123 
04/10/2014 
Série temporelle – 2 pays 
Transparent emprunté à 
X. Tann...
Transparent emprunté à 
X. Tannier 
124 
04/10/2014 
Requête « Syria » en « 2012 » 
Distances et couleurs marquants les al...
125 
04/10/2014 
4.3- Fact-checking 
• Vérification par les faits 
• Vérification de la véracité d’affirmations issues de ...
126 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de ...
127 
04/10/2014 
Truth-O-Meter
128 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de ...
129 
04/10/2014 
FactChecker
130 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de ...
131 
04/10/2014 
Véritomètre
132 
04/10/2014 
Techniques de vérification 
• Travail essentiellement manuel 
– Par recoupement de plusieurs bases 
• Fia...
133 
04/10/2014 
TruthTeller
134 
04/10/2014 
Ce que le TAL peut offrir 
• Recherche d’information 
– Comparaison de contenus 
• Systèmes de questions/...
135 
04/10/2014 
Ce que le TAL offre actuellement 
• Trouver un fait exact parmi des informations 
contradictoires 
– En s...
136 
04/10/2014 
Ce que le TAL offre actuellement 
• Trouver un fait exact parmi des informations 
contradictoires 
– En s...
137 
04/10/2014 
Ce que le TAL offre actuellement 
• Reconnaître si la source d’un fait croit en la véracité 
du fait qu’e...
138 
04/10/2014 
Conclusions TAL et Big Data 
• Pas une révolution, celle du TAL datant d’avant 
– Mais plus de données, p...
139 
04/10/2014 
Bibliographie 
• ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and M...
Prochain SlideShare
Chargement dans…5
×

Séminaire Ist inria 2014 : Pascale Sébillot

7 586 vues

Publié le

"Le traitement automatique du langage (TAL) face aux données textuelles volumineuses et potentiellement dégradées : qu’est-ce que cela change ?" : Présentation de Pascale Sebillot, chercheuse à l'IRISA lors du séminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Lès-Dax du 6 au 10 octobre 2014.

Publié dans : Sciences
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
7 586
Sur SlideShare
0
Issues des intégrations
0
Intégrations
5
Actions
Partages
0
Téléchargements
36
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Séminaire Ist inria 2014 : Pascale Sébillot

  1. 1. Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu’est-ce que cela change ? Pascale SÉBILLOT PRU en informatique à l’INSA de Rennes Membre de l’équipe LinkMedia de l’IRISA et d’INRIA
  2. 2. 2 04/10/2014 LinkMedia Creating and exploiting explicit links between multimedia fragments Périmètre de LinkMedia Objectifs • fondements scientifiques de la structuration de collections de documents multimédias par des liens explicites • nouveaux usages et techniques de traitement de contenus induits par ces liens
  3. 3. 3 04/10/2014 Mon parcours de recherche • Domaine : traitement automatique des langues (TAL) • Thèse en syntaxe passage à la sémantique • Acquisition de connaissances à partir de corpus de textes grâce à des techniques d’apprentissage artificiel • Application du TAL à la recherche d’information • Application du TAL à la reconnaissance automatique de la parole • Application du TAL à la structuration de (collections de) documents multimédias
  4. 4. 4 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution ?
  5. 5. 5 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution : NON – Révolution du TAL faite fin des années 80 – début des années 90 • Du TAL rationaliste… – Approches symboliques à base de règles – Expertise humaine forte – Focus sur l’explication des jugements de grammaticalité, la construction de représentations du sens élaborées… • … au TAL empirique – Approches fondées sur les données – Volumes de textes et puissance des machines croissants – Apprentissage artificiel, linguistique de corpus – Observation à grande échelle, représentations du « sens utile »
  6. 6. 6 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution : OUI – Nouveaux types de données textuelles à prendre en compte – Volumes toujours plus conséquents – Empirisme toujours plus présent • Moins / pas (ou très peu) d’expertise • Plus de comptage
  7. 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation de la présentation 1. Spécificités des données textuelles dans le monde du Big Data 2. Représentations et exploitation des données textuelles 3. Applications pour faire face aux masses de données 4. Applications tirant profit de la profusion de données
  8. 8. 8 1- Spécificités des données textuelles 04/10/2014 dans le monde du Big Data • Les 3 V (volume, variété, vélocité) appliqués aux données textuelles • Propriétés intrinsèques compliquant l’accès au sens
  9. 9. 9 04/10/2014 Variété • Données produites (directement) sous une forme textuelle – Textes écrits, emails, sites Web – Blogs, réseaux sociaux – Sms
  10. 10. 10 04/10/2014 Variété • Données produites (directement) sous une forme textuelle – Textes écrits, emails, sites Web – Blogs, réseaux sociaux – Sms • Tu te x mal1 • JV encor dvoir 10QT aussi dans la qualité Exemples issus de [Fairon et al. 2006]
  11. 11. 11 04/10/2014 Variété • Données langagières issues d’un média différent – Système de reconnaissance… générateur d’erreurs – Images de textes • Dactylographiés, manuscrits • OCR : logiciel de reconnaissance optique de caractères – Segmentation en caractères individuels – Classifieur fondé sur un apprentissage neuronal pour la reconnaissance – Parole contenue dans les documents audio/vidéos • Système de reconnaissance automatique de la parole (RAP)
  12. 12. Système de reconnaissance automatique de 12 04/10/2014 la parole Système de RAP Signal de parole Hypothèse de transcription w*1 ... w*P c1 ... cP Mesures de confiance
  13. 13. Système de reconnaissance automatique de 13 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole
  14. 14. Système de reconnaissance automatique de 14 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Vocabulaire : mots - prononciations
  15. 15. Système de reconnaissance automatique de 15 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Vraisemblance du signal sachant une séquence de mots
  16. 16. Système de reconnaissance automatique de 16 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Probabilité a priori des séquences de mots (n-grammes)
  17. 17. 17 quant aux voix catholiques de serge adda alberta _ il est tout ce qu' il y a de strictes _ série sous le menton _ l encadre son visage sans permettre de voir _ un seul de ses cheveux _ Quant au voile catholique de soeur ____ Adalberta , il est tout ce qu' il y a de strict , serré sous le menton , il encadre son visage sans permettre de voir , un seul de ses cheveux . 04/10/2014 Spécificités des transcriptions • Particularités de l’oral – Disfluences – Constructions grammaticales particulières • Format de transcription – Pas de ponctuation, de majuscules – Segmentation en groupes de souffle, pas en phrases • Erreurs de transcription • Mots non fiables et mesures de confiance imparfaites Taux d'erreur sur les mots ou WER (word error rate)
  18. 18. 18 04/10/2014 Volume et Vélocité Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) Go-globe.com, juin 2011
  19. 19. 19 Propriétés intrinsèques compliquant 04/10/2014 l’accès au sens • Données non structurées – Pas de sémantique portée par une structure a priori • Données porteuses de sens, compréhensibles par un humain et fortement présentes – Nécessité de savoir en extraire l’information pertinente • Données difficiles à comprendre par une machine – Ambiguïté – Implicite – Formulations différentes d’une même idée
  20. 20. 20 04/10/2014 Ambiguïté • Lexicale – Statique : président : verbe / nom ? – Dynamique : rat : nom / adjectif • Syntaxique – Structure hiérarchique : la petite brise la glace – Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt • Sémantique – Homonymie : avocat : fruit / auxiliaire de justice – Polysémie : agneau : animal / viande – Portée des quantificateurs : toutes mes soeurs ont épousé un médecin vs toutes les personnes présentes ont entendu un cri • Pragmatique – Paul : tu viens à la fête chez Luc mardi soir ? – Virginie : j’ai entendu que Benoît sera là
  21. 21. 21 04/10/2014 Implicite • Connaissances partagées par les locuteurs – Encyclopédiques – De sens commun – De scenarii… • Interprétations « évidentes » [exemples empruntés à F. Yvon] – Elle s’est assise, a commandé un café à la serveuse (…). Puis elle est partie sans payer Qui ? – Le professeur a envoyé l’élève au censeur • parce qu’il lançait des boulettes • parce qu’il voulait avoir la paix • parce qu’il voulait le voir • Emplois métaphoriques, métonymiques – Premier violon
  22. 22. 22 Formulations différentes d’une même idée • Problème pour compter des occurrences d’un concept • Variation 04/10/2014 – Graphique, morphologique : mot clé, mot-clé, mots-clés – Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du sang, acidité sanguine – Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport – Paraphrase…
  23. 23. 23 • Volumes, variété, propriétés intrinsèques des données textuelles 04/10/2014 Spécificités des données textuelles – Impossibilité de faire des analyses linguistiques fines • Rapidement • Sur des textes dégradés et apprentissage • Variété : domaine ouvert – Ambiguïtés multipliées – Sources de connaissance non utilisables • Changement de paradigme du TAL Rationalisme Empirisme « TAL fondé linguistique » « TAL fondé statistique » Comprendre finement Avoir des représentations de sens utiles
  24. 24. 24 2- Représentations et exploitation des 04/10/2014 données textuelles • Représentation du sens « rationaliste » – Vision syntaxico-logique • Logique comme langage de représentation de connaissance et de raisonnement • Interprétation compositionnelle du langage dirigée par la syntaxe sous forme de formules logiques – Vision Intelligence artificielle • Modèle du monde (ou domaine) générique • Interprétation d’un énoncé ou discours : instanciation du modèle • Ex. : scripts (Schank)…
  25. 25. 25 2- Représentations et exploitation des 04/10/2014 données textuelles • Représentation du sens « empirique » – Sens « utile » et non « vrai » sens • On ne cherche pas à comprendre le langage • Sens d’un mot – Dépendant de / exprimable par son co-texte – Co-textes comparables pour détecter les mots du même paradigme • Sens d’un document – Des mots extraits du texte qui, ensemble, représentent « son » sens • Changement de thème – Changement global de vocabulaire
  26. 26. 26 04/10/2014 Changement de paradigme • Expertise Données – Extraction de la connaissance des données par apprentissage artificiel (observation de régularités et redondances) • Sens Éléments de représentation extraits des mots, des phrases, des documents utiles pour l’application visée – Exemples : noms et verbes les plus fréquents, noms de personnes, de lieux et d’entreprises mentionnés… • À tous les niveaux : document, paragraphe, phrase…
  27. 27. 27 04/10/2014 Éléments de représentation • N-grammes de caractères, de mots • Mots : tous ou filtrés – Type précis : noms, verbes, termes complexes, entités nommées (EN : noms de personnes, lieux…)… – Saillance • Comptage – Fréquence – Fréquence dans l’unité considérée mais pas dans la collection – Autres • Position – Mot / phrase du début – Éléments situés entre deux items, avant, après…
  28. 28. 28 04/10/2014 Représentation Taille de la collection Nb documents contenant le mot
  29. 29. 29 04/10/2014 Représentation • Exploitation – Par comparaison des représentations via des mesures de similarité • Fondées intersection des représentations • Cosinus – Par des méthodes d’apprentissage artificiel
  30. 30. 30 Des outils pour manipuler et représenter • Segmenteurs 04/10/2014 – Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul / qu’a-t-il dit ? • Étiqueteurs morphosyntaxiques (PoS taggers) – LeDetMasSing présidentNomCommunMasSing… • Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers) – parlons, parlera, parlèrent parler • Extracteurs de termes simples ou complexes, d’entités nommées, de relations sémantiques • Analyseur en dépendances, en chunks… • Autres outils liés à l’application visée (d’extraction de n-grammes au lieu de mots…)
  31. 31. 31 04/10/2014 Apprentissage artificiel • Branche de l’IA qui étudie l’écriture de programmes qui s’améliorent en se confrontant aux données • Apprentissage supervisé – Données étiquetées disponibles • Apprentissage non supervisé – Pas de données étiquetées – Exemple de technique : clustering • Apprentissage de quoi ? – De représentations (ex. : probabilités de n-grammes de mots) – D’outils – De clusters – De connaissances par observation de régularités dans les masses de données…
  32. 32. 32 Le chercheur en TAL à l’heure du Big Data • Transformation en scientifique des données (data scientist) 04/10/2014 – Quelles représentations (à grain souvent grossier) ? – Quelles techniques d’apprentissage artificiel ? – Quelles mesures de similarité ? – Quelles méthodes de visualisation ?
  33. 33. 33 3- Applications pour faire face aux masses 04/10/2014 de données
  34. 34. 34 3- Applications pour faire face aux masses 04/10/2014 de données • De très nombreuses applications pour aider l’humain face au déluge de données • Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel • Zoom sur trois d’entre elles – Résumé automatique (d’un ou plusieurs textes) – Structuration et navigation – Fouille d’opinions
  35. 35. 35 04/10/2014 3.1- Résumé automatique • Intérêt : savoir si texte à lire in extenso • Domaine ancien du TAL – Début dans les années 50 – Fort essor au milieu des années 90 • Notion de « bon » résumé ? – Réalités diverses • Idées-clés • Couverture maximale • « Bande-annonce » – Contrainte de taille
  36. 36. 36 04/10/2014 Typologie(s) • Un ou des document(s) • Point de départ : document(s) ou requête • Résumé par abstraction ou par extraction – Si extraction, des phrases ou des mots-clés – Si extraction de phrases, curation a posteriori • Remplacement des mots répétés, des pronoms • Fusion de phrases, parties inutiles ôtées
  37. 37. 37 04/10/2014 Typologie(s) • Un ou des document(s) • Point de départ : document(s) ou requête • Résumé par abstraction ou par extraction – Si extraction, des phrases ou des mots-clés – Si extraction de phrases, curation a posteriori • Remplacement des mots répétés, des pronoms • Fusion de phrases, parties inutiles ôtées • Méthodologie globale – Ancrage linguistique fort – Apprentissage artificiel – Représentations fondées recherche d’information (RI)
  38. 38. 38 04/10/2014 Résumé par extraction • Saillance – Score pour chaque phrase / passage – Indicateurs combinés • Score des mots : tf, tf*idf (somme) • Présence de mots-clés, d’entités nommées, de marqueurs du discours… • Longueur • Position par rapport au texte, à son paragraphe… – Pondération entre les indicateurs pouvant être fixée ou apprise
  39. 39. 39 04/10/2014 Résumé par extraction • Redondance – Saillance seule insuffisante – Non redondance par rapport aux phrases déjà dans le résumé – MMR (maximal marginal relevance [Goldstein et Carbonell 98]) • Score combinaison linéaire de saillance et non redondance • MMR » Argmax(PiÎR−S) [l(Sim1(Pi,Q)) − (1− l)max(DjÎS) Sim2(Pi,Dj)] – Q : document à résumer / requête utilisateur ; P : phrases – R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà dans le résumé – Sim : mesure de similarité (cosinus) – Cas multi-documents : clustering des phrases similaires et extraction d’une phrase par cluster
  40. 40. 40 04/10/2014 Extraction fondée centroïde • Score d’une phrase : fonction de sa centralité par rapport au thème des(du) documents à résumer • Document centroïde – Pseudo-document qui contient les mots ayant un score (tf*idf) supérieur à un seuil – Cas multi-documents : un centroïde par cluster • Score d’une phrase fonction de – Sa similarité avec le centroïde (de son cluster dans le cas multi-documents) – Sa non redondance par rapport aux phrases retenues • Logiciel Mead : http://www.summarization.com/mead/
  41. 41. 41 04/10/2014 Extraction fondée graphe • Score d’une phrase : fonction globalement du score des phrases avec lesquelles elle partage le plus de mots • Proche de PageRank (Google) – Une phrase recommande d’autres phrases • Algorithme TextRank [Mihalcea 2004] – Chaque phrase : un noeud du graphe – Arc entre deux noeuds : pondération selon le nombre de mots partagés (et longueur des phrases) – Poids initial assigné aux noeuds – Itération de l’algorithme recalculant le score du noeud en fonction du score des noeuds liés et du poids des arcs – Conservation des phrases aux scores les plus élevés • Intérêt : fonctionne sur l’information issue de tout le graphe
  42. 42. 42 04/10/2014 Extraction fondée contraintes ou optimisation • Choix des phrases qui maximisent une fonction objectif • Donc pas un algorithme glouton, mais vue globale du choix des phrases (et de la redondance) • Expression de contraintes et de la fonction à maximiser – Contraintes : taille, phrases plutôt longues… • Utilisation d’un solveur de contraintes
  43. 43. 43 04/10/2014 Extraction fondée contraintes ou optimisation • Un exemple : [Gillick et Favre 2009] • Fonction à optimiser – Somme des poids des concepts présents dans le résumé – Concept : bigramme informatif – Poids d’un concept : nombre de documents où il apparaît • Contraintes – Somme des longueurs des phrases conservées inférieure à la longueur maximum – Non sélection de phrases sans concept – Sélection d’une phrase : sélectionner tous ses concepts – Sélection d’un concept possible si présent dans au moins une phrase gardée
  44. 44. 44 04/10/2014 Évaluation • Problème épineux, accord faible entre humains • De nombreuses campagnes d’évaluation – Conférences DUC puis TAC • Des mesures proposées – Résumés de référence produits par des humains – Mesures fondées sur la présence d’« unités », pas de phrases • ROUGE [Lin 2004] – Proportion de n-grammes partagés entre le résumé produit et les références – Plusieurs variantes
  45. 45. 45 04/10/2014 Résumé de l’oral transcrit • Moins de travaux – Résumés de réunions, d’émissions TV • Application de méthodes de TAL • Adaptations pour l’oral – Reponctuation – Utilisation des mesures de confiance – Utilisation de l’information acoustique • Cas des résumés de vidéos – Travail a posteriori nécessaire pour avoir des résumés acceptables (i.e., écoutables et regardables)
  46. 46. 46 04/10/2014 Résumé automatique • Bilan – Méthodologies fonctionnelles – Qualité / cohésion textuelle encore moyenne – Aspect temporel peu pris en compte – Résumé de données textuelles autres qu’écrites encore limité – Évaluation encore à améliorer
  47. 47. 47 04/10/2014 3.2- Structuration et navigation • Données textuelles – Très nombreuses – Non organisées (« vrac ») – Souvent vues individuellement, peu au sein d’un ensemble • Organisation pour perception ou navigation éclairée • Regroupement / établissement de liens selon une notion de proximité, surtout sémantique • Différentes solutions, sur des textes écrits et de l’oral transcrit
  48. 48. 48 Organisation a posteriori d’une requête • Recherche d’information (RI) une colonne par segment du texte 04/10/2014 – Mise en évidence des termes de la question dans les documents retournés [Hearst 1995] une ligne par mots de la question
  49. 49. 49 Organisation a posteriori d’une requête • Recherche d’information (RI) 04/10/2014 – Mise en évidence des termes de la question dans les documents retournés [Hearst 1995] – Clustering des résultats (par thèmes, entités nommées…)
  50. 50. 50 Organisation a posteriori d’une requête 04/10/2014
  51. 51. 51 Organisation a posteriori d’une requête • Également une version par apprentissage à partir de chronologies manuelles (boosting) 04/10/2014 – Apprentissage des caractéristiques d’une date saillante – Traits liés au fait que plus une date est mentionnée plus elle est importante – Traits liés au fait qu’un événement important est mentionné longtemps • Dans les différents cas, constitution de la chronologie à partir des phrases contenant les dates saillantes
  52. 52. 52 INDEX Requête : révolution tunisienne 04/10/2014 Le président égyptien Hosni Mubarak, qui a démissionné vendredi, et le président Zine El Abidine Ben Ali, qui a quitté le pouvoir le 14 janvier, ont fait face à des protestations populaires sans précédent. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Requête Plusieurs milliers de documents Transparents empruntés à X. Tannier
  53. 53. 53 04/10/2014 Regroupés par dates normalisées Ordonnés selon l’importance de la date La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi. Clusters temporels plus important 24 déc. 2010 13 jan. 2011 INDEX Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants Requête Plusieurs milliers de documents Requête : révolution tunisienne
  54. 54. 54 04/10/2014 Requête : révolution tunisienne Regroupés par dates normalisées Ordonnés selon l’importance de la date La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi. Clusters temporels plus important 24 déc. 2010 13 jan. 2011 INDEX Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants Requête Plusieurs milliers de documents Choix des descriptions d’événements Maximiser la pertinence Minimiser la redondance
  55. 55. 55 • Chronologie événementielle 04/10/2014 Requête : révolution tunisienne 17 déc. 2010 : Mohamed Bouazizi s’immole par le feu pour protester contre le harcèlement de la police et le chômage. 25 déc. 2010 : Les protestations démarrent à Sidi Bouzid et s’étendent à Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse. 27 déc. 2010 : Les protestations s’étendent à Tunis, la capitale du pays. 14 jan. 2011 : Le président Ben Ali s’enfuit en Arabie Saoudite. obtenue
  56. 56. Autre réponse de la recherche d’information 56 • Les systèmes questions-réponses [Hirschman et Gaizauskas 2001] 04/10/2014 – Réponse précise à une question au lieu de documents contenant les termes de la question
  57. 57. 57 Liens entre documents fondés contenu • Création de liens initiée par la communauté hypertexte [Allan 1997] 04/10/2014 – Souvent sur des documents à structure assez marquée (emails, articles de Wikipédia) – Souvent sur de petites collections (a posteriori d’une requête par exemple)
  58. 58. 58 04/10/2014 Systèmes de recommandation • Souvent mélange de filtrages fondé contenu et collaboratif • Filtrage collaboratif – Calcul de corrélation entre les avis des autres utilisateurs et celui visé ̶ Prédiction pour un item : par exemple calculable par la moyenne pondérée (par le coefficient de corrélation) des évaluations pour cet item des utilisateurs similaires • Filtrage fondé contenu ̶ Élaboration d’un profil de l’utilisateur grâce aux mots-clés émergeant des items qu’il apprécie ̶ Comparaison au contenu d’un item non évalué pour le recommander ou pas à l’utilisateur
  59. 59. 59 Graphes temporels d’événements [Tannier 2014] • Dépêches AFP contenant des événements • Organisation temporelle fondée sur trois relations 04/10/2014 – Même événement – Continuation (conséquence, suite naturelle) • Réaction (opinion sur un événement) • Annotation manuelle des dépêches entre dates d et d+7 si 2 mots-clés communs dans 1er paragraphe • Apprentissage (svm) – Relation vs pas de relation – Même événement vs continuation – Continuation vs réaction
  60. 60. 60 Graphes temporels d’événements [Tannier 2014] 04/10/2014 2 avril, 21:05 Georges Bush déclare que le Pape était un « champion de la liberté humaine » 2 avril, 01:51 Un cardinal dit que la mort du Pape est imminente 2 avril, 15:39 Le Pape dans une situation sérieuse mais « résiste » 2 avril, 20:58 La Reine Elisabeth II exprime son « profond regret » 2 avril, 21:40 Jean-Paul II sera enterré mercredi au Vatican continuation continuation 2 avril, 19:53 Le Pape 2e satv mrilo, r1t9:57 réaction Le Pape e2s ta mvroilr,t 2a0u: 0V1atican réaction continuation Le Pape est mort au Vatican Transparent empruntés à X. Tannier
  61. 61. 61 Structuration et navigation dans une 04/10/2014 collection de journaux TV • Segmentation automatique de journaux TV en reportages successifs [Gravier et al. 2011] • Navigation – Vers d’autres reportages abordant le même sujet – Vers des pages Web offrant de l’information complémentaire • Application de techniques de TAL et de RI, mêlant grain « grossier » et grain plus fin, sur la parole transcrite
  62. 62. 62 04/10/2014 Segmentation thématique • La plupart des techniques fondée sur la cohésion lexicale – Changement de thème = changement de vocabulaire • Méthodes locales – Recherche de ruptures par comparaison de zones adjacentes et détection de minima de similarité [Hearst 1997] • Méthodes globales – Production « directe » des segments les plus cohérents [Utiyama et Isahara 2001] • Possibilité d’adaptation aux transcriptions de la parole ?
  63. 63. 63 04/10/2014 Adaptation aux transcriptions • Particularités problématiques – Erreurs de transcription – Manque de répétitions • Modification du calcul de la cohésion lexicale – Prise en compte des mesures de confiance, en particulier lors du comptage des occurrences de mots – Prise en compte des relations sémantiques entre les mots cigarette cigare 0.476838 cigarette gitane 0.378044 cigarette gauloise 0.37508 cigarette clope 0.366334 cigarette tabac 0.304606 mots partageant des contextes similaires
  64. 64. 64 04/10/2014 Résultats de la segmentation • Corpus – 57 JT de France 2 – février et mars 2007 • Système de reconnaissance de la parole – WER : 20% sur données Ester 2 (actualités radio) • Évaluation – Changement de thème à chaque reportage (1180 frontières) – Frontière correcte : 10s par rapport à une frontière de référence – Rappel, précision
  65. 65. 65 04/10/2014 Résultats de la segmentation • Mesures de confiance et relations sémantiques
  66. 66. • Mais aussi, forme de résumé informatif du contenu • Modifications du tf*idf car oral transcrit 66 Caractérisation des segments obtenus • Caractérisation par mots-clés extraits • Deux rôles – Permettre de comparer des reportages entre eux – Permettre d’interroger le Web pour trouver des pages liées – Lemmatisation – Pénalité introduite pour les noms propres – Prise en compte des mesures de confiance 04/10/2014
  67. 67. 67 Extraction de mots-clés • Tf*idf classique sur les lemmes 04/10/2014 1.000 voile 0.756 adda 0.521 bernadette 0.501 laïcité 0.483 musulmans, musulmane 0.449 photo, photos 0.429 sarkozy 0.387 chirac 0.372 préfecture 0.364 serge du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président de la république se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ... S(l) = tf(l) x idf(l)
  68. 68. 68 04/10/2014 Extraction de mots-clés • + Pénalités sur les noms propres - 1.000 voile - 0.567 adda ↑ 0.501 laïcité ↑ 0.483 musulmans, musulmane ↑ 0.449 photo, photos ↓ 0.391 bernadette ↑ 0.372 préfecture ↑ 0.330 mimosa ↑ 0.329 tchador ↑ 0.326 carmélites ↓ 0.322 sarkozy ↓ 0.290 chirac ↓ 0.273 serge du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président la publique se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ... S’(l)= tf’(l) x idf(l)
  69. 69. 69 Extraction de mots-clés • + Prise en compte des mesures de confiance 04/10/2014 - 0.992 voile ↑ 0.500 laïcité ↑ 0.458 musulmans, musulmane ↓ 0.454 adda ↑ 0.428 photo, photos ↓ 0.390 bernadette ↑ 0.371 préfecture ↑ 0.328 tchador ↑ 0.325 carmélites ↓ 0.321 sarkozy ↓ 0.294 serge ↓ 0.270 chirac du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président de la république se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ...
  70. 70. Récupération de pages Web liées à l’aide de erreurs de transcription 70 04/10/2014 requêtes • Conservation des premiers mots-clés • Requêtes formées par mélange de 2 ou 3 mots-clés voile laïcité voile musulmans voile adda ... Limite l’influence des voile laïcité photo laïcité adda photo musulmans adda photo
  71. 71. 71 04/10/2014 Texmix • Application : système de navigation au sein d’une collection de journaux TV • Utilisation de techniques issues de différents travaux de recherche dans l’équipe TexMex • Démonstration : Texmix
  72. 72. 72 04/10/2014 Texmix
  73. 73. 73 04/10/2014 Texmix
  74. 74. 74 04/10/2014 3.3- Fouille d’opinions • Analyse de données exprimant des opinions : réseaux sociaux, blogs, fora, commentaires sur des sites de commerce électronique … • Enjeux – Individuels : achat d’un matériel, réservation de séjour… – Économiques : perception d’un produit (propre ou concurrent) par des utilisateurs, avis synthétique sur un sujet… – Politiques : perception d’une réforme, de sujets de mécontentement…
  75. 75. 75 04/10/2014 Un travail compliqué • Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un Samsung avec Bluetooth. On s’est appelés quand on est rentrés. La voix sur mon téléphone n’était pas si claire, pire en tous cas que sur mon Motorola précédent. La batterie ne dure pas longtemps non plus. Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais un téléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramené le téléphone hier. (exemple de [Liu 2012] traduit) • Nombreux aspects du TAL impliqués – Dont certains aspects de compréhension assez fins • Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire 0 ou 0 ?)… • Données à analyser très diverses – En qualité – En contenu : avis global sur une entité, avis sur différents aspects d’une entité, avis sur plusieurs entités, zones factuelles et zones subjectives, avis se répondant…
  76. 76. 76 04/10/2014 4 tâches essentielles • Extraction d’opinions – Identifications des textes porteurs d’opinions – Localisation des passages/phrases… porteurs d’opinions • Classification d’opinions – Attribution d’une polarité à l’opinion émise : positive, négative et parfois neutre – Proximité avec la classification de textes mais mots polarisés importants • Constitution de ressources d’opinion – Lexiques de mots ou d’expressions polarisés • Résumé d’opinions
  77. 77. Approches supervisées de classification de 77 04/10/2014 documents et phrases • De très nombreux travaux aux deux niveaux • Bons résultats avec des classifieurs de type SVM et NB (Bayésien naïf) • De très nombreux traits utilisés – Mots, éventuellement pondérés – Étiquettes catégorielles (adjectifs importants, ponctuation…) – Mots porteurs d’opinion – N-grammes de mots, d’étiquettes (ex. : N+Adjpos) – Présence de mots « changeurs » de polarité (négation, mais…)…
  78. 78. 78 04/10/2014 Approches non supervisées de classification de documents et phrases • Également de nombreux travaux aux deux niveaux • Utilisation de ressources d’opinion – Lexiques – Règles plus ou moins ad hoc • Un exemple au niveau document [Turney 2002] – Étiquetage catégoriel de commentaires sur des voitures, films… – Extraction de bigrammes répondant à des patterns (d’expression d’opinion) • Adj-Nom commun, Adv-Adj si 3e mot pas nom commun… – Moteur de recherche (AltaVista) pour calculer des scores d’affinité de ces bigrammes avec « excellent » et avec « poor » – Moyenne, pour tous les patterns contenus, des différences d’affinité avec excellent et poor : 0 et 0
  79. 79. 79 04/10/2014 Constitution de ressources • Lexiques de mots / d’expressions : petit, coûte un bras • Développement manuel : coûteux • Des mots amorces (ou un lexique amorce) +… – Approche fondée dictionnaire • Extension par exemple grâce aux synonymes / antonymes du dictionnaire • Exemple : SentiWordNet [Esuli et Sebastiani 2006] – Extension par WordNet + classifieur appris grâce aux vecteurs de mots formés à partir des gloses du lexique • Développement rapide, mais polarité des mots dépendant du contexte et du domaine… – Petit : le téléphone est petit (+) / l’écran LCD est petit (-) – Long : la durée de vie de la batterie est longue (+) / le temps de mise au point est long (-)
  80. 80. 80 04/10/2014 Constitution de ressources • Des mots amorces (ou un lexique amorce) +… – Approche fondée corpus • Par exemple par extension via des constructions syntaxiques au sein d’une phrase du corpus, voire au-delà : présence de ET, OU, MAIS, négation… – Cette voiture est puissante (+) et spacieuse : spacieuse annoté comme positif – Cette voiture est puissante (+). Toutefois elle est chère dans sa gamme : chère annoté comme négatif
  81. 81. 81 04/10/2014 Du gros grain au grain fin • Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant ses principales qualités (simplicité d'utilisation, capteur et électronique efficaces, écran excellent). La réactivité et la transportabilité ont aussi été améliorées mais le zoom du kit vient gâcher tous les efforts : disproportionné en volume, bourré d'aberrations optiques et surtout très imprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com) • Avis global positif mais certains aspects très négatifs • Donc avis aspect par aspect nécessaire • Classification de documents de phrases d’aspects • Détermination de quel avis porte sur quoi : analyse à grain fin • Vision de l’opinion de Liu [Liu 2012] – (entité cible, aspect de l’entité, opinion, source, date) – Structuration du non-structuré
  82. 82. 82 04/10/2014 Résumé d’opinions • Nombreuses opinions émises sur une entité ou ses parties besoin de synthèse • Synthèse textuelle – Forme particulière de résumé multi-documents – Techniques par extraction de phrases utilisables dans une certaine mesure si traits d’opinion (présence de mots polarisés) pris en compte – Mais nécessité de prendre en compte le côté quantitatif et/voire les aspects de l’entité évalués – Structure : 1ere phrase = opinion sur l’entité, puis une phrase par aspect… en intégrant des nombres si multiples avis
  83. 83. 83 04/10/2014 Résumé d’opinions • Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
  84. 84. 84 04/10/2014 Résumé d’opinions • Synthèse graphique exemple extrait des transparents associés à [Liu 2012] – Synthèse souvent préférée ; formes multiples – Si temps connu, évolution affichable
  85. 85. 85 04/10/2014 Résumé d’opinions Extrait de Booking.com
  86. 86. 86 04/10/2014 Résumé d’opinions • Agrégation d’opinions OpinionEQ exemple extrait des transparents associés à [Liu 2012]
  87. 87. 87 04/10/2014 Encore du travail… • De nouvelles recherches – Faux commentaires • Commentaires positifs sur ses propres produits, négatifs sur les produits concurrents • Recherche sur les contenus difficile ; plutôt patterns de comportement – Que des commentaires positifs sur une marque, négatifs sur une autre – Notes très élevées, le même jour… – Contextualisation des opinions (fil de tweets) • Encore beaucoup de choses non/mal traitées – Recherches bridées par toutes les particularités du langage naturel • Sarcasme, ironie • Aspects parfois implicites : le téléphone est cher, ne rentre pas facilement dans une poche • …
  88. 88. 88 4- Applications tirant profit de la profusion 04/10/2014 de données
  89. 89. 89 4- Applications tirant profit de la profusion 04/10/2014 de données • Profusion et redondance – Masses de données comme une solution et non comme un problème – Constitution d’informations plus complètes, plus certaines • Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel • Zoom sur trois d’entre elles – Traduction automatique – Journalisme de données – Fact-checking (vérification par les faits)
  90. 90. 90 04/10/2014 4.1- Traduction automatique
  91. 91. 91 04/10/2014 Une histoire ancienne • 1954 : 1re démonstration publique d’un traducteur Russe / Anglais IBM - université de Georgetown – 250 mots, 6 règles de grammaire, 49 phrases • Grand enthousiasme dans les années 50 et 60, mais… – 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52) • L’obtention de traductions automatiques d’aussi haut niveau que les humaines est irréaliste – 1966 : rapport ALPAC (automatic language processing advisory committee) • La traduction automatique est plus lente, moins pertinente et 2 fois plus chère que l’humaine • Recommandation de développement de l’aide à la traduction humaine
  92. 92. 92 04/10/2014 Jusqu’à la fin des années 80 • Trois approches fondées sur des règles (lexicales, d’analyse morphologique, syntaxique…) – Directe : traduction d’une langue source en une cible à l’aide d’un dictionnaire et de règles – Interlangue : utilisation d’une représentation intermédiaire abstraite – Par transfert : analyse de la source, production d’une représentation, transfert vers une représentation-cible et génération en langue cible • Exemples de règles – to grow : grandir mais faire pousser si complément plante… – Adjectif + Nom Nom + Adjectif
  93. 93. 93 04/10/2014 Début des années 90 • Développement d’Internet • Besoins nouveaux – Traduction pour tous – Production rapide de traductions compréhensibles – Différentes langues, différents domaines • Volumes aussi solution • Développement de la traduction fondée corpora ou données – Traduction automatique statistique (TAS) – Traduction fondée exemples
  94. 94. Traduction automatique statistique [Brown et al. 1990] • f : phrase en langue source (Français) ; e phrase en langue cible (English) • Traduction de f en e = recherche de e* qui maximise P(e|f) • Décomposition en 2 problèmes 94 04/10/2014 règle de Bayes – e* = argmax P(e|f) = argmax P(f|e) P(e) e e – Développer un modèle de traduction garantissant que P(f|e) est élevé pour toute phrase cible appariée à f – Développer un modèle de la langue cible associant des valeurs P(e) élevées aux phrases grammaticales Estimation des probabilités de n-grammes sur un corpus monolingue Estimation sur un corpus bilingue parallèle aligné au niveau phrase
  95. 95. 95 04/10/2014 Corpus multilingues parallèles • Hansard : débats parlementaires canadiens en Français et Anglais (environ 20 millions de mots par langue) • Europarl : débats parlementaires européens en 21 langues (environ 60 millions de mots par langue) • Mais aussi textes techniques, cours, classiques de la littérature… Monsieur le Président, je voudrais porter à l’attention de la Chambre que nous célébrons aujourd’hui, comme le savent les honorables députés, l’anniversaire de la proclamation de la Charte canadienne des droits et libertés [...] Mr Speaker, I would like to bring to the attention of the House that today, as Hon. Members are no doubt aware, we are celebrating the anniversary of the proclamation of the Canadian Charter of Rights and Freedoms [...] Alignement au niveau phrase (ex. extrait du Hansard)
  96. 96. 96 04/10/2014 Modèles de traduction • Rappel rôles des modèles de traduction et de langue – Modèle de traduction : guider la construction pour une phrase source d’un ensemble d’hypothèses de phrases en langue cible – Modèle de langue : permettre le choix final en favorisant les phrases grammaticales • Pour chaque unité de traduction en langue source : des traductions possibles en langue cible + scores • 1ers modèles de traduction = modèles d’alignements de mots – IBM, Brown et al. 1990 : 5 modèles successivement proposés • IBM1 : hypothèse que toutes les valeurs d’alignement sont équiprobables • IBM2 : introduction d’une dépendance entre l’alignement du moti et sa position dans la phrase source • IBM3 : introduction de la notion de fertilité (un mot source peut être traduit par 0 à n mots) • …
  97. 97. 97 04/10/2014 Modèles de traduction initiaux • Table de transfert (lexique bilingue probabilisé) le (the 0.38) (of 0.15)… ministre (minister 0.7) (the 0.2) (prime 0.15)… années (year 0.4) (years 0.3) (some 0.1)…
  98. 98. 98 04/10/2014 Modèles de traduction = modèles d’alignements de segments • Début des années 2000 [Zens, Och, Ney 2002] • Appui sur les alignements mot-à-mot (dans les deux directions F/E et E/F) • Intérêt de l’alignement de segments – Levée d’ambiguïtés lexicales – Prise en compte de nombres de mots différents dans les deux langues – Modélisation simple de réordonnancements locaux • Nécessité de modélisation des distorsions (réordonnancements non locaux)
  99. 99. • En fait, information en règle générale plus riche que dans l’exemple précédent 99 Modèles d’alignements de segments • Table de transfert (ou encore de segments) 04/10/2014 a big (le grand 0.1) (un des principaux 0.04) (un grand 0.01) (Une grande 0.015) (ont une grande 0.02)…
  100. 100. 100 04/10/2014 Traduction automatique statistique • Traduction – Segmentation de f en segments de longueurs variables – Pour chaque segment, choix d’un équivalent en langue cible – Réarrangement des segments cibles pour avoir la traduction e • Décision du système de TAS fondée sur 3 modèles – Modèle de traduction : évalue la qualité d’un appariement entre f et e et délivre un coût – Modèle de distorsion : évalue la plausibilité du réordonnancement induit par cet appariement et délivre un coût – Modèle de langue : évalue la qualité de la phrase cible formée et délivre un coût • Meilleure traduction (décodage) = meilleur compromis
  101. 101. 101 04/10/2014 Exemple transparent emprunté à F. Yvon
  102. 102. 102 04/10/2014 Ressources [Allauzen et Yvon 2011] • Outre les corpora monolingues ou parallèles, voire comparables… • Outils d’alignements – Giza++ http://code.google.com/p/giza-pp/ – Outils de Berkeley http://code.google.com/p/berkeleyaligner/ – Boîte à outils Uplug (manipulation de corpus et alignements) http://sourceforge.net/projects/uplug • Systèmes de TAS – Moses http://www.statmt.org/moses/
  103. 103. 103 04/10/2014 Évaluation • Tâche complexe : fidélité au texte source, compréhensibilité, caractère naturel… • Évaluation subjective (experts) vs automatique • Plusieurs mesures automatiques • Exemple : BLEUk (Bilingual evaluation understudy) – Comparaison de l’hypothèse de traduction à une ou des traductions de référence – N-grammes de longueur 1 à k partagés ou pas
  104. 104. 104 04/10/2014 Traduction fondée exemples • [Nagao 1984] mais essor fin des années 80 • Utilisation d’une mémoire de traduction – Phrases déjà traduites, parfois abstraites pour accroître les possibilités de généralisation • Deux parties – Identification des fragments de la phrase source s’appariant avec des exemples – Recombinaison des éléments traduits pour obtenir une phrase correcte en langue cible
  105. 105. 105 04/10/2014 Traduction de la parole • Initialement des travaux portant sur des domaines restreints – Négociations multilingues, réservations téléphoniques de séjour… • Pas de contraintes de domaines maintenant • Diverses voies explorées – Traduction a posteriori de la transcription • Reponctuation, suppression des disfluences… – Traduction des sorties intermédiaires des systèmes de RAP • Scores des deux systèmes mêlés pour ordonner les hypothèses – Production de transcriptions que le système de traduction sait traduire • Modèle de langue du système de transcription biaisé par les groupes de mots du modèle de traduction
  106. 106. 106 04/10/2014 4.2- Journalisme de données • Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente • Principes – Découverte de faits intéressants – Mise en évidence de tendances cachées – Compilation d’ensembles de données • Accessibles sur une machine • Distribuables au public – Visualisation appropriée
  107. 107. 107 04/10/2014 4.2- Journalisme de données • Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente • Principes – Découverte de faits intéressants – Mise en évidence de tendances cachées – Compilation d’ensembles de données • Accessibles sur une machine • Distribuables au public – Visualisation appropriée l’utilisateur doit pouvoir interagir avec les données, les personnaliser passage d’une histoire complexe à un graphique clair (interactif, personnalisable)
  108. 108. 108 04/10/2014 Une nouveauté qui vient de loin… • 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau image extraite de Wikipédia
  109. 109. 109 04/10/2014 Une nouveauté qui vient de loin… • 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau • 1858 – Florence Nightingale : graphique sur la mortalité dans l’armée britannique montrant que plus de morts étaient dues aux maladies qu’aux balles image extraite de Wikipédia
  110. 110. 110 04/10/2014 Une nouveauté qui vient de loin… • À partir des années 2000 : beaucoup de bases de données disponibles • 2006 – A. Holotavy : principes de ce que devrait être le journalisme de données [Holotavi 2006] • 2011 : le guide du datajournalisme (The Data Journalism Handbook http://datajournalismhandbook.org/) • 2012 – M.J. Berens et K. Armstrong (Seattle Times) : prix Pulitzer du journalisme d’investigation pour leur travail sur le lien surmortalité – méthadone dans l’état de Washington
  111. 111. 111 04/10/2014 Exemple 1 : Gapminder
  112. 112. 112 Exemple 2 : émeutes 2011 en Angleterre • The Guardian − Lien entre les adresses des accusés et les zones de pauvreté 04/10/2014
  113. 113. 113 04/10/2014 Quelles données ? • Collectivités, services publics www.data.gouv.fr
  114. 114. 114 04/10/2014 Quelles données ? • Collectivités, services publics www.data.gouv.fr • Web… • Éventuellement des données plus confidentielles (WikiLeaks) abondance croisement fiabilité • Beaucoup de bases structurées ; encore très peu de TAL
  115. 115. 115 04/10/2014 Techniques de RI textuelle • J. Stray et J. Burges 2010 • Travail sur les rapports d’enquêtes de l’US Army connus sous le nom de Iraq War Logs Leak – 390000 rapports d’action sur la guerre de 2004 à 2009 • Focus sur le mois de décembre 2006 (11600 rapports) • Chaque document – Représenté par un vecteur pondéré de mots (tf*idf) – Caractérisé par ses 3 mots les plus saillants – Représenté par un noeud coloré selon le type d’incident décrit (métadonnée) • Comparaison : cosinus • Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/ – Chaque cluster formé caractérisé par ses mots saillants
  116. 116. 116 04/10/2014 J. Stray et J. Burges 2010 • Caractérisation thématique
  117. 117. 117 04/10/2014 J. Stray et J. Burges 2010 Événements criminels Risque d’explosion
  118. 118. 118 04/10/2014 Plus de TAL et de linguistique • J. Véronis : analyse linguistique fine de discours politiques • Focus sur – L’utilisation des pronoms – Les EN employées – Les thèmes abordés • Travail important lors de la campagne présidentielle 2012 : Observatoire des discours
  119. 119. 119 04/10/2014 Observatoire des discours
  120. 120. 120 Vers de l’automatisation grâce au TAL • [Tannier 2014] : identification automatique de relations d’alliance ou d’opposition entre pays sur un sujet donné • Corpus : dépêches AFP + Web • Pré-travail 04/10/2014 – Création d’un lexique de 110 déclencheurs de relations positives (applaud, agree) ou négatives (criticism…) • Prétraitement du corpus – Normalisation des dates, segmentation en chunks, résolution de coréférence, étiquetage en EN – Utilisation de DBPedia et d’heuristiques pour lier capitales, villes, personnes et pays
  121. 121. • Apprentissage d’un classifieur (SVM) classant chaque phrase avec au moins deux EN et un déclencheur 121 Vers de l’automatisation grâce au TAL 04/10/2014 – Relation ou pas de relation – Relation positive ou négative Indonesia voiced support for East Timor's bid to join the ASEAN. POS(Indonesia, East Timor) China earlier protested Obama's meeting with the Dalai Lama, [...]. NEG(China, USA)
  122. 122. • Chaque phrase contenant au moins une relation : contenu, pays impliqués, relation(s) et date indexés • Interrogation via un moteur de recherche 122 Vers de l’automatisation grâce au TAL 04/10/2014 – Sujet (mots-clés) – Dates minimale et maximale – Nombre de pays • Pour chaque paire de pays (e1, e2) à la date d, calcul d’un poids – Poids(e1, e2, d) = log (, , ) (, , ) • Lissage du poids sur une fenêtre temporelle – Moyenne pondérée sur la fenêtre
  123. 123. Requête « Syria » entre « USA » et « Russia » 123 04/10/2014 Série temporelle – 2 pays Transparent emprunté à X. Tannier
  124. 124. Transparent emprunté à X. Tannier 124 04/10/2014 Requête « Syria » en « 2012 » Distances et couleurs marquants les alliances/oppositions
  125. 125. 125 04/10/2014 4.3- Fact-checking • Vérification par les faits • Vérification de la véracité d’affirmations issues de discours ou de documents – Vrai / faux, omissions, lectures à sens unique… • Par comparaison avec des sources d’informations fiables – Tirer profit de la masse d’informations disponible
  126. 126. 126 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter
  127. 127. 127 04/10/2014 Truth-O-Meter
  128. 128. 128 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter – Obameter • 2007 : site FactChecker du Washington Post
  129. 129. 129 04/10/2014 FactChecker
  130. 130. 130 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter – Obameter • 2007 : site FactChecker du Washington Post • En France – Radio : Le vrai du faux, France-Info (2012) – TV : Véritomètre sur la campagne présidentielle de 2012, OWNI et iTELE
  131. 131. 131 04/10/2014 Véritomètre
  132. 132. 132 04/10/2014 Techniques de vérification • Travail essentiellement manuel – Par recoupement de plusieurs bases • Fiabilité acquise (ou renforcée) grâce à la masse de données – Parfois par appel au crowd-sourcing • Un peu d’automatisation : prototype TruthTeller du Washington Post – Repérage d’affirmations stockées en bases et déjà contrôlées dans un discours transcrit
  133. 133. 133 04/10/2014 TruthTeller
  134. 134. 134 04/10/2014 Ce que le TAL peut offrir • Recherche d’information – Comparaison de contenus • Systèmes de questions/réponses – Réponses à des questions précises • Extraction d’informations – Extraction d’un fait, de ses attributs • Techniques d’apprentissage artificiel – Pour faire émerger des connaissances
  135. 135. 135 04/10/2014 Ce que le TAL offre actuellement • Trouver un fait exact parmi des informations contradictoires – En se fondant sur la fiabilité des sites le citant [Yin et al. 2007] • Interdépendance fiabilité d’un site – crédibilité d’un fait • Score d’un fait : dépend du score des sites le mentionnant et est influencé par les scores des faits qui lui sont similaires • Score d’un site : dépend du score des faits qu’il contient • Algorithme itératif transitif – Scores des sites initialisés à la même valeur – Scores des faits calculés – Scores des sites recalculés – Itération jusqu’à convergence
  136. 136. 136 04/10/2014 Ce que le TAL offre actuellement • Trouver un fait exact parmi des informations contradictoires – En se fondant sur l’objectivité du langage des sites le citant [Nakashole et Mitchell 2014] • Langage objectif : neutre, impartial, non personnel, non émotionnel • Interdépendance objectivité d’une source et sa fiabilité • Proposition d’un classifieur (apprentissage supervisé) objectif vs subjectif, fondé sur différents traits dont la présence de mots issus de lexique d’opinion • Score d’un candidat-fait : fonction de l’objectivité des sources qui le citent et du score des faits co-mentionnés avec lui
  137. 137. 137 04/10/2014 Ce que le TAL offre actuellement • Reconnaître si la source d’un fait croit en la véracité du fait qu’elle énonce [Saurì et Pustejovsky 2012] – Granularité assez fine • Polarité du fait : affirmé ou nié • Modalité épistémique : certain, probable ou possible – Travail d’expertise linguistique pour définir • Une liste de marqueurs de la polarité et de la modalité : – non, certainement, supposé, possible, apparemment, pouvoir, dire, douter, regretter… • Les influences entre ces marqueurs au fil des constructions syntaxiques • Bilan global : TAL encore peu utilisé en Fact-checking
  138. 138. 138 04/10/2014 Conclusions TAL et Big Data • Pas une révolution, celle du TAL datant d’avant – Mais plus de données, plus de variété – Revisite d’applications ou techniques de TAL – Essor d’applications pour faire face au déluge de données – Essor d’applications pour tirer profit du déluge de données • Chercheur en TAL transformé en « scientifique des données » (data scientist) – Mais aussi utilisation de représentations mixant des grains différents • Prise de conscience de l’importance de l’accès au contenu des données langagières • Attente d’applications efficaces et explicatives
  139. 139. 139 04/10/2014 Bibliographie • ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144. • ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356. • BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85. • ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422. • FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la- Neuve, Presses universitaires de Louvain, 2006. • GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language Processing, Boulder, USA, 2009, p. 10-18. • GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195. • GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011. • HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in Computing Systems (CHI), Denver, USA, 1995, p. 59-66. • HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64. • HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300. • HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil. 2014. • LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004, p. 74-81. • LIU (B.), Sentiment analysis and opinion mining, dans Morgan Claypool publishers, 2012. • MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004. • NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180. • NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019. • SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2), 2012, p. 261-299. • TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014. • TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424. • UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506. • YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052. • ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479, 2002, p. 18-32.

×