Extraction de la semantique

673 vues

Publié le

Présentation lors du séminaire de l'équipe Wimmics de l'INRIA à Sophia-Antipolis le 17 janvier 2014.

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
673
Sur SlideShare
0
Issues des intégrations
0
Intégrations
18
Actions
Partages
0
Téléchargements
10
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Exemple très simplifié
  • Montrer la diff entre constituants/dépendances, et montrer que le second est plus proche de la sémantique
    Parler de TiLT
  • - format conll
    - actu : actualité
    - Déterminant ou adjectif discutable, piège difficile à éviter : ordinal au lieu de cardinal (date)
  • - (17,18,19) Comment gérer la ponctuation ?
    - (21) Mauvais rattachement prépositionnel.
    (25) Mauvais rattachement prépositionnel (ambiguïté avec 16 et 24)
  • URI BDC
    Lemmatisation
    Resolution anaphores
  • On applique le pattern S V O
    On autorise :
    Les génitifs
    - Les COD et certains COI
    Les formes passives
    Supprime les adjectifs et circonstanciels
  • Parler de l’exemple Chavez
    -> thématisation !!
  • Extraction de la semantique

    1. 1. Challenge DOP Extraction de la Sémantique Jonathan Marchand Julien Plu (@julienplu - plu.julien@gmail.com) Guillaume Viland Séminaire Wimmics, Sophia-Antipolis, le 17/01/2014
    2. 2. Un vrai challenge… président , Venezuela, Hugo Chavez Hugo Chavez, décédé, mardi 5/3/2013 Hugo Chavez, décédé à , Caracas Hugo Chavez, âge, 58 ans Hugo Chavez, cause décès, cancer président , Venezuela, Hugo Chavez Hugo Chavez, décédé, mardi 5/3/2013 Hugo Chavez, décédé à , Caracas Hugo Chavez, âge, 58 ans Hugo Chavez, cause décès, cancer
    3. 3.  Sémantique : modélisation du sens d'un énoncé (phrase, discours, etc.)  Généralement modélisé formellement en logique du premier ordre représentable sous forme de graphe Le chien que Marie aime dort. Analyse Sémantique dormir chienMarie aime agent patient agent
    4. 4. Exemple avec Lady Gaga Sujet Prédicat Objet Lady Gaga etre acoeurdeactu Lady Gaga devoiler Applause (film) L'excentrique Lady Gaga est au coeur de l'actu depuis qu'elle a dévoilé son single "Applause" issu de son quatrième album à découvrir à partir du 11 novembre.
    5. 5. .txt parseTex t .conll06 .inmalt getNerd .conllsimple .nerd buildDep Graph .depnt extractRdf .fullnt selectRdf .nt
    6. 6.  Part of Speech Tagger (étiqueteur morpho-syntaxique) et Parser stochastiques  Corpus entraîné sur la French Dependency Treebank (Paris 7)  Analyse syntaxique de surface en dépendances (sous forme d’arbre) ParseText .txt Tokenizer et PoS Tagger : Melt .conll06 .inmalt Parser : MaltParse r .inmalt ParseTe xt
    7. 7. Analyse syntaxique 1 L' le D DET n=s|s=def 100 3 det _ _ 2 excentrique excentrique A ADJ n=s|s=qual _ 3 mod _ _ 3 Lady Lady N NPP s=p _ 5 subj _ _ 4 Gaga Gaga N NPP s=p _ 3 mod _ _ 5 est être V V m=ind|n=s|p=3|t=pst 1101011 0 root _ _ 6 au à P+D P+D s=def 1111111 5 mod _ _ 7 coeur coeur N NC g=m|n=s|s=c 11111 6 obj_ _ _ 8 de de P P _ 11110 7 dep _ _ 9 l' le D DET n=s|s=def 100 10 det _ _ 10 actu actualité N NC g=f|n=s|s=c _ 8 obj _ _ 11 depuis_qu' depuis_que C CS s=s 1100101 5 mod _ _ 12 elle cln CL CLS s=suj 1101110 14 suj _ _ 13 a avoir V V m=ind|n=s|p=3|t=pst 1101010 14 aux_tps _ _ 14 dévoilé dévoiler V VPP g=m|m=part|n=s|t=past 1100011 11 obj _ _ 15 son son D DET n=s|s=poss 1011110 16 det _ _ 16 single single N NC g=m|n=s|s=c _ 14 obj _ _ 17 « « PONCT PONCT s=w _ 16 ponct _ _ 18 Applause Applause N NPP s=p _ 16 mod _ _ 19 » » PONCT PONCT s=w _ 16 ponct _ _ 20 issu issir V VPP g=m|m=part|n=s|t=past 1100010 16 mod _ _ 21 de de P P _ 11110 16 dep _ _ 22 son son D DET n=s|s=poss 1011110 24 det _ _ 23 quatrième quatrième A ADJ n=s|s=ord 0 24 mod _ _ 24 album album N NC g=m|n=s|s=c 11110 21 obj _ _ 25 à à P P _ 1100110 14 mod _ _ 26 découvrir découvrir V VINF m=inf 1100000 25 obj _ _ 27 à_partir_du à_partir_de P P _ 101110 26 mod _ _ 28 11 11 D DET s=card _ 29 mod _ _ 29 novembre novembre N NC g=m|n=s|s=c 11110 27 obj _ _ 30 . . PONCT PONCT s=s _ 5 ponct _ _
    8. 8.  Ce module fusionne les informations de la reconnaissance d’entités nommées avec l’analyse syntaxique : > Fusion des noeuds de l’arbre syntaxique issues d’une même EN (si possible) > Association des EN avec leur identifiant NERD et dbpedia  Module de résoultion d’anaphores simples des clitiques sujets  Sortie au format RDF BuildDepGraph .conll06 .conllsimple.nerd buildDep Graph .depnt
    9. 9.  Deux heuristisques > un clitique sujet dans une subordonnée réfère au sujet de la principale. Résolution des anaphores des clitiques sujets L'excentrique Lady Gaga est au coeur de l'actu depuis qu' elle a dévoilé son single "Applause » > un clitique sujet dans une principale réfère au sujet de la proposition principale de la phrase précédante. Jean aime les animaux. Il aime aussi les plantes. Mais il n’aime pas les écolos.
    10. 10. ExtractRdf .depnt extractRdf .fullnt
    11. 11.  Ce module sélectionne les triplets RDF à produire  De manière générale, il faut tuner ce module pour sélectionner les informations que l'on souhaite extraire  Dans notre cas, il s’agit de prendre les triplets qui ont pour sujet une EN SelectRDF .fullnt selectRdf .nt
    12. 12. merci

    ×