SlideShare une entreprise Scribd logo
ok
ok
Plan
NLP
Les concepts de base
Histoire
VSM
Pondération Booléenne
Tf-Idf
Word Embedding
Application
ok
NLP
A l’ère des voitures qui se conduisent toutes seules, des plantes qui peuvent réclamer à
boire, des maisons intelligentes, les humains restent de grands incompris (langues parlées
ou écrites, mais aussi les langues signées, le mime, le dessin, voire même la musique) c’est
une motivation de NLP.
Il regroupe deux domaines spécifiques : le NLU (Natural Language Understanding), qui vise à
comprendre le langage naturel, et le NLG (Natural Language Generation), qui permet à une
machine de s’exprimer de manière naturelle pour un être humain. Ces concepts sont à la
base de toutes les intelligences artificielles conversationnelles, comme Siri, Ok Google ou
encore Cortana pour ne donner que ces trois exemples. C’est ce qui donne à un robot la
capacité de mener une vraie conversation.
Les principaux domaines du TAL sont :
• le traitement de la parole ;
• la traduction automatique ;
• la compréhension automatique des textes ;
• la génération automatique de textes ;
• la gestion électronique de l’information et des documents existants (GEIDE).
ok
Histoire
Dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques
phrases russes, sélectionnées à l’avance, furent traduites automatiquement en anglais
En 1962 : la première conférence sur la traduction automatique est organisée au MIT par Y.
Bar-Hillel.
Il est suivi par N. Chomsky, qui publie en 1957 ses premiers travaux importants sur la
syntaxe des langues naturelles, et sur les relations entre grammaires formelles et
grammaires naturelles
Les élèves de Marvin Minsky, au MIT, développent divers systèmes (BASEBALL (1961), SIR
(1964), STUDENT (1964), ELIZA (1966) ...) mettant en œuvre des mécanismes de
traitement simples, à base de mots-clés
Jusqu'aux années 1980, la plupart des systèmes NLP étaient basés sur des ensembles
complexes de règles manuel. À partir de la fin des années 1980, cependant, il y a eu une
révolution dans la PNL avec l'introduction d'algorithmes d'apprentissage automatique pour le
traitement du langage.
ok
Concepts de base
Il est ainsi possible de modéliser une méthode, applicable aussi bien au NLU qu’au NLG,
constituée d’étapes successives.
La tokenisation
découper le texte en plusieurs tokens. Les tokens sont les éléments porteurs de sens les
plus simples. le mot « aujourd’hui » même s’il contient une apostrophe, ne constitue qu’un
unique token. De la même manière, « fruit de la passion » doit être considéré comme un seul
élément porteur de sens même si il est constitué de plusieurs mots graphiques ; en
considérant les mots séparément, on perdrait l’information sémantique.
L’analyse syntaxique
Cette étape permet de dégager une représentation de la structure d’un texte, de manière à
mettre en lumière les relations syntaxiques entre les mots. Cette étape se base sur un
dictionnaire (le vocabulaire) et sur un ensemble de règles syntaxiques (la grammaire), pour
déterminer les syntagmes, ou constituants, présents dans la phrase et les organiser selon
leur hiérarchie dans la phrase.
ok
Concepts de base
L’analyse sémantique
Son rôle est double. Elle se compose en effet de deux concepts distincts : la sémantique
grammaticale et la sémantique lexicale.
La sémantique grammaticale consiste à associer un rôle grammatical à chacun des syntagmes
définis lors de l’analyse syntaxique. Il s’agit par exemple des fameux COD et COI que l’on a tous
appris dans notre enfance (et oubliés depuis). Si nous reprenons
L’analyse pragmatique
En dernier lieu, l’analyse pragmatique permet d’interpréter le discours à son niveau le plus
élevé. Cette interprétation peut dépendre du contexte immédiat ou d’une connaissance plus
globale.
ok
Difficultés NLP
– Ambiguïté des graphèmes (lettres) dans le processus d’encodage orthographique :
comparez la prononciation du i dans lit, poire, maison ;
– Ambiguïté des terminaisons dans les processus de conjugaison et d’infection
– ambiguïté dans les propriétés grammaticales et sémantiques (i.e. associées à son sens)
d’une forme graphique donnée : ainsi manges est ambigu à la fois morpho-syntaxiquement,
puisqu’il correspond aux formes indicative et subjonctive du verbe manger), mais aussi
sémantiquement.
– Ambiguïté de la fonction grammaticale des groupes de mots, illustrée par la phrase :
il poursuit la jeune fille à vélo.
Dans cet exemple à vélo est soit un complément de manière de poursuivre (et c’est lui qui
pédale), soit un complément de nom de fille (et c’est elle qui mouline) ;
– Ambiguïté de la portée des quantificateurs, des conjonctions, des prépositions.
– Ambiguïté sur l’interprétation à donner en contexte à un énoncé
ok
VSM
Le VSM (Vector Space Model) est la représentation des mots qui se base sur la théorie des
espaces vectoriels, une formalisation géométrique. En effet, les documents et les requêtes
sont représentés dans un même espace, défini par un ensemble de dimensions, chaque
dimension représente un terme d’indexation. Les requêtes et les documents sont alors
représentés par des vecteurs, dont les composantes représentent le poids du terme
d’indexation considéré dans le document (la requête), c’est un modèle statistique pour
représenter des informations textuelles pour la recherche d'information, NLP, Text Mining.
ok
Pondération Booléenne
Basé sur la théorie des ensembles et l’algèbre de Boole. Dans ce modèle notre vecteur est
booléen. Une étude d’appariment document requête sera grâce a expression logique,
composée de termes reliés par des opérateurs logiques : ET (), OU () et SAUF ().
L’appariement entre une requête et un document est un appariement exact, autrement dit si
un document implique au sens logique la requête alors le document est pertinent. Sinon, il
est considéré non pertinent.
Malgré la large utilisation de ce modèle, il présente un certain nombre de faiblesses :
- Les documents retournés à l’utilisateur ne sont pas ordonnés selon leur pertinence.
- La représentation binaire d’un terme dans un document est peu informative, car elle ne
renseigne ni sur la fréquence du terme dans le document ni sur la longueur de document, qui
peuvent constituer des informations importantes pour la RI.
Les tests effectués sur des collections d’évaluation standards de RI ont montré que les
systèmes booléens sont d’une efficacité de recherche inférieure.
Afin de remédier à certains problèmes de ce modèle, des extensions ont été proposées,
parmi elles on trouve : le modèle booléen basé sur la théorie des ensembles flous , le modèle
booléen étendu.
ok
Tf-Idf
Pondération local :
La pondération locale permet de mesurer l’importance du terme dans le document. Elle prend
en compte les informations locales du terme qui ne dépendent que du document. Elle
correspond en général à une fonction de la fréquence d’occurrence du terme dans le
document (noté tf pour term frequency), exprimée ainsi :
Ou f(ti, dj) est la fréquence du terme dans le document݀ .
ok
Tf-Idf
Quant à la pondération globale, elle prend en compte les informations concernant le terme
dans la collection. Un poids plus important doit être assigné aux termes qui apparaissent
moins fréquemment dans la collection. Car les termes qui apparaissent dans de nombreux
documents de la collection n’est pas disriminatoire. Un facteur de pondération globale est
alors introduit. Ce facteur nommé݂݀݅ (inverted document frequency), dépend d’une manière
inverse de la fréquence en document du terme et exprimé comme suit :
Ni est la fréquence en document du terme considéré, et N est le nombre total de documents
dans la collection.
Les fonctions de pondération combinant la pondération locale et globale sont référencées
sous le nom de la mesure tf *idf Cette mesure donne une bonne approximation de
l’importance du terme dans les collections de documents de taille homogène.
Pour remédier à ce problème, des travaux ont proposé d’intégrer la taille du document dans
les formules de pondération, comme facteur de normalisation.
La majorité de ces approches se basent sur l’utilisation des mots simples comme unités de
représentation des documents et des requêtes, souvent appelé représentation en sac de
mots BOW. Ces approches posent deux problèmes, l’ambiguïté des mots et leur disparité.
ok
Word Embedding
Les systèmes de traitement du langage naturel traitent traditionnellement les mots comme
des symboles atomiques discrets, et donc «chat» peut être représenté par Id537 et «chien»
par Id143. Ces codages sont arbitraires et ne fournissent aucune information utile au
système concernant les relations qui peuvent exister entre les symboles individuels. Cela
signifie que le modèle peut tirer parti très peu de ce qu'il a appris sur les «chats» lorsqu'il
traite des données sur les «chiens» (tels qu'ils sont à la fois des animaux, des quadrupèdes,
des animaux domestiques, etc.). Le fait de représenter les mots comme des identificateurs
uniques et discrets entraînent en outre un manque de données, et signifie généralement que
nous aurons besoin de plus de données pour réussir la formation de modèles statistiques.
L'utilisation de représentations vectorielles peut surmonter certains de ces obstacles.
Word2vec est un modèle prédictif particulièrement basé sur les réseaux de neurones efficace
sur le plan informatique pour faire le Word Embedding à partir du texte brut.
Nous allons présenté deux formes: le modèle du sac continu de mots (CBOW) et le modèle
de Skip-Gram .
GloVe
ok
Le modèle CBOW
L'entrée dans le modèle pourrait être wi-2, wi-1, wi + 1, wi + 2, les mots précédents et
suivants du mot courant auquel nous sommes. La sortie du réseau de neurones sera wi. Par
conséquent, vous pouvez penser à la tâche comme "prédire le mot compte tenu de son
contexte"
Notez que le nombre de mots que nous utilisons dépend de votre réglage pour la taille de la
fenêtre.
ok
Le modèle skip-gram
L'entrée du modèle est wi, et la sortie doit etre wi-1, wi-2, wi + 1, wi + 2. Donc, la tâche ici est
de "prédire le contexte à partir d’un mot donné". En outre, des mots plus éloignés reçoivent
moins de poids en les échantillonnant au hasard. Lorsque vous définissez le paramètre de
taille de la fenêtre(Window), vous configurez uniquement la taille maximale de la fenêtre. La
taille réelle de la fenêtre est choisie au hasard entre 1 et taille maximale pour chaque
échantillon d'entraînement, ce qui donne des mots dont la distance maximale est observée
avec une probabilité de 1 / c alors que les mots directement à côté du mot sont toujours
observés. (correction grâce à Christina Korger)
ok
Application Gensim
Gensim est une librairie Python gratuite conçue pour extraire automatiquement la sémantique à
partir de documents, aussi efficacement (sur ordinateur) et facile (humainement) que possible.
Gensim tourne autour des concepts de corpus, vecteur et modèle.
Gensim a été développé et est maintenu par le chercheur tchèque en traitement de la langue
naturelle Radim Řehůřek et sa société RaRe Technologies.
Il est très connu dans le Topic Moedeling,
Il fournit également des outils pour charger des corpus fini.
ok

Contenu connexe

Tendances

Lecture 1: Semantic Analysis in Language Technology
Lecture 1: Semantic Analysis in Language TechnologyLecture 1: Semantic Analysis in Language Technology
Lecture 1: Semantic Analysis in Language TechnologyMarina Santini
 
Word Embeddings, why the hype ?
Word Embeddings, why the hype ? Word Embeddings, why the hype ?
Word Embeddings, why the hype ? Hady Elsahar
 
Abstractive Text Summarization
Abstractive Text SummarizationAbstractive Text Summarization
Abstractive Text SummarizationTho Phan
 
IE: Named Entity Recognition (NER)
IE: Named Entity Recognition (NER)IE: Named Entity Recognition (NER)
IE: Named Entity Recognition (NER)Marina Santini
 
Introduction to Named Entity Recognition
Introduction to Named Entity RecognitionIntroduction to Named Entity Recognition
Introduction to Named Entity RecognitionTomer Lieber
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
A Simple Introduction to Word Embeddings
A Simple Introduction to Word EmbeddingsA Simple Introduction to Word Embeddings
A Simple Introduction to Word EmbeddingsBhaskar Mitra
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - IntroductionChristian Perone
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applicationsbenouini rachid
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Chap1 Introduction à python
Chap1 Introduction à pythonChap1 Introduction à python
Chap1 Introduction à pythonMariem ZAOUALI
 
Introduction to natural language processing, history and origin
Introduction to natural language processing, history and originIntroduction to natural language processing, history and origin
Introduction to natural language processing, history and originShubhankar Mohan
 

Tendances (20)

Lecture 1: Semantic Analysis in Language Technology
Lecture 1: Semantic Analysis in Language TechnologyLecture 1: Semantic Analysis in Language Technology
Lecture 1: Semantic Analysis in Language Technology
 
Word Embeddings, why the hype ?
Word Embeddings, why the hype ? Word Embeddings, why the hype ?
Word Embeddings, why the hype ?
 
Abstractive Text Summarization
Abstractive Text SummarizationAbstractive Text Summarization
Abstractive Text Summarization
 
What is word2vec?
What is word2vec?What is word2vec?
What is word2vec?
 
IE: Named Entity Recognition (NER)
IE: Named Entity Recognition (NER)IE: Named Entity Recognition (NER)
IE: Named Entity Recognition (NER)
 
Introduction to Named Entity Recognition
Introduction to Named Entity RecognitionIntroduction to Named Entity Recognition
Introduction to Named Entity Recognition
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Tutorial on word2vec
Tutorial on word2vecTutorial on word2vec
Tutorial on word2vec
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
NLTK
NLTKNLTK
NLTK
 
A Simple Introduction to Word Embeddings
A Simple Introduction to Word EmbeddingsA Simple Introduction to Word Embeddings
A Simple Introduction to Word Embeddings
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - Introduction
 
Big data
Big dataBig data
Big data
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 
Bleu vs rouge
Bleu vs rougeBleu vs rouge
Bleu vs rouge
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applications
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Algorithme génétique
Algorithme génétiqueAlgorithme génétique
Algorithme génétique
 
Chap1 Introduction à python
Chap1 Introduction à pythonChap1 Introduction à python
Chap1 Introduction à python
 
Introduction to natural language processing, history and origin
Introduction to natural language processing, history and originIntroduction to natural language processing, history and origin
Introduction to natural language processing, history and origin
 

Similaire à Word Embedding

Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applicationsbenouini rachid
 
G-OWL - graphical web ontology language
G-OWL - graphical web ontology languageG-OWL - graphical web ontology language
G-OWL - graphical web ontology languageMichel Héon PhD
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
L’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsL’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsAref Jdey
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantimap8slide
 
Logiques de descriptions.pptx
Logiques de descriptions.pptxLogiques de descriptions.pptx
Logiques de descriptions.pptxmohmll
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1François-Xavier Boffy
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolasent12701
 
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...Michel Héon PhD
 
interopérabilité en informatique
interopérabilité en informatiqueinteropérabilité en informatique
interopérabilité en informatiquecatherine roussey
 
Le langage Prolog
Le langage PrologLe langage Prolog
Le langage PrologBruno Delb
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantiqueStéphane Traumat
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotInria
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 

Similaire à Word Embedding (20)

Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applications
 
Deck 11
Deck 11Deck 11
Deck 11
 
G-OWL - graphical web ontology language
G-OWL - graphical web ontology languageG-OWL - graphical web ontology language
G-OWL - graphical web ontology language
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
L’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsL’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informations
 
Lsi
Lsi Lsi
Lsi
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
 
Logiques de descriptions.pptx
Logiques de descriptions.pptxLogiques de descriptions.pptx
Logiques de descriptions.pptx
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...
G-OWL : Vers un langage de modélisation graphique, polymorphique et typé pour...
 
Deep learning
Deep learningDeep learning
Deep learning
 
interopérabilité en informatique
interopérabilité en informatiqueinteropérabilité en informatique
interopérabilité en informatique
 
Recherche semantique
Recherche semantique Recherche semantique
Recherche semantique
 
Le langage Prolog
Le langage PrologLe langage Prolog
Le langage Prolog
 
Introduction au web sémantique
Introduction au web sémantiqueIntroduction au web sémantique
Introduction au web sémantique
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale Sébillot
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 

Word Embedding

  • 1. ok
  • 2. ok Plan NLP Les concepts de base Histoire VSM Pondération Booléenne Tf-Idf Word Embedding Application
  • 3. ok NLP A l’ère des voitures qui se conduisent toutes seules, des plantes qui peuvent réclamer à boire, des maisons intelligentes, les humains restent de grands incompris (langues parlées ou écrites, mais aussi les langues signées, le mime, le dessin, voire même la musique) c’est une motivation de NLP. Il regroupe deux domaines spécifiques : le NLU (Natural Language Understanding), qui vise à comprendre le langage naturel, et le NLG (Natural Language Generation), qui permet à une machine de s’exprimer de manière naturelle pour un être humain. Ces concepts sont à la base de toutes les intelligences artificielles conversationnelles, comme Siri, Ok Google ou encore Cortana pour ne donner que ces trois exemples. C’est ce qui donne à un robot la capacité de mener une vraie conversation. Les principaux domaines du TAL sont : • le traitement de la parole ; • la traduction automatique ; • la compréhension automatique des textes ; • la génération automatique de textes ; • la gestion électronique de l’information et des documents existants (GEIDE).
  • 4. ok Histoire Dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques phrases russes, sélectionnées à l’avance, furent traduites automatiquement en anglais En 1962 : la première conférence sur la traduction automatique est organisée au MIT par Y. Bar-Hillel. Il est suivi par N. Chomsky, qui publie en 1957 ses premiers travaux importants sur la syntaxe des langues naturelles, et sur les relations entre grammaires formelles et grammaires naturelles Les élèves de Marvin Minsky, au MIT, développent divers systèmes (BASEBALL (1961), SIR (1964), STUDENT (1964), ELIZA (1966) ...) mettant en œuvre des mécanismes de traitement simples, à base de mots-clés Jusqu'aux années 1980, la plupart des systèmes NLP étaient basés sur des ensembles complexes de règles manuel. À partir de la fin des années 1980, cependant, il y a eu une révolution dans la PNL avec l'introduction d'algorithmes d'apprentissage automatique pour le traitement du langage.
  • 5. ok Concepts de base Il est ainsi possible de modéliser une méthode, applicable aussi bien au NLU qu’au NLG, constituée d’étapes successives. La tokenisation découper le texte en plusieurs tokens. Les tokens sont les éléments porteurs de sens les plus simples. le mot « aujourd’hui » même s’il contient une apostrophe, ne constitue qu’un unique token. De la même manière, « fruit de la passion » doit être considéré comme un seul élément porteur de sens même si il est constitué de plusieurs mots graphiques ; en considérant les mots séparément, on perdrait l’information sémantique. L’analyse syntaxique Cette étape permet de dégager une représentation de la structure d’un texte, de manière à mettre en lumière les relations syntaxiques entre les mots. Cette étape se base sur un dictionnaire (le vocabulaire) et sur un ensemble de règles syntaxiques (la grammaire), pour déterminer les syntagmes, ou constituants, présents dans la phrase et les organiser selon leur hiérarchie dans la phrase.
  • 6. ok Concepts de base L’analyse sémantique Son rôle est double. Elle se compose en effet de deux concepts distincts : la sémantique grammaticale et la sémantique lexicale. La sémantique grammaticale consiste à associer un rôle grammatical à chacun des syntagmes définis lors de l’analyse syntaxique. Il s’agit par exemple des fameux COD et COI que l’on a tous appris dans notre enfance (et oubliés depuis). Si nous reprenons L’analyse pragmatique En dernier lieu, l’analyse pragmatique permet d’interpréter le discours à son niveau le plus élevé. Cette interprétation peut dépendre du contexte immédiat ou d’une connaissance plus globale.
  • 7. ok Difficultés NLP – Ambiguïté des graphèmes (lettres) dans le processus d’encodage orthographique : comparez la prononciation du i dans lit, poire, maison ; – Ambiguïté des terminaisons dans les processus de conjugaison et d’infection – ambiguïté dans les propriétés grammaticales et sémantiques (i.e. associées à son sens) d’une forme graphique donnée : ainsi manges est ambigu à la fois morpho-syntaxiquement, puisqu’il correspond aux formes indicative et subjonctive du verbe manger), mais aussi sémantiquement. – Ambiguïté de la fonction grammaticale des groupes de mots, illustrée par la phrase : il poursuit la jeune fille à vélo. Dans cet exemple à vélo est soit un complément de manière de poursuivre (et c’est lui qui pédale), soit un complément de nom de fille (et c’est elle qui mouline) ; – Ambiguïté de la portée des quantificateurs, des conjonctions, des prépositions. – Ambiguïté sur l’interprétation à donner en contexte à un énoncé
  • 8. ok VSM Le VSM (Vector Space Model) est la représentation des mots qui se base sur la théorie des espaces vectoriels, une formalisation géométrique. En effet, les documents et les requêtes sont représentés dans un même espace, défini par un ensemble de dimensions, chaque dimension représente un terme d’indexation. Les requêtes et les documents sont alors représentés par des vecteurs, dont les composantes représentent le poids du terme d’indexation considéré dans le document (la requête), c’est un modèle statistique pour représenter des informations textuelles pour la recherche d'information, NLP, Text Mining.
  • 9. ok Pondération Booléenne Basé sur la théorie des ensembles et l’algèbre de Boole. Dans ce modèle notre vecteur est booléen. Une étude d’appariment document requête sera grâce a expression logique, composée de termes reliés par des opérateurs logiques : ET (), OU () et SAUF (). L’appariement entre une requête et un document est un appariement exact, autrement dit si un document implique au sens logique la requête alors le document est pertinent. Sinon, il est considéré non pertinent. Malgré la large utilisation de ce modèle, il présente un certain nombre de faiblesses : - Les documents retournés à l’utilisateur ne sont pas ordonnés selon leur pertinence. - La représentation binaire d’un terme dans un document est peu informative, car elle ne renseigne ni sur la fréquence du terme dans le document ni sur la longueur de document, qui peuvent constituer des informations importantes pour la RI. Les tests effectués sur des collections d’évaluation standards de RI ont montré que les systèmes booléens sont d’une efficacité de recherche inférieure. Afin de remédier à certains problèmes de ce modèle, des extensions ont été proposées, parmi elles on trouve : le modèle booléen basé sur la théorie des ensembles flous , le modèle booléen étendu.
  • 10. ok Tf-Idf Pondération local : La pondération locale permet de mesurer l’importance du terme dans le document. Elle prend en compte les informations locales du terme qui ne dépendent que du document. Elle correspond en général à une fonction de la fréquence d’occurrence du terme dans le document (noté tf pour term frequency), exprimée ainsi : Ou f(ti, dj) est la fréquence du terme dans le document݀ .
  • 11. ok Tf-Idf Quant à la pondération globale, elle prend en compte les informations concernant le terme dans la collection. Un poids plus important doit être assigné aux termes qui apparaissent moins fréquemment dans la collection. Car les termes qui apparaissent dans de nombreux documents de la collection n’est pas disriminatoire. Un facteur de pondération globale est alors introduit. Ce facteur nommé݂݀݅ (inverted document frequency), dépend d’une manière inverse de la fréquence en document du terme et exprimé comme suit : Ni est la fréquence en document du terme considéré, et N est le nombre total de documents dans la collection. Les fonctions de pondération combinant la pondération locale et globale sont référencées sous le nom de la mesure tf *idf Cette mesure donne une bonne approximation de l’importance du terme dans les collections de documents de taille homogène. Pour remédier à ce problème, des travaux ont proposé d’intégrer la taille du document dans les formules de pondération, comme facteur de normalisation. La majorité de ces approches se basent sur l’utilisation des mots simples comme unités de représentation des documents et des requêtes, souvent appelé représentation en sac de mots BOW. Ces approches posent deux problèmes, l’ambiguïté des mots et leur disparité.
  • 12. ok Word Embedding Les systèmes de traitement du langage naturel traitent traditionnellement les mots comme des symboles atomiques discrets, et donc «chat» peut être représenté par Id537 et «chien» par Id143. Ces codages sont arbitraires et ne fournissent aucune information utile au système concernant les relations qui peuvent exister entre les symboles individuels. Cela signifie que le modèle peut tirer parti très peu de ce qu'il a appris sur les «chats» lorsqu'il traite des données sur les «chiens» (tels qu'ils sont à la fois des animaux, des quadrupèdes, des animaux domestiques, etc.). Le fait de représenter les mots comme des identificateurs uniques et discrets entraînent en outre un manque de données, et signifie généralement que nous aurons besoin de plus de données pour réussir la formation de modèles statistiques. L'utilisation de représentations vectorielles peut surmonter certains de ces obstacles. Word2vec est un modèle prédictif particulièrement basé sur les réseaux de neurones efficace sur le plan informatique pour faire le Word Embedding à partir du texte brut. Nous allons présenté deux formes: le modèle du sac continu de mots (CBOW) et le modèle de Skip-Gram . GloVe
  • 13. ok Le modèle CBOW L'entrée dans le modèle pourrait être wi-2, wi-1, wi + 1, wi + 2, les mots précédents et suivants du mot courant auquel nous sommes. La sortie du réseau de neurones sera wi. Par conséquent, vous pouvez penser à la tâche comme "prédire le mot compte tenu de son contexte" Notez que le nombre de mots que nous utilisons dépend de votre réglage pour la taille de la fenêtre.
  • 14. ok Le modèle skip-gram L'entrée du modèle est wi, et la sortie doit etre wi-1, wi-2, wi + 1, wi + 2. Donc, la tâche ici est de "prédire le contexte à partir d’un mot donné". En outre, des mots plus éloignés reçoivent moins de poids en les échantillonnant au hasard. Lorsque vous définissez le paramètre de taille de la fenêtre(Window), vous configurez uniquement la taille maximale de la fenêtre. La taille réelle de la fenêtre est choisie au hasard entre 1 et taille maximale pour chaque échantillon d'entraînement, ce qui donne des mots dont la distance maximale est observée avec une probabilité de 1 / c alors que les mots directement à côté du mot sont toujours observés. (correction grâce à Christina Korger)
  • 15. ok Application Gensim Gensim est une librairie Python gratuite conçue pour extraire automatiquement la sémantique à partir de documents, aussi efficacement (sur ordinateur) et facile (humainement) que possible. Gensim tourne autour des concepts de corpus, vecteur et modèle. Gensim a été développé et est maintenu par le chercheur tchèque en traitement de la langue naturelle Radim Řehůřek et sa société RaRe Technologies. Il est très connu dans le Topic Moedeling, Il fournit également des outils pour charger des corpus fini.
  • 16. ok