Word Embedding

ok
Plan
NLP
Les concepts de base
Histoire
VSM
Pondération Booléenne
Tf-Idf
Word Embedding
Application

ok
NLP
A l’ère des voitures qui se conduisent toutes seules, des plantes qui peuvent réclamer à
boire, des maisons intelligentes, les humains restent de grands incompris (langues parlées
ou écrites, mais aussi les langues signées, le mime, le dessin, voire même la musique) c’est
une motivation de NLP.
Il regroupe deux domaines spécifiques : le NLU (Natural Language Understanding), qui vise à
comprendre le langage naturel, et le NLG (Natural Language Generation), qui permet à une
machine de s’exprimer de manière naturelle pour un être humain. Ces concepts sont à la
base de toutes les intelligences artificielles conversationnelles, comme Siri, Ok Google ou
encore Cortana pour ne donner que ces trois exemples. C’est ce qui donne à un robot la
capacité de mener une vraie conversation.
Les principaux domaines du TAL sont :
• le traitement de la parole ;
• la traduction automatique ;
• la compréhension automatique des textes ;
• la génération automatique de textes ;
• la gestion électronique de l’information et des documents existants (GEIDE).

ok
Histoire
Dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques
phrases russes, sélectionnées à l’avance, furent traduites automatiquement en anglais
En 1962 : la première conférence sur la traduction automatique est organisée au MIT par Y.
Bar-Hillel.
Il est suivi par N. Chomsky, qui publie en 1957 ses premiers travaux importants sur la
syntaxe des langues naturelles, et sur les relations entre grammaires formelles et
grammaires naturelles
Les élèves de Marvin Minsky, au MIT, développent divers systèmes (BASEBALL (1961), SIR
(1964), STUDENT (1964), ELIZA (1966) ...) mettant en œuvre des mécanismes de
traitement simples, à base de mots-clés
Jusqu'aux années 1980, la plupart des systèmes NLP étaient basés sur des ensembles
complexes de règles manuel. À partir de la fin des années 1980, cependant, il y a eu une
révolution dans la PNL avec l'introduction d'algorithmes d'apprentissage automatique pour le
traitement du langage.

ok
Concepts de base
Il est ainsi possible de modéliser une méthode, applicable aussi bien au NLU qu’au NLG,
constituée d’étapes successives.
La tokenisation
découper le texte en plusieurs tokens. Les tokens sont les éléments porteurs de sens les
plus simples. le mot « aujourd’hui » même s’il contient une apostrophe, ne constitue qu’un
unique token. De la même manière, « fruit de la passion » doit être considéré comme un seul
élément porteur de sens même si il est constitué de plusieurs mots graphiques ; en
considérant les mots séparément, on perdrait l’information sémantique.
L’analyse syntaxique
Cette étape permet de dégager une représentation de la structure d’un texte, de manière à
mettre en lumière les relations syntaxiques entre les mots. Cette étape se base sur un
dictionnaire (le vocabulaire) et sur un ensemble de règles syntaxiques (la grammaire), pour
déterminer les syntagmes, ou constituants, présents dans la phrase et les organiser selon
leur hiérarchie dans la phrase.

ok
Concepts de base
L’analyse sémantique
Son rôle est double. Elle se compose en effet de deux concepts distincts : la sémantique
grammaticale et la sémantique lexicale.
La sémantique grammaticale consiste à associer un rôle grammatical à chacun des syntagmes
définis lors de l’analyse syntaxique. Il s’agit par exemple des fameux COD et COI que l’on a tous
appris dans notre enfance (et oubliés depuis). Si nous reprenons
L’analyse pragmatique
En dernier lieu, l’analyse pragmatique permet d’interpréter le discours à son niveau le plus
élevé. Cette interprétation peut dépendre du contexte immédiat ou d’une connaissance plus
globale.

ok
Difficultés NLP
– Ambiguïté des graphèmes (lettres) dans le processus d’encodage orthographique :
comparez la prononciation du i dans lit, poire, maison ;
– Ambiguïté des terminaisons dans les processus de conjugaison et d’infection
– ambiguïté dans les propriétés grammaticales et sémantiques (i.e. associées à son sens)
d’une forme graphique donnée : ainsi manges est ambigu à la fois morpho-syntaxiquement,
puisqu’il correspond aux formes indicative et subjonctive du verbe manger), mais aussi
sémantiquement.
– Ambiguïté de la fonction grammaticale des groupes de mots, illustrée par la phrase :
il poursuit la jeune fille à vélo.
Dans cet exemple à vélo est soit un complément de manière de poursuivre (et c’est lui qui
pédale), soit un complément de nom de fille (et c’est elle qui mouline) ;
– Ambiguïté de la portée des quantificateurs, des conjonctions, des prépositions.
– Ambiguïté sur l’interprétation à donner en contexte à un énoncé

ok
VSM
Le VSM (Vector Space Model) est la représentation des mots qui se base sur la théorie des
espaces vectoriels, une formalisation géométrique. En effet, les documents et les requêtes
sont représentés dans un même espace, défini par un ensemble de dimensions, chaque
dimension représente un terme d’indexation. Les requêtes et les documents sont alors
représentés par des vecteurs, dont les composantes représentent le poids du terme
d’indexation considéré dans le document (la requête), c’est un modèle statistique pour
représenter des informations textuelles pour la recherche d'information, NLP, Text Mining.

ok
Pondération Booléenne
Basé sur la théorie des ensembles et l’algèbre de Boole. Dans ce modèle notre vecteur est
booléen. Une étude d’appariment document requête sera grâce a expression logique,
composée de termes reliés par des opérateurs logiques : ET (), OU () et SAUF ().
L’appariement entre une requête et un document est un appariement exact, autrement dit si
un document implique au sens logique la requête alors le document est pertinent. Sinon, il
est considéré non pertinent.
Malgré la large utilisation de ce modèle, il présente un certain nombre de faiblesses :
- Les documents retournés à l’utilisateur ne sont pas ordonnés selon leur pertinence.
- La représentation binaire d’un terme dans un document est peu informative, car elle ne
renseigne ni sur la fréquence du terme dans le document ni sur la longueur de document, qui
peuvent constituer des informations importantes pour la RI.
Les tests effectués sur des collections d’évaluation standards de RI ont montré que les
systèmes booléens sont d’une efficacité de recherche inférieure.
Afin de remédier à certains problèmes de ce modèle, des extensions ont été proposées,
parmi elles on trouve : le modèle booléen basé sur la théorie des ensembles flous , le modèle
booléen étendu.

ok
Tf-Idf
Pondération local :
La pondération locale permet de mesurer l’importance du terme dans le document. Elle prend
en compte les informations locales du terme qui ne dépendent que du document. Elle
correspond en général à une fonction de la fréquence d’occurrence du terme dans le
document (noté tf pour term frequency), exprimée ainsi :
Ou f(ti, dj) est la fréquence du terme dans le document݀ .

ok
Tf-Idf
Quant à la pondération globale, elle prend en compte les informations concernant le terme
dans la collection. Un poids plus important doit être assigné aux termes qui apparaissent
moins fréquemment dans la collection. Car les termes qui apparaissent dans de nombreux
documents de la collection n’est pas disriminatoire. Un facteur de pondération globale est
alors introduit. Ce facteur nommé݂݀݅ (inverted document frequency), dépend d’une manière
inverse de la fréquence en document du terme et exprimé comme suit :
Ni est la fréquence en document du terme considéré, et N est le nombre total de documents
dans la collection.
Les fonctions de pondération combinant la pondération locale et globale sont référencées
sous le nom de la mesure tf *idf Cette mesure donne une bonne approximation de
l’importance du terme dans les collections de documents de taille homogène.
Pour remédier à ce problème, des travaux ont proposé d’intégrer la taille du document dans
les formules de pondération, comme facteur de normalisation.
La majorité de ces approches se basent sur l’utilisation des mots simples comme unités de
représentation des documents et des requêtes, souvent appelé représentation en sac de
mots BOW. Ces approches posent deux problèmes, l’ambiguïté des mots et leur disparité.

ok
Word Embedding
Les systèmes de traitement du langage naturel traitent traditionnellement les mots comme
des symboles atomiques discrets, et donc «chat» peut être représenté par Id537 et «chien»
par Id143. Ces codages sont arbitraires et ne fournissent aucune information utile au
système concernant les relations qui peuvent exister entre les symboles individuels. Cela
signifie que le modèle peut tirer parti très peu de ce qu'il a appris sur les «chats» lorsqu'il
traite des données sur les «chiens» (tels qu'ils sont à la fois des animaux, des quadrupèdes,
des animaux domestiques, etc.). Le fait de représenter les mots comme des identificateurs
uniques et discrets entraînent en outre un manque de données, et signifie généralement que
nous aurons besoin de plus de données pour réussir la formation de modèles statistiques.
L'utilisation de représentations vectorielles peut surmonter certains de ces obstacles.
Word2vec est un modèle prédictif particulièrement basé sur les réseaux de neurones efficace
sur le plan informatique pour faire le Word Embedding à partir du texte brut.
Nous allons présenté deux formes: le modèle du sac continu de mots (CBOW) et le modèle
de Skip-Gram .
GloVe

ok
Le modèle CBOW
L'entrée dans le modèle pourrait être wi-2, wi-1, wi + 1, wi + 2, les mots précédents et
suivants du mot courant auquel nous sommes. La sortie du réseau de neurones sera wi. Par
conséquent, vous pouvez penser à la tâche comme "prédire le mot compte tenu de son
contexte"
Notez que le nombre de mots que nous utilisons dépend de votre réglage pour la taille de la
fenêtre.

ok
Le modèle skip-gram
L'entrée du modèle est wi, et la sortie doit etre wi-1, wi-2, wi + 1, wi + 2. Donc, la tâche ici est
de "prédire le contexte à partir d’un mot donné". En outre, des mots plus éloignés reçoivent
moins de poids en les échantillonnant au hasard. Lorsque vous définissez le paramètre de
taille de la fenêtre(Window), vous configurez uniquement la taille maximale de la fenêtre. La
taille réelle de la fenêtre est choisie au hasard entre 1 et taille maximale pour chaque
échantillon d'entraînement, ce qui donne des mots dont la distance maximale est observée
avec une probabilité de 1 / c alors que les mots directement à côté du mot sont toujours
observés. (correction grâce à Christina Korger)

ok
Application Gensim
Gensim est une librairie Python gratuite conçue pour extraire automatiquement la sémantique à
partir de documents, aussi efficacement (sur ordinateur) et facile (humainement) que possible.
Gensim tourne autour des concepts de corpus, vecteur et modèle.
Gensim a été développé et est maintenu par le chercheur tchèque en traitement de la langue
naturelle Radim Řehůřek et sa société RaRe Technologies.
Il est très connu dans le Topic Moedeling,
Il fournit également des outils pour charger des corpus fini.

Word Embedding

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Word Embedding

Similaire à Word Embedding (20)

Word Embedding