Deck 11

•

0 j'aime•222 vues

raphael0202

Natural Language Processing en Python

Technologie

Qui suis-je ?
Formation scientiﬁque (biologie et
informatique fondamentale)
Machine learning (traitement du langage)
et développement (Python principalement)
Depuis janvier, chez Likeabird

Le traitement automatique du langage naturel est
une discipline à la frontière de la linguistique, de
l'informatique et de l'intelligence artiﬁcielle, qui
concerne l'application de programmes et
techniques informatiques à tous les aspects du
langage humain.

Génération automatique de texte
Traduction automatique
Classiﬁcation de texte (ex: spam)
Natural Language Understanding
Applications

Application de techniques
d'apprentissage statistique pour
identiﬁer de manière automatique des
patterns dans les données.
Introduction (très rapide)
au machine learning (1)

Diﬀérents types de tâches, notamment :
la régression, estimation d'une valeur numérique.
Exemple : quel serait le prix de vente d'une
maison, en fonction de sa superﬁcie, de
l'emplacement, de la présence d'un garage,... ?
la classiﬁcation, attribution d'un label à une
entité. Exemple : Est-ce que ce mail est un spam ?
(2 catégories, Spam et None).
Introduction (très rapide)
au machine learning (2)

Assez souvent, apprentissage supervisé :
l'algorithme apprend à partir de données taggées
qu'on lui fourni.
Introduction (très rapide)
au machine learning (3)

On part d'un ensemble de données qu'on a
manuellement classiﬁé.
Généralement, on sépare ce jeu de données en deux:
un jeu d'entraînement, qui permettra à
l'algorithme d'apprendre à classiﬁer à partir
d'exemple
un jeu de test, qui permet de mesurer la capacité
de généralisation du modèle : capacité à prédire la
classe d'un objet inconnu du modèle
Procédure standard

On extrait des features (un vecteur) associés à
chaque élément de notre jeu de donnée.
Quels critères de décision
pour le modèle ?

Modèle standard de
classiﬁcation de texte : Bag of
Words
Idée : un texte peut être représenté par la
fréquence de chaque mot qui le compose.
Soit un vocabulaire V de taille n. On peut
représenter un document par un vecteur
où correspond à la fréquence du
mot d'index i dans le document.
x ∈Rn
xi

Word Embedding
Il est parfois souhaitable d'avoir une
représentation vectorielle d'un mot (word
embedding).
E.g: similarité sémantique (pomme et orange vs
pomme et mairie), ou comme input à un réseau
de neurones.

En 2013, Mikolov et al. présentent un ensembles de
modèles appelés Word2Vec qui permettent d'apprendre
de manière non supervisée la distribution vectorielle de
mots.
2 méthodes pour y arriver :
cbow (Continuous bag of words), prédiction du mot en
fonction de son contexte
skip-gram, prédiction du contexte en fonction du mot
Word2Vec

Contexte du mot
from Chris McCormick (http://mccormickml.com)

Réseau de neurones
from Chris McCormick (http://mccormickml.com)

SpaCy
Une nouvelle bibliothèque Python de
traitement du langage :
rapide (!)
versatile
API de très bonne qualité
Support de l'anglais et de l'allemand pour le moment

Conclusion
Un domaine qui évolue très vite
Nouvelles approches inspirées du deep
learning en reconnaissance d'image
(réseaux de neurone à attention,...)
Python est positionné comme un des
langages favoris en NLP et machine
learning

Contenu connexe

Similaire à Deck 11

le NLP à l'ére de l'IA

habib200

PROGRAMMATION 2e GENIE PARTIE THEORIE.ppt

EddySHANGA

Who is watson?

_unknowns

Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.

Visite guidée au pays de la donnée - Traitement automatique des données

Gautier Poupeau

GenAI dans les professional services - LLM vs RAG

Sally Laouacheria

Programmation orientee aspect 201401 - Ensim

Laurent Broudoux

Les technologies TAL et le futur du SEO

SEO Camp Association

Introduction sur les domaines scientifiques impliqués dans la fouille de textes - TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles. - Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils - Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ... Panorama méthodologique de l'offre logicielle académique ou commerciale - Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques - Des outils logiciels plus ou moins interactifs

Introduction à la fouille de textes et positionnement de l'offre logicielle

Patrice Bellot - Aix-Marseille Université / CNRS (LIS, INS2I)

Tutoriel java

Kalilou DIABY

Deep learning

Bilal Rezkellah

Conférence de Philippe Yonnet de l'agence Search Foresight à l'occasion du SEO Campus Lyon le 21 avril 2017. La nouvelle approche dite des "word embeddings" en NLP permet des avancées remarquables dans le domaine de la recherche d'informations. C'est probablement la méthode cachée dans Rankbrain de Google... Philippe Yonnet explique ici les principes des word embeddings et leurs domaines d'applications dans les moteurs de recherche mais aussi dans des sites internet

Search Foresight - Word Embeddings - 2017 avril lyon

Philippe YONNET

Content analytics slideshare aproged

Aproged

Introduction text mining

Wiem Trabelsi

Slides présentées lors du petit déjeuner du 30 mars 2016 Nous verrons comment exploiter les données d'outils de TAL ou de Searchmetrics, pour voir quels mots clés sont intéressants à utiliser dans un contenu optimisé pour une requête concurrentielle. Et nous verrons ensuite comment briefer des rédacteurs pour qu'ils créent les textes optimisés correspondants. Intervenants : Dr. Laurie Serrano, Ingénieure en Traitement Automatique des Langues | Philippe Yonnet, Directeur Général - Search Foresight et Zohra Belmahdi, Responsable Sales France, Textbroker

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Peak Ace

Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...

JUSTINDAVONDAMBAT

Programmer canope rouen_2

Katalin Kara Bouzid

[Suggestion : affichez le document en plein écran pour éviter la pixellisation] Que signifient ces acronymes ? Quel est leur apport dans le fonctionnement d'un agent conversationnel ? Téléchargez la fiche pratique issue de notre livre blanc "Panorama 2019 des éditeurs d'agents conversationnels" disponible ici : https://www.thinkmarket.fr/actualite/decouvrez-nos-deux-livres-blancs-2019-agents-conversationnels-plateformes-e-commerce/

Fact Sheet : IA, Machine Learning, NLP

Thinkmarket

extraire, représenter et traiter la social data avec r. seconde partie: appli...

Jean Jacques Gauguier

Conf mapcolldoct24.05

map8slide

Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...

Pablo Luna

Similaire à Deck 11 (20)

le NLP à l'ére de l'IA

PROGRAMMATION 2e GENIE PARTIE THEORIE.ppt

Who is watson?

Visite guidée au pays de la donnée - Traitement automatique des données

GenAI dans les professional services - LLM vs RAG

Programmation orientee aspect 201401 - Ensim

Les technologies TAL et le futur du SEO

Introduction à la fouille de textes et positionnement de l'offre logicielle

Tutoriel java

Deep learning

Search Foresight - Word Embeddings - 2017 avril lyon

Content analytics slideshare aproged

Introduction text mining

Exploiter les données d'outils avancés pour optimiser ses textes pour le SEO

Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...

Programmer canope rouen_2

Fact Sheet : IA, Machine Learning, NLP

extraire, représenter et traiter la social data avec r. seconde partie: appli...

Conf mapcolldoct24.05

Ppt exposé du 31 août 2021 - L'analyse du discours numérique - Facultad de de...

Deck 11

1. Natural Language Processing en Python

2. Qui suis-je ? Formation scientiﬁque (biologie et informatique fondamentale) Machine learning (traitement du langage) et développement (Python principalement) Depuis janvier, chez Likeabird

3. Le traitement automatique du langage naturel est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artiﬁcielle, qui concerne l'application de programmes et techniques informatiques à tous les aspects du langage humain.

4. Génération automatique de texte Traduction automatique Classiﬁcation de texte (ex: spam) Natural Language Understanding Applications

8. Application de techniques d'apprentissage statistique pour identiﬁer de manière automatique des patterns dans les données. Introduction (très rapide) au machine learning (1)

9. Différents types de tâches, notamment : la régression, estimation d'une valeur numérique. Exemple : quel serait le prix de vente d'une maison, en fonction de sa superficie, de l'emplacement, de la présence d'un garage,... ? la classification, attribution d'un label à une entité. Exemple : Est-ce que ce mail est un spam ? (2 catégories, Spam et None). Introduction (très rapide) au machine learning (2)

10. Assez souvent, apprentissage supervisé : l'algorithme apprend à partir de données taggées qu'on lui fourni. Introduction (très rapide) au machine learning (3)

11. On part d'un ensemble de données qu'on a manuellement classiﬁé. Généralement, on sépare ce jeu de données en deux: un jeu d'entraînement, qui permettra à l'algorithme d'apprendre à classiﬁer à partir d'exemple un jeu de test, qui permet de mesurer la capacité de généralisation du modèle : capacité à prédire la classe d'un objet inconnu du modèle Procédure standard

12. On extrait des features (un vecteur) associés à chaque élément de notre jeu de donnée. Quels critères de décision pour le modèle ?

13. Modèle standard de classiﬁcation de texte : Bag of Words Idée : un texte peut être représenté par la fréquence de chaque mot qui le compose. Soit un vocabulaire V de taille n. On peut représenter un document par un vecteur où correspond à la fréquence du mot d'index i dans le document. x ∈Rn xi

14. Démo

15. Word Embedding Il est parfois souhaitable d'avoir une représentation vectorielle d'un mot (word embedding). E.g: similarité sémantique (pomme et orange vs pomme et mairie), ou comme input à un réseau de neurones.

16. En 2013, Mikolov et al. présentent un ensembles de modèles appelés Word2Vec qui permettent d'apprendre de manière non supervisée la distribution vectorielle de mots. 2 méthodes pour y arriver : cbow (Continuous bag of words), prédiction du mot en fonction de son contexte skip-gram, prédiction du contexte en fonction du mot Word2Vec

17. Contexte du mot from Chris McCormick (http://mccormickml.com)

18. Réseau de neurones from Chris McCormick (http://mccormickml.com)

19. Paris - France + Italy = Rome

20. SpaCy Une nouvelle bibliothèque Python de traitement du langage : rapide (!) versatile API de très bonne qualité Support de l'anglais et de l'allemand pour le moment

21. Démo (2)

22. Conclusion Un domaine qui évolue très vite Nouvelles approches inspirées du deep learning en reconnaissance d'image (réseaux de neurone à attention,...) Python est positionné comme un des langages favoris en NLP et machine learning

Deck 11

Recommandé

Recommandé

Contenu connexe

Similaire à Deck 11

Similaire à Deck 11 (20)

Deck 11