SlideShare une entreprise Scribd logo
Melusine
#OSSbyMAIF
#chaqueactecompte
En collaboration
avec
Présentation des collaborateurs
Contributeurs au projet Melusine
Hugo Perrier
Data Scientist
Frédéric De Javel
Chef de Projet
Datascience & IA
Présentation des speakers
Mutuelle (Niort)
DataLab : 20+ personnes
IA en production
NLP, Computer Vision, etc
IA éthique
Conseil en IA et Data Science
120 pionniers
Start-Up Studio, Formations
Temps dédié R&D
Santé, Industrie, Banque, Retail
Contexte Projet
15 000
Emails / jour
Large volume d’emails entrants
En augmentation constante
✗ ✗ ✓
Nombreux transferts entre entités
Solution IA déployée en production à la MAIF
Un routage complexe : Augmentation des
délais de prise en charge de l’email !
> 2 jours
Délai supplémentaire par re-routage
IA en production : les chiffres clés
1 000 000+ emails analysés
84% des mails sont routés par l’IA
180 ms de temps de réponse moyen par l’API
Diminution de 40%du délai de réponse
Agilité dans les déploiements >10totalement transparents
Projet Open-Source
Projet Open-Source Melusine
18+
Mois de projet
10+
Contributeurs
10 000+
Lignes de python
Melusine en chiffres
139
Stars sur le GitHub Melusine
Melusine
Déclinaison Open-Source du projet en
production à la MAIF
https://github.com/MAIF/melusine
Pourquoi « open-sourcer » le projet ?
Contribution à la
communauté
scientifique, bâti sur des
briques open sources.
Regards et
contributions
extérieurs.
Contribution
scientifique profitable
à l’ensemble de la
communauté.
Effet positif sur la
marque employeur.Transparence vis-
à-vis des
sociétaires MAIF
sur les modèles de
traitement des
données.
Et bientôt une brique « éthique »
Formule de
politesse
Fonctionnalités de Melusine
Data Prep /
Cleaning
Extraction de
mots clés
Classification
Analyse
Sémantique
Text cleaning
spécifiques aux
emails
Résumé des
emails
Catégoriser les
emails
Identification de
thèmes
(non-
supervisée)
Salutations
Remerciements
Signature
Corps du mail
Document 1
Thème : BasketBall
Score : 88
Thème : Poney
Score : 03
Technos Open-Source
> pip install
melusine
https://github.com/MAIF/melusine
Natural Language
Processing
(NLP)
Bonjour
Veuillez trouver ci-joint le mandat de résiliation signé.
Merci
Cordialement
M. Dupont
Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit :
Bonjour,
Merci de bien vouloir prendre connaissance du document
ci-joint:
- Mandat de résiliation
Sentiments mutualiste,
La visualisation de fichier PDF nécessite Adobe Reader.
(See attached files: mandat resiliation.pdf)
Email brut
Email avec reconstruction de la conversation
Bonjour
Veuillez trouver ci-joint le mandat de résiliation signé.
Merci
Cordialement
M. Dupont
Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit :
Bonjour,
Merci de bien vouloir prendre connaissance du document ci-
joint:
- Mandat de résiliation
Sentiments mutualiste,
La visualisation de fichier PDF nécessite Adobe Reader.
(See attached files: mandat resiliation.pdf)
Last message
Transition pattern
Old message
Email avec segmentation du message
Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit :
Bonjour,
Merci de bien vouloir prendre connaissance du document ci-joint:
- Mandat de résiliation
Sentiments mutualiste,
La visualisation de fichier PDF nécessite Adobe Reader.
(See attached files: mandat resiliation.pdf)
Last message
with segmenting
Transition
pattern
Old message
Bonjour Salutations
Cordialement Formule de politesse
Merci Remerciements
M. Dupont Signature
Veuillez trouver ci-joint le mandat signé. Corps du mail
Typographie “Flags” Tokenization Phraser Embeddings
Suppression
des accents,
Suppressions
des doubles
espaces et des
majuscules
Remplacements des
expressions régulières
(code postal, téléphone,
mail, numéro de
sociétaire, URL, nom
des conseillers) par des
« flags »
séparation des
unités lexicales,
suppression des
« stops words »
Rassemblement des
expressions de
plusieurs mots
‘carte_grise’
‘salle_de_bain'
Représentations
des mots par des
vecteurs denses
(word2vec)
La pipeline de pré-traitements
Représentation dense des mots : les embeddings
Dimension fixe
Notion de
sémantique
(similarité entre les
mots)
Grande dimension
(taille du vocabulaire)
Pas de similarité entre
les mots
Représentation One Hot
Entraînement d’embeddings facile avec Melusine
Word Embeddings
« Chat » « Chats » « Chat » « Chats »
Classification avec du Deep Learning (CNN)
IA is funClean Text
Embedding
Matrix
Word
Vectors
(0.2, 0.1, 0,5, …) (0.2, 0.1, 0.4, …) (0.2, 0.1, 0.4, …)
Neural
Network
PJ Date Expéditeur Destinataire
Neural Network
Predicted class : Data
Science
Text Features Meta Features
02/05/2018 sender@gmail.com test@maif.fr
Melusine Hands-on
Les Tutos
Les tutoriels : porte d’entrée pour prendre en main Melusine !
Tuto Data Préparation
Tuto gestion Mails Transférés
Tuto Word Embeddings
Tuto Extraction Keywords
Tuto Semantic Detector
etc
Tuto Classification
Input : Pandas DataFrame
Email
Content
Email
Subject
Reception
Date
Email
Sender
Email
Recipient
Classification
Label
Input Columns
Melusine 101
Détection des emails transférés Melusine 101
Empty message
Transfer pattern
Transfered message
Detect transfer and update email body
Before After
Create new feature to indicate transfer
New DataFrame
column
Détection des emails transférés et réponses Melusine 101
Create new feature structured_body
Structured body feature
Bonjour Salutations
Cordialement Formule de politesse
Merci Remerciements
M. Dupont Signature
Veuillez trouver ci-joint le mandat signé. Corps du mail
Le TransformerScheduler : des pipelines simplifiées Melusine 101
Create a TransformerScheduler
Create a Scikit-Learn Pipeline
Transform DataFrame using the Pipeline
Define a TransformerScheduler object
• List of functions to apply on DataFrame
• Set number of processors
TransformerScheduler
Define a TransformerScheduler object
• DevOps / MLOps Good Practice
• Code Reproductibility
• Model Industrialisation
SkLearnPipeline
my_fonction_1, arguments_1, noms_colonne_1
my_fonction_2, arguments_2, noms_colonne_2
Built-in Multiprocessing !
Les tutoriels : porte d’entrée pour prendre en main Melusine !
Tuto Data Préparation
Tuto gestion Mails Transférés
Tuto Word Embeddings
Tuto Extraction Keywords
Tuto Semantic Detector
etc
Tuto Classification
Conclusions
Contribution de la
communauté
Intégration des retours
des utilisateurs du
package
Evolution du
package
Brique éthique
Nouveaux cas d’usage
Analyse de
verbatim / entretiens
https://github.com/MAIF/melusine

Contenu connexe

Similaire à #OSSPARIS19 - Melusine : une librairie NLP de classification et extraction d’information des emails entrants - FRED DE JAVEL, Maif & HUGO PERRIER, Quantmetry

Similaire à #OSSPARIS19 - Melusine : une librairie NLP de classification et extraction d’information des emails entrants - FRED DE JAVEL, Maif & HUGO PERRIER, Quantmetry (20)

Passer en douceur à Office & SharePoint 2010
Passer en douceur à Office & SharePoint 2010Passer en douceur à Office & SharePoint 2010
Passer en douceur à Office & SharePoint 2010
 
Office 365 enjeux pour l'education Printemps 2015 cloud-it
Office 365 enjeux pour l'education Printemps 2015   cloud-itOffice 365 enjeux pour l'education Printemps 2015   cloud-it
Office 365 enjeux pour l'education Printemps 2015 cloud-it
 
[Webinar] IA + relation humaine = l’équation gagnante de l’Expérience client
[Webinar] IA + relation humaine = l’équation gagnante de l’Expérience client[Webinar] IA + relation humaine = l’équation gagnante de l’Expérience client
[Webinar] IA + relation humaine = l’équation gagnante de l’Expérience client
 
Extranet
ExtranetExtranet
Extranet
 
Active Campaign, Rebump et ProspectIn au service de votre prospection commerc...
Active Campaign, Rebump et ProspectIn au service de votre prospection commerc...Active Campaign, Rebump et ProspectIn au service de votre prospection commerc...
Active Campaign, Rebump et ProspectIn au service de votre prospection commerc...
 
L'emailing ce média qui refuse de mourir mais se transforme
L'emailing ce média qui refuse de mourir mais se transformeL'emailing ce média qui refuse de mourir mais se transforme
L'emailing ce média qui refuse de mourir mais se transforme
 
Vive l'emailing interactif, personnalisé et RGPD compliance !
Vive l'emailing interactif, personnalisé et RGPD compliance !Vive l'emailing interactif, personnalisé et RGPD compliance !
Vive l'emailing interactif, personnalisé et RGPD compliance !
 
Sendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterSendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletter
 
Analyse user generated content
Analyse user generated contentAnalyse user generated content
Analyse user generated content
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de Spam
 
Utilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de SpamUtilisation d'Azure Machine Learning dans la détection de Spam
Utilisation d'Azure Machine Learning dans la détection de Spam
 
Intégrez un chatbot à votre relation client
Intégrez un chatbot à votre relation clientIntégrez un chatbot à votre relation client
Intégrez un chatbot à votre relation client
 
Ateliers createurs
Ateliers createursAteliers createurs
Ateliers createurs
 
UElibre_Internet.pdf
UElibre_Internet.pdfUElibre_Internet.pdf
UElibre_Internet.pdf
 
UElibre_Internet.ppt
UElibre_Internet.pptUElibre_Internet.ppt
UElibre_Internet.ppt
 
UElibre_Internet.ppt
UElibre_Internet.pptUElibre_Internet.ppt
UElibre_Internet.ppt
 
Itil fr
Itil frItil fr
Itil fr
 
Passer à Office 365 ? Vous le saurez dans 7 jours
Passer à Office 365 ? Vous le saurez dans 7 joursPasser à Office 365 ? Vous le saurez dans 7 jours
Passer à Office 365 ? Vous le saurez dans 7 jours
 
Messagerie Collaborative Zimbra Maroc
Messagerie Collaborative Zimbra MarocMessagerie Collaborative Zimbra Maroc
Messagerie Collaborative Zimbra Maroc
 

Plus de Paris Open Source Summit

#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
Paris Open Source Summit
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
Paris Open Source Summit
 

Plus de Paris Open Source Summit (20)

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
 

Dernier

Dernier (6)

Contrôle d’accès et Gestion des identités: Terminologies et Protocoles d’auth...
Contrôle d’accès et Gestion des identités: Terminologies et Protocoles d’auth...Contrôle d’accès et Gestion des identités: Terminologies et Protocoles d’auth...
Contrôle d’accès et Gestion des identités: Terminologies et Protocoles d’auth...
 
Slides du webinaire de l'Infopole sur l'IA
Slides du webinaire de l'Infopole sur l'IASlides du webinaire de l'Infopole sur l'IA
Slides du webinaire de l'Infopole sur l'IA
 
Augmentez vos conversions en ligne : les techniques et outils qui marchent vr...
Augmentez vos conversions en ligne : les techniques et outils qui marchent vr...Augmentez vos conversions en ligne : les techniques et outils qui marchent vr...
Augmentez vos conversions en ligne : les techniques et outils qui marchent vr...
 
cours Systèmes de Gestion des Identités.pdf
cours Systèmes de Gestion des Identités.pdfcours Systèmes de Gestion des Identités.pdf
cours Systèmes de Gestion des Identités.pdf
 
Protéger l'intégrité de son environnement numérique
Protéger l'intégrité de son environnement numériqueProtéger l'intégrité de son environnement numérique
Protéger l'intégrité de son environnement numérique
 
Modèles de contrôle d accès_ RBAC (Role Based Access Control).pdf
Modèles de contrôle d accès_ RBAC (Role Based Access Control).pdfModèles de contrôle d accès_ RBAC (Role Based Access Control).pdf
Modèles de contrôle d accès_ RBAC (Role Based Access Control).pdf
 

#OSSPARIS19 - Melusine : une librairie NLP de classification et extraction d’information des emails entrants - FRED DE JAVEL, Maif & HUGO PERRIER, Quantmetry

  • 2. Présentation des collaborateurs Contributeurs au projet Melusine Hugo Perrier Data Scientist Frédéric De Javel Chef de Projet Datascience & IA Présentation des speakers Mutuelle (Niort) DataLab : 20+ personnes IA en production NLP, Computer Vision, etc IA éthique Conseil en IA et Data Science 120 pionniers Start-Up Studio, Formations Temps dédié R&D Santé, Industrie, Banque, Retail
  • 3. Contexte Projet 15 000 Emails / jour Large volume d’emails entrants En augmentation constante ✗ ✗ ✓ Nombreux transferts entre entités Solution IA déployée en production à la MAIF Un routage complexe : Augmentation des délais de prise en charge de l’email ! > 2 jours Délai supplémentaire par re-routage
  • 4. IA en production : les chiffres clés 1 000 000+ emails analysés 84% des mails sont routés par l’IA 180 ms de temps de réponse moyen par l’API Diminution de 40%du délai de réponse Agilité dans les déploiements >10totalement transparents
  • 6. Projet Open-Source Melusine 18+ Mois de projet 10+ Contributeurs 10 000+ Lignes de python Melusine en chiffres 139 Stars sur le GitHub Melusine Melusine Déclinaison Open-Source du projet en production à la MAIF https://github.com/MAIF/melusine
  • 7. Pourquoi « open-sourcer » le projet ? Contribution à la communauté scientifique, bâti sur des briques open sources. Regards et contributions extérieurs. Contribution scientifique profitable à l’ensemble de la communauté. Effet positif sur la marque employeur.Transparence vis- à-vis des sociétaires MAIF sur les modèles de traitement des données. Et bientôt une brique « éthique »
  • 8. Formule de politesse Fonctionnalités de Melusine Data Prep / Cleaning Extraction de mots clés Classification Analyse Sémantique Text cleaning spécifiques aux emails Résumé des emails Catégoriser les emails Identification de thèmes (non- supervisée) Salutations Remerciements Signature Corps du mail Document 1 Thème : BasketBall Score : 88 Thème : Poney Score : 03
  • 9. Technos Open-Source > pip install melusine https://github.com/MAIF/melusine
  • 11. Bonjour Veuillez trouver ci-joint le mandat de résiliation signé. Merci Cordialement M. Dupont Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit : Bonjour, Merci de bien vouloir prendre connaissance du document ci-joint: - Mandat de résiliation Sentiments mutualiste, La visualisation de fichier PDF nécessite Adobe Reader. (See attached files: mandat resiliation.pdf) Email brut
  • 12. Email avec reconstruction de la conversation Bonjour Veuillez trouver ci-joint le mandat de résiliation signé. Merci Cordialement M. Dupont Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit : Bonjour, Merci de bien vouloir prendre connaissance du document ci- joint: - Mandat de résiliation Sentiments mutualiste, La visualisation de fichier PDF nécessite Adobe Reader. (See attached files: mandat resiliation.pdf) Last message Transition pattern Old message
  • 13. Email avec segmentation du message Le 5 mai 2018 à 22:12 UTC+2, mutuelle@maif.fr à écrit : Bonjour, Merci de bien vouloir prendre connaissance du document ci-joint: - Mandat de résiliation Sentiments mutualiste, La visualisation de fichier PDF nécessite Adobe Reader. (See attached files: mandat resiliation.pdf) Last message with segmenting Transition pattern Old message Bonjour Salutations Cordialement Formule de politesse Merci Remerciements M. Dupont Signature Veuillez trouver ci-joint le mandat signé. Corps du mail
  • 14. Typographie “Flags” Tokenization Phraser Embeddings Suppression des accents, Suppressions des doubles espaces et des majuscules Remplacements des expressions régulières (code postal, téléphone, mail, numéro de sociétaire, URL, nom des conseillers) par des « flags » séparation des unités lexicales, suppression des « stops words » Rassemblement des expressions de plusieurs mots ‘carte_grise’ ‘salle_de_bain' Représentations des mots par des vecteurs denses (word2vec) La pipeline de pré-traitements
  • 15. Représentation dense des mots : les embeddings Dimension fixe Notion de sémantique (similarité entre les mots) Grande dimension (taille du vocabulaire) Pas de similarité entre les mots Représentation One Hot Entraînement d’embeddings facile avec Melusine Word Embeddings « Chat » « Chats » « Chat » « Chats »
  • 16. Classification avec du Deep Learning (CNN) IA is funClean Text Embedding Matrix Word Vectors (0.2, 0.1, 0,5, …) (0.2, 0.1, 0.4, …) (0.2, 0.1, 0.4, …) Neural Network PJ Date Expéditeur Destinataire Neural Network Predicted class : Data Science Text Features Meta Features 02/05/2018 sender@gmail.com test@maif.fr
  • 18. Les tutoriels : porte d’entrée pour prendre en main Melusine ! Tuto Data Préparation Tuto gestion Mails Transférés Tuto Word Embeddings Tuto Extraction Keywords Tuto Semantic Detector etc Tuto Classification
  • 19. Input : Pandas DataFrame Email Content Email Subject Reception Date Email Sender Email Recipient Classification Label Input Columns Melusine 101
  • 20. Détection des emails transférés Melusine 101 Empty message Transfer pattern Transfered message Detect transfer and update email body Before After Create new feature to indicate transfer New DataFrame column
  • 21. Détection des emails transférés et réponses Melusine 101 Create new feature structured_body Structured body feature Bonjour Salutations Cordialement Formule de politesse Merci Remerciements M. Dupont Signature Veuillez trouver ci-joint le mandat signé. Corps du mail
  • 22. Le TransformerScheduler : des pipelines simplifiées Melusine 101 Create a TransformerScheduler Create a Scikit-Learn Pipeline Transform DataFrame using the Pipeline Define a TransformerScheduler object • List of functions to apply on DataFrame • Set number of processors TransformerScheduler Define a TransformerScheduler object • DevOps / MLOps Good Practice • Code Reproductibility • Model Industrialisation SkLearnPipeline my_fonction_1, arguments_1, noms_colonne_1 my_fonction_2, arguments_2, noms_colonne_2 Built-in Multiprocessing !
  • 23. Les tutoriels : porte d’entrée pour prendre en main Melusine ! Tuto Data Préparation Tuto gestion Mails Transférés Tuto Word Embeddings Tuto Extraction Keywords Tuto Semantic Detector etc Tuto Classification
  • 25. Contribution de la communauté Intégration des retours des utilisateurs du package Evolution du package Brique éthique Nouveaux cas d’usage Analyse de verbatim / entretiens