Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Classification de courriers postaux avec elasticsearch

608 vues

Publié le

Avec ce talk, je vous parle d'un cas d'utilisation un peu atypique d'Elasticsearch : la classification de courriers postaux pour déterminer le service destinataire.
On parlera classification par moteur de règles, classification par apprentissage supervisé, structure de document "nested", et chaîne d'analyse pour détecter le code postal de l'émetteur.
Enfin, je terminerai avec quelques stats montrant la performance de l'ensemble... avec Kibana bien sûr :)

Publié dans : Logiciels
  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

Classification de courriers postaux avec elasticsearch

  1. 1. Classification de courriers postaux avec Elasticsearch Fabien Baligand Informatique CDC Meetup Elastic FR 13 février 2018
  2. 2. Qui suis-je ?  Fabien BALIGAND  Contributeur opensource sur Logstash, Elasticsearch & Kibana  Créateur de 2 plugins Elastic :  logstash-filter-aggregate  kibana-enhanced-table  Expert java & référent Elastic à Informatique CDC @fbaligand
  3. 3. Elastic Stack @ ICDC  Log Analytics avec Logstash/Elasticsearch/Kibana  Moteur de recherche métier  Moteur de recherche éditorial  Socle BAM des projets bancaires  Moteur de chatbot métier (challenge IA)  Classification de courriers postaux 2014 Now
  4. 4. Classification de courriers postaux
  5. 5. Besoin  Dématérialisation des courriers postaux et de leur traitement  Numérisation automatisée des courriers  Classification automatisée des courriers  Distribution automatisée et sécurisée des courriers  Généralisation à tout type de courrier (fax, mail, formulaire web)
  6. 6. Solution
  7. 7. Zoom sur Elastic Stack  Stockage des courriers en tant que documents Elasticsearch  Chaîne d’analyse pour retrouver le code postal de l’expéditeur  Recherche du service destinataire dans le courrier  Par moteur de règles  Par apprentissage supervisé  Statistiques de performance de de la solution avec Kibana
  8. 8. Structure des documents dans Elasticsearch Courrier Document 1 Page 1 Page N Document N Page 1 Page N
  9. 9. Mapping Elasticsearch
  10. 10. Chaîne d’analyse « code postal expéditeur »  Récupérer les patterns de codes postaux : "75 000 PARIS"  "75" "PARIS (75000)"  "75" "CHAROLLES (SAONE-ET-LOIRE)"  "71"  Eviter les faux positifs : "49009 ANGERS"  "12345 6789"   Récupérer uniquement le premier code postal (l’expéditeur)
  11. 11. Chaîne d’analyse « code postal expéditeur » "rue louis gain 49000 angers"  "" "75 000 PARIS"  "75000 PARIS" "PARIS (75000)"  "75000 PARIS" "CHAROLLES (SAONE-ET-LOIRE)"  "`SAONE-ET-LOIRE` CHAROLLES" "`SAONE-ET-LOIRE` CHAROLLES"  ["`SAONE-ET-LOIRE`", "CHAROLLES"] "CHAROLLES"  "charolles" "côte d’or"  "cote d’or" "49909"  "" `saone-et-loire` 71000 ["71000 ", "charolles"]  "71000 charolles" "71000 charolles"  "71000 charolles"  "71" ["71", "21"]  "71"
  12. 12. Classification par moteur de règles  Utilisation du mécanisme de percolator d’Elasticsearch « Donnes-moi un document, je te dirai à quelle requête il correspond »  Stockage d’un document-requête par service destinataire « Indique les mots-clés et les codes postaux associés au service destinataire »  Requête à partir d’un courrier et récupération du service destinataire
  13. 13. Exemple de document-requête
  14. 14. Exemple de requête « percolate »
  15. 15. Classification par apprentissage supervisé  Utilisation du mécanisme de more-like-this d’Elasticsearch « Donnes-moi un document, je te dirai à quel document déjà classifié il ressemble le plus »  Stockage d’un jeu de courriers de référence déjà classifiés  Enrichissement continu du jeu de courriers de référence
  16. 16. Exemple de requête « more-like-this »
  17. 17. Performance de la solution
  18. 18. Conclusion  POC validé  démarrage projet !  Il faut plus de documents pour le MLT…  Vers une solution hybride « Percolate + MLT »
  19. 19. Questions

×