SlideShare une entreprise Scribd logo
TEXT MINING AND MACHINE LEARNING
APPLIED TO DISMANTLING OPERATIONS
DOCUMENTS
Ali KABBADJ, Robert PLANA, Mehdi BRAHIMI, Ji PEI, Gregory DENIZE, Alain MANGEOT
24/10/2018
2
01 CONTEXT & ISSUES
02 OBJECTIVE
03 ARCHITECTURE
04 APPLICATION
05 CONCLUSION
CONTENTS
33
CONTEXT & ISSUES
3
Nuclear operators are
continuously producing
documents related to
their facilities, with a
variety of formats and
media, for almost 60
years. All this information
concerns the life of the
installations on several
domains and are
consulted to carry out the
dismantling
The originality of the project is to mix the classification, clustering,
annotating and indexing textual documents traditional techniques (GED,
search engine), and new Deep Learning technologies
 The documents about : Buildings / Equipment /
Security / Chemistry / Nuclear / Maintenance
and Evolutions …
 A dismantling project needs to present a solid
and well-argued file to the Nuclear Safety
Authorities
 An estimate shows 14 billion documents FOR
CEA only, with an average per facility of 230,000
files & 180,000 papers
 This project seeks to provide a single point of
entry on this mass of documents and to make
the audit preparation faster and more reliable in
order to drastically reduce provisions for
uncertainties when budgeting a dismantling
OBJECTIVE : From unstructured to structured
4
Consultation
Report
Chatbot
Raw
Documents
Preparation
Classification
Topic Modeling
Indexation
Data
Extraction
DB OWL
Documents
research
Search Engine ++
WebLab / Elastic Search
Formal Language
SQL / SPARQL
Natural Language
DL Training
Reading &
Comprehension
Q&A
Files
.pdf / .doc
.xls / .txt …
ARCHITECTURE : Step 1 Preparation
5
Format:
Pdf
Doc
Xls
Bart plot
Reading NER3 Pre-processing &
Cleaning
Annotated Text Date PlaceHDFS2
OCR1Scan/Img
Pretreated Ontology
1 OCR : Optical Character Recognition
2 HDFS: Hadoop Distributed File System
3 NER : Named Entity Recognition
ARCHITECTURE : Step 2 Classification, Clustering , Indexing
6
Clustering / Topic Modelling
Classification
Graph and Topic
Domain
Pre-processing &
Cleaning
Model Deployment
Indexing, TD IDF Search Engine
APPLICATION : Visualization Classification & Clustering
7
Document Relations Hierarchical ClusteringDomains
ARCHITECTURE : Step 3 Data extraction
8
Pre-processing &
Cleaning
Automatic
Extractor:
Tables
Lists
Glossaries
Texts
Expert
Validation
Expert
Validation
Data Base
SQL
Converter
Tables
Lists & Glossaries
Full Texts
Converter
Ontology
Direct
questioning
IA : Q&A
APPLICATION: Search Engine 1/Weblab Document lists
9
APPLICATION: Search Engine 1/Weblab Document Detail
10
MetadataClasses
APPLICATION: Search Engine/Future Document List
11
sécurité Marcoule EPIsécurité Marcoule EPI
Key WordsType document Domaine
Documents Titre intérieure pages Auteur
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
Marcoule : 153
EPI : 180
Sélection : 703
703 27
APPLICATION: Search Engine/Future Document Detail
12
Métadonnées du Document : Date: 12/07/2007 Nb pages: 25 Titre: Suivi des évolutions du Code de Sécurité MARCOULE Type: Rapport
Domaines et sous-domaines: Sécurité, Terre-Neuve
Mots clés: Sécurité, Terre-Neuve
Documents en références: Doc sécurité 25893,pdf
Documents s’y référant: Doc xxx889963,pdf
Documents
Localisation
Agence
Class Tag
Procédure
Date
Entreprise
APPLICATION: Q&A : Architecture AI Deep Learning
13
Encoding Co-Attention Pointer
Selected
Documents
From Search Engine
le
24/11/1998
il
a
…..
dans
le
Local
A104
Opération
De
maintenance
Local
A104
Le
21/11/1998
vidange
et
dépose
pots
décanteur
Neural Network (Model)
BiLSTM and/or CNN
Answer
Fiche
Incident/Maintenance
Equipement : Décanteur
Equipement Id :
Date : 21/11/1998
Type incident :
Type Maintenance :
Vidange
Lieu: Local A106
Document : Doc14555
Page : 45
Training Dataset
SQuAD 110 000 Q&A
Question
Question in Natural
Language
Context
Answer
APPLICATION: Q&A : French training dataset + Expertise
14
IA techniques Full Text Reading and Comprehension
Adaptation of IA Q&A models
Semi-Automatic
Q&A format MCQ
Expert Validation
Syntactical Similarity
>3000 Q&A
Manually
Full Training Dataset Model Training IA Q&A
Generic French Q&A : SQuAD v1.1
in French ~ 110 000 Q&A
Specific to Dismantling Domain
APPLICATION: Interface Q&A
15
Question
Answers
Paragraphs
Documents Answer score
Answer Position in
Paragraphs
APPLICATION: Future interface Q&A : Document Level
16
Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
QuestionTypes document Domaine
Réponse Document
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
amiante : 153
EPI : 180
Sélection : 703
703 27
APPLICATION: Future interface Q&A : Answer Level
17
5.6.6.1 PRINCIPES DE SURETE SPECIFIQUES
Les dispositions prises pour limiter le risque d'inondation sont :
 la présence de lèchefrites munies de détecteurs de fuite,
 les alarmes associées aux niveaux hauts des cuves ou des lèchefrites,
 les asservissements associés au remplissage des cuves ou des pots de réactifs : le remplissage ou l'assainissement
de ceux-ci n'est possible que s'ils ont été préalablement vidangés,
 la présence de trop-plein munis de garde hydraulique ou de siphons reliés :
 aux cuves à effluents MAS de l'ADM pour les cuves de trempage chimique 4402.41 à 45 et la cuve de
trempage à ultrasons 4402.51 réservée à l'utilisation de détergents,
 au pot à solvant du local 226 pour la cuve de trempage à ultrasons 4402.52 réservée à l'utilisation de solvants
(nota : l’Etablissement s’étant engagé dans une démarche de suppression des solvants dans ses rejets, la
cuve 4402.52 est désormais inutilisée et consignée),
 Les salles 20 et 30, dans lesquelles sont utilisés, par aspersion des réactifs chimiques ou de l'eau, sont munies de
siphon de sol équipés de filtres et de garde hydraulique et reliés :
 aux cuves d'effluents MAS,
 à la cuve de récupération de l'eau de rinçage 4411.20,
 aux cuves de recyclage des bains 4402.31 ou 32 (salle 30 uniquement).
Rank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdfRank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les dispositions pour limiter le risque d’inondation ?Quelles sont les dispositions pour limiter le risque d’inondation ?
Document :Document :
Rank = 1 Answer Score = 1393Rank = 1 Answer Score = 1393
APPLICATION: Future interface Q&A : Answer Level
18
A. Consignes générales de sécurité visant à réduire l’exposition aux poussières d’amiante.
« Lors d’interventions sur (ou à proximité) des matériaux contenant de l’amiante, il convient d’éviter au maximum l’émission de
poussières, pour vous et votre voisinage »
En cas (liste indicative) :
• De manipulation et manutention de matériaux non friables contenant de l’amiante, comme le remplacement de joints ou
encore la manutention d’éléments en amiante-ciment)
• De travaux réalisés à proximité d’un matériau friable en bon état (flocage ou calorifugeage) comme par exemple le
déplacement de quelques éléments de faux-plafond sana amiante sous une dalle floquée, d’interventions légère dans des
boîtiers électrique, sur des gaines ou des circuits situés sous un flocage sans action sur celui-ci, de remplacement d’une vanne
sur une canalisation calorifugée à l’amiante au delà des raccords,
• De travaux directs sur un matériau compact (amiante-ciment, enduits, joints, dalles,…), comme le perçage ou encore la
découpe d’éléments en amiante-ciment avec des outils manuels (outils tranchants, scies, burins, …) ou rotatifs à vitesse lente,
• De déplacement local d’éléments d’un faux(plafond rigide contenant du carton d’amiante avec des parements,
Il convient d’éviter au maximum l’émission de poussière :
• Par imprégnation locale des matériaux contenant de l’amiante par de l’eau (en tenant compte du risque électrique), afin
d’abaisser le taux d’émission de poussière,
• En utilisant de préférence des outils manuels ou des outils à vitesse lentes. Page 1/2
Rank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdfRank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
Document :Document :
Rank = 1 Answer Score = 2356Rank = 1 Answer Score = 2356
1919
CONCLUSION
19
 There is a huge amount of historical data to process for dismantling
 Our step by step methodology process the data from the more structured to the less
structured and from Document to the final Answer
 We have got good results for classifying documents and extracting semi-structured
data as tables and lists
 For full text reading and comprehension we achieved very encouraging performance
thanks to the recent advances in deep learning modeling
 The main barrier for this last step is the availability of large scale training datasets in
French
 We have built a generic French Q&A training dataset from the English SQuAD dataset
and we are now building with our experts a dismantling specific Q&A training dataset
www.assystem.com20
ALI KABBADJ
Data Scientist
akabbadj@assystem.com
+33 7 68 36 66 35
MEHDI BRAHIMI
Lead Data Scientist
mbrahimi@assystem.com
+33 6 47 26 38 17
EMANUEL ARNOULT
CTO Dismantling waste
earnoult@assystem.com
+33 6 30 83 95 63

Contenu connexe

Similaire à Text mining applied to dismantling operations documents

Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Cluster H2O
 
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
chargedaffairempm
 
L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...
Réseau LIEU (Liaison Entreprises-Universités)
 
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Anthony Gelibert
 
Projet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienneProjet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienne
Rodrigo González Ballesteros
 
GEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique DynamiqueGEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique Dynamique
ecobuild.brussels
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes
Patrick Guimonet
 
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Witekio
 
Kingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toitureKingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toiture
Architectura
 
Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011ARCADIS
 
Mémento technique du bâtiment facades
Mémento technique du bâtiment facadesMémento technique du bâtiment facades
Mémento technique du bâtiment facadesKhadime Dramé
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvragessatanbaal
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvragessatanbaal
 
Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"
IFPEB
 
Jérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPIJérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPI
Synhera
 
PRESENTATION CSTB
PRESENTATION CSTBPRESENTATION CSTB
PRESENTATION CSTB
Isabelle Pinard
 
Cstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vfCstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vf
FranckVIGNAU1
 
Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012
Isocell France
 

Similaire à Text mining applied to dismantling operations documents (20)

Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
 
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
 
L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...
 
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
 
Projet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienneProjet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienne
 
GEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique DynamiqueGEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique Dynamique
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes
 
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
 
Kingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toitureKingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toiture
 
B6 eolas
B6 eolasB6 eolas
B6 eolas
 
Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011
 
Mémento technique du bâtiment facades
Mémento technique du bâtiment facadesMémento technique du bâtiment facades
Mémento technique du bâtiment facades
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvrages
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvrages
 
Arnano
ArnanoArnano
Arnano
 
Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"
 
Jérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPIJérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPI
 
PRESENTATION CSTB
PRESENTATION CSTBPRESENTATION CSTB
PRESENTATION CSTB
 
Cstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vfCstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vf
 
Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012
 

Dernier

COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
Institut de l'Elevage - Idele
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Institut de l'Elevage - Idele
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
Institut de l'Elevage - Idele
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
sieousse95
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
Institut de l'Elevage - Idele
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
Institut de l'Elevage - Idele
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
Institut de l'Elevage - Idele
 
Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
imed53
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Institut de l'Elevage - Idele
 
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Institut de l'Elevage - Idele
 
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdfpdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
Elisée Ndjabu
 

Dernier (11)

COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
 
Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
 
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
 
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdfpdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
pdfcoffee.com_polycopie-de-cours-ppt-lge604-20012-bf-pdf-free.pdf
 

Text mining applied to dismantling operations documents

  • 1. TEXT MINING AND MACHINE LEARNING APPLIED TO DISMANTLING OPERATIONS DOCUMENTS Ali KABBADJ, Robert PLANA, Mehdi BRAHIMI, Ji PEI, Gregory DENIZE, Alain MANGEOT 24/10/2018
  • 2. 2 01 CONTEXT & ISSUES 02 OBJECTIVE 03 ARCHITECTURE 04 APPLICATION 05 CONCLUSION CONTENTS
  • 3. 33 CONTEXT & ISSUES 3 Nuclear operators are continuously producing documents related to their facilities, with a variety of formats and media, for almost 60 years. All this information concerns the life of the installations on several domains and are consulted to carry out the dismantling The originality of the project is to mix the classification, clustering, annotating and indexing textual documents traditional techniques (GED, search engine), and new Deep Learning technologies  The documents about : Buildings / Equipment / Security / Chemistry / Nuclear / Maintenance and Evolutions …  A dismantling project needs to present a solid and well-argued file to the Nuclear Safety Authorities  An estimate shows 14 billion documents FOR CEA only, with an average per facility of 230,000 files & 180,000 papers  This project seeks to provide a single point of entry on this mass of documents and to make the audit preparation faster and more reliable in order to drastically reduce provisions for uncertainties when budgeting a dismantling
  • 4. OBJECTIVE : From unstructured to structured 4 Consultation Report Chatbot Raw Documents Preparation Classification Topic Modeling Indexation Data Extraction DB OWL Documents research Search Engine ++ WebLab / Elastic Search Formal Language SQL / SPARQL Natural Language DL Training Reading & Comprehension Q&A Files .pdf / .doc .xls / .txt …
  • 5. ARCHITECTURE : Step 1 Preparation 5 Format: Pdf Doc Xls Bart plot Reading NER3 Pre-processing & Cleaning Annotated Text Date PlaceHDFS2 OCR1Scan/Img Pretreated Ontology 1 OCR : Optical Character Recognition 2 HDFS: Hadoop Distributed File System 3 NER : Named Entity Recognition
  • 6. ARCHITECTURE : Step 2 Classification, Clustering , Indexing 6 Clustering / Topic Modelling Classification Graph and Topic Domain Pre-processing & Cleaning Model Deployment Indexing, TD IDF Search Engine
  • 7. APPLICATION : Visualization Classification & Clustering 7 Document Relations Hierarchical ClusteringDomains
  • 8. ARCHITECTURE : Step 3 Data extraction 8 Pre-processing & Cleaning Automatic Extractor: Tables Lists Glossaries Texts Expert Validation Expert Validation Data Base SQL Converter Tables Lists & Glossaries Full Texts Converter Ontology Direct questioning IA : Q&A
  • 9. APPLICATION: Search Engine 1/Weblab Document lists 9
  • 10. APPLICATION: Search Engine 1/Weblab Document Detail 10 MetadataClasses
  • 11. APPLICATION: Search Engine/Future Document List 11 sécurité Marcoule EPIsécurité Marcoule EPI Key WordsType document Domaine Documents Titre intérieure pages Auteur / // /Date de : à : / // / Total doc: 12 556 Type doc : 3 122 Domaine : 1 200 Sécurité : 303 Marcoule : 153 EPI : 180 Sélection : 703 703 27
  • 12. APPLICATION: Search Engine/Future Document Detail 12 Métadonnées du Document : Date: 12/07/2007 Nb pages: 25 Titre: Suivi des évolutions du Code de Sécurité MARCOULE Type: Rapport Domaines et sous-domaines: Sécurité, Terre-Neuve Mots clés: Sécurité, Terre-Neuve Documents en références: Doc sécurité 25893,pdf Documents s’y référant: Doc xxx889963,pdf Documents Localisation Agence Class Tag Procédure Date Entreprise
  • 13. APPLICATION: Q&A : Architecture AI Deep Learning 13 Encoding Co-Attention Pointer Selected Documents From Search Engine le 24/11/1998 il a ….. dans le Local A104 Opération De maintenance Local A104 Le 21/11/1998 vidange et dépose pots décanteur Neural Network (Model) BiLSTM and/or CNN Answer Fiche Incident/Maintenance Equipement : Décanteur Equipement Id : Date : 21/11/1998 Type incident : Type Maintenance : Vidange Lieu: Local A106 Document : Doc14555 Page : 45 Training Dataset SQuAD 110 000 Q&A Question Question in Natural Language Context Answer
  • 14. APPLICATION: Q&A : French training dataset + Expertise 14 IA techniques Full Text Reading and Comprehension Adaptation of IA Q&A models Semi-Automatic Q&A format MCQ Expert Validation Syntactical Similarity >3000 Q&A Manually Full Training Dataset Model Training IA Q&A Generic French Q&A : SQuAD v1.1 in French ~ 110 000 Q&A Specific to Dismantling Domain
  • 15. APPLICATION: Interface Q&A 15 Question Answers Paragraphs Documents Answer score Answer Position in Paragraphs
  • 16. APPLICATION: Future interface Q&A : Document Level 16 Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante? QuestionTypes document Domaine Réponse Document / // /Date de : à : / // / Total doc: 12 556 Type doc : 3 122 Domaine : 1 200 Sécurité : 303 amiante : 153 EPI : 180 Sélection : 703 703 27
  • 17. APPLICATION: Future interface Q&A : Answer Level 17 5.6.6.1 PRINCIPES DE SURETE SPECIFIQUES Les dispositions prises pour limiter le risque d'inondation sont :  la présence de lèchefrites munies de détecteurs de fuite,  les alarmes associées aux niveaux hauts des cuves ou des lèchefrites,  les asservissements associés au remplissage des cuves ou des pots de réactifs : le remplissage ou l'assainissement de ceux-ci n'est possible que s'ils ont été préalablement vidangés,  la présence de trop-plein munis de garde hydraulique ou de siphons reliés :  aux cuves à effluents MAS de l'ADM pour les cuves de trempage chimique 4402.41 à 45 et la cuve de trempage à ultrasons 4402.51 réservée à l'utilisation de détergents,  au pot à solvant du local 226 pour la cuve de trempage à ultrasons 4402.52 réservée à l'utilisation de solvants (nota : l’Etablissement s’étant engagé dans une démarche de suppression des solvants dans ses rejets, la cuve 4402.52 est désormais inutilisée et consignée),  Les salles 20 et 30, dans lesquelles sont utilisés, par aspersion des réactifs chimiques ou de l'eau, sont munies de siphon de sol équipés de filtres et de garde hydraulique et reliés :  aux cuves d'effluents MAS,  à la cuve de récupération de l'eau de rinçage 4411.20,  aux cuves de recyclage des bains 4402.31 ou 32 (salle 30 uniquement). Rank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdfRank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdf Réponse N° 1 :Réponse N° 1 : Question :Question : Quelles sont les dispositions pour limiter le risque d’inondation ?Quelles sont les dispositions pour limiter le risque d’inondation ? Document :Document : Rank = 1 Answer Score = 1393Rank = 1 Answer Score = 1393
  • 18. APPLICATION: Future interface Q&A : Answer Level 18 A. Consignes générales de sécurité visant à réduire l’exposition aux poussières d’amiante. « Lors d’interventions sur (ou à proximité) des matériaux contenant de l’amiante, il convient d’éviter au maximum l’émission de poussières, pour vous et votre voisinage » En cas (liste indicative) : • De manipulation et manutention de matériaux non friables contenant de l’amiante, comme le remplacement de joints ou encore la manutention d’éléments en amiante-ciment) • De travaux réalisés à proximité d’un matériau friable en bon état (flocage ou calorifugeage) comme par exemple le déplacement de quelques éléments de faux-plafond sana amiante sous une dalle floquée, d’interventions légère dans des boîtiers électrique, sur des gaines ou des circuits situés sous un flocage sans action sur celui-ci, de remplacement d’une vanne sur une canalisation calorifugée à l’amiante au delà des raccords, • De travaux directs sur un matériau compact (amiante-ciment, enduits, joints, dalles,…), comme le perçage ou encore la découpe d’éléments en amiante-ciment avec des outils manuels (outils tranchants, scies, burins, …) ou rotatifs à vitesse lente, • De déplacement local d’éléments d’un faux(plafond rigide contenant du carton d’amiante avec des parements, Il convient d’éviter au maximum l’émission de poussière : • Par imprégnation locale des matériaux contenant de l’amiante par de l’eau (en tenant compte du risque électrique), afin d’abaisser le taux d’émission de poussière, • En utilisant de préférence des outils manuels ou des outils à vitesse lentes. Page 1/2 Rank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdfRank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdf Réponse N° 1 :Réponse N° 1 : Question :Question : Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante? Document :Document : Rank = 1 Answer Score = 2356Rank = 1 Answer Score = 2356
  • 19. 1919 CONCLUSION 19  There is a huge amount of historical data to process for dismantling  Our step by step methodology process the data from the more structured to the less structured and from Document to the final Answer  We have got good results for classifying documents and extracting semi-structured data as tables and lists  For full text reading and comprehension we achieved very encouraging performance thanks to the recent advances in deep learning modeling  The main barrier for this last step is the availability of large scale training datasets in French  We have built a generic French Q&A training dataset from the English SQuAD dataset and we are now building with our experts a dismantling specific Q&A training dataset
  • 20. www.assystem.com20 ALI KABBADJ Data Scientist akabbadj@assystem.com +33 7 68 36 66 35 MEHDI BRAHIMI Lead Data Scientist mbrahimi@assystem.com +33 6 47 26 38 17 EMANUEL ARNOULT CTO Dismantling waste earnoult@assystem.com +33 6 30 83 95 63