SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
TEXT MINING AND MACHINE LEARNING
APPLIED TO DISMANTLING OPERATIONS
DOCUMENTS
Ali KABBADJ, Robert PLANA, Mehdi BRAHIMI, Ji PEI, Gregory DENIZE, Alain MANGEOT
24/10/2018
2
01 CONTEXT & ISSUES
02 OBJECTIVE
03 ARCHITECTURE
04 APPLICATION
05 CONCLUSION
CONTENTS
33
CONTEXT & ISSUES
3
Nuclear operators are
continuously producing
documents related to
their facilities, with a
variety of formats and
media, for almost 60
years. All this information
concerns the life of the
installations on several
domains and are
consulted to carry out the
dismantling
The originality of the project is to mix the classification, clustering,
annotating and indexing textual documents traditional techniques (GED,
search engine), and new Deep Learning technologies
 The documents about : Buildings / Equipment /
Security / Chemistry / Nuclear / Maintenance
and Evolutions …
 A dismantling project needs to present a solid
and well-argued file to the Nuclear Safety
Authorities
 An estimate shows 14 billion documents FOR
CEA only, with an average per facility of 230,000
files & 180,000 papers
 This project seeks to provide a single point of
entry on this mass of documents and to make
the audit preparation faster and more reliable in
order to drastically reduce provisions for
uncertainties when budgeting a dismantling
OBJECTIVE : From unstructured to structured
4
Consultation
Report
Chatbot
Raw
Documents
Preparation
Classification
Topic Modeling
Indexation
Data
Extraction
DB OWL
Documents
research
Search Engine ++
WebLab / Elastic Search
Formal Language
SQL / SPARQL
Natural Language
DL Training
Reading &
Comprehension
Q&A
Files
.pdf / .doc
.xls / .txt …
ARCHITECTURE : Step 1 Preparation
5
Format:
Pdf
Doc
Xls
Bart plot
Reading NER3 Pre-processing &
Cleaning
Annotated Text Date PlaceHDFS2
OCR1Scan/Img
Pretreated Ontology
1 OCR : Optical Character Recognition
2 HDFS: Hadoop Distributed File System
3 NER : Named Entity Recognition
ARCHITECTURE : Step 2 Classification, Clustering , Indexing
6
Clustering / Topic Modelling
Classification
Graph and Topic
Domain
Pre-processing &
Cleaning
Model Deployment
Indexing, TD IDF Search Engine
APPLICATION : Visualization Classification & Clustering
7
Document Relations Hierarchical ClusteringDomains
ARCHITECTURE : Step 3 Data extraction
8
Pre-processing &
Cleaning
Automatic
Extractor:
Tables
Lists
Glossaries
Texts
Expert
Validation
Expert
Validation
Data Base
SQL
Converter
Tables
Lists & Glossaries
Full Texts
Converter
Ontology
Direct
questioning
IA : Q&A
APPLICATION: Search Engine 1/Weblab Document lists
9
APPLICATION: Search Engine 1/Weblab Document Detail
10
MetadataClasses
APPLICATION: Search Engine/Future Document List
11
sécurité Marcoule EPIsécurité Marcoule EPI
Key WordsType document Domaine
Documents Titre intérieure pages Auteur
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
Marcoule : 153
EPI : 180
Sélection : 703
703 27
APPLICATION: Search Engine/Future Document Detail
12
Métadonnées du Document : Date: 12/07/2007 Nb pages: 25 Titre: Suivi des évolutions du Code de Sécurité MARCOULE Type: Rapport
Domaines et sous-domaines: Sécurité, Terre-Neuve
Mots clés: Sécurité, Terre-Neuve
Documents en références: Doc sécurité 25893,pdf
Documents s’y référant: Doc xxx889963,pdf
Documents
Localisation
Agence
Class Tag
Procédure
Date
Entreprise
APPLICATION: Q&A : Architecture AI Deep Learning
13
Encoding Co-Attention Pointer
Selected
Documents
From Search Engine
le
24/11/1998
il
a
…..
dans
le
Local
A104
Opération
De
maintenance
Local
A104
Le
21/11/1998
vidange
et
dépose
pots
décanteur
Neural Network (Model)
BiLSTM and/or CNN
Answer
Fiche
Incident/Maintenance
Equipement : Décanteur
Equipement Id :
Date : 21/11/1998
Type incident :
Type Maintenance :
Vidange
Lieu: Local A106
Document : Doc14555
Page : 45
Training Dataset
SQuAD 110 000 Q&A
Question
Question in Natural
Language
Context
Answer
APPLICATION: Q&A : French training dataset + Expertise
14
IA techniques Full Text Reading and Comprehension
Adaptation of IA Q&A models
Semi-Automatic
Q&A format MCQ
Expert Validation
Syntactical Similarity
>3000 Q&A
Manually
Full Training Dataset Model Training IA Q&A
Generic French Q&A : SQuAD v1.1
in French ~ 110 000 Q&A
Specific to Dismantling Domain
APPLICATION: Interface Q&A
15
Question
Answers
Paragraphs
Documents Answer score
Answer Position in
Paragraphs
APPLICATION: Future interface Q&A : Document Level
16
Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
QuestionTypes document Domaine
Réponse Document
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
amiante : 153
EPI : 180
Sélection : 703
703 27
APPLICATION: Future interface Q&A : Answer Level
17
5.6.6.1 PRINCIPES DE SURETE SPECIFIQUES
Les dispositions prises pour limiter le risque d'inondation sont :
 la présence de lèchefrites munies de détecteurs de fuite,
 les alarmes associées aux niveaux hauts des cuves ou des lèchefrites,
 les asservissements associés au remplissage des cuves ou des pots de réactifs : le remplissage ou l'assainissement
de ceux-ci n'est possible que s'ils ont été préalablement vidangés,
 la présence de trop-plein munis de garde hydraulique ou de siphons reliés :
 aux cuves à effluents MAS de l'ADM pour les cuves de trempage chimique 4402.41 à 45 et la cuve de
trempage à ultrasons 4402.51 réservée à l'utilisation de détergents,
 au pot à solvant du local 226 pour la cuve de trempage à ultrasons 4402.52 réservée à l'utilisation de solvants
(nota : l’Etablissement s’étant engagé dans une démarche de suppression des solvants dans ses rejets, la
cuve 4402.52 est désormais inutilisée et consignée),
 Les salles 20 et 30, dans lesquelles sont utilisés, par aspersion des réactifs chimiques ou de l'eau, sont munies de
siphon de sol équipés de filtres et de garde hydraulique et reliés :
 aux cuves d'effluents MAS,
 à la cuve de récupération de l'eau de rinçage 4411.20,
 aux cuves de recyclage des bains 4402.31 ou 32 (salle 30 uniquement).
Rank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdfRank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les dispositions pour limiter le risque d’inondation ?Quelles sont les dispositions pour limiter le risque d’inondation ?
Document :Document :
Rank = 1 Answer Score = 1393Rank = 1 Answer Score = 1393
APPLICATION: Future interface Q&A : Answer Level
18
A. Consignes générales de sécurité visant à réduire l’exposition aux poussières d’amiante.
« Lors d’interventions sur (ou à proximité) des matériaux contenant de l’amiante, il convient d’éviter au maximum l’émission de
poussières, pour vous et votre voisinage »
En cas (liste indicative) :
• De manipulation et manutention de matériaux non friables contenant de l’amiante, comme le remplacement de joints ou
encore la manutention d’éléments en amiante-ciment)
• De travaux réalisés à proximité d’un matériau friable en bon état (flocage ou calorifugeage) comme par exemple le
déplacement de quelques éléments de faux-plafond sana amiante sous une dalle floquée, d’interventions légère dans des
boîtiers électrique, sur des gaines ou des circuits situés sous un flocage sans action sur celui-ci, de remplacement d’une vanne
sur une canalisation calorifugée à l’amiante au delà des raccords,
• De travaux directs sur un matériau compact (amiante-ciment, enduits, joints, dalles,…), comme le perçage ou encore la
découpe d’éléments en amiante-ciment avec des outils manuels (outils tranchants, scies, burins, …) ou rotatifs à vitesse lente,
• De déplacement local d’éléments d’un faux(plafond rigide contenant du carton d’amiante avec des parements,
Il convient d’éviter au maximum l’émission de poussière :
• Par imprégnation locale des matériaux contenant de l’amiante par de l’eau (en tenant compte du risque électrique), afin
d’abaisser le taux d’émission de poussière,
• En utilisant de préférence des outils manuels ou des outils à vitesse lentes. Page 1/2
Rank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdfRank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
Document :Document :
Rank = 1 Answer Score = 2356Rank = 1 Answer Score = 2356
1919
CONCLUSION
19
 There is a huge amount of historical data to process for dismantling
 Our step by step methodology process the data from the more structured to the less
structured and from Document to the final Answer
 We have got good results for classifying documents and extracting semi-structured
data as tables and lists
 For full text reading and comprehension we achieved very encouraging performance
thanks to the recent advances in deep learning modeling
 The main barrier for this last step is the availability of large scale training datasets in
French
 We have built a generic French Q&A training dataset from the English SQuAD dataset
and we are now building with our experts a dismantling specific Q&A training dataset
www.assystem.com20
ALI KABBADJ
Data Scientist
akabbadj@assystem.com
+33 7 68 36 66 35
MEHDI BRAHIMI
Lead Data Scientist
mbrahimi@assystem.com
+33 6 47 26 38 17
EMANUEL ARNOULT
CTO Dismantling waste
earnoult@assystem.com
+33 6 30 83 95 63

Contenu connexe

Similaire à Text mining applied to dismantling operations documents

Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024Cluster H2O
 
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdfchargedaffairempm
 
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...Anthony Gelibert
 
GEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique DynamiqueGEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique Dynamiqueecobuild.brussels
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertesPatrick Guimonet
 
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...Witekio
 
Kingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toitureKingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toitureArchitectura
 
Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011ARCADIS
 
Mémento technique du bâtiment facades
Mémento technique du bâtiment facadesMémento technique du bâtiment facades
Mémento technique du bâtiment facadesKhadime Dramé
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvragessatanbaal
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvragessatanbaal
 
Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"IFPEB
 
Jérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPIJérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPISynhera
 
Cstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vfCstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vfFranckVIGNAU1
 
Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012Isocell France
 

Similaire à Text mining applied to dismantling operations documents (20)

Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
Diagnostic des infrastructures eau en milieu industriel – 12 mars 2024
 
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf01_Memento_Etancheite_COB version française pour les pratiquants.pdf
01_Memento_Etancheite_COB version française pour les pratiquants.pdf
 
L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...L'eau dans votre process industriel optimisation des traitements primaires et...
L'eau dans votre process industriel optimisation des traitements primaires et...
 
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...Vers l’aide à la décision pour la qualification et la traçabilité des environ...
Vers l’aide à la décision pour la qualification et la traçabilité des environ...
 
Projet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienneProjet d'innovation en bois, pale d'eolienne
Projet d'innovation en bois, pale d'eolienne
 
GEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique DynamiqueGEMS Solution - Logiciel de Simulation Thermique Dynamique
GEMS Solution - Logiciel de Simulation Thermique Dynamique
 
2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes2009-02-12 GRE302 - Développement d'applications vertes
2009-02-12 GRE302 - Développement d'applications vertes
 
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
Conference Security by Design - Lacroix Electronics - Comment conçoit on un o...
 
Kingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toitureKingspan Unidek - Eléments de toiture
Kingspan Unidek - Eléments de toiture
 
B6 eolas
B6 eolasB6 eolas
B6 eolas
 
Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011Arcadis Belgium Bedrijfspresentation Fr 2011
Arcadis Belgium Bedrijfspresentation Fr 2011
 
Mémento technique du bâtiment facades
Mémento technique du bâtiment facadesMémento technique du bâtiment facades
Mémento technique du bâtiment facades
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvrages
 
Couverture du risque produits ouvrages
Couverture du risque produits ouvragesCouverture du risque produits ouvrages
Couverture du risque produits ouvrages
 
Arnano
ArnanoArnano
Arnano
 
Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"Présentation des travaux IFPEB "ACV et Prescription"
Présentation des travaux IFPEB "ACV et Prescription"
 
Jérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPIJérôme schruyvers - Projet MOPI
Jérôme schruyvers - Projet MOPI
 
PRESENTATION CSTB
PRESENTATION CSTBPRESENTATION CSTB
PRESENTATION CSTB
 
Cstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vfCstb sante confort_dec_2019_vf
Cstb sante confort_dec_2019_vf
 
Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012Guide étanchéite à l'air des bâtiments - mars-2012
Guide étanchéite à l'air des bâtiments - mars-2012
 

Dernier

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageInstitut de l'Elevage - Idele
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirstjob4
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Ville de Châteauguay
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...Institut de l'Elevage - Idele
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfInstitut de l'Elevage - Idele
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...Institut de l'Elevage - Idele
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...Institut de l'Elevage - Idele
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusInstitut de l'Elevage - Idele
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...Institut de l'Elevage - Idele
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesInstitut de l'Elevage - Idele
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfInstitut de l'Elevage - Idele
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfSophie569778
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)Sana REFAI
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfmia884611
 
DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............cheddadzaineb
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéInstitut de l'Elevage - Idele
 

Dernier (20)

GAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engageGAL2024 - Décarbonation du secteur laitier : la filière s'engage
GAL2024 - Décarbonation du secteur laitier : la filière s'engage
 
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdf
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdf
 
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
GAL2024 - Consommations et productions d'énergies dans les exploitations lait...
 
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
GAL2024 - Méthane 2030 : une démarche collective française à destination de t...
 
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenusGAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
GAL2024 - Situation laitière 2023-2024 : consommation, marchés, prix et revenus
 
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
GAL2024 - Renouvellement des actifs : un enjeu pour la filière laitière franç...
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
GAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentesGAL2024 - Changements climatiques et maladies émergentes
GAL2024 - Changements climatiques et maladies émergentes
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
 
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdfWBS OBS RACI_2020-etunhjjlllllll pdf.pdf
WBS OBS RACI_2020-etunhjjlllllll pdf.pdf
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdf
 
DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............DISPOSITIFS-MEDICAUX-PPT.pdf............
DISPOSITIFS-MEDICAUX-PPT.pdf............
 
GAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversitéGAL2024 - L'élevage laitier cultive la biodiversité
GAL2024 - L'élevage laitier cultive la biodiversité
 

Text mining applied to dismantling operations documents

  • 1. TEXT MINING AND MACHINE LEARNING APPLIED TO DISMANTLING OPERATIONS DOCUMENTS Ali KABBADJ, Robert PLANA, Mehdi BRAHIMI, Ji PEI, Gregory DENIZE, Alain MANGEOT 24/10/2018
  • 2. 2 01 CONTEXT & ISSUES 02 OBJECTIVE 03 ARCHITECTURE 04 APPLICATION 05 CONCLUSION CONTENTS
  • 3. 33 CONTEXT & ISSUES 3 Nuclear operators are continuously producing documents related to their facilities, with a variety of formats and media, for almost 60 years. All this information concerns the life of the installations on several domains and are consulted to carry out the dismantling The originality of the project is to mix the classification, clustering, annotating and indexing textual documents traditional techniques (GED, search engine), and new Deep Learning technologies  The documents about : Buildings / Equipment / Security / Chemistry / Nuclear / Maintenance and Evolutions …  A dismantling project needs to present a solid and well-argued file to the Nuclear Safety Authorities  An estimate shows 14 billion documents FOR CEA only, with an average per facility of 230,000 files & 180,000 papers  This project seeks to provide a single point of entry on this mass of documents and to make the audit preparation faster and more reliable in order to drastically reduce provisions for uncertainties when budgeting a dismantling
  • 4. OBJECTIVE : From unstructured to structured 4 Consultation Report Chatbot Raw Documents Preparation Classification Topic Modeling Indexation Data Extraction DB OWL Documents research Search Engine ++ WebLab / Elastic Search Formal Language SQL / SPARQL Natural Language DL Training Reading & Comprehension Q&A Files .pdf / .doc .xls / .txt …
  • 5. ARCHITECTURE : Step 1 Preparation 5 Format: Pdf Doc Xls Bart plot Reading NER3 Pre-processing & Cleaning Annotated Text Date PlaceHDFS2 OCR1Scan/Img Pretreated Ontology 1 OCR : Optical Character Recognition 2 HDFS: Hadoop Distributed File System 3 NER : Named Entity Recognition
  • 6. ARCHITECTURE : Step 2 Classification, Clustering , Indexing 6 Clustering / Topic Modelling Classification Graph and Topic Domain Pre-processing & Cleaning Model Deployment Indexing, TD IDF Search Engine
  • 7. APPLICATION : Visualization Classification & Clustering 7 Document Relations Hierarchical ClusteringDomains
  • 8. ARCHITECTURE : Step 3 Data extraction 8 Pre-processing & Cleaning Automatic Extractor: Tables Lists Glossaries Texts Expert Validation Expert Validation Data Base SQL Converter Tables Lists & Glossaries Full Texts Converter Ontology Direct questioning IA : Q&A
  • 9. APPLICATION: Search Engine 1/Weblab Document lists 9
  • 10. APPLICATION: Search Engine 1/Weblab Document Detail 10 MetadataClasses
  • 11. APPLICATION: Search Engine/Future Document List 11 sécurité Marcoule EPIsécurité Marcoule EPI Key WordsType document Domaine Documents Titre intérieure pages Auteur / // /Date de : à : / // / Total doc: 12 556 Type doc : 3 122 Domaine : 1 200 Sécurité : 303 Marcoule : 153 EPI : 180 Sélection : 703 703 27
  • 12. APPLICATION: Search Engine/Future Document Detail 12 Métadonnées du Document : Date: 12/07/2007 Nb pages: 25 Titre: Suivi des évolutions du Code de Sécurité MARCOULE Type: Rapport Domaines et sous-domaines: Sécurité, Terre-Neuve Mots clés: Sécurité, Terre-Neuve Documents en références: Doc sécurité 25893,pdf Documents s’y référant: Doc xxx889963,pdf Documents Localisation Agence Class Tag Procédure Date Entreprise
  • 13. APPLICATION: Q&A : Architecture AI Deep Learning 13 Encoding Co-Attention Pointer Selected Documents From Search Engine le 24/11/1998 il a ….. dans le Local A104 Opération De maintenance Local A104 Le 21/11/1998 vidange et dépose pots décanteur Neural Network (Model) BiLSTM and/or CNN Answer Fiche Incident/Maintenance Equipement : Décanteur Equipement Id : Date : 21/11/1998 Type incident : Type Maintenance : Vidange Lieu: Local A106 Document : Doc14555 Page : 45 Training Dataset SQuAD 110 000 Q&A Question Question in Natural Language Context Answer
  • 14. APPLICATION: Q&A : French training dataset + Expertise 14 IA techniques Full Text Reading and Comprehension Adaptation of IA Q&A models Semi-Automatic Q&A format MCQ Expert Validation Syntactical Similarity >3000 Q&A Manually Full Training Dataset Model Training IA Q&A Generic French Q&A : SQuAD v1.1 in French ~ 110 000 Q&A Specific to Dismantling Domain
  • 15. APPLICATION: Interface Q&A 15 Question Answers Paragraphs Documents Answer score Answer Position in Paragraphs
  • 16. APPLICATION: Future interface Q&A : Document Level 16 Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante? QuestionTypes document Domaine Réponse Document / // /Date de : à : / // / Total doc: 12 556 Type doc : 3 122 Domaine : 1 200 Sécurité : 303 amiante : 153 EPI : 180 Sélection : 703 703 27
  • 17. APPLICATION: Future interface Q&A : Answer Level 17 5.6.6.1 PRINCIPES DE SURETE SPECIFIQUES Les dispositions prises pour limiter le risque d'inondation sont :  la présence de lèchefrites munies de détecteurs de fuite,  les alarmes associées aux niveaux hauts des cuves ou des lèchefrites,  les asservissements associés au remplissage des cuves ou des pots de réactifs : le remplissage ou l'assainissement de ceux-ci n'est possible que s'ils ont été préalablement vidangés,  la présence de trop-plein munis de garde hydraulique ou de siphons reliés :  aux cuves à effluents MAS de l'ADM pour les cuves de trempage chimique 4402.41 à 45 et la cuve de trempage à ultrasons 4402.51 réservée à l'utilisation de détergents,  au pot à solvant du local 226 pour la cuve de trempage à ultrasons 4402.52 réservée à l'utilisation de solvants (nota : l’Etablissement s’étant engagé dans une démarche de suppression des solvants dans ses rejets, la cuve 4402.52 est désormais inutilisée et consignée),  Les salles 20 et 30, dans lesquelles sont utilisés, par aspersion des réactifs chimiques ou de l'eau, sont munies de siphon de sol équipés de filtres et de garde hydraulique et reliés :  aux cuves d'effluents MAS,  à la cuve de récupération de l'eau de rinçage 4411.20,  aux cuves de recyclage des bains 4402.31 ou 32 (salle 30 uniquement). Rank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdfRank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdf Réponse N° 1 :Réponse N° 1 : Question :Question : Quelles sont les dispositions pour limiter le risque d’inondation ?Quelles sont les dispositions pour limiter le risque d’inondation ? Document :Document : Rank = 1 Answer Score = 1393Rank = 1 Answer Score = 1393
  • 18. APPLICATION: Future interface Q&A : Answer Level 18 A. Consignes générales de sécurité visant à réduire l’exposition aux poussières d’amiante. « Lors d’interventions sur (ou à proximité) des matériaux contenant de l’amiante, il convient d’éviter au maximum l’émission de poussières, pour vous et votre voisinage » En cas (liste indicative) : • De manipulation et manutention de matériaux non friables contenant de l’amiante, comme le remplacement de joints ou encore la manutention d’éléments en amiante-ciment) • De travaux réalisés à proximité d’un matériau friable en bon état (flocage ou calorifugeage) comme par exemple le déplacement de quelques éléments de faux-plafond sana amiante sous une dalle floquée, d’interventions légère dans des boîtiers électrique, sur des gaines ou des circuits situés sous un flocage sans action sur celui-ci, de remplacement d’une vanne sur une canalisation calorifugée à l’amiante au delà des raccords, • De travaux directs sur un matériau compact (amiante-ciment, enduits, joints, dalles,…), comme le perçage ou encore la découpe d’éléments en amiante-ciment avec des outils manuels (outils tranchants, scies, burins, …) ou rotatifs à vitesse lente, • De déplacement local d’éléments d’un faux(plafond rigide contenant du carton d’amiante avec des parements, Il convient d’éviter au maximum l’émission de poussière : • Par imprégnation locale des matériaux contenant de l’amiante par de l’eau (en tenant compte du risque électrique), afin d’abaisser le taux d’émission de poussière, • En utilisant de préférence des outils manuels ou des outils à vitesse lentes. Page 1/2 Rank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdfRank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdf Réponse N° 1 :Réponse N° 1 : Question :Question : Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante? Document :Document : Rank = 1 Answer Score = 2356Rank = 1 Answer Score = 2356
  • 19. 1919 CONCLUSION 19  There is a huge amount of historical data to process for dismantling  Our step by step methodology process the data from the more structured to the less structured and from Document to the final Answer  We have got good results for classifying documents and extracting semi-structured data as tables and lists  For full text reading and comprehension we achieved very encouraging performance thanks to the recent advances in deep learning modeling  The main barrier for this last step is the availability of large scale training datasets in French  We have built a generic French Q&A training dataset from the English SQuAD dataset and we are now building with our experts a dismantling specific Q&A training dataset
  • 20. www.assystem.com20 ALI KABBADJ Data Scientist akabbadj@assystem.com +33 7 68 36 66 35 MEHDI BRAHIMI Lead Data Scientist mbrahimi@assystem.com +33 6 47 26 38 17 EMANUEL ARNOULT CTO Dismantling waste earnoult@assystem.com +33 6 30 83 95 63