The paper explores the capabilities of Artificial Intelligence (AI) solutions to better prepare dismantling
operations. A dismantling program is characterized by a huge heterogeneous documentation composed by pdf
files, doc files, text files, audio and video/photos recording. The emergence of big data and AI technologies is
enabling data driven analysis instead of documents based one. The data driven analysis will start with the definition
of a datalake using open source technologies. Once the datalake is built, we start the analysis following two distinct
routes. The first route deals with a full unsupervised approach to identify potential clustering or meta information
that will help the engineer to structure the dismantling strategy. The different techniques used will be presented and
discussed in order to identify the most efficient one. The second route proposes to use an initial ontology to classify
the documents and compare this approach to the unsupervised one. Finally, deep learning techniques are used to
validate the ontology and to extract information through a question and response HMI in order to assist the engineers
for dismantling operations with a higher robustness. The paper will outline an original datascience methodology
and the framework and techniques that will be efficient for nuclear infrastructures.
GAL2024 - L'élevage laitier cultive la biodiversité
Text mining applied to dismantling operations documents
1. TEXT MINING AND MACHINE LEARNING
APPLIED TO DISMANTLING OPERATIONS
DOCUMENTS
Ali KABBADJ, Robert PLANA, Mehdi BRAHIMI, Ji PEI, Gregory DENIZE, Alain MANGEOT
24/10/2018
3. 33
CONTEXT & ISSUES
3
Nuclear operators are
continuously producing
documents related to
their facilities, with a
variety of formats and
media, for almost 60
years. All this information
concerns the life of the
installations on several
domains and are
consulted to carry out the
dismantling
The originality of the project is to mix the classification, clustering,
annotating and indexing textual documents traditional techniques (GED,
search engine), and new Deep Learning technologies
The documents about : Buildings / Equipment /
Security / Chemistry / Nuclear / Maintenance
and Evolutions …
A dismantling project needs to present a solid
and well-argued file to the Nuclear Safety
Authorities
An estimate shows 14 billion documents FOR
CEA only, with an average per facility of 230,000
files & 180,000 papers
This project seeks to provide a single point of
entry on this mass of documents and to make
the audit preparation faster and more reliable in
order to drastically reduce provisions for
uncertainties when budgeting a dismantling
4. OBJECTIVE : From unstructured to structured
4
Consultation
Report
Chatbot
Raw
Documents
Preparation
Classification
Topic Modeling
Indexation
Data
Extraction
DB OWL
Documents
research
Search Engine ++
WebLab / Elastic Search
Formal Language
SQL / SPARQL
Natural Language
DL Training
Reading &
Comprehension
Q&A
Files
.pdf / .doc
.xls / .txt …
5. ARCHITECTURE : Step 1 Preparation
5
Format:
Pdf
Doc
Xls
Bart plot
Reading NER3 Pre-processing &
Cleaning
Annotated Text Date PlaceHDFS2
OCR1Scan/Img
Pretreated Ontology
1 OCR : Optical Character Recognition
2 HDFS: Hadoop Distributed File System
3 NER : Named Entity Recognition
11. APPLICATION: Search Engine/Future Document List
11
sécurité Marcoule EPIsécurité Marcoule EPI
Key WordsType document Domaine
Documents Titre intérieure pages Auteur
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
Marcoule : 153
EPI : 180
Sélection : 703
703 27
12. APPLICATION: Search Engine/Future Document Detail
12
Métadonnées du Document : Date: 12/07/2007 Nb pages: 25 Titre: Suivi des évolutions du Code de Sécurité MARCOULE Type: Rapport
Domaines et sous-domaines: Sécurité, Terre-Neuve
Mots clés: Sécurité, Terre-Neuve
Documents en références: Doc sécurité 25893,pdf
Documents s’y référant: Doc xxx889963,pdf
Documents
Localisation
Agence
Class Tag
Procédure
Date
Entreprise
13. APPLICATION: Q&A : Architecture AI Deep Learning
13
Encoding Co-Attention Pointer
Selected
Documents
From Search Engine
le
24/11/1998
il
a
…..
dans
le
Local
A104
Opération
De
maintenance
Local
A104
Le
21/11/1998
vidange
et
dépose
pots
décanteur
Neural Network (Model)
BiLSTM and/or CNN
Answer
Fiche
Incident/Maintenance
Equipement : Décanteur
Equipement Id :
Date : 21/11/1998
Type incident :
Type Maintenance :
Vidange
Lieu: Local A106
Document : Doc14555
Page : 45
Training Dataset
SQuAD 110 000 Q&A
Question
Question in Natural
Language
Context
Answer
14. APPLICATION: Q&A : French training dataset + Expertise
14
IA techniques Full Text Reading and Comprehension
Adaptation of IA Q&A models
Semi-Automatic
Q&A format MCQ
Expert Validation
Syntactical Similarity
>3000 Q&A
Manually
Full Training Dataset Model Training IA Q&A
Generic French Q&A : SQuAD v1.1
in French ~ 110 000 Q&A
Specific to Dismantling Domain
16. APPLICATION: Future interface Q&A : Document Level
16
Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
QuestionTypes document Domaine
Réponse Document
/ // /Date de : à : / // /
Total doc: 12 556
Type doc : 3 122
Domaine : 1 200
Sécurité : 303
amiante : 153
EPI : 180
Sélection : 703
703 27
17. APPLICATION: Future interface Q&A : Answer Level
17
5.6.6.1 PRINCIPES DE SURETE SPECIFIQUES
Les dispositions prises pour limiter le risque d'inondation sont :
la présence de lèchefrites munies de détecteurs de fuite,
les alarmes associées aux niveaux hauts des cuves ou des lèchefrites,
les asservissements associés au remplissage des cuves ou des pots de réactifs : le remplissage ou l'assainissement
de ceux-ci n'est possible que s'ils ont été préalablement vidangés,
la présence de trop-plein munis de garde hydraulique ou de siphons reliés :
aux cuves à effluents MAS de l'ADM pour les cuves de trempage chimique 4402.41 à 45 et la cuve de
trempage à ultrasons 4402.51 réservée à l'utilisation de détergents,
au pot à solvant du local 226 pour la cuve de trempage à ultrasons 4402.52 réservée à l'utilisation de solvants
(nota : l’Etablissement s’étant engagé dans une démarche de suppression des solvants dans ses rejets, la
cuve 4402.52 est désormais inutilisée et consignée),
Les salles 20 et 30, dans lesquelles sont utilisés, par aspersion des réactifs chimiques ou de l'eau, sont munies de
siphon de sol équipés de filtres et de garde hydraulique et reliés :
aux cuves d'effluents MAS,
à la cuve de récupération de l'eau de rinçage 4411.20,
aux cuves de recyclage des bains 4402.31 ou 32 (salle 30 uniquement).
Rank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdfRank = 1 Doc Score = 145.54 Doc id = 46c_Volume B RS ADM 2012.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les dispositions pour limiter le risque d’inondation ?Quelles sont les dispositions pour limiter le risque d’inondation ?
Document :Document :
Rank = 1 Answer Score = 1393Rank = 1 Answer Score = 1393
18. APPLICATION: Future interface Q&A : Answer Level
18
A. Consignes générales de sécurité visant à réduire l’exposition aux poussières d’amiante.
« Lors d’interventions sur (ou à proximité) des matériaux contenant de l’amiante, il convient d’éviter au maximum l’émission de
poussières, pour vous et votre voisinage »
En cas (liste indicative) :
• De manipulation et manutention de matériaux non friables contenant de l’amiante, comme le remplacement de joints ou
encore la manutention d’éléments en amiante-ciment)
• De travaux réalisés à proximité d’un matériau friable en bon état (flocage ou calorifugeage) comme par exemple le
déplacement de quelques éléments de faux-plafond sana amiante sous une dalle floquée, d’interventions légère dans des
boîtiers électrique, sur des gaines ou des circuits situés sous un flocage sans action sur celui-ci, de remplacement d’une vanne
sur une canalisation calorifugée à l’amiante au delà des raccords,
• De travaux directs sur un matériau compact (amiante-ciment, enduits, joints, dalles,…), comme le perçage ou encore la
découpe d’éléments en amiante-ciment avec des outils manuels (outils tranchants, scies, burins, …) ou rotatifs à vitesse lente,
• De déplacement local d’éléments d’un faux(plafond rigide contenant du carton d’amiante avec des parements,
Il convient d’éviter au maximum l’émission de poussière :
• Par imprégnation locale des matériaux contenant de l’amiante par de l’eau (en tenant compte du risque électrique), afin
d’abaisser le taux d’émission de poussière,
• En utilisant de préférence des outils manuels ou des outils à vitesse lentes. Page 1/2
Rank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdfRank = 1 Doc Score = 56.583 Doc id = Amiante/70_044.pdf
Réponse N° 1 :Réponse N° 1 :
Question :Question : Quelles sont les consignes de sécurité pour l’amiante?Quelles sont les consignes de sécurité pour l’amiante?
Document :Document :
Rank = 1 Answer Score = 2356Rank = 1 Answer Score = 2356
19. 1919
CONCLUSION
19
There is a huge amount of historical data to process for dismantling
Our step by step methodology process the data from the more structured to the less
structured and from Document to the final Answer
We have got good results for classifying documents and extracting semi-structured
data as tables and lists
For full text reading and comprehension we achieved very encouraging performance
thanks to the recent advances in deep learning modeling
The main barrier for this last step is the availability of large scale training datasets in
French
We have built a generic French Q&A training dataset from the English SQuAD dataset
and we are now building with our experts a dismantling specific Q&A training dataset