Il y a 2 ans, le document understanding était commercialisé.
Mais qu'est-ce que c'est concrètement, et pourquoi ça vaut le coup de s'y intéresser ?
On va découvrir ensemble ce que c'est.
Speakers:
👨🏽💻 Reda Marzouk, UiPath MVP 2022, RPA & AI Senior Developer @Ginini Antipode
👨🏽💻 Abdelaziz Zaiter, UiPath MVP 2022, RPA Consultant @Capgemini
👨🏽💻 Franck Mongo, Intelligent Automation Specialist @Boundaryless Group
2. 2
C2 - Restricted
Présentation de UiPath France
Community
On recrute dans la communauté !!
Remerciements à l’équipe
organisatrice, notamment big up à
Cristina VIDU
3. 3
C2 - Restricted
Franck MONGO
Intelligent Automation Consultant
Boundaryless Group
Reda MARZOUK
RPA & AI Senior Developer
Ginini Antipode
Abdelaziz Zaiter
RPA Consultant
Capgemini
Tour de table
Speakers
Hiba Beldi
Chapter Leader
UiPath
4. 4
C2 - Restricted
-Introduction sur le DU
-DU en detail: comment ça fonctionne ? (théorie)
-Démonstration (expérimentons !)
-Pour aller plus loin:
• Action Center
• AI Center (qui inclut anciennement AI Fabric)
• Document Understanding Framework
Sommaire
6. 6
C2 - Restricted
Packages (librairies) à installer
UiPath.DocumentUnderstanding.ML.Activities
UiPath.IntelligentOCR.Activities
Pour les OCR (optionnel, vous pouvez plug le vôtre:)
UiPath.OCR.Activities ou UiPath.OmniPage.Activities
Prérequis techniques
8. 8
C2 - Restricted
Fichier json qui se créé.
Objectif: une ligne = 1 type de document = n mots-clés
que le développeur désigne par type de document
1ère étape: Créer une
Taxonomie (taxonomy)
9. 9
C2 - Restricted
On utilise tout simplement l’activité qui existe.
En sortie, une variable qui agit comme un dictionnaire.
2e étape: Charger la taxonomie
10. 10
C2 - Restricted
On digitalise le fichier et on en extrait dans un json virtuel
des informations, puis on passe l’OCR sur le fichier
3e étape: Digitaliser
11. 11
C2 - Restricted
Le bot va récupérer (par priorité de gauche à droite):
- le réseau de neurone entraîné (appelé via Intelligent Keyboard
Classifier activity avec l’API)
- Et la taxonomie créée à la main (voir étape 1)
De cela, il va établir un pourcentage de ressemblance entre le
document qu’on souhaite analyser et le type de document déclarés via
la taxonomie.
Classifier n’est pas obligatoire: ça ne sert que si en entrée on met
plusieurs documents différents.
4e étape: Classifier
12. 12
C2 - Restricted
Dans la classification, si le réseau de neurone ignore ce qu’est le document, il faut le ré-entraîner pour que la
prochaine fois le réseau sache.
Pour faire apprendre un bot, on lui met le chemin vers les données, et on le redirige vers le réseau de neurone qu’il
doit mettre à jour et utiliser pour les prochaines fois. Le réseau de neurone cherche alors les ressemblances entre
les données nouvelles et anciennes, et met à jour ses mots-clefs et leur poids en conséquence.
Du point de vue du développeur, il faut estimer le pourcentage de confiance de classification de la machine en
fonction du process.
Ex: si on est > 0,66 alors il s’agit d’une facture, en-dessous on préfère faire valider à l’utilisateur et réentraîner.
5e étape: Faire apprendre, ré-
entraîner
13. 13
C2 - Restricted
Même si on sait quel type de document il s’agit, il faut réussir à récupérer les données associées.
C’est le rôle de Data Extraction Scope.
Liste des endpoints disponibles: Public Endpoints (uipath.com)
6e étape: Récupérer la donnée
intéressante
14. 14
C2 - Restricted
Il y a alors un autre pourcentage qui rentre en compte. Chaque donnée à extraire a un pourcentage de
reconnaissance dédié.
Si on est en-dessous de ce pourcentage de confiance d’extraction (ex: <0.66), le robot demande une vérification à
l’utilisateur. La station de validation s’ouvre si on l’ajoute dans le code.
- En attended, la station de validation met en valeur les données qu’elle a réussi à reconnaître, mais dont le nombre
n’est pas suffisant pour permettre de passer > 0,66. Le bot se bloque et attend l’action d’un utilisateur pour surligner
d’autres données, ou les rectifier.
- En unattended, la station de validation permet de s’ouvrir sous forme de tâche, sans bloquer le processus,
directement sur Orchestrator.
7e étape: Valider l’extraction
des données
17. 17
C2 - Restricted
Pour aller plus loin
-Pour aller plus loin:
• Action Center
• AI Center (qui inclut anciennement AI
Fabric)
• Document Understanding Framework