SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
IA & droit - Données d’apprentissage
Le programme Open Law
Au départ…
● Outils de justice “prédictive”
procèdent par extraction : extraction
de montants, de concepts…
● Ambiguités dans les documents
● Pas de solution par des systèmes
de règles
 Conséquence : manque de fiabilité de
ces outils
Au départ…
Au départ…
Au départ…
 Difficulté de désambiguisation : outils de ML fonctionnent à la phrase ou
au paragraphe -> ici, le contexte est exactement le même si on se
cantonne à la phrase ou au paragraphe – besoin de “zoner” les
documents
Le zonage des décisions de justice
Identification des zones d’une
décision de justice :
• référence de la décision attaquée
• présentation des parties, avocats
ou magistrats
• exposé des faits et de la
procédure
• exposé des prétentions des
parties
• argumentation du juge
• exposé de la règle de droit
applicable
• solution..
Le programme Open Law
Le programme IA & droit - données d’apprentissage
Objectif : au travers de ce cas
d’usage, mener un cycle exploratoire
sur la consitution de données
d’apprentissage :
 documenter une méthodologie
 identifier les points d’accroche
 identifier les outils et
compétences nécessaires
-> Apprendre par l’expérimentation –
le motto d’Open Law*, être un do tank
plutôt qu’un think tank !
Les participants
Planning du projet
Définition du besoin - avril 2017
Plan d’annotation - mai-juin 2017
Mise en place : de l’outil - premiers tests -
rédaction des guidelines - mai-juin 2017
Annotation - juin à novembre 2017
Évaluation - septembre à novembre 2017
Exploitation du dataset - novembre 2017 et +
Restitution et livraison des données -
décembre 2017
Evaluation du dataset
Quelques chiffres
62 lots attribués
35 annotateurs
1 lots = 10 docs uniques + 2 docs communs avec un autre lot
407 documents annotés et exploitables
• suppression des annotations trop divergentes ou documents partiellement annotés
• suppression des documents non pertinents (ordonnances de procédure -> suppression
des documents courts)
• [suppression (random) des doublons de l’interagreement]
37 244 paragraphes annotés
24 761 paragraphes annotés et de qualité
• en ne prenant que les sous-catégories (sans les catégories macro)
• en supprimant les types n/a
• en supprimant les lignes ne contenant que de la ponctuation
• en supprimant les lignes avec forte présomption d’erreur d’annotation (divergence type
macro / type)
Evaluation des annotations - Interagreement
• 60 docs comparés
• 7 337 lignes annotations identiques
• 1 124 annotations différentes
Taux acceptable sur un dataset plus gros – ici
nécessité de pouvoir faire des corrections
Contraintes du projet empêchaient de faire se
rencontrer et discuter les annotateurs entre eux
 Solution : supervision centralisée de la qualité du
dataset et évaluation manuelle
Evaluation des annotations – Evaluation manuelle
Retrait des documents « mal » annotés : +/- 50
documents
• Documents annotés seulement en partie
• Absence d’utilisation des sous-catégories du plan :
partie Motifs notamment
• Erreurs de compréhension du plan d’annotation
Correction d’une partie des annotations : erreurs
fréquentes et faciles à corriger
Remarque :
• Annotation toujours incorrecte sans supervision au
départ (crowdsourcing impossible – plan d’annotation
trop complexe, annotateurs bénévoles, absence de
lecture des guidelines)
• Mais avec seulement 1 échange de mails (envoi d’un
document annoté et discussion sur ce document), très
bons résultats
Evaluation du dataset - Représentativité
Géographique : très forte présence des décisions corses (mais vrai aussi dans
Légifrance)
Matérielle : tous contentieux présents, même du pénal (qui ne devrait pas être
présent sur Légifrance)
Types de décisions
Surprise : énorme présence d’ordonnances de procédure dans Légifrance (>20%
des décisions)
Or ces décisions :
• Ne sont pas harmonisées en rédaction
• Ne rentrent donc pas dans les catégories du plan d’annotation
• Et n’ont aucun intérêt sur le fond
Donc essentiellement du bruit pour notre dataset : suppression de ces décisions
Le dataset – 500+ décisions
Premiers tests de classification – analyse par catégorie
Remarque : pour un descriptif métier du contenu de chaque catégorie, se
reporter au guide de prise en main disponible ici :
https://github.com/pommedeterresautee/iaetdroit
Catégories macro :
• Entête
• Exposé du litige
• Motifs
• Dispositif
Analyse par catégorie – sous-catégories
Catégories à utiliser en l’état :
• References_decision_attaquee
• Entete_composition_de_la_cour
• Moyens_et_pretentions_appelant
• Moyens_et_pretentions_intime
• Motif-demandes_accessoires
• Dispositif-demandes_accessoires
• Entete_avocat
• Entete_appelant
• Entete_intimé
Remarque : il pourra être éventuellement intéressant de regrouper ces trois
dernières catégories pour un meilleur résultats (problèmes d’absence de sauts de
lignes dans les données qui rendent souvent difficile la distinction)
Analyse par catégorie – sous-catégories
Catégories à regrouper pour un meilleur résultat ou pour des visions transverses
des fichiers (déjà proposé dans le csv fourni) :
• Faits_et_procedure / Faits / Procedure -> une catégorie unique Faits_et_procedure
• Motif-1 / Motif-1_faits / Motif-1_texte / Motif-1_pretentions_appelant / Motif-
1_pretentions_intime -> une catégorie unique Motif-1
• Motif-2 / Motif-2_faits / Motif-2_texte / Motif-2_pretentions_appelant / Motif-
2_pretentions_intime -> une catégorie unique Motif-2
• Motif-3 / Motif-3_faits / Motif-3_texte / Motif-3_pretentions_appelant / Motif-
3_pretentions_intime -> une catégorie unique Motif-3
Analyse par catégorie – sous-catégories
Catégories à regrouper pour un meilleur résultat ou pour des visions transverses
des fichiers (déjà proposé dans le csv fourni) – suite :
• Motif-1 / Motif-2 / Motif-3 -> une catégorie unique Motif-juge
• Motif-1_faits / Motif-2_faits / Motif-3_faits -> une catégorie unique Motif-faits
• Motif-1_texte / Motif-2_texte / Motif-3_texte -> une catégorie unique Motif-
regle_de_droit
• Motif-1_pretentions_appelant / Motif-2_pretentions_appelant / Motif-
3_pretentions_appelant -> une catégorie unique Motif-pretentions_appelant
• Motif-1_pretentions_intime / Motif-2_pretentions_intime / Motif-3_pretentions_intime
-> une catégorie unique Motif-pretentions_intime
Analyse par catégorie – sous-catégories
Catégories à ignorer (pas assez d’annotations / résultats incohérents) :
• Moyens_et_pretentions_des_parties (déjà supprimé dans le csv fourni)
• Dispositif 1
• Dispositif 2
• Dispositif 3
Exploitation du dataset
Usages attendus… en attendant plus !
- Affichage du plan des décisions
- Moteur de faits
- Chaînage des décisions
- Extraction de montants
- Rapprochement de décisions sur la
base de la règle de droit
- Tri des pourvois pour attribution aux
chambres de la Cour de cassation
- Evaluation de la rédaction des
décisions…
Autres données juridiques : contrats,
conventions collectives, appels d’offres...
Hackathon Village de la legaltech
Regrouper les décisions ayant le
même fondement juridique
Améliorer la lisibilité des décisions
de justice
Créer des études d’impact pour le
législateur
Intégrer un processus de zonage
en amont – lors de la rédaction de
la décision
Les enseignements méthodologiques et éthique
sur la constitution de jeux de données
d’apprentissage
Restitutions
Enjeux méthodologiques
Maître-mot : adaptation du dataset au projet et de la méthodologie aux
contraintes imposées
un projet prévoyant une tâche longue et pénible et nécessitant un haut
niveau d’expertise sur un outil difficile à manipuler sera voué à l’échec,
car il sera impossible de trouver les utilisateurs ultra-experts,
disponibles et motivés pour la tâche (même en les payant)
En fonction du projet envisagé et de ses contraintes, il faudra donc
trouver le meilleur équilibre entre :
- le niveau de complexité du plan d’annotation ;
- le niveau d’expertise et la disponibilité des annotateurs ;
- la qualité de l’outil d’annotation ;
- la possibilité d’automatiser une partie des annotations.
A noter : on pourra subdiviser le projet en plusieurs sous-tâches de
complexités différentes.
Enjeux éthiques – les erreurs à ne pas commettre
Evaluation des annotations :
• en droit français, pas de volumes suffisant pour lisser les
biais induits par les erreurs d’annotation
 Mécanisme de contrôle : générer un dialogue entre les
annotateurs est la meilleure méthode
Enjeux éthiques – les erreurs à ne pas commettre
Evaluation du dataset : s’assurer de la représentativité
du dataset
• Temporelle (éviter les erreurs liées à des
modifications de comportement des données dans le
temps)
• Géographique
• Matérielle
 Mécanismes de contrôle : s’assurer au début du
projet de notre bonne connaissance des données à
enrichir pour pouvoir effectuer un contrôle statistique
Enjeux éthiques – les erreurs à ne pas commettre
Evaluation des données brutes : s’assurer de l’existence de
données brutes pertinentes pour mener le projet souhaité :
• Absence de trous dans les données
• Capacité d’alignement des données (si plusieurs jeux)
• Stabilité des données (notamment dans le temps)
 Mécanismes de contrôle : métier
Table ronde – échanges croisés avec le domaine
de la recherche et celui de la santé
Claude Kirchner
Président du Comité opérationnel d'évaluation des risques légaux et
éthiques, INRIA
Depuis 2008, Inria dispose d’une instance dédiée à l’accompagnement des acteurs
de la recherche dans l’évaluation des enjeux légaux et éthiques auxquels ils ont
confrontés. Au cas par cas, le Coerle oriente la direction d’Inria et les équipes de
recherche grâce à un comité de 9 experts, chargés de résoudre les problématiques
éthiques de l’institut.
Olivier de Fresnoye
Co-coordinateur du Programme Epidemium
Epidemium est un programme de recherche scientifique participatif et ouvert dédié
à la compréhension du cancer grâce aux Big data qui se concrétisera sous la forme
d’un Challenge4Cancer (C4C). Il s'agit d'identifier les grands enjeux et les
opportunités des big data appliqués à l’onco-épidémiologie et de rassembler un
volume inédit de jeux de données ouverts – open data - et hétérogènes. Un appel à
projets innovants est maintenant lancé sur la base des données, des méthodologies
et des outils mis à la disposition des participants, tout en garantissant le respect des
règles éthiques et juridiques, sensibles et complexes dans ce contexte.

Contenu connexe

Similaire à i.a et droit - données d'apprentissage - village de la legaltech

Automatisation des tests - objectifs et concepts - partie 2
Automatisation des tests  - objectifs et concepts - partie 2Automatisation des tests  - objectifs et concepts - partie 2
Automatisation des tests - objectifs et concepts - partie 2Christophe Rochefolle
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptmarocdakhla135
 
Modélisation de données pour MongoDB
Modélisation de données pour MongoDBModélisation de données pour MongoDB
Modélisation de données pour MongoDBMongoDB
 
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...MONA
 
Gouvernance des projets SharePoint 2013
Gouvernance des projets SharePoint 2013Gouvernance des projets SharePoint 2013
Gouvernance des projets SharePoint 2013Alexandre David
 
12-Cours de Géniel Logiciel
12-Cours de Géniel Logiciel12-Cours de Géniel Logiciel
12-Cours de Géniel Logiciellauraty3204
 
Comment intégrer un système d’information et de gestion des ressources sirh
Comment intégrer un système d’information et de gestion des ressources sirhComment intégrer un système d’information et de gestion des ressources sirh
Comment intégrer un système d’information et de gestion des ressources sirhAsso Asah
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna Borgi
 
La documentation du système d'information
La documentation du système d'informationLa documentation du système d'information
La documentation du système d'informationChiheb Ouaghlani
 
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfSYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfDhiaeddineabdelli
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégiquebenj_2
 
Gpao 2 Système d’information de la production
Gpao 2 Système d’information de la productionGpao 2 Système d’information de la production
Gpao 2 Système d’information de la productionibtissam el hassani
 
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...Du capteur à l'amélioration de procédés - Opportunités du machine learning po...
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...Mathieu Goeminne
 
2.presentation merise
2.presentation merise2.presentation merise
2.presentation meriseshaheenyaar
 

Similaire à i.a et droit - données d'apprentissage - village de la legaltech (20)

Solutions Linux 2008 - ECOS
Solutions Linux 2008 - ECOSSolutions Linux 2008 - ECOS
Solutions Linux 2008 - ECOS
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Ohresser
OhresserOhresser
Ohresser
 
Séance 3.pptx
Séance 3.pptxSéance 3.pptx
Séance 3.pptx
 
Automatisation des tests - objectifs et concepts - partie 2
Automatisation des tests  - objectifs et concepts - partie 2Automatisation des tests  - objectifs et concepts - partie 2
Automatisation des tests - objectifs et concepts - partie 2
 
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.pptBD_Decisionnel_fin-2020tjtgenieindustriel.ppt
BD_Decisionnel_fin-2020tjtgenieindustriel.ppt
 
Modélisation de données pour MongoDB
Modélisation de données pour MongoDBModélisation de données pour MongoDB
Modélisation de données pour MongoDB
 
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
 
SI_MCC_2020_21.pptx
SI_MCC_2020_21.pptxSI_MCC_2020_21.pptx
SI_MCC_2020_21.pptx
 
Gouvernance des projets SharePoint 2013
Gouvernance des projets SharePoint 2013Gouvernance des projets SharePoint 2013
Gouvernance des projets SharePoint 2013
 
12-Cours de Géniel Logiciel
12-Cours de Géniel Logiciel12-Cours de Géniel Logiciel
12-Cours de Géniel Logiciel
 
Comment intégrer un système d’information et de gestion des ressources sirh
Comment intégrer un système d’information et de gestion des ressources sirhComment intégrer un système d’information et de gestion des ressources sirh
Comment intégrer un système d’information et de gestion des ressources sirh
 
Assurance qualité
Assurance qualitéAssurance qualité
Assurance qualité
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
La documentation du système d'information
La documentation du système d'informationLa documentation du système d'information
La documentation du système d'information
 
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfSYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
 
Veilleur stratégique
Veilleur stratégiqueVeilleur stratégique
Veilleur stratégique
 
Gpao 2 Système d’information de la production
Gpao 2 Système d’information de la productionGpao 2 Système d’information de la production
Gpao 2 Système d’information de la production
 
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...Du capteur à l'amélioration de procédés - Opportunités du machine learning po...
Du capteur à l'amélioration de procédés - Opportunités du machine learning po...
 
2.presentation merise
2.presentation merise2.presentation merise
2.presentation merise
 

i.a et droit - données d'apprentissage - village de la legaltech

  • 1. IA & droit - Données d’apprentissage
  • 3. Au départ… ● Outils de justice “prédictive” procèdent par extraction : extraction de montants, de concepts… ● Ambiguités dans les documents ● Pas de solution par des systèmes de règles  Conséquence : manque de fiabilité de ces outils
  • 6. Au départ…  Difficulté de désambiguisation : outils de ML fonctionnent à la phrase ou au paragraphe -> ici, le contexte est exactement le même si on se cantonne à la phrase ou au paragraphe – besoin de “zoner” les documents
  • 7. Le zonage des décisions de justice Identification des zones d’une décision de justice : • référence de la décision attaquée • présentation des parties, avocats ou magistrats • exposé des faits et de la procédure • exposé des prétentions des parties • argumentation du juge • exposé de la règle de droit applicable • solution..
  • 9. Le programme IA & droit - données d’apprentissage Objectif : au travers de ce cas d’usage, mener un cycle exploratoire sur la consitution de données d’apprentissage :  documenter une méthodologie  identifier les points d’accroche  identifier les outils et compétences nécessaires -> Apprendre par l’expérimentation – le motto d’Open Law*, être un do tank plutôt qu’un think tank !
  • 11. Planning du projet Définition du besoin - avril 2017 Plan d’annotation - mai-juin 2017 Mise en place : de l’outil - premiers tests - rédaction des guidelines - mai-juin 2017 Annotation - juin à novembre 2017 Évaluation - septembre à novembre 2017 Exploitation du dataset - novembre 2017 et + Restitution et livraison des données - décembre 2017
  • 13. Quelques chiffres 62 lots attribués 35 annotateurs 1 lots = 10 docs uniques + 2 docs communs avec un autre lot 407 documents annotés et exploitables • suppression des annotations trop divergentes ou documents partiellement annotés • suppression des documents non pertinents (ordonnances de procédure -> suppression des documents courts) • [suppression (random) des doublons de l’interagreement] 37 244 paragraphes annotés 24 761 paragraphes annotés et de qualité • en ne prenant que les sous-catégories (sans les catégories macro) • en supprimant les types n/a • en supprimant les lignes ne contenant que de la ponctuation • en supprimant les lignes avec forte présomption d’erreur d’annotation (divergence type macro / type)
  • 14. Evaluation des annotations - Interagreement • 60 docs comparés • 7 337 lignes annotations identiques • 1 124 annotations différentes Taux acceptable sur un dataset plus gros – ici nécessité de pouvoir faire des corrections Contraintes du projet empêchaient de faire se rencontrer et discuter les annotateurs entre eux  Solution : supervision centralisée de la qualité du dataset et évaluation manuelle
  • 15. Evaluation des annotations – Evaluation manuelle Retrait des documents « mal » annotés : +/- 50 documents • Documents annotés seulement en partie • Absence d’utilisation des sous-catégories du plan : partie Motifs notamment • Erreurs de compréhension du plan d’annotation Correction d’une partie des annotations : erreurs fréquentes et faciles à corriger Remarque : • Annotation toujours incorrecte sans supervision au départ (crowdsourcing impossible – plan d’annotation trop complexe, annotateurs bénévoles, absence de lecture des guidelines) • Mais avec seulement 1 échange de mails (envoi d’un document annoté et discussion sur ce document), très bons résultats
  • 16. Evaluation du dataset - Représentativité Géographique : très forte présence des décisions corses (mais vrai aussi dans Légifrance) Matérielle : tous contentieux présents, même du pénal (qui ne devrait pas être présent sur Légifrance) Types de décisions Surprise : énorme présence d’ordonnances de procédure dans Légifrance (>20% des décisions) Or ces décisions : • Ne sont pas harmonisées en rédaction • Ne rentrent donc pas dans les catégories du plan d’annotation • Et n’ont aucun intérêt sur le fond Donc essentiellement du bruit pour notre dataset : suppression de ces décisions
  • 17. Le dataset – 500+ décisions
  • 18. Premiers tests de classification – analyse par catégorie Remarque : pour un descriptif métier du contenu de chaque catégorie, se reporter au guide de prise en main disponible ici : https://github.com/pommedeterresautee/iaetdroit Catégories macro : • Entête • Exposé du litige • Motifs • Dispositif
  • 19. Analyse par catégorie – sous-catégories Catégories à utiliser en l’état : • References_decision_attaquee • Entete_composition_de_la_cour • Moyens_et_pretentions_appelant • Moyens_et_pretentions_intime • Motif-demandes_accessoires • Dispositif-demandes_accessoires • Entete_avocat • Entete_appelant • Entete_intimé Remarque : il pourra être éventuellement intéressant de regrouper ces trois dernières catégories pour un meilleur résultats (problèmes d’absence de sauts de lignes dans les données qui rendent souvent difficile la distinction)
  • 20. Analyse par catégorie – sous-catégories Catégories à regrouper pour un meilleur résultat ou pour des visions transverses des fichiers (déjà proposé dans le csv fourni) : • Faits_et_procedure / Faits / Procedure -> une catégorie unique Faits_et_procedure • Motif-1 / Motif-1_faits / Motif-1_texte / Motif-1_pretentions_appelant / Motif- 1_pretentions_intime -> une catégorie unique Motif-1 • Motif-2 / Motif-2_faits / Motif-2_texte / Motif-2_pretentions_appelant / Motif- 2_pretentions_intime -> une catégorie unique Motif-2 • Motif-3 / Motif-3_faits / Motif-3_texte / Motif-3_pretentions_appelant / Motif- 3_pretentions_intime -> une catégorie unique Motif-3
  • 21. Analyse par catégorie – sous-catégories Catégories à regrouper pour un meilleur résultat ou pour des visions transverses des fichiers (déjà proposé dans le csv fourni) – suite : • Motif-1 / Motif-2 / Motif-3 -> une catégorie unique Motif-juge • Motif-1_faits / Motif-2_faits / Motif-3_faits -> une catégorie unique Motif-faits • Motif-1_texte / Motif-2_texte / Motif-3_texte -> une catégorie unique Motif- regle_de_droit • Motif-1_pretentions_appelant / Motif-2_pretentions_appelant / Motif- 3_pretentions_appelant -> une catégorie unique Motif-pretentions_appelant • Motif-1_pretentions_intime / Motif-2_pretentions_intime / Motif-3_pretentions_intime -> une catégorie unique Motif-pretentions_intime
  • 22. Analyse par catégorie – sous-catégories Catégories à ignorer (pas assez d’annotations / résultats incohérents) : • Moyens_et_pretentions_des_parties (déjà supprimé dans le csv fourni) • Dispositif 1 • Dispositif 2 • Dispositif 3
  • 24. Usages attendus… en attendant plus ! - Affichage du plan des décisions - Moteur de faits - Chaînage des décisions - Extraction de montants - Rapprochement de décisions sur la base de la règle de droit - Tri des pourvois pour attribution aux chambres de la Cour de cassation - Evaluation de la rédaction des décisions… Autres données juridiques : contrats, conventions collectives, appels d’offres...
  • 25. Hackathon Village de la legaltech Regrouper les décisions ayant le même fondement juridique Améliorer la lisibilité des décisions de justice Créer des études d’impact pour le législateur Intégrer un processus de zonage en amont – lors de la rédaction de la décision
  • 26. Les enseignements méthodologiques et éthique sur la constitution de jeux de données d’apprentissage
  • 28. Enjeux méthodologiques Maître-mot : adaptation du dataset au projet et de la méthodologie aux contraintes imposées un projet prévoyant une tâche longue et pénible et nécessitant un haut niveau d’expertise sur un outil difficile à manipuler sera voué à l’échec, car il sera impossible de trouver les utilisateurs ultra-experts, disponibles et motivés pour la tâche (même en les payant) En fonction du projet envisagé et de ses contraintes, il faudra donc trouver le meilleur équilibre entre : - le niveau de complexité du plan d’annotation ; - le niveau d’expertise et la disponibilité des annotateurs ; - la qualité de l’outil d’annotation ; - la possibilité d’automatiser une partie des annotations. A noter : on pourra subdiviser le projet en plusieurs sous-tâches de complexités différentes.
  • 29. Enjeux éthiques – les erreurs à ne pas commettre Evaluation des annotations : • en droit français, pas de volumes suffisant pour lisser les biais induits par les erreurs d’annotation  Mécanisme de contrôle : générer un dialogue entre les annotateurs est la meilleure méthode
  • 30. Enjeux éthiques – les erreurs à ne pas commettre Evaluation du dataset : s’assurer de la représentativité du dataset • Temporelle (éviter les erreurs liées à des modifications de comportement des données dans le temps) • Géographique • Matérielle  Mécanismes de contrôle : s’assurer au début du projet de notre bonne connaissance des données à enrichir pour pouvoir effectuer un contrôle statistique
  • 31. Enjeux éthiques – les erreurs à ne pas commettre Evaluation des données brutes : s’assurer de l’existence de données brutes pertinentes pour mener le projet souhaité : • Absence de trous dans les données • Capacité d’alignement des données (si plusieurs jeux) • Stabilité des données (notamment dans le temps)  Mécanismes de contrôle : métier
  • 32. Table ronde – échanges croisés avec le domaine de la recherche et celui de la santé
  • 33. Claude Kirchner Président du Comité opérationnel d'évaluation des risques légaux et éthiques, INRIA Depuis 2008, Inria dispose d’une instance dédiée à l’accompagnement des acteurs de la recherche dans l’évaluation des enjeux légaux et éthiques auxquels ils ont confrontés. Au cas par cas, le Coerle oriente la direction d’Inria et les équipes de recherche grâce à un comité de 9 experts, chargés de résoudre les problématiques éthiques de l’institut.
  • 34. Olivier de Fresnoye Co-coordinateur du Programme Epidemium Epidemium est un programme de recherche scientifique participatif et ouvert dédié à la compréhension du cancer grâce aux Big data qui se concrétisera sous la forme d’un Challenge4Cancer (C4C). Il s'agit d'identifier les grands enjeux et les opportunités des big data appliqués à l’onco-épidémiologie et de rassembler un volume inédit de jeux de données ouverts – open data - et hétérogènes. Un appel à projets innovants est maintenant lancé sur la base des données, des méthodologies et des outils mis à la disposition des participants, tout en garantissant le respect des règles éthiques et juridiques, sensibles et complexes dans ce contexte.