SlideShare une entreprise Scribd logo
Traitement automatique des
données
Gautier Poupeau
gautier.poupeau@gmail.com,
@lespetitescases
http://www.lespetitescases.net
Visite guidée au pays de la donnée
Visite guidée au pays de la donnée
• Introduction et tour d’horizon
• Traitement automatique des données
Série de présentations pour faire le tour de la gestion des données à
l’ère du Big data, du Cloud et de l’intelligence artificielle
Plan de la partie
Déployer un système de traitement automatique
TDM, IA, NLP, ML/DL… De quoi parle-t-on ?
Les principes de l’apprentissage automatique
Outils d’analyse automatique de contenus audiovisuels
TDM, IA, NLP, TAL, ML/DL….
DE QUOI PARLE-T-ON ?
Text & Data Mining – Fouille de données et de textes / Data science
Ensemble de méthodes et d’outils qui vise à extraire
un savoir ou une connaissance à partir d’une grande
masse de données ou de textes
TDM – Text & Data Mining/Fouille de données et de textes – Data Science
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
Ensemble de méthodes et d’outils qui vise à
reproduire par une machine des comportement ou
des tâches des humains
IA – Intelligence artificielle
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
NLP/TAL - Traitement automatique des langues
Domaine qui vise à créer des outils de
traitement de la langue naturelle
NLP – Natural Language Processing = TAL – Traitement automatique des langues
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
Statistiques
NLP/TAL - Traitement automatique des langues
Domaine mathématique qui consiste à recueillir,
traiter et interpréter un ensemble de données
Statistiques
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
Statistiques
ML - Machine Learning - Apprentissage automatique
NLP/TAL - Traitement automatique des langues
Systèmes visant à accomplir des
tâches à partir de
caractéristiques/attributs communs
(patterns) « appris » dans un
ensemble de données d’exemple
Machine learning – Apprentissage automatique
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
Statistiques
ML - Machine Learning - Apprentissage automatique
NLP/TAL - Traitement automatique des langues
Technique d’apprentissage cherchant à
reproduire le mécanisme des réseaux de
neurones du cerveau humain
DL - Deep Learning
Apprentissage profond
Deep Learning – Apprentissage profond
Text & Data Mining – Fouille de données et de textes / Data science
IA – Intelligence artificielle
Robotique
Systèmes experts à base de règles
(ex : système d’aiguillage)
Statistiques
BI - Informatique
décisionnelle
ML - Machine Learning - Apprentissage automatique
Lexicométrie
Calcul de
similarité
NLP/TAL - Traitement automatique des langues
Etiquetage
morpho
syntaxique
Quelques exemples dans les différents domaines
Classification automatique
Système de recommandations
DL - Deep Learning
Apprentissage profond
Tagging d’images
LES PRINCIPES DE
L’APPRENTISSAGE AUTOMATIQUE
https://www.datasciencecentral.com/profiles/blogs/google-tutorial-on-machine-learn
Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam
Programmation
On établit des règles pour déterminer
si le message est un spam ou non
Si le message
contient « Super
loterie » alors le
message est un
spam
Si le message
contient « Ordre
du jour de la
réunion », alors le
message n’est pas
un spam
Spam Non spam
Mais il faut prévoir toutes les règles et les mettre
à jour manuellement
 c’est très fastidieux
Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam
Programmation
On établit des règles pour déterminer
si le message est un spam ou non
On donne à l’algorithme des exemples de
messages spam et non spam
Apprentissage
Si le message
contient « Super
loterie » alors le
message est un
spam
Si le message
contient « Ordre
du jour de la
réunion », alors le
message n’est pas
un spam
Spam Non spam Spam Non spam
Mais il faut prévoir toutes les règles et les mettre
à jour manuellement
 c’est très fastidieux
Le système va repérer automatiquement les
caractéristiques communes des différentes classes et
typer un nouveau message par sa proximité avec l’une
ou l’autre classe
Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam
Programmation
On établit des règles pour déterminer
si le message est un spam ou non
On donne à l’algorithme des exemples de
messages spam et non spam
Apprentissage
Si le message
contient « Super
loterie » alors le
message est un
spam
Si le message
contient « Ordre
du jour de la
réunion », alors le
message n’est pas
un spam
Spam Non spam
Mais il faut prévoir toutes les règles et les mettre
à jour manuellement
 c’est très fastidieux
Spam Non spam
Le système va repérer automatiquement les
caractéristiques communes des différentes classes et
typer un nouveau message par sa proximité avec l’une
ou l’autre classe
Un système d’apprentissage automatique permet de répondre à une question
unique en s’appuyant sur la détection de motifs communs dans les données sources
Des données
Un modèle calculé à partir
d’éléments définis
Classification par apprentissage supervisé
Classe A Classe B
Classe C
Des données
Un modèle calculé à partir
d’éléments définis
Prédire
grâce au modèle
A, B ou C ?
Classification par apprentissage supervisé
Classe A Classe B
Classe C
Des données
Un modèle calculé à partir
d’éléments définis
Prédire
grâce au modèle
A, B ou C ?
Classification par apprentissage supervisé
Classe A Classe B
Classe C
La classification par apprentissage supervisé suppose donc des données déjà classées
d’où l’importance de disposer de référentiels et de données de qualité
Regroupement (clustering) par apprentissage non supervisé
Des données
On détermine
le nombre de
regroupements
à créer
Regroupement (clustering) par apprentissage non supervisé
Des données
Regroupement calculé
automatiquement
On détermine
le nombre de
regroupements
à créer
Regroupement (clustering) par apprentissage non supervisé
Des données
Regroupement calculé
automatiquement
On détermine
le nombre de
regroupements
à créer
Le regroupement par apprentissage non supervisé ne présuppose pas des données
déjà qualifiées mais donne des résultats moins précis que l’apprentissage supervisé
car l’algorithme a choisi lui-même les éléments discriminants entre les regroupements
Prédiction par apprentissage supervisé
Surface Nombre
de pièces
localisation Prix
34 2 Paris X
90 4 Bordeaux Y
34 3 Lyon Z
Des entités dont on détermine des
caractéristiques pertinentes
pour calculer un chiffre
Prédiction par apprentissage supervisé
Surface Nombre
de pièces
localisation Prix
34 2 Paris X
90 4 Bordeaux Y
34 3 Lyon Z
Des entités dont on détermine des
caractéristiques pertinentes
pour calculer un chiffre
Prédiction en comparant les
caractéristiques de l’entité à celles
des données sources
Quel est le prix d’un
appartement de 3 pièces de
60m² à Paris ?
Prédiction par apprentissage supervisé
Surface Nombre
de pièces
localisation Prix
34 2 Paris X
90 4 Bordeaux Y
34 3 Lyon Z
Des entités dont on détermine des
caractéristiques pertinentes
pour calculer un chiffre
Prédiction en comparant les
caractéristiques de l’entité à celles
des données sources
Quel est le prix d’un
appartement de 3 pièces de
60m² à Paris ?
Le corpus d’entraînement doit disposer de cas de figure suffisamment nombreux pour
prédire de manière pertinente d’où l’importance de disposer de données de qualité
Les types de sorties les plus courants d’un système d’apprentissage automatique
Classe A
Classe B
?
?
Classification Regroupement Prédiction
Surface localisation Prix
34 Paris X
90 Bordeaux Y
34 Lyon Z
Prix ?
OUTILS D’ANALYSE AUTOMATIQUE
DE CONTENUS AUDIOVISUELS
IMAGE FIXE OU ANIMÉE
Reconnaissance optique de caractères (OCR)
Objectif : transformer en texte exploitable le contenu textuel d’une image
Exploitation dans Gallica Exploitation dans Himanis
Exploitation de l’OCR pour une vidéo (regroupement du résultat de l’OCR d’une image par seconde)
https://github.com/tesseract-ocr/tesseract
https://github.com/tmbdev/ocropy => https://graal.hypotheses.org/786
Reconnaissance optique de distribution (OLR)
Objectif : identifier les différentes parties cohérentes d’une image
https://bnf.hypotheses.org/208
Principes de l’OLR
Identification des illustrations
Reconnaissance d’images ou d’entités visuelles
http://diginpix.ina.fr/
Objectif : Retrouver une image ou une entité visuelle précise
https://plantnet.org/
On compare les images à analyser à une base (un
dictionnaire) qui contient toutes les images à retrouver
Reconnaissance du logo Perrier
Reconnaissance de « La Liberté guidant le peuple »
Exemples issus du projet Diginpix
Reconnaissance d’images ou d’entités visuelles
http://diginpix.ina.fr/
https://plantnet.org/
Résultat de reconnaissance issue du logiciel Snoop
Image soumise par l’utilisateur à
retrouver dans la base d’images
Images issues de la base d’images et
renvoyées par le système suivant leur
similarité (avérée ou supposée) avec
l’image soumise
Objectif : Retrouver une image ou une entité visuelle précise
Classification d’images
Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie
Phase 1 : Mise au point d’un corpus d’images caractéristiques de chacune des classes qui
composent le modèle pour effectuer l’entraînement
Présentateur
Exemples de classes et d’images pour reconnaître les différentes parties d’un JT
Météo
Reportage
Classification d’images
Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie
https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to
Phase 2 : après entraînement du modèle,
soumission d’une image au modèle
Copie d’écran issue de l’écran de test de Deepomatic
A la différence de la reconnaissance, l’objectif n’est pas de
retrouver une image précise mais de déterminer à quelle
classe appartient une image suivant ses caractéristiques.
Classification d’images
Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie
https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to
Phase 2 : après entraînement du modèle,
soumission d’une image au modèle
Copie d’écran issue de l’écran de test de Deepomatic
Phase 3 : agrégation des résultats pour
visualiser les différentes parties d’un JT
A la différence de la reconnaissance, l’objectif n’est pas de
retrouver une image précise mais de déterminer à quelle
classe appartient une image suivant ses caractéristiques.
Tagging d’images
Objectif : décrire automatiquement le contenu d’une image fixe ou animée.
Cela équivaut à effectuer une classification multi-labels de l’image.
Extrait des Actualités françaises annoté avec
Google Video Intelligence
Annotation géographique automatique d’une photo
avec Google Cloud Vision
La force des services de ce type repose plus sur la pertinence et la volumétrie
de la base d’entraînement que sur le bon fonctionnement des algorithmes.
Mais, en échange du service, ils constituent des boîtes noires non
modifiables.
Détection de formes/objets dans les images
Objectif : identifier et localiser des formes ou des objets dans une image.
Reconnaissance de formes dans une photo
avec Google Cloud Vision
Reconnaissance d’objet dans une vidéo
Découpage des formes dans l’image
Il ne s’agit pas simplement ici d’associer des
mots-clés à l’ensemble de l’image mais bien de
repérer où se situe précisément la forme ou
l’objet dans l’image.
Analyse des visages (ou une application particulière de la reconnaissance d’objets)
Objectif : détecter les visages dans une image et reconnaître/identifier un
visage à partir d’une base de visages
Comparaison de visages simulant le fonctionnement d’une base de visages
avec Amazon Rekognition
Détection de visages avec OpenCV
Identification de visages avec Amazon Rekognition
Détection de visages avec Amazon Rekognition
SON
Analyse de la parole
Objectif : analyser la parole pour la rendre exploitable = détecter le changement de
locuteur (diarisation), transcrire la parole en texte (Speech to text)
Transcription d’une interview dans un JT effectuée avec Vox Sigma de Vocapia
Locuteur A
Locuteur B
La diarisation consiste à détecter les
changements de locuteurs et à déterminer
les différents tours de parole.
Reconnaissance d’un son ou d’une musique
Objectif : Retrouver le même son ou légèrement identique
On enregistre l’habillage sonore de la
publicité dans une base
Exemple de reconnaissance pour identifier les coupures de publicité dans
une journée de programme de LCI
Reconnaissance d’un son ou d’une musique
Objectif : Retrouver le même son ou légèrement identique
On enregistre l’habillage sonore de la
publicité dans une base
On compare le son d’une journée de
programme aux sons de la base
Exemple de reconnaissance pour identifier les coupures de publicité dans
une journée de programme de LCI
Reconnaissance d’un son ou d’une musique
Objectif : Retrouver le même son ou légèrement identique
En agrégeant les résultats, on identifie les coupures de publicité
dans une journée de programme de LCI
On enregistre l’habillage sonore de la
publicité dans une base
On compare le son d’une journée de
programme aux sons de la base
Exemple de reconnaissance pour identifier les coupures de publicité dans
une journée de programme de LCI
Reconnaissance d’un son ou d’une musique
Objectif : Retrouver le même son ou légèrement identique
Identification de morceaux
de musique à partir de
l’écoute d’une partie du
morceau
http://www.gracenote.com/music/music-recognition/
https://www.acrcloud.com/fr/music-recognition
Classification du son
Objectif : classer des sons d’après leurs caractéristiques selon une typologie
(selon le même principe que vu précédemment pour l’image)
https://larevuedesmedias.ina.fr/la-radio-et-la-tele-les-femmes-parlent-deux-fois-moins-que-les-hom
Classification de la musique, des voix d’hommes et de femmes d’une émission de variétés
avec l’outil InaSpeechSegmenter
Identification de la voix
Objectif : identifier la voix d’un locuteur en le comparant à un dictionnaire/base de voix
Copie d’écran issu du projet Speechtrax
Si l’identification de visages dans des bases très larges est possible,
l’identification de voix à large échelle reste encore du domaine de la
recherche.
TEXTE
https://visatm.inist.fr/wp-content/uploads/2019/04/VisaTM_Liste_Outils.pdf
Extraction et identification d’entités nommées
En Corse , il n' y aura peut-être pas de soirées
électorales FR3 Corse est en grève , comme toute la
fonction publique de l' île de Beauté , la grève est
très suivie 75 pourcent des des salariés , il est
paralysé , même si le calme est revenu Françoise
Joly et d' Ajaccio.
C'est ici , dans ce centre de tri d' Ajaccio qu' il y a
quinze jours , les premiers salariés de la fonction
publique se sont mis en grève parce qu' ici on parle
encore avec amertume d' une autre grève ,
[…].
Aujourd'hui , les revendications sont toujours les
mêmes : plus d' argent et c'est le coût de la vie sur l'
île est mise en avant .
[…]
Objectif : extraire automatiquement les entités d’un texte
Françoise Joly
Corse - Ajaccio
Extraction
Identification
Wikidata
La plupart des systèmes d’extraction d’entités nommées se « contente »
de repérer une entité et d’en reconnaître le type. Les services TextRazor
ou Rosette propose d’identifier grâce à Wikidata,
Google Cloud Natural Language propose des liens vers la Wikipedia
anglophone.
Classification automatique
En Corse , il n' y aura peut-être pas de soirées
électorales FR3 Corse est en grève , comme toute la
fonction publique de l' île de Beauté , la grève est très
suivie 75 pourcent des des salariés , il est paralysé ,
même si le calme est revenu Françoise Joly et d'
Ajaccio.
C'est ici , dans ce centre de tri d' Ajaccio qu' il y a
quinze jours , les premiers salariés de la fonction
publique se sont mis en grève parce qu' ici on parle
encore avec amertume d' une autre grève ,
[…].
Aujourd'hui , les revendications sont toujours les
mêmes : plus d' argent et c'est le coût de la vie sur l'
île est mise en avant .
[…]
Economie,
entreprise,
$communication diffusion
traitement information,
condition de travail,
travailleur,
vie économique,
travail,
média
Objectif : associer automatiquement des mots-clés issues d’un référentiel à des
blocs de texte (selon le même principe que vu précédemment pour l’image)
Comme tous les systèmes de classification, il est nécessaire de disposer de
documents déjà classés pour entraîner le système à reconnaître chaque
classe, d’où l’importance disposer de données très bonnes qualités.
Topic modelling
https://numapresse.hypotheses.org/11
Objectif : créer automatiquement des regroupements (clusters) de documents par
l’analyse statistique de leur vocabulaire
Répartition des différents sujets sur les pages
du journal Le Matin du 1er
janvier 1905
calculées à partir de regroupements au
préalable repérés automatiquement puis
étiquetés manuellement
Regroupements trouvés automatiquement
puis étiquetés manuellement à partir des
romans de la première moitié du XIXe
numérisés sur Gallica
https://scoms.hypotheses.org/
Mise en relation automatique par calcul de similarité des contenus
Objectif : mettre en relation des documents en fonction de leur similarité de
contenu (métadonnées ou textes)
Copies d’écran montrant la recommandation de vidéos d’Ina.fr à partir d’une vidéo source
par calcul de similarité basé sur les métadonnées
Mise en relation automatique par calcul de similarité des contenus
Objectif : mettre en relation des documents en fonction de leur similarité de
contenu (métadonnées ou textes)
Copies d’écran du projet Flux d’actus qui vise à mettre en relation automatiquement les
fonds de l’Ina avec des événements d’actualité fournis par le service NewsInnov
Mise en relation automatique par analyse des comportements des utilisateurs
Objectif : mettre en relation des documents en fonction du comportement des
utilisateurs
Copie d’écran de Netflix dont l’algorithme
de recommandation a fait la renommée
Copie d’écran
d’Amazon
http://www.lespetitescases.net/de-la-responsabilite-humaine-des-algorithmes
Réponse à des questions posées en langage naturel
Objectif : répondre automatiquement à des questions posées en langage naturel à
partir de phrases de documents analysées
Résultat du
Stanford Question Answering Dataset (SQUAD)
qui propose un test composé de 100 000
questions dont les réponses sont dans un
ensemble d’articles de Wikipédia
Copie d’écran d’une réponse de Google à une
question posée en langage naturel.
Il met en avant une réponse contenue dans
une page Web.
DÉPLOYER UN SYSTÈME DE
TRAITEMENT AUTOMATIQUE
GUIDE DES DIFFÉRENTS OUTILS
Les différents outils pour déployer un système
d’apprentissage automatique
Complexité
Souplesse
Data scientist Data engineer Data analyst
Des bibliothèques Open Source à implémenter par des data scientists à des APIs clés en main
faciles à utiliser mais sans possibilité d’interventions sur l’algorithme ou le modèle, il existe un
grand panel d’outils pour déployer un système d’apprentissage automatique.
Clé en main
Non adaptable
Bibliothèques Plateforme Studio
API
clé en main
Développeur
Environnement
de calcul
Les bibliothèques
Toutes les bibliothèques ou frameworks pour développer un système d’apprentissage
automatique sont disponibles en Open Source. Elles ont été initiées par les GAFAM ou le
monde de la recherche universitaire. L’IA acte définitivement le fait que ce n’est pas le code qui
a de la valeur économique intrinsèque mais le service offert autour…
Traitement du
langage naturel (NLP)
Machine Learning (ML) Deep Learning (DL)
NLTK (Python)
Stanford Core NLP (Java)
Gate (java)
Spacy (Python)
AllenNLP (Python, C++)
basé sur PyTorch
Apache OpenNLP (Java)
Apache Spark Mllib (Java,
Scala, Python, R)
Scikit learn (Python)
XGBoost (C++, Python, R, Java,
Scala, Julia)
Apache Mahout (Scala, Java)
Microsoft Cognitive Toolkit
(Python, C#, C++) maintenue par
Microsoft
Tensor Flow/Keras (Python, C,
C++, Go, Java, Javascript, swift)
maintenue par Google
PyTorch (Python, C++) issue de
Facebook
Cafee (C++, Python)
Theano (Python)
Environnement de calcul dans le cloud
Les calculs nécessaires pour entraîner un modèle peuvent demander des ressources machines
conséquentes. Les services « Cloud » offrent l’environnement et la puissance de calcul
nécessaires à la phase d’entraînement et/ou de prédiction.
Préparation des
données
Développemen
t du modèle
Entraînement,
évaluation et
réglages du
modèle
Déploiement
du modèle
entraîné
Calcul des
prédictions
Supervision
des prédictions
Gestion des
modèles et de
leurs versions
Etape non prise en
charge par les
environnements
Etape prise en charge
par les environnements
Processus d’implémentation d’un système d’apprentissage automatique
Google cloud Machine Learning Engine, Amazon Sage Maker,
Microsoft Azure Machine Learning Service, IBM Watson Machine Learning
Plateformes
Les plateformes permettent aux data scientists ou aux data engineers de construire facilement
(souvent via des interfaces graphiques) des chaînes de traitement pour préparer les données,
développer le modèle, effectuer l’entraînement, déployer et exploiter le modèle.
Dataiku, Knime, Rapid Miner, Azure Machine Learning Studio, H2O.ai, IBM Watson Studio
Visualisation d’une chaîne de traitement dans le
logiciel Kime pour entraîner un modèle avec le
framework Keras
Ecran de Dataiku permettant d’évaluer les différents
modèles calculées en fonction de la configuration de
l’entraînement : algorithme et paramètres
Magic quadrant for Data Science and Machine Learning platforms
Studios
Les studios permettent à des personnes n’ayant aucune connaissance de programmation de
mettre au point et déployer des modèles à partir d’interfaces graphiques simples à prendre
en main. L’objectif est de rendre le plus accessible possible l’apprentissage automatique.
Google Cloud AutoML (texte, traduction, image fixe et animée, données structurées),
Deepomatic (image fixe et animée), BigML (texte, données structurées), Antidot (texte), Clarifai
(image fixe et animée)
https://www.slideshare.net/AxeldeRomblay/how-to-automate-machine-learning-pipeline
Interface listant les images liées à une classe
Matrice de confusion pour évaluer la
pertinence du modèle
Copies d’écrans issues du Studio de la société Deepomatic
APIs clés en main
Les APIs clés en main permettent de disposer de résultats de traitement automatique en se
contentant de soumettre les contenus à analyser à des APIs Web. Elles proposent donc des
fonctionnalités et/ou des modèles très génériques. Elles servent bien souvent de produits
d’appel ou de démonstrateurs des possibilités technologiques des fournisseurs.
Amazon Google IBM Watson Microsoft Azure
Speech to text Amazon TranscribeGoogle Cloud Speech To textIBM Watson Speech to TextSpeech Services
Text to Speech Amazon Polly Google Cloud Text-to-SpeechIBM Watson Text to SpeechSpeech Services
Vérification de locuteur Speaker recognition
Identification de locuteur Speaker recognition
Analyse du son
Amazon TranslateGoogle Cloud TranslationIBM Watson Language TranslatorMicrosoft translator
Traduction automatique X X X X
Analyse du texte
APIs clés en main
Rosette Amazon Comprehend Google Cloud Natural LanguageMonkeyLearn
Analyse morpho-syntaxique X X X
Détection de la langue X X X
Extraction d’entités nommées X X X X
Identification d’entités nommées X X
Extraction des relations entre entités
nommées
X
Extraction d'entités personnalisées X X X
Extraction de mots-clés du texte X X X
Détection de concepts X
Classifieur "universel" X
Classification personnalisée X X X X
Extraction de relation X
Analyse des sentiments X X X X
Calcul de similarité X
Topic Modelling X
Analyse du texte
APIs clés en main
TextRazor IBM Watson Natural Language Understanding
Microsoft Azure
Cognitive Services
Analyse morpho-syntaxique
Détection de la langue X
Extraction d’entités nommées X X X
Identification d’entités nommées X X
Extraction des relations entre entités
nommées
X
Extraction d'entités personnalisées
Extraction de mots-clés du texte X X
Détection de concepts X X
Classifieur "universel" X X
Classification personnalisée X
Extraction de relation X
Analyse des sentiments X X
Calcul de similarité
Topic Modelling
Analyse du texte
APIs clés en main
Amazon
Rekognition
Google Cloud
Vision
IBM Watson Visual
Recognition
Microsoft
Azure
Détection d’objets X X X X
Détection de scènes X X
Détection d’images inappropriées X X
Classifieur « universel » X X
Détection de logos X
Détection de points de repères
géographiques
X X
Détection de visage X X X X
Analyse du visage X X X
Reconnaissance de célébrités X X
Reconnaissance faciale personnalisée X X
OCR X X X
Analyse de l’image fixe
APIs clés en main
Amazon
Rekognition
Google Cloud Video
Intelligence
Microsoft Azure
Détection d’objets X X
Détection de scènes X X
Détection d’images inappropriées X X
Classifieur « universel » X X
Détection de changement de plans X
Détection de visage X X
Analyse du visage X
Reconnaissance de célébrités X
Reconnaissance faciale personnalisée X
OCR X
Analyse de l’image animée
UN PEU DE MÉTHODOLOGIE
Evaluation des systèmes
Faux négatifs: ce sont les documents pertinents qui ne sont
pas inclus dans le résultat.
Faux positifs: ce sont les résultats non pertinents inclus dans le
résultat; ils ont été sélectionnés à tort.
 Tout l’enjeu est de trouver le juste milieu entre le bruit et le silence en jouant sur
Précision
La précision mesure la fraction des vrais
positifs dans un résultat. Une précision de
1 correspond à l’absence totale de faux
positifs. Une précision nulle indique un
résultat ne contenant aucun document
pertinent.
Rappel
Le rappel mesure la fraction de faux
négatifs.
Pour évaluer les systèmes automatiques, il est nécessaire de mettre au point des corpus de
tests dont les résultats, vérifiés au préalable, sont comparés à ceux du système.
Calcul du
modèle
Test du
modèle
Evaluation
des résultats
Mise au point du
corpus
d’entraînement
Processus de travail
Objectifs
métier
Evaluation
du projet
Mise en
production
Cette partie du
travail doit être
effectué par une
personne
possédant une
très bonne
connaissance des
données métiers
et du résultat
attendu en
relation avec un
spécialiste de la
donnée
Cette partie du travail
doit être effectué par
une personne
spécialiste de la
donnée : data
scientist ou data
engineer en fonction
des outils utilisés (cf.
ci-dessus) en relation
avec la personne
possédant les
connaissances
« métier ».
Relation et cohérence entre les données
(Méta)données
Contenu
Données extraites
Traces
Référentiel
Mise en relation de contenus
Contributions
Il est absolument indispensable de penser la relation et la cohérence entre les données générés
automatiquement et les données gérées selon les processus plus « standards ».
Check list avant de commencer
1. Maîtrisez-vous les données que vous allez utiliser pour mettre au
point vos systèmes de traitement automatique ?
2. Vos données sont-elles de qualité ou a minima propres ?
3. Possédez-vous l’infrastructure nécessaire pour calculer le
modèle ? Pour lancer les traitements ? Pour effectuer les
prédictions ?
4. Possédez-vous l’infrastructure nécessaire pour stocker et
exploiter les données générées ?
5. Avez-vous des cas d’usage en tête ?
6. Etes-vous capable de faire travailler dans la même équipe (et le
même espace de travail) des représentants du métier et des
spécialistes de la donnée ?
7. Avez-vous peur de l’échec ? Si oui, passez votre chemin, on
échoue plus qu’on ne réussit avec ces technos…

Contenu connexe

Tendances

Linked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesLinked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesAntidot
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Aleph Technologies
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesDesconnets Jean-Christophe
 
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Desconnets Jean-Christophe
 
Gestion du savoir : Assembler le casse-tête un morceau à la fois
Gestion du savoir : Assembler le casse-tête un morceau à la foisGestion du savoir : Assembler le casse-tête un morceau à la fois
Gestion du savoir : Assembler le casse-tête un morceau à la foisAlbert Simard
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data scienceRima Jamli Faidi
 
Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?dcotte
 
infrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalitéinfrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalitéDesconnets Jean-Christophe
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introductionjbcomte
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 

Tendances (20)

Linked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesLinked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des données
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.Data Science & Big Data, réalités et perspectives.
Data Science & Big Data, réalités et perspectives.
 
Big data
Big dataBig data
Big data
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
 
Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...Les entrepôts de données ou comment rendre les données trouvables accessibles...
Les entrepôts de données ou comment rendre les données trouvables accessibles...
 
Gestion du savoir : Assembler le casse-tête un morceau à la fois
Gestion du savoir : Assembler le casse-tête un morceau à la foisGestion du savoir : Assembler le casse-tête un morceau à la fois
Gestion du savoir : Assembler le casse-tête un morceau à la fois
 
Big data
Big dataBig data
Big data
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Data mining et data science
Data mining et data scienceData mining et data science
Data mining et data science
 
Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?Votre "data" je vous la sers comment ?
Votre "data" je vous la sers comment ?
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. J...
 
infrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalitéinfrastructures de données geosud : des standards à la réalité
infrastructures de données geosud : des standards à la réalité
 
Application d'analyses des Tweets
Application d'analyses des TweetsApplication d'analyses des Tweets
Application d'analyses des Tweets
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introduction
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Metadonnees -- une typologie
Metadonnees -- une typologieMetadonnees -- une typologie
Metadonnees -- une typologie
 

Similaire à Visite guidée au pays de la donnée - Traitement automatique des données

Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETJulien Chable
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...aOS Community
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Ippon
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceMarie-Alice Blete
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..YvonGervaise
 
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseBIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseYvon Gervaise
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and businessDavid Argellies
 
Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?BigBrain Evolution
 
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024YvonGervaise
 
L'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresL'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresYvon Gervaise
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebAntidot
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
Introduction text mining
Introduction text miningIntroduction text mining
Introduction text miningWiem Trabelsi
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016Julien Deneuville
 
Ritme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMORitme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMOAurélien Adamo
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la sciencehabib200
 

Similaire à Visite guidée au pays de la donnée - Traitement automatique des données (20)

Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
 
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
2019-06-04 aOS Strasbourg - Décideurs 1 - L'intelligence artificielle démysti...
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data science
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
 
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon GervaiseBIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
BIPEA 2023 L'IA Matrice du Laboratoire du Futur par Yvon Gervaise
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
Les algorithmes de tri
Les algorithmes de triLes algorithmes de tri
Les algorithmes de tri
 
Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?
 
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
 
L'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresL'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des Laboratoires
 
Échange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le Web
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
Introduction text mining
Introduction text miningIntroduction text mining
Introduction text mining
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016
 
Ritme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMORitme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMO
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
 

Plus de Gautier Poupeau

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Gautier Poupeau
 
Aligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open RefineAligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open RefineGautier Poupeau
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALGautier Poupeau
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information SystemGautier Poupeau
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...Gautier Poupeau
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontologyGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 

Plus de Gautier Poupeau (13)

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Aligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open RefineAligner vos données avec Wikidata grâce à l'outil Open Refine
Aligner vos données avec Wikidata grâce à l'outil Open Refine
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 

Visite guidée au pays de la donnée - Traitement automatique des données

  • 1. Traitement automatique des données Gautier Poupeau gautier.poupeau@gmail.com, @lespetitescases http://www.lespetitescases.net Visite guidée au pays de la donnée
  • 2. Visite guidée au pays de la donnée • Introduction et tour d’horizon • Traitement automatique des données Série de présentations pour faire le tour de la gestion des données à l’ère du Big data, du Cloud et de l’intelligence artificielle
  • 3. Plan de la partie Déployer un système de traitement automatique TDM, IA, NLP, ML/DL… De quoi parle-t-on ? Les principes de l’apprentissage automatique Outils d’analyse automatique de contenus audiovisuels
  • 4. TDM, IA, NLP, TAL, ML/DL…. DE QUOI PARLE-T-ON ?
  • 5. Text & Data Mining – Fouille de données et de textes / Data science Ensemble de méthodes et d’outils qui vise à extraire un savoir ou une connaissance à partir d’une grande masse de données ou de textes TDM – Text & Data Mining/Fouille de données et de textes – Data Science
  • 6. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Ensemble de méthodes et d’outils qui vise à reproduire par une machine des comportement ou des tâches des humains IA – Intelligence artificielle
  • 7. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle NLP/TAL - Traitement automatique des langues Domaine qui vise à créer des outils de traitement de la langue naturelle NLP – Natural Language Processing = TAL – Traitement automatique des langues
  • 8. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques NLP/TAL - Traitement automatique des langues Domaine mathématique qui consiste à recueillir, traiter et interpréter un ensemble de données Statistiques
  • 9. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques ML - Machine Learning - Apprentissage automatique NLP/TAL - Traitement automatique des langues Systèmes visant à accomplir des tâches à partir de caractéristiques/attributs communs (patterns) « appris » dans un ensemble de données d’exemple Machine learning – Apprentissage automatique
  • 10. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques ML - Machine Learning - Apprentissage automatique NLP/TAL - Traitement automatique des langues Technique d’apprentissage cherchant à reproduire le mécanisme des réseaux de neurones du cerveau humain DL - Deep Learning Apprentissage profond Deep Learning – Apprentissage profond
  • 11. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Robotique Systèmes experts à base de règles (ex : système d’aiguillage) Statistiques BI - Informatique décisionnelle ML - Machine Learning - Apprentissage automatique Lexicométrie Calcul de similarité NLP/TAL - Traitement automatique des langues Etiquetage morpho syntaxique Quelques exemples dans les différents domaines Classification automatique Système de recommandations DL - Deep Learning Apprentissage profond Tagging d’images
  • 12. LES PRINCIPES DE L’APPRENTISSAGE AUTOMATIQUE https://www.datasciencecentral.com/profiles/blogs/google-tutorial-on-machine-learn
  • 13. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux
  • 14. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non On donne à l’algorithme des exemples de messages spam et non spam Apprentissage Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux Le système va repérer automatiquement les caractéristiques communes des différentes classes et typer un nouveau message par sa proximité avec l’une ou l’autre classe
  • 15. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non On donne à l’algorithme des exemples de messages spam et non spam Apprentissage Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux Spam Non spam Le système va repérer automatiquement les caractéristiques communes des différentes classes et typer un nouveau message par sa proximité avec l’une ou l’autre classe Un système d’apprentissage automatique permet de répondre à une question unique en s’appuyant sur la détection de motifs communs dans les données sources
  • 16. Des données Un modèle calculé à partir d’éléments définis Classification par apprentissage supervisé Classe A Classe B Classe C
  • 17. Des données Un modèle calculé à partir d’éléments définis Prédire grâce au modèle A, B ou C ? Classification par apprentissage supervisé Classe A Classe B Classe C
  • 18. Des données Un modèle calculé à partir d’éléments définis Prédire grâce au modèle A, B ou C ? Classification par apprentissage supervisé Classe A Classe B Classe C La classification par apprentissage supervisé suppose donc des données déjà classées d’où l’importance de disposer de référentiels et de données de qualité
  • 19. Regroupement (clustering) par apprentissage non supervisé Des données On détermine le nombre de regroupements à créer
  • 20. Regroupement (clustering) par apprentissage non supervisé Des données Regroupement calculé automatiquement On détermine le nombre de regroupements à créer
  • 21. Regroupement (clustering) par apprentissage non supervisé Des données Regroupement calculé automatiquement On détermine le nombre de regroupements à créer Le regroupement par apprentissage non supervisé ne présuppose pas des données déjà qualifiées mais donne des résultats moins précis que l’apprentissage supervisé car l’algorithme a choisi lui-même les éléments discriminants entre les regroupements
  • 22. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre
  • 23. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre Prédiction en comparant les caractéristiques de l’entité à celles des données sources Quel est le prix d’un appartement de 3 pièces de 60m² à Paris ?
  • 24. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre Prédiction en comparant les caractéristiques de l’entité à celles des données sources Quel est le prix d’un appartement de 3 pièces de 60m² à Paris ? Le corpus d’entraînement doit disposer de cas de figure suffisamment nombreux pour prédire de manière pertinente d’où l’importance de disposer de données de qualité
  • 25. Les types de sorties les plus courants d’un système d’apprentissage automatique Classe A Classe B ? ? Classification Regroupement Prédiction Surface localisation Prix 34 Paris X 90 Bordeaux Y 34 Lyon Z Prix ?
  • 26. OUTILS D’ANALYSE AUTOMATIQUE DE CONTENUS AUDIOVISUELS
  • 27. IMAGE FIXE OU ANIMÉE
  • 28. Reconnaissance optique de caractères (OCR) Objectif : transformer en texte exploitable le contenu textuel d’une image Exploitation dans Gallica Exploitation dans Himanis Exploitation de l’OCR pour une vidéo (regroupement du résultat de l’OCR d’une image par seconde) https://github.com/tesseract-ocr/tesseract https://github.com/tmbdev/ocropy => https://graal.hypotheses.org/786
  • 29. Reconnaissance optique de distribution (OLR) Objectif : identifier les différentes parties cohérentes d’une image https://bnf.hypotheses.org/208 Principes de l’OLR Identification des illustrations
  • 30. Reconnaissance d’images ou d’entités visuelles http://diginpix.ina.fr/ Objectif : Retrouver une image ou une entité visuelle précise https://plantnet.org/ On compare les images à analyser à une base (un dictionnaire) qui contient toutes les images à retrouver Reconnaissance du logo Perrier Reconnaissance de « La Liberté guidant le peuple » Exemples issus du projet Diginpix
  • 31. Reconnaissance d’images ou d’entités visuelles http://diginpix.ina.fr/ https://plantnet.org/ Résultat de reconnaissance issue du logiciel Snoop Image soumise par l’utilisateur à retrouver dans la base d’images Images issues de la base d’images et renvoyées par le système suivant leur similarité (avérée ou supposée) avec l’image soumise Objectif : Retrouver une image ou une entité visuelle précise
  • 32. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie Phase 1 : Mise au point d’un corpus d’images caractéristiques de chacune des classes qui composent le modèle pour effectuer l’entraînement Présentateur Exemples de classes et d’images pour reconnaître les différentes parties d’un JT Météo Reportage
  • 33. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to Phase 2 : après entraînement du modèle, soumission d’une image au modèle Copie d’écran issue de l’écran de test de Deepomatic A la différence de la reconnaissance, l’objectif n’est pas de retrouver une image précise mais de déterminer à quelle classe appartient une image suivant ses caractéristiques.
  • 34. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to Phase 2 : après entraînement du modèle, soumission d’une image au modèle Copie d’écran issue de l’écran de test de Deepomatic Phase 3 : agrégation des résultats pour visualiser les différentes parties d’un JT A la différence de la reconnaissance, l’objectif n’est pas de retrouver une image précise mais de déterminer à quelle classe appartient une image suivant ses caractéristiques.
  • 35. Tagging d’images Objectif : décrire automatiquement le contenu d’une image fixe ou animée. Cela équivaut à effectuer une classification multi-labels de l’image. Extrait des Actualités françaises annoté avec Google Video Intelligence Annotation géographique automatique d’une photo avec Google Cloud Vision La force des services de ce type repose plus sur la pertinence et la volumétrie de la base d’entraînement que sur le bon fonctionnement des algorithmes. Mais, en échange du service, ils constituent des boîtes noires non modifiables.
  • 36. Détection de formes/objets dans les images Objectif : identifier et localiser des formes ou des objets dans une image. Reconnaissance de formes dans une photo avec Google Cloud Vision Reconnaissance d’objet dans une vidéo Découpage des formes dans l’image Il ne s’agit pas simplement ici d’associer des mots-clés à l’ensemble de l’image mais bien de repérer où se situe précisément la forme ou l’objet dans l’image.
  • 37. Analyse des visages (ou une application particulière de la reconnaissance d’objets) Objectif : détecter les visages dans une image et reconnaître/identifier un visage à partir d’une base de visages Comparaison de visages simulant le fonctionnement d’une base de visages avec Amazon Rekognition Détection de visages avec OpenCV Identification de visages avec Amazon Rekognition Détection de visages avec Amazon Rekognition
  • 38. SON
  • 39. Analyse de la parole Objectif : analyser la parole pour la rendre exploitable = détecter le changement de locuteur (diarisation), transcrire la parole en texte (Speech to text) Transcription d’une interview dans un JT effectuée avec Vox Sigma de Vocapia Locuteur A Locuteur B La diarisation consiste à détecter les changements de locuteurs et à déterminer les différents tours de parole.
  • 40. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique On enregistre l’habillage sonore de la publicité dans une base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  • 41. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique On enregistre l’habillage sonore de la publicité dans une base On compare le son d’une journée de programme aux sons de la base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  • 42. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique En agrégeant les résultats, on identifie les coupures de publicité dans une journée de programme de LCI On enregistre l’habillage sonore de la publicité dans une base On compare le son d’une journée de programme aux sons de la base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  • 43. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique Identification de morceaux de musique à partir de l’écoute d’une partie du morceau http://www.gracenote.com/music/music-recognition/ https://www.acrcloud.com/fr/music-recognition
  • 44. Classification du son Objectif : classer des sons d’après leurs caractéristiques selon une typologie (selon le même principe que vu précédemment pour l’image) https://larevuedesmedias.ina.fr/la-radio-et-la-tele-les-femmes-parlent-deux-fois-moins-que-les-hom Classification de la musique, des voix d’hommes et de femmes d’une émission de variétés avec l’outil InaSpeechSegmenter
  • 45. Identification de la voix Objectif : identifier la voix d’un locuteur en le comparant à un dictionnaire/base de voix Copie d’écran issu du projet Speechtrax Si l’identification de visages dans des bases très larges est possible, l’identification de voix à large échelle reste encore du domaine de la recherche.
  • 47. Extraction et identification d’entités nommées En Corse , il n' y aura peut-être pas de soirées électorales FR3 Corse est en grève , comme toute la fonction publique de l' île de Beauté , la grève est très suivie 75 pourcent des des salariés , il est paralysé , même si le calme est revenu Françoise Joly et d' Ajaccio. C'est ici , dans ce centre de tri d' Ajaccio qu' il y a quinze jours , les premiers salariés de la fonction publique se sont mis en grève parce qu' ici on parle encore avec amertume d' une autre grève , […]. Aujourd'hui , les revendications sont toujours les mêmes : plus d' argent et c'est le coût de la vie sur l' île est mise en avant . […] Objectif : extraire automatiquement les entités d’un texte Françoise Joly Corse - Ajaccio Extraction Identification Wikidata La plupart des systèmes d’extraction d’entités nommées se « contente » de repérer une entité et d’en reconnaître le type. Les services TextRazor ou Rosette propose d’identifier grâce à Wikidata, Google Cloud Natural Language propose des liens vers la Wikipedia anglophone.
  • 48. Classification automatique En Corse , il n' y aura peut-être pas de soirées électorales FR3 Corse est en grève , comme toute la fonction publique de l' île de Beauté , la grève est très suivie 75 pourcent des des salariés , il est paralysé , même si le calme est revenu Françoise Joly et d' Ajaccio. C'est ici , dans ce centre de tri d' Ajaccio qu' il y a quinze jours , les premiers salariés de la fonction publique se sont mis en grève parce qu' ici on parle encore avec amertume d' une autre grève , […]. Aujourd'hui , les revendications sont toujours les mêmes : plus d' argent et c'est le coût de la vie sur l' île est mise en avant . […] Economie, entreprise, $communication diffusion traitement information, condition de travail, travailleur, vie économique, travail, média Objectif : associer automatiquement des mots-clés issues d’un référentiel à des blocs de texte (selon le même principe que vu précédemment pour l’image) Comme tous les systèmes de classification, il est nécessaire de disposer de documents déjà classés pour entraîner le système à reconnaître chaque classe, d’où l’importance disposer de données très bonnes qualités.
  • 49. Topic modelling https://numapresse.hypotheses.org/11 Objectif : créer automatiquement des regroupements (clusters) de documents par l’analyse statistique de leur vocabulaire Répartition des différents sujets sur les pages du journal Le Matin du 1er janvier 1905 calculées à partir de regroupements au préalable repérés automatiquement puis étiquetés manuellement Regroupements trouvés automatiquement puis étiquetés manuellement à partir des romans de la première moitié du XIXe numérisés sur Gallica https://scoms.hypotheses.org/
  • 50. Mise en relation automatique par calcul de similarité des contenus Objectif : mettre en relation des documents en fonction de leur similarité de contenu (métadonnées ou textes) Copies d’écran montrant la recommandation de vidéos d’Ina.fr à partir d’une vidéo source par calcul de similarité basé sur les métadonnées
  • 51. Mise en relation automatique par calcul de similarité des contenus Objectif : mettre en relation des documents en fonction de leur similarité de contenu (métadonnées ou textes) Copies d’écran du projet Flux d’actus qui vise à mettre en relation automatiquement les fonds de l’Ina avec des événements d’actualité fournis par le service NewsInnov
  • 52. Mise en relation automatique par analyse des comportements des utilisateurs Objectif : mettre en relation des documents en fonction du comportement des utilisateurs Copie d’écran de Netflix dont l’algorithme de recommandation a fait la renommée Copie d’écran d’Amazon http://www.lespetitescases.net/de-la-responsabilite-humaine-des-algorithmes
  • 53. Réponse à des questions posées en langage naturel Objectif : répondre automatiquement à des questions posées en langage naturel à partir de phrases de documents analysées Résultat du Stanford Question Answering Dataset (SQUAD) qui propose un test composé de 100 000 questions dont les réponses sont dans un ensemble d’articles de Wikipédia Copie d’écran d’une réponse de Google à une question posée en langage naturel. Il met en avant une réponse contenue dans une page Web.
  • 54. DÉPLOYER UN SYSTÈME DE TRAITEMENT AUTOMATIQUE
  • 56. Les différents outils pour déployer un système d’apprentissage automatique Complexité Souplesse Data scientist Data engineer Data analyst Des bibliothèques Open Source à implémenter par des data scientists à des APIs clés en main faciles à utiliser mais sans possibilité d’interventions sur l’algorithme ou le modèle, il existe un grand panel d’outils pour déployer un système d’apprentissage automatique. Clé en main Non adaptable Bibliothèques Plateforme Studio API clé en main Développeur Environnement de calcul
  • 57. Les bibliothèques Toutes les bibliothèques ou frameworks pour développer un système d’apprentissage automatique sont disponibles en Open Source. Elles ont été initiées par les GAFAM ou le monde de la recherche universitaire. L’IA acte définitivement le fait que ce n’est pas le code qui a de la valeur économique intrinsèque mais le service offert autour… Traitement du langage naturel (NLP) Machine Learning (ML) Deep Learning (DL) NLTK (Python) Stanford Core NLP (Java) Gate (java) Spacy (Python) AllenNLP (Python, C++) basé sur PyTorch Apache OpenNLP (Java) Apache Spark Mllib (Java, Scala, Python, R) Scikit learn (Python) XGBoost (C++, Python, R, Java, Scala, Julia) Apache Mahout (Scala, Java) Microsoft Cognitive Toolkit (Python, C#, C++) maintenue par Microsoft Tensor Flow/Keras (Python, C, C++, Go, Java, Javascript, swift) maintenue par Google PyTorch (Python, C++) issue de Facebook Cafee (C++, Python) Theano (Python)
  • 58. Environnement de calcul dans le cloud Les calculs nécessaires pour entraîner un modèle peuvent demander des ressources machines conséquentes. Les services « Cloud » offrent l’environnement et la puissance de calcul nécessaires à la phase d’entraînement et/ou de prédiction. Préparation des données Développemen t du modèle Entraînement, évaluation et réglages du modèle Déploiement du modèle entraîné Calcul des prédictions Supervision des prédictions Gestion des modèles et de leurs versions Etape non prise en charge par les environnements Etape prise en charge par les environnements Processus d’implémentation d’un système d’apprentissage automatique Google cloud Machine Learning Engine, Amazon Sage Maker, Microsoft Azure Machine Learning Service, IBM Watson Machine Learning
  • 59. Plateformes Les plateformes permettent aux data scientists ou aux data engineers de construire facilement (souvent via des interfaces graphiques) des chaînes de traitement pour préparer les données, développer le modèle, effectuer l’entraînement, déployer et exploiter le modèle. Dataiku, Knime, Rapid Miner, Azure Machine Learning Studio, H2O.ai, IBM Watson Studio Visualisation d’une chaîne de traitement dans le logiciel Kime pour entraîner un modèle avec le framework Keras Ecran de Dataiku permettant d’évaluer les différents modèles calculées en fonction de la configuration de l’entraînement : algorithme et paramètres Magic quadrant for Data Science and Machine Learning platforms
  • 60. Studios Les studios permettent à des personnes n’ayant aucune connaissance de programmation de mettre au point et déployer des modèles à partir d’interfaces graphiques simples à prendre en main. L’objectif est de rendre le plus accessible possible l’apprentissage automatique. Google Cloud AutoML (texte, traduction, image fixe et animée, données structurées), Deepomatic (image fixe et animée), BigML (texte, données structurées), Antidot (texte), Clarifai (image fixe et animée) https://www.slideshare.net/AxeldeRomblay/how-to-automate-machine-learning-pipeline Interface listant les images liées à une classe Matrice de confusion pour évaluer la pertinence du modèle Copies d’écrans issues du Studio de la société Deepomatic
  • 61. APIs clés en main Les APIs clés en main permettent de disposer de résultats de traitement automatique en se contentant de soumettre les contenus à analyser à des APIs Web. Elles proposent donc des fonctionnalités et/ou des modèles très génériques. Elles servent bien souvent de produits d’appel ou de démonstrateurs des possibilités technologiques des fournisseurs. Amazon Google IBM Watson Microsoft Azure Speech to text Amazon TranscribeGoogle Cloud Speech To textIBM Watson Speech to TextSpeech Services Text to Speech Amazon Polly Google Cloud Text-to-SpeechIBM Watson Text to SpeechSpeech Services Vérification de locuteur Speaker recognition Identification de locuteur Speaker recognition Analyse du son Amazon TranslateGoogle Cloud TranslationIBM Watson Language TranslatorMicrosoft translator Traduction automatique X X X X Analyse du texte
  • 62. APIs clés en main Rosette Amazon Comprehend Google Cloud Natural LanguageMonkeyLearn Analyse morpho-syntaxique X X X Détection de la langue X X X Extraction d’entités nommées X X X X Identification d’entités nommées X X Extraction des relations entre entités nommées X Extraction d'entités personnalisées X X X Extraction de mots-clés du texte X X X Détection de concepts X Classifieur "universel" X Classification personnalisée X X X X Extraction de relation X Analyse des sentiments X X X X Calcul de similarité X Topic Modelling X Analyse du texte
  • 63. APIs clés en main TextRazor IBM Watson Natural Language Understanding Microsoft Azure Cognitive Services Analyse morpho-syntaxique Détection de la langue X Extraction d’entités nommées X X X Identification d’entités nommées X X Extraction des relations entre entités nommées X Extraction d'entités personnalisées Extraction de mots-clés du texte X X Détection de concepts X X Classifieur "universel" X X Classification personnalisée X Extraction de relation X Analyse des sentiments X X Calcul de similarité Topic Modelling Analyse du texte
  • 64. APIs clés en main Amazon Rekognition Google Cloud Vision IBM Watson Visual Recognition Microsoft Azure Détection d’objets X X X X Détection de scènes X X Détection d’images inappropriées X X Classifieur « universel » X X Détection de logos X Détection de points de repères géographiques X X Détection de visage X X X X Analyse du visage X X X Reconnaissance de célébrités X X Reconnaissance faciale personnalisée X X OCR X X X Analyse de l’image fixe
  • 65. APIs clés en main Amazon Rekognition Google Cloud Video Intelligence Microsoft Azure Détection d’objets X X Détection de scènes X X Détection d’images inappropriées X X Classifieur « universel » X X Détection de changement de plans X Détection de visage X X Analyse du visage X Reconnaissance de célébrités X Reconnaissance faciale personnalisée X OCR X Analyse de l’image animée
  • 66. UN PEU DE MÉTHODOLOGIE
  • 67. Evaluation des systèmes Faux négatifs: ce sont les documents pertinents qui ne sont pas inclus dans le résultat. Faux positifs: ce sont les résultats non pertinents inclus dans le résultat; ils ont été sélectionnés à tort.  Tout l’enjeu est de trouver le juste milieu entre le bruit et le silence en jouant sur Précision La précision mesure la fraction des vrais positifs dans un résultat. Une précision de 1 correspond à l’absence totale de faux positifs. Une précision nulle indique un résultat ne contenant aucun document pertinent. Rappel Le rappel mesure la fraction de faux négatifs. Pour évaluer les systèmes automatiques, il est nécessaire de mettre au point des corpus de tests dont les résultats, vérifiés au préalable, sont comparés à ceux du système.
  • 68. Calcul du modèle Test du modèle Evaluation des résultats Mise au point du corpus d’entraînement Processus de travail Objectifs métier Evaluation du projet Mise en production Cette partie du travail doit être effectué par une personne possédant une très bonne connaissance des données métiers et du résultat attendu en relation avec un spécialiste de la donnée Cette partie du travail doit être effectué par une personne spécialiste de la donnée : data scientist ou data engineer en fonction des outils utilisés (cf. ci-dessus) en relation avec la personne possédant les connaissances « métier ».
  • 69. Relation et cohérence entre les données (Méta)données Contenu Données extraites Traces Référentiel Mise en relation de contenus Contributions Il est absolument indispensable de penser la relation et la cohérence entre les données générés automatiquement et les données gérées selon les processus plus « standards ».
  • 70. Check list avant de commencer 1. Maîtrisez-vous les données que vous allez utiliser pour mettre au point vos systèmes de traitement automatique ? 2. Vos données sont-elles de qualité ou a minima propres ? 3. Possédez-vous l’infrastructure nécessaire pour calculer le modèle ? Pour lancer les traitements ? Pour effectuer les prédictions ? 4. Possédez-vous l’infrastructure nécessaire pour stocker et exploiter les données générées ? 5. Avez-vous des cas d’usage en tête ? 6. Etes-vous capable de faire travailler dans la même équipe (et le même espace de travail) des représentants du métier et des spécialistes de la donnée ? 7. Avez-vous peur de l’échec ? Si oui, passez votre chemin, on échoue plus qu’on ne réussit avec ces technos…