SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
Mai 2019
Data Sciences @Epiconcept
● Data Sciences @Epiconcept
○ Expertises
○ Technologies
○ Organisation
● Réalisations
● Epiconcept en bref
Sommaire
Data Sciences en bref
TECHNOLOGIES BIG DATA
4
DATA SCIENCES @EPICONCEPT
5
Une offre de service multidisciplinaire et multi-équipe, nourrie par 20 ans d’expérience
en traitement de la donnée de santé
● Accompagnement des acteurs de santé à
améliorer leurs capacités d’exploitation
des données
● Prise en charge globale de la donnée
(stockage, consolidation, traitement,
modélisation, restitution)
● Expertise informatique, mathématique
et scientifique
● Engagement dans une démarche Open
Source
Big
Data
Data
Management
Intelligence
Artificielle
Bio Statistiques
EXPERTISES
6
Intelligence
Artificielle
● Identification des ontologies
● Identification des thèmes les plus importants
● Modélisation à la demande (Réseaux de Neurones, SVM, …)
Big Data
● Mise en place du data lake - plateforme de calcul (cloud ou
local)
● Collecte et analyse des réseaux sociaux / forums
● Dispositifs médicaux connectés
Data
Management
● Data Cleansing
● Recodage (Utilisation de IA)
● ETL - Import
Bio Statistique
● Traitement R
● Dashboard / Reporting interactif
● Cartographie
ExpertiseMétier/
Protocolederecherche
7
CONCRETEMENT… PLUSIEURS APPROCHES POSSIBLES
● Prototype : prouver rapidement la faisabilité et valeur d’un sujet d’Innovation
● Projet : implementation d’un projet Data Science clé en main
● Accompagnement : des data scientists en renforcement des équipes
● Centre de Service : une équipe dediée pour faire le support data science
● Conseil : choix d’outil, analyse des problématiques et cadre réglementaire
Réalisations
● Contexte :
○ 2018 : étude COMPLIDON de Santé Publique France
sur le comportement des donneurs de sang par
rapport aux critères de sélection.
○ Participation en ligne : environ 110 000 réponses
○ Problème : besoin d’analyser les opinions des
individus dans les réponses en texte libre
○ Solution : regroupement des commentaires par
proximité sémantique ; interface web sur mesure
pour découvrir les thèmes les + représentatifs.
● Résultats :
○ Gain de temps important ; traitement de tous les
textes libres dans le cadre de l’étude statistique
○ 42 nouveaux thèmes identifiés et croisés avec les
autres variables du questionnaire
DONS DU SANG - FEEDBACK EXPLORER
9
10
DONS DU SANG - METHODOLOGIE I
● Données d'entrée : Corpus de 13 018 commentaires avec plus de 20 caractères
● Algorithme de traitement :
○ Préparation des données (automatisé)
○ Séparation des commentaires en séquences d’entre 10 et 20 mots, utilisant si
possible des séparateurs de ponctuation (.;) ou de pronoms (j’, je, il)
○ Encodage des séquences sur un vecteur de 300 dimensions basé sur un réseau de
neurones (word2vec) déjà pré-entrainé
○ Regroupement des séquences avec un algorithme k-means en 512 clusters par
proximité sémantique basé sur la mesure de “cosine similarity” des vecteurs de
chaque séquence
○ Hiérarchisation des clusters dans une arborescence binaire par proximité
sémantique
11
DONS DU SANG - METHODOLOGIE II
● Itérations :
○ Partie manuelle :
■ Exploration manuelle des clusters des séquences via un outil interactif
■ Affectation/désaffectation des sujets d'intérêt (tags) aux clusters ou phrases dans
l’outil
○ Partie automatisée :
■ Recalcul des clusters tenant compte des affectations et désaffectations des sujets
aux séquences avec une version modifiée de l’algorithme k-means
■ Chaque séquence est affectée à un centre ou une phrase manuellement tagués en
fonction de sa proximité sémantique
■ Les phrases affectées aux phrases manuellement taguées sont réaffectées au centre
le plus proche contenant le même tag
■ Recalcul des centres comme somme vectorielle de chaque phrase dans le cluster ;
répétition des étapes automatiques jusqu'à cessation de la diminution de la somme
des moyennes des distances des phrases affectées directement aux clusters
12
DONS DU SANG - METHODOLOGIE III
● Résultats du traitement :
○ Corpus d’entrée : 13.018 commentaires avec plus de 20 caractères.
○ 30.534 séquences produites ; 45 sujets d'intérêts (tags) identifiés
○ 9.134 séquences associées aux tags (30%) et 6.655 commentaires associés aux tags (51%)
● Méthodologie d’évaluation
○ Comparaison de la classification avec une classification manuelle faite sur 1200 commentaires.
○ Une reclassification a dû être faite
● Métriques :
○ Précision : proportion des commentaires correctement attribués à chaque tag par rapport aux
commentaires attribués à chaque tag = VP / (VP + FP)
○ Sensibilité / Recall : proportion des commentaires correctement attribués à chaque tag = VP /
(VP + FN)
○ Spécificité : Proportion des commentaires correctement un tag par rapport aux commentaires
qui ne doivent pas être associés à ce tag = VN / (VN + FP)
○ Score F1 : Performance générale de l'algorithme, i.e. moyenne harmonique entre la précision
et la sensibilité : 2VP / (2VP + FP + FN)
13
DONS DU SANG - METHODOLOGIE IV
● Résultats validation
○ S3-III b Qr pé-don Suggestions Conseils: vp = 21, fp = 18, vn = 1004 , fn = 76
■ Précision = 0.54, sensibilite = 0.22, specificité = 0.98, f1Score = 0.31
○ S5- a Satisfaction EFS/CTSA favorable: vp = 9, fp = 19, vn = 1062 , fn = 29
■ Précision = 0.32, sensibilité = 0.24, specificité = 0.98, f1Score = 0.27
○ S2 Q partenaire: vp = 19, fp = 5, vn = 1072 , fn = 23
■ Précision = 0.79, sensibilité = 0.45, specificité = 1.0, f1Score = 0.58
○ S7 HSH: vp = 4, fp = 17, vn = 1093 , fn = 5
■ Précision = 0.19, sensibilité = 0.44, specificité = 0.98, f1Score = 0.27
○ S3-III a 2 Qr prédon remarques défavorables: vp = 21, fp = 33, vn = 959 , fn = 106
■ Précision = 0.39, sensibilité = 0.17, specificité = 0.97, f1Score = 0.23
● Contexte : en juillet 2017, les autorités de santé annoncent le passage
de 3 à 11 vaccins obligatoires pour les enfants de moins de 2 ans à
partir de 2018. Un sujet largement discuté dans les médias et réseaux
sociaux par des professionnels, les lobbies anti-vaccins, le
gouvernement et le grand public.
● Problème : peut-on capturer et analyser l’évolution du débat public
avec les informations disponibles sur les réseaux sociaux?
● Solution
○ Collecte des tweets français (et liens) avec des mots-clés sur la
période en question
○ Algorithme pour identifier le caractère anti-vaccination des
tweets
● Résultats
○ Création de la carte anti/vaccination des régions françaises
○ Identification des élements du discours anti-vaccin (en cours)
VACCINATION - SOCIAL DEBATE*
14 (*) Projet réalisé en collaboration avec Pascal Vilain, épidémiologiste, Cire océan Indien
VACCINATION - SOCIAL DEBATE
15
Carte d’adhesion à la vaccination - Baromètre santé 2016 SPF
● Contexte : l’ECDC (European Centre for Disease Prevention
& Control) cherche à améliorer sa capacité à détecter des
signaux de surveillance de maladies infectieuses avec
l’application systématique d’algorithmes sur les données
fournies par les pays membres.
● Problème : Besoin de valider la méthodologie et construire
un outil de génération automatique des rapports sur les
maladies surveillées
● Solution (*) : Outil interactif détectant des signaux dans les
séries temporelles des données de surveillance
épidémiologiques (rendu avec R Shiny)
● Résultats :
○ Outil disponible pour la communauté scientifique (CRAN)
○ Conçu pour les données de l’Atlas ECDC de surveillance
de maladies infectieuses
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
16 (*) Focus fait sur la partie dashboarding de ce projet qui globalement est un projet de recherche épidémiologique
● Objectif du projet 2015 :
○ Identification des méthodes de détection des signaux les plus appropriés pour la
surveillance automatique des données de la base TESSy (données Salmonella) de
l’eCDC :
■ Plan d’analyse
■ Consultation expert
■ Evaluation de 8 algorithmes
■ Rapport de détection de signaux au niveau géographique et sérotype (R
Markdown)
● Objectif du projet 2016 (Données salmonella):
○ Amélioration du système de priorisation des signaux
○ Simplification de sortie
○ Inclusion des paramètres pour sélection interactive (R Shiny application)
■ Prototype d'application ; mise à jour des rapports de détection des signaux
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
17
● Objectif du projet 2017 :
○ Implémentation et test de détection des signaux des maladies TESSy avec d’autres
propriétés (R Shiny)
● Objectif du projet 2018 :
○ Livraison sous la forme de “packages R” publiquement disponibles
○ Application de détection de signaux
○ Rapports HTML
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
18
DIABETES DISTRESS - NO.FORMS
19
● Contexte : dans le cadre du projet World Diabetes
Distress Study (WDDS), l’INSERM lance une étude
mondiale d’évaluation des impacts des facteurs
psychologiques du traitement des personnes atteintes
du diabète
● Problème : l’équipe scientifique envisage que les
interactions avec les participants à l'étude se fassent via
un chatbot qui puisse poser des questions ouvertes
● Solution : Une nouvelle approche permettant
d'échanger en langage naturel “guidé” (et dans un
contexte donné) avec une population cible pour
collecter des informations précises et identifier les
nouvelles idées émergentes
● Résultats : En cours de développement
CANCER DU SEIN - DEEP.PISTE
20
Un projet lauréat du Health Data Hub
● Contexte : Le cancer du sein tue plus de femmes que
tout autre cancer en France, mais le dépistage précoce
permet une baisse de 21% de la mortalité. La région
Occitanie a dématérialisé son programme de dépistage
organisé et a constitué une base de ~250.000
mammographies annotées.
● Problème : La région de l’occitanie souhaite améliorer
les performances du programme de dépistage.
● Solution : Utilisation des données produits par le
programme pour réaliser un étude permettant d’évaluer
l’impacte d’un algorithme d'analyse de
mammographies sur le dispositif du dépistage.
● Résultats : En cours de développement
Femmes entre
50 et 74 ans
Dépistage
organisé
1ère et 2ème
lecture
+
algorithme
Prise en charge
Décès évité
synergie
A propos d’Epiconcept
Smart Health
La santé de chacun est l’affaire de tous,
c’est l’esprit même des programmes de santé publique.
Plus ils seront connectés, plus ces programmes seront performants.
Plus leur approche sera humaine, éthique et en phase
avec les préoccupations médicales, plus ils amélioreront
la santé et la vie de chacun.
Nous sommes des médecins, des épidémiologistes,
des data scientists et des spécialistes IT, c’est notre approche,
c’est la vision d’Epiconcept.
23
EPICONCEPT - SMART HEALTH
Nous sommes des médecins, des épidémiologistes, des spécialistes de la
donnée et des technologies numériques dont la raison d’être est :
• Améliorer la connaissance des maladies
• Rendre plus efficace les programmes de santé publique
En associant e-Santé, épidémiologie et data science
• Proposer des solutions connectées et décentralisées pour la gestion de
programmes de santé publique
• Intégrer l’individu dans les programmes de santé publique
• Améliorer le lien entre les études, la donnée et les programmes
opérationnels
24
EPICONCEPT - SMART HEALTH
Nos contributions pour les
acteurs de la santé publique
en France et à
l’international
25
● Hébergeur de données de santé à caractère personnel
● Voozanoo, socle technique de tous les projets e-Santé d’Epiconcept
● 7 M€ de CA en 2017
Depuis 20 ans, nous contribuons à l'amélioration des programmes de santé publique
EPICONCEPT - SMART HEALTH
26
VOOZANOO - SOCLE TECHNIQUE SMART HEALTH
27
EPICONCEPT - ORGANIGRAMME
28
EPICONCEPT GROUP
29
ILS NOUS FONT CONFIANCE
Pour nous contacter
47, rue de charenton 75012 Paris
@Epiconcept
+33(0)1 53 02 40 60
WWW.EPICONCEPT.FR

Contenu connexe

Similaire à Presentation offre data science - epiconcept

14 30-mjoliot biomist-piv-2017
14 30-mjoliot biomist-piv-201714 30-mjoliot biomist-piv-2017
14 30-mjoliot biomist-piv-2017Bertrand Tavitian
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCIFrenchTechCentral
 
IP-Manager comme Leader et acteur du changement à l'hôpital
IP-Manager comme Leader et acteur du changement à l'hôpitalIP-Manager comme Leader et acteur du changement à l'hôpital
IP-Manager comme Leader et acteur du changement à l'hôpitalPaianet - Connecting Healthcare
 
Catalogue de formations - SLPV analytics
Catalogue de formations  - SLPV analyticsCatalogue de formations  - SLPV analytics
Catalogue de formations - SLPV analyticsAntoine Moreau
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Lesticetlart Invisu
 
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...ASIP Santé
 
La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...Jean-François Tripodi
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning Novagen Conseil
 
La programmation par contraintes avec Choco3 (Java)
La programmation par contraintes avec Choco3 (Java)La programmation par contraintes avec Choco3 (Java)
La programmation par contraintes avec Choco3 (Java)Aline Figoureux
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Assemblée générale 2017 fvhpb site
Assemblée générale 2017 fvhpb siteAssemblée générale 2017 fvhpb site
Assemblée générale 2017 fvhpb siteLeyrissoux Catherine
 
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...ASIP Santé
 
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTTERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTJean-Charles Dron
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Alexandre Weisz
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septKezhan SHI
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesOpen Data Support
 
2015-05-Présentation_Synodis V7.8
2015-05-Présentation_Synodis V7.82015-05-Présentation_Synodis V7.8
2015-05-Présentation_Synodis V7.8Rapha du Besset
 

Similaire à Presentation offre data science - epiconcept (20)

14 30-mjoliot biomist-piv-2017
14 30-mjoliot biomist-piv-201714 30-mjoliot biomist-piv-2017
14 30-mjoliot biomist-piv-2017
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCI
 
IP-Manager comme Leader et acteur du changement à l'hôpital
IP-Manager comme Leader et acteur du changement à l'hôpitalIP-Manager comme Leader et acteur du changement à l'hôpital
IP-Manager comme Leader et acteur du changement à l'hôpital
 
Catalogue de formations - SLPV analytics
Catalogue de formations  - SLPV analyticsCatalogue de formations  - SLPV analytics
Catalogue de formations - SLPV analytics
 
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
 
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
La programmation par contraintes avec Choco3 (Java)
La programmation par contraintes avec Choco3 (Java)La programmation par contraintes avec Choco3 (Java)
La programmation par contraintes avec Choco3 (Java)
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Présentation CNP Assurances - Projet indicateurs
Présentation CNP Assurances - Projet indicateursPrésentation CNP Assurances - Projet indicateurs
Présentation CNP Assurances - Projet indicateurs
 
Assemblée générale 2017 fvhpb site
Assemblée générale 2017 fvhpb siteAssemblée générale 2017 fvhpb site
Assemblée générale 2017 fvhpb site
 
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...
2015-09-30 ASIP Santé JNI "Guide de référence technique TSN. Dématérialisatio...
 
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTTERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
Le Réseau de données probantes sur la COVID-19 au soutien de la prise de déci...
 
La qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées OuvertesLa qualité des Données et Métadonnées Ouvertes
La qualité des Données et Métadonnées Ouvertes
 
2015-05-Présentation_Synodis V7.8
2015-05-Présentation_Synodis V7.82015-05-Présentation_Synodis V7.8
2015-05-Présentation_Synodis V7.8
 

Dernier

Microscopie et Macroscopie mycosique.pptx
Microscopie et Macroscopie mycosique.pptxMicroscopie et Macroscopie mycosique.pptx
Microscopie et Macroscopie mycosique.pptxMohammedTakherboucht
 
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...les formes galéniques.pptxForme sous lequel sont associés principes actifs et...
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...SidahmedZerroukisba
 
Vaccination : un déficit d’information chez les parents d’enfants et les seniors
Vaccination : un déficit d’information chez les parents d’enfants et les seniorsVaccination : un déficit d’information chez les parents d’enfants et les seniors
Vaccination : un déficit d’information chez les parents d’enfants et les seniorsIpsos France
 
1-Introduction du anatomie pathologie .pdf
1-Introduction du anatomie pathologie .pdf1-Introduction du anatomie pathologie .pdf
1-Introduction du anatomie pathologie .pdfhibahaouimi18
 
En 12 ans, les Français ont doublé leur temps consacré au sport
En 12 ans, les Français ont doublé leur temps consacré au sportEn 12 ans, les Français ont doublé leur temps consacré au sport
En 12 ans, les Français ont doublé leur temps consacré au sportIpsos France
 
Epidémiologie des Maladies transmissibles .ppt
Epidémiologie des Maladies transmissibles .pptEpidémiologie des Maladies transmissibles .ppt
Epidémiologie des Maladies transmissibles .pptPizongoRamdhino
 

Dernier (6)

Microscopie et Macroscopie mycosique.pptx
Microscopie et Macroscopie mycosique.pptxMicroscopie et Macroscopie mycosique.pptx
Microscopie et Macroscopie mycosique.pptx
 
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...les formes galéniques.pptxForme sous lequel sont associés principes actifs et...
les formes galéniques.pptxForme sous lequel sont associés principes actifs et...
 
Vaccination : un déficit d’information chez les parents d’enfants et les seniors
Vaccination : un déficit d’information chez les parents d’enfants et les seniorsVaccination : un déficit d’information chez les parents d’enfants et les seniors
Vaccination : un déficit d’information chez les parents d’enfants et les seniors
 
1-Introduction du anatomie pathologie .pdf
1-Introduction du anatomie pathologie .pdf1-Introduction du anatomie pathologie .pdf
1-Introduction du anatomie pathologie .pdf
 
En 12 ans, les Français ont doublé leur temps consacré au sport
En 12 ans, les Français ont doublé leur temps consacré au sportEn 12 ans, les Français ont doublé leur temps consacré au sport
En 12 ans, les Français ont doublé leur temps consacré au sport
 
Epidémiologie des Maladies transmissibles .ppt
Epidémiologie des Maladies transmissibles .pptEpidémiologie des Maladies transmissibles .ppt
Epidémiologie des Maladies transmissibles .ppt
 

Presentation offre data science - epiconcept

  • 2. ● Data Sciences @Epiconcept ○ Expertises ○ Technologies ○ Organisation ● Réalisations ● Epiconcept en bref Sommaire
  • 5. DATA SCIENCES @EPICONCEPT 5 Une offre de service multidisciplinaire et multi-équipe, nourrie par 20 ans d’expérience en traitement de la donnée de santé ● Accompagnement des acteurs de santé à améliorer leurs capacités d’exploitation des données ● Prise en charge globale de la donnée (stockage, consolidation, traitement, modélisation, restitution) ● Expertise informatique, mathématique et scientifique ● Engagement dans une démarche Open Source Big Data Data Management Intelligence Artificielle Bio Statistiques
  • 6. EXPERTISES 6 Intelligence Artificielle ● Identification des ontologies ● Identification des thèmes les plus importants ● Modélisation à la demande (Réseaux de Neurones, SVM, …) Big Data ● Mise en place du data lake - plateforme de calcul (cloud ou local) ● Collecte et analyse des réseaux sociaux / forums ● Dispositifs médicaux connectés Data Management ● Data Cleansing ● Recodage (Utilisation de IA) ● ETL - Import Bio Statistique ● Traitement R ● Dashboard / Reporting interactif ● Cartographie ExpertiseMétier/ Protocolederecherche
  • 7. 7 CONCRETEMENT… PLUSIEURS APPROCHES POSSIBLES ● Prototype : prouver rapidement la faisabilité et valeur d’un sujet d’Innovation ● Projet : implementation d’un projet Data Science clé en main ● Accompagnement : des data scientists en renforcement des équipes ● Centre de Service : une équipe dediée pour faire le support data science ● Conseil : choix d’outil, analyse des problématiques et cadre réglementaire
  • 9. ● Contexte : ○ 2018 : étude COMPLIDON de Santé Publique France sur le comportement des donneurs de sang par rapport aux critères de sélection. ○ Participation en ligne : environ 110 000 réponses ○ Problème : besoin d’analyser les opinions des individus dans les réponses en texte libre ○ Solution : regroupement des commentaires par proximité sémantique ; interface web sur mesure pour découvrir les thèmes les + représentatifs. ● Résultats : ○ Gain de temps important ; traitement de tous les textes libres dans le cadre de l’étude statistique ○ 42 nouveaux thèmes identifiés et croisés avec les autres variables du questionnaire DONS DU SANG - FEEDBACK EXPLORER 9
  • 10. 10 DONS DU SANG - METHODOLOGIE I ● Données d'entrée : Corpus de 13 018 commentaires avec plus de 20 caractères ● Algorithme de traitement : ○ Préparation des données (automatisé) ○ Séparation des commentaires en séquences d’entre 10 et 20 mots, utilisant si possible des séparateurs de ponctuation (.;) ou de pronoms (j’, je, il) ○ Encodage des séquences sur un vecteur de 300 dimensions basé sur un réseau de neurones (word2vec) déjà pré-entrainé ○ Regroupement des séquences avec un algorithme k-means en 512 clusters par proximité sémantique basé sur la mesure de “cosine similarity” des vecteurs de chaque séquence ○ Hiérarchisation des clusters dans une arborescence binaire par proximité sémantique
  • 11. 11 DONS DU SANG - METHODOLOGIE II ● Itérations : ○ Partie manuelle : ■ Exploration manuelle des clusters des séquences via un outil interactif ■ Affectation/désaffectation des sujets d'intérêt (tags) aux clusters ou phrases dans l’outil ○ Partie automatisée : ■ Recalcul des clusters tenant compte des affectations et désaffectations des sujets aux séquences avec une version modifiée de l’algorithme k-means ■ Chaque séquence est affectée à un centre ou une phrase manuellement tagués en fonction de sa proximité sémantique ■ Les phrases affectées aux phrases manuellement taguées sont réaffectées au centre le plus proche contenant le même tag ■ Recalcul des centres comme somme vectorielle de chaque phrase dans le cluster ; répétition des étapes automatiques jusqu'à cessation de la diminution de la somme des moyennes des distances des phrases affectées directement aux clusters
  • 12. 12 DONS DU SANG - METHODOLOGIE III ● Résultats du traitement : ○ Corpus d’entrée : 13.018 commentaires avec plus de 20 caractères. ○ 30.534 séquences produites ; 45 sujets d'intérêts (tags) identifiés ○ 9.134 séquences associées aux tags (30%) et 6.655 commentaires associés aux tags (51%) ● Méthodologie d’évaluation ○ Comparaison de la classification avec une classification manuelle faite sur 1200 commentaires. ○ Une reclassification a dû être faite ● Métriques : ○ Précision : proportion des commentaires correctement attribués à chaque tag par rapport aux commentaires attribués à chaque tag = VP / (VP + FP) ○ Sensibilité / Recall : proportion des commentaires correctement attribués à chaque tag = VP / (VP + FN) ○ Spécificité : Proportion des commentaires correctement un tag par rapport aux commentaires qui ne doivent pas être associés à ce tag = VN / (VN + FP) ○ Score F1 : Performance générale de l'algorithme, i.e. moyenne harmonique entre la précision et la sensibilité : 2VP / (2VP + FP + FN)
  • 13. 13 DONS DU SANG - METHODOLOGIE IV ● Résultats validation ○ S3-III b Qr pé-don Suggestions Conseils: vp = 21, fp = 18, vn = 1004 , fn = 76 ■ Précision = 0.54, sensibilite = 0.22, specificité = 0.98, f1Score = 0.31 ○ S5- a Satisfaction EFS/CTSA favorable: vp = 9, fp = 19, vn = 1062 , fn = 29 ■ Précision = 0.32, sensibilité = 0.24, specificité = 0.98, f1Score = 0.27 ○ S2 Q partenaire: vp = 19, fp = 5, vn = 1072 , fn = 23 ■ Précision = 0.79, sensibilité = 0.45, specificité = 1.0, f1Score = 0.58 ○ S7 HSH: vp = 4, fp = 17, vn = 1093 , fn = 5 ■ Précision = 0.19, sensibilité = 0.44, specificité = 0.98, f1Score = 0.27 ○ S3-III a 2 Qr prédon remarques défavorables: vp = 21, fp = 33, vn = 959 , fn = 106 ■ Précision = 0.39, sensibilité = 0.17, specificité = 0.97, f1Score = 0.23
  • 14. ● Contexte : en juillet 2017, les autorités de santé annoncent le passage de 3 à 11 vaccins obligatoires pour les enfants de moins de 2 ans à partir de 2018. Un sujet largement discuté dans les médias et réseaux sociaux par des professionnels, les lobbies anti-vaccins, le gouvernement et le grand public. ● Problème : peut-on capturer et analyser l’évolution du débat public avec les informations disponibles sur les réseaux sociaux? ● Solution ○ Collecte des tweets français (et liens) avec des mots-clés sur la période en question ○ Algorithme pour identifier le caractère anti-vaccination des tweets ● Résultats ○ Création de la carte anti/vaccination des régions françaises ○ Identification des élements du discours anti-vaccin (en cours) VACCINATION - SOCIAL DEBATE* 14 (*) Projet réalisé en collaboration avec Pascal Vilain, épidémiologiste, Cire océan Indien
  • 15. VACCINATION - SOCIAL DEBATE 15 Carte d’adhesion à la vaccination - Baromètre santé 2016 SPF
  • 16. ● Contexte : l’ECDC (European Centre for Disease Prevention & Control) cherche à améliorer sa capacité à détecter des signaux de surveillance de maladies infectieuses avec l’application systématique d’algorithmes sur les données fournies par les pays membres. ● Problème : Besoin de valider la méthodologie et construire un outil de génération automatique des rapports sur les maladies surveillées ● Solution (*) : Outil interactif détectant des signaux dans les séries temporelles des données de surveillance épidémiologiques (rendu avec R Shiny) ● Résultats : ○ Outil disponible pour la communauté scientifique (CRAN) ○ Conçu pour les données de l’Atlas ECDC de surveillance de maladies infectieuses DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO) 16 (*) Focus fait sur la partie dashboarding de ce projet qui globalement est un projet de recherche épidémiologique
  • 17. ● Objectif du projet 2015 : ○ Identification des méthodes de détection des signaux les plus appropriés pour la surveillance automatique des données de la base TESSy (données Salmonella) de l’eCDC : ■ Plan d’analyse ■ Consultation expert ■ Evaluation de 8 algorithmes ■ Rapport de détection de signaux au niveau géographique et sérotype (R Markdown) ● Objectif du projet 2016 (Données salmonella): ○ Amélioration du système de priorisation des signaux ○ Simplification de sortie ○ Inclusion des paramètres pour sélection interactive (R Shiny application) ■ Prototype d'application ; mise à jour des rapports de détection des signaux DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO) 17
  • 18. ● Objectif du projet 2017 : ○ Implémentation et test de détection des signaux des maladies TESSy avec d’autres propriétés (R Shiny) ● Objectif du projet 2018 : ○ Livraison sous la forme de “packages R” publiquement disponibles ○ Application de détection de signaux ○ Rapports HTML DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO) 18
  • 19. DIABETES DISTRESS - NO.FORMS 19 ● Contexte : dans le cadre du projet World Diabetes Distress Study (WDDS), l’INSERM lance une étude mondiale d’évaluation des impacts des facteurs psychologiques du traitement des personnes atteintes du diabète ● Problème : l’équipe scientifique envisage que les interactions avec les participants à l'étude se fassent via un chatbot qui puisse poser des questions ouvertes ● Solution : Une nouvelle approche permettant d'échanger en langage naturel “guidé” (et dans un contexte donné) avec une population cible pour collecter des informations précises et identifier les nouvelles idées émergentes ● Résultats : En cours de développement
  • 20. CANCER DU SEIN - DEEP.PISTE 20 Un projet lauréat du Health Data Hub ● Contexte : Le cancer du sein tue plus de femmes que tout autre cancer en France, mais le dépistage précoce permet une baisse de 21% de la mortalité. La région Occitanie a dématérialisé son programme de dépistage organisé et a constitué une base de ~250.000 mammographies annotées. ● Problème : La région de l’occitanie souhaite améliorer les performances du programme de dépistage. ● Solution : Utilisation des données produits par le programme pour réaliser un étude permettant d’évaluer l’impacte d’un algorithme d'analyse de mammographies sur le dispositif du dépistage. ● Résultats : En cours de développement Femmes entre 50 et 74 ans Dépistage organisé 1ère et 2ème lecture + algorithme Prise en charge Décès évité synergie
  • 22. Smart Health La santé de chacun est l’affaire de tous, c’est l’esprit même des programmes de santé publique. Plus ils seront connectés, plus ces programmes seront performants. Plus leur approche sera humaine, éthique et en phase avec les préoccupations médicales, plus ils amélioreront la santé et la vie de chacun. Nous sommes des médecins, des épidémiologistes, des data scientists et des spécialistes IT, c’est notre approche, c’est la vision d’Epiconcept.
  • 23. 23 EPICONCEPT - SMART HEALTH Nous sommes des médecins, des épidémiologistes, des spécialistes de la donnée et des technologies numériques dont la raison d’être est : • Améliorer la connaissance des maladies • Rendre plus efficace les programmes de santé publique En associant e-Santé, épidémiologie et data science • Proposer des solutions connectées et décentralisées pour la gestion de programmes de santé publique • Intégrer l’individu dans les programmes de santé publique • Améliorer le lien entre les études, la donnée et les programmes opérationnels
  • 24. 24 EPICONCEPT - SMART HEALTH Nos contributions pour les acteurs de la santé publique en France et à l’international
  • 25. 25 ● Hébergeur de données de santé à caractère personnel ● Voozanoo, socle technique de tous les projets e-Santé d’Epiconcept ● 7 M€ de CA en 2017 Depuis 20 ans, nous contribuons à l'amélioration des programmes de santé publique EPICONCEPT - SMART HEALTH
  • 26. 26 VOOZANOO - SOCLE TECHNIQUE SMART HEALTH
  • 29. 29 ILS NOUS FONT CONFIANCE
  • 30. Pour nous contacter 47, rue de charenton 75012 Paris @Epiconcept +33(0)1 53 02 40 60 WWW.EPICONCEPT.FR