Présentation de l'offre Data Sciences développée par la société Epiconcept . Une offre multi services, nourrie par 20 ans d'expertise en santé publique :
- Accompagnement des acteurs de santé à améliorer leurs capacités d’exploitation des données
- Prise en charge globale de la donnée (stockage, consolidation, traitement, modélisation, restitution)
- Expertise informatique, mathématique et scientifique
- Engagement dans une démarche Open Source
5. DATA SCIENCES @EPICONCEPT
5
Une offre de service multidisciplinaire et multi-équipe, nourrie par 20 ans d’expérience
en traitement de la donnée de santé
● Accompagnement des acteurs de santé à
améliorer leurs capacités d’exploitation
des données
● Prise en charge globale de la donnée
(stockage, consolidation, traitement,
modélisation, restitution)
● Expertise informatique, mathématique
et scientifique
● Engagement dans une démarche Open
Source
Big
Data
Data
Management
Intelligence
Artificielle
Bio Statistiques
6. EXPERTISES
6
Intelligence
Artificielle
● Identification des ontologies
● Identification des thèmes les plus importants
● Modélisation à la demande (Réseaux de Neurones, SVM, …)
Big Data
● Mise en place du data lake - plateforme de calcul (cloud ou
local)
● Collecte et analyse des réseaux sociaux / forums
● Dispositifs médicaux connectés
Data
Management
● Data Cleansing
● Recodage (Utilisation de IA)
● ETL - Import
Bio Statistique
● Traitement R
● Dashboard / Reporting interactif
● Cartographie
ExpertiseMétier/
Protocolederecherche
7. 7
CONCRETEMENT… PLUSIEURS APPROCHES POSSIBLES
● Prototype : prouver rapidement la faisabilité et valeur d’un sujet d’Innovation
● Projet : implementation d’un projet Data Science clé en main
● Accompagnement : des data scientists en renforcement des équipes
● Centre de Service : une équipe dediée pour faire le support data science
● Conseil : choix d’outil, analyse des problématiques et cadre réglementaire
9. ● Contexte :
○ 2018 : étude COMPLIDON de Santé Publique France
sur le comportement des donneurs de sang par
rapport aux critères de sélection.
○ Participation en ligne : environ 110 000 réponses
○ Problème : besoin d’analyser les opinions des
individus dans les réponses en texte libre
○ Solution : regroupement des commentaires par
proximité sémantique ; interface web sur mesure
pour découvrir les thèmes les + représentatifs.
● Résultats :
○ Gain de temps important ; traitement de tous les
textes libres dans le cadre de l’étude statistique
○ 42 nouveaux thèmes identifiés et croisés avec les
autres variables du questionnaire
DONS DU SANG - FEEDBACK EXPLORER
9
10. 10
DONS DU SANG - METHODOLOGIE I
● Données d'entrée : Corpus de 13 018 commentaires avec plus de 20 caractères
● Algorithme de traitement :
○ Préparation des données (automatisé)
○ Séparation des commentaires en séquences d’entre 10 et 20 mots, utilisant si
possible des séparateurs de ponctuation (.;) ou de pronoms (j’, je, il)
○ Encodage des séquences sur un vecteur de 300 dimensions basé sur un réseau de
neurones (word2vec) déjà pré-entrainé
○ Regroupement des séquences avec un algorithme k-means en 512 clusters par
proximité sémantique basé sur la mesure de “cosine similarity” des vecteurs de
chaque séquence
○ Hiérarchisation des clusters dans une arborescence binaire par proximité
sémantique
11. 11
DONS DU SANG - METHODOLOGIE II
● Itérations :
○ Partie manuelle :
■ Exploration manuelle des clusters des séquences via un outil interactif
■ Affectation/désaffectation des sujets d'intérêt (tags) aux clusters ou phrases dans
l’outil
○ Partie automatisée :
■ Recalcul des clusters tenant compte des affectations et désaffectations des sujets
aux séquences avec une version modifiée de l’algorithme k-means
■ Chaque séquence est affectée à un centre ou une phrase manuellement tagués en
fonction de sa proximité sémantique
■ Les phrases affectées aux phrases manuellement taguées sont réaffectées au centre
le plus proche contenant le même tag
■ Recalcul des centres comme somme vectorielle de chaque phrase dans le cluster ;
répétition des étapes automatiques jusqu'à cessation de la diminution de la somme
des moyennes des distances des phrases affectées directement aux clusters
12. 12
DONS DU SANG - METHODOLOGIE III
● Résultats du traitement :
○ Corpus d’entrée : 13.018 commentaires avec plus de 20 caractères.
○ 30.534 séquences produites ; 45 sujets d'intérêts (tags) identifiés
○ 9.134 séquences associées aux tags (30%) et 6.655 commentaires associés aux tags (51%)
● Méthodologie d’évaluation
○ Comparaison de la classification avec une classification manuelle faite sur 1200 commentaires.
○ Une reclassification a dû être faite
● Métriques :
○ Précision : proportion des commentaires correctement attribués à chaque tag par rapport aux
commentaires attribués à chaque tag = VP / (VP + FP)
○ Sensibilité / Recall : proportion des commentaires correctement attribués à chaque tag = VP /
(VP + FN)
○ Spécificité : Proportion des commentaires correctement un tag par rapport aux commentaires
qui ne doivent pas être associés à ce tag = VN / (VN + FP)
○ Score F1 : Performance générale de l'algorithme, i.e. moyenne harmonique entre la précision
et la sensibilité : 2VP / (2VP + FP + FN)
14. ● Contexte : en juillet 2017, les autorités de santé annoncent le passage
de 3 à 11 vaccins obligatoires pour les enfants de moins de 2 ans à
partir de 2018. Un sujet largement discuté dans les médias et réseaux
sociaux par des professionnels, les lobbies anti-vaccins, le
gouvernement et le grand public.
● Problème : peut-on capturer et analyser l’évolution du débat public
avec les informations disponibles sur les réseaux sociaux?
● Solution
○ Collecte des tweets français (et liens) avec des mots-clés sur la
période en question
○ Algorithme pour identifier le caractère anti-vaccination des
tweets
● Résultats
○ Création de la carte anti/vaccination des régions françaises
○ Identification des élements du discours anti-vaccin (en cours)
VACCINATION - SOCIAL DEBATE*
14 (*) Projet réalisé en collaboration avec Pascal Vilain, épidémiologiste, Cire océan Indien
15. VACCINATION - SOCIAL DEBATE
15
Carte d’adhesion à la vaccination - Baromètre santé 2016 SPF
16. ● Contexte : l’ECDC (European Centre for Disease Prevention
& Control) cherche à améliorer sa capacité à détecter des
signaux de surveillance de maladies infectieuses avec
l’application systématique d’algorithmes sur les données
fournies par les pays membres.
● Problème : Besoin de valider la méthodologie et construire
un outil de génération automatique des rapports sur les
maladies surveillées
● Solution (*) : Outil interactif détectant des signaux dans les
séries temporelles des données de surveillance
épidémiologiques (rendu avec R Shiny)
● Résultats :
○ Outil disponible pour la communauté scientifique (CRAN)
○ Conçu pour les données de l’Atlas ECDC de surveillance
de maladies infectieuses
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
16 (*) Focus fait sur la partie dashboarding de ce projet qui globalement est un projet de recherche épidémiologique
17. ● Objectif du projet 2015 :
○ Identification des méthodes de détection des signaux les plus appropriés pour la
surveillance automatique des données de la base TESSy (données Salmonella) de
l’eCDC :
■ Plan d’analyse
■ Consultation expert
■ Evaluation de 8 algorithmes
■ Rapport de détection de signaux au niveau géographique et sérotype (R
Markdown)
● Objectif du projet 2016 (Données salmonella):
○ Amélioration du système de priorisation des signaux
○ Simplification de sortie
○ Inclusion des paramètres pour sélection interactive (R Shiny application)
■ Prototype d'application ; mise à jour des rapports de détection des signaux
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
17
18. ● Objectif du projet 2017 :
○ Implémentation et test de détection des signaux des maladies TESSy avec d’autres
propriétés (R Shiny)
● Objectif du projet 2018 :
○ Livraison sous la forme de “packages R” publiquement disponibles
○ Application de détection de signaux
○ Rapports HTML
DISEASE CONTROL - ECDC DASHBOARD (TEAM EPIDEMIO)
18
19. DIABETES DISTRESS - NO.FORMS
19
● Contexte : dans le cadre du projet World Diabetes
Distress Study (WDDS), l’INSERM lance une étude
mondiale d’évaluation des impacts des facteurs
psychologiques du traitement des personnes atteintes
du diabète
● Problème : l’équipe scientifique envisage que les
interactions avec les participants à l'étude se fassent via
un chatbot qui puisse poser des questions ouvertes
● Solution : Une nouvelle approche permettant
d'échanger en langage naturel “guidé” (et dans un
contexte donné) avec une population cible pour
collecter des informations précises et identifier les
nouvelles idées émergentes
● Résultats : En cours de développement
20. CANCER DU SEIN - DEEP.PISTE
20
Un projet lauréat du Health Data Hub
● Contexte : Le cancer du sein tue plus de femmes que
tout autre cancer en France, mais le dépistage précoce
permet une baisse de 21% de la mortalité. La région
Occitanie a dématérialisé son programme de dépistage
organisé et a constitué une base de ~250.000
mammographies annotées.
● Problème : La région de l’occitanie souhaite améliorer
les performances du programme de dépistage.
● Solution : Utilisation des données produits par le
programme pour réaliser un étude permettant d’évaluer
l’impacte d’un algorithme d'analyse de
mammographies sur le dispositif du dépistage.
● Résultats : En cours de développement
Femmes entre
50 et 74 ans
Dépistage
organisé
1ère et 2ème
lecture
+
algorithme
Prise en charge
Décès évité
synergie
22. Smart Health
La santé de chacun est l’affaire de tous,
c’est l’esprit même des programmes de santé publique.
Plus ils seront connectés, plus ces programmes seront performants.
Plus leur approche sera humaine, éthique et en phase
avec les préoccupations médicales, plus ils amélioreront
la santé et la vie de chacun.
Nous sommes des médecins, des épidémiologistes,
des data scientists et des spécialistes IT, c’est notre approche,
c’est la vision d’Epiconcept.
23. 23
EPICONCEPT - SMART HEALTH
Nous sommes des médecins, des épidémiologistes, des spécialistes de la
donnée et des technologies numériques dont la raison d’être est :
• Améliorer la connaissance des maladies
• Rendre plus efficace les programmes de santé publique
En associant e-Santé, épidémiologie et data science
• Proposer des solutions connectées et décentralisées pour la gestion de
programmes de santé publique
• Intégrer l’individu dans les programmes de santé publique
• Améliorer le lien entre les études, la donnée et les programmes
opérationnels
24. 24
EPICONCEPT - SMART HEALTH
Nos contributions pour les
acteurs de la santé publique
en France et à
l’international
25. 25
● Hébergeur de données de santé à caractère personnel
● Voozanoo, socle technique de tous les projets e-Santé d’Epiconcept
● 7 M€ de CA en 2017
Depuis 20 ans, nous contribuons à l'amélioration des programmes de santé publique
EPICONCEPT - SMART HEALTH