Big data et santé :
enjeux techniques
Nathalie AUSSENAC-GILLES
DR CNRS, IRIT
aussenac@irit.fr
2 axes prioritaires à l’IRIT en lien avec ces questions
• Masses de données et calcul : contact aussenac@irit.fr
• Santé : contact Christophe Jouffrais jouffrais@irit.fr
Des données aux besoins
• Contexte
Réduction coûts de santé
Services plus compétitifs
Nouvelles sources de
données
Nouveaux usages de
données (assurances,
soins à distance,
surveillance)
Nouveaux potentiels
techniques
Maintenir la confiance
des patients
• Données
Données d’activité
Données cliniques, cohortes
Données expérimentales
BD pharmaceutique et
médicale
Données ouvertes
Objets connectés
(quantified self)
Dossiers patients
• Besoins
Org. des processus cliniques
Contrôle des coûts et des
pratiques
R&D (épidémiologie,
pharmacovigilance)
Génomique
Suivi des patients
Veille sanitaire
Bienêtre des patients, qualité
des soins, soins personnalisés,
soins à distance, maintien à
domicile
Contexte scientifique général
BIG DATA
• Evolution des données : plus de …
• Volume
• Variété
• Vélocité
• Véracité
• Valeur
• Evolution des infrastructures : grandes
capacités de stockage, cloud,
processeurs très puissants
• Emergence de nouveaux besoins :
définis à partir des données
17/04/2014 3Evaluation 2014 – Axe Masse de données et Calcul
Les données de santé : des Big Data ?
4 Evaluation 2014 – Axe Masse de données et Calcul
Web
Apps
Données des hopitaux
Suivi patients
Imagerie médicale Données de la recherche
et publications
Données de capteurs :
patients à domicile, quantified self
Données de
réseaux sociaux
Diversité des
matériels
17/04/2014
Sites
spécialisés
Exemple du NCBI
Cycle de vie des données
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
Domaines concernés
• Informatique
• Infrastructures stockage
• Calcul haute performance
• Apprentissage automatique,
théorie des graphes
• Algorithmique, complexité
• Mathématiques
• Statistiques
• Algèbre
• Algorithmique
Enjeux techniques liés aux 5V
dans ce cycle de vie
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
• Qualité :
• gestion des données manquantes
• Redonance
• Cohérence
• Documentations
• Production de méta-données
• Gestion de flux de données
• Filtrage
• Échantillonnage
• Traitements à la volée
• Ethique
• Autorisation collecte
• Droit d’usage
• Anonymisation
Enjeux liés aux 5V dans ce cycle de vie
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
• Insfrastructure
• Clusters de PC
• Grilles, Cloud
• Sécurité et accès
• Architecture de gestion des
données
• Fichiers
• BD classiques
• Entrepôts NoSQL
Enjeux liés aux 5V dans ce cycle de vie
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
• Agrégation de données
• Gestion hétérogénéité des
formats
• Exploitation méta-données
• Résumés
• Modèles mathématiques
d’agrégation, réduction de
dimensions …
• Indexation
• Optimisation accès
• Prise en compte des usages
• Modélisation sémantique
• Typage par des ontologies
• Formats standards RDF
BioPortal, portail d’accès à des
centaines d’ontologies
Enjeux liés aux 5V dans ce cycle de vie
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
• Objectifs
• Fouille de données
• recherche de régularité,
classification, corélations
• Extraction de connaissances
• Algorithmique
• Calculs statistiques sur grands
volumes de données
• Réductions de dimension,
partitionnement, …
• Apprentissage automatique, etc
• Accès aux données
• Rapprocher données et services
• Limiter les transferts
• Calcul
• Cartes graphiques
• Calcul parallèle
Enjeux liés aux 5V dans ce cycle de vie
Collecte
Stockage
Entrepôts
Modélisation
Représentation
Analyse
Calcul
Requête
Visualisation Infrastruc-
tures
• Performances
• Rapidité d’axxès
• Accès - visulisation
• Diversification des modalités
• (cartes, graphiques, ..)
• Vues synthétiques versus détails
• Requêtes
• Requêtes sur données
distribuées
• Problèmes de cohérence des
réponses
• Requêtes en langage naturel
• Niveaux de langage (expert/
vulgarisation)
(Big) data en santé à l’IRIT …
• Données d’images médicale : analyse d’image, recherche d’anomalies, aide au diagnostic
(équipe TCI)
• Données de santé structurées /semi structurées
– appréhender les données du PMSI
• Thèse (Ghazar Chabandarian) en collaboration IRIT/ ISIS/ Centre hospitalier Castres Mazamet : Elicitation de
contexte dans le cadre d’une aide au codage des diagnostics secondaires. … Fouille de données / Apprentissage
• Données de santé textuelles
– Proposer des nouveaux outils pour la recherche d’information (équipes IRIS et ELIPSE)
• Thèse (Gia-Hung Nguyen) IRIT : exploration d’outils de deep learning pour réaliser un matching entre requêtes et
documents, en prenant en compte des connaissances médicales.
– Analyse de collections de textes scientifiques, extraction d’information (équipes MELODI, IRIS et SIG)
• Données issues de capteurs
– Représentation et échange des données (architectures…) , utilisation des données (détection
d’activité, ..)
• Thèse (Rita Zgheib) IRIT/ Champollion : Semantic Message Oriented Middleware pour la detection d’activité.
– Modélisation sémantique de données issues de capteurs en vue de la détection et réparation
d’anomalies
• Thèse de N. Seydoux, IRIT /LAAS enc. N Hernandez

Big data et santé : enjeux techniques

  • 1.
    Big data etsanté : enjeux techniques Nathalie AUSSENAC-GILLES DR CNRS, IRIT aussenac@irit.fr 2 axes prioritaires à l’IRIT en lien avec ces questions • Masses de données et calcul : contact aussenac@irit.fr • Santé : contact Christophe Jouffrais jouffrais@irit.fr
  • 2.
    Des données auxbesoins • Contexte Réduction coûts de santé Services plus compétitifs Nouvelles sources de données Nouveaux usages de données (assurances, soins à distance, surveillance) Nouveaux potentiels techniques Maintenir la confiance des patients • Données Données d’activité Données cliniques, cohortes Données expérimentales BD pharmaceutique et médicale Données ouvertes Objets connectés (quantified self) Dossiers patients • Besoins Org. des processus cliniques Contrôle des coûts et des pratiques R&D (épidémiologie, pharmacovigilance) Génomique Suivi des patients Veille sanitaire Bienêtre des patients, qualité des soins, soins personnalisés, soins à distance, maintien à domicile
  • 3.
    Contexte scientifique général BIGDATA • Evolution des données : plus de … • Volume • Variété • Vélocité • Véracité • Valeur • Evolution des infrastructures : grandes capacités de stockage, cloud, processeurs très puissants • Emergence de nouveaux besoins : définis à partir des données 17/04/2014 3Evaluation 2014 – Axe Masse de données et Calcul
  • 4.
    Les données desanté : des Big Data ? 4 Evaluation 2014 – Axe Masse de données et Calcul Web Apps Données des hopitaux Suivi patients Imagerie médicale Données de la recherche et publications Données de capteurs : patients à domicile, quantified self Données de réseaux sociaux Diversité des matériels 17/04/2014 Sites spécialisés
  • 5.
  • 6.
    Cycle de viedes données Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures Domaines concernés • Informatique • Infrastructures stockage • Calcul haute performance • Apprentissage automatique, théorie des graphes • Algorithmique, complexité • Mathématiques • Statistiques • Algèbre • Algorithmique
  • 7.
    Enjeux techniques liésaux 5V dans ce cycle de vie Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures • Qualité : • gestion des données manquantes • Redonance • Cohérence • Documentations • Production de méta-données • Gestion de flux de données • Filtrage • Échantillonnage • Traitements à la volée • Ethique • Autorisation collecte • Droit d’usage • Anonymisation
  • 8.
    Enjeux liés aux5V dans ce cycle de vie Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures • Insfrastructure • Clusters de PC • Grilles, Cloud • Sécurité et accès • Architecture de gestion des données • Fichiers • BD classiques • Entrepôts NoSQL
  • 9.
    Enjeux liés aux5V dans ce cycle de vie Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures • Agrégation de données • Gestion hétérogénéité des formats • Exploitation méta-données • Résumés • Modèles mathématiques d’agrégation, réduction de dimensions … • Indexation • Optimisation accès • Prise en compte des usages • Modélisation sémantique • Typage par des ontologies • Formats standards RDF
  • 10.
    BioPortal, portail d’accèsà des centaines d’ontologies
  • 11.
    Enjeux liés aux5V dans ce cycle de vie Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures • Objectifs • Fouille de données • recherche de régularité, classification, corélations • Extraction de connaissances • Algorithmique • Calculs statistiques sur grands volumes de données • Réductions de dimension, partitionnement, … • Apprentissage automatique, etc • Accès aux données • Rapprocher données et services • Limiter les transferts • Calcul • Cartes graphiques • Calcul parallèle
  • 12.
    Enjeux liés aux5V dans ce cycle de vie Collecte Stockage Entrepôts Modélisation Représentation Analyse Calcul Requête Visualisation Infrastruc- tures • Performances • Rapidité d’axxès • Accès - visulisation • Diversification des modalités • (cartes, graphiques, ..) • Vues synthétiques versus détails • Requêtes • Requêtes sur données distribuées • Problèmes de cohérence des réponses • Requêtes en langage naturel • Niveaux de langage (expert/ vulgarisation)
  • 13.
    (Big) data ensanté à l’IRIT … • Données d’images médicale : analyse d’image, recherche d’anomalies, aide au diagnostic (équipe TCI) • Données de santé structurées /semi structurées – appréhender les données du PMSI • Thèse (Ghazar Chabandarian) en collaboration IRIT/ ISIS/ Centre hospitalier Castres Mazamet : Elicitation de contexte dans le cadre d’une aide au codage des diagnostics secondaires. … Fouille de données / Apprentissage • Données de santé textuelles – Proposer des nouveaux outils pour la recherche d’information (équipes IRIS et ELIPSE) • Thèse (Gia-Hung Nguyen) IRIT : exploration d’outils de deep learning pour réaliser un matching entre requêtes et documents, en prenant en compte des connaissances médicales. – Analyse de collections de textes scientifiques, extraction d’information (équipes MELODI, IRIS et SIG) • Données issues de capteurs – Représentation et échange des données (architectures…) , utilisation des données (détection d’activité, ..) • Thèse (Rita Zgheib) IRIT/ Champollion : Semantic Message Oriented Middleware pour la detection d’activité. – Modélisation sémantique de données issues de capteurs en vue de la détection et réparation d’anomalies • Thèse de N. Seydoux, IRIT /LAAS enc. N Hernandez