Résumé de la conférence
L'augmentation rapide de la force de calcul des ordinateurs (l'utilisation du GPU a permis de surpasser des barrières en termes de force de calcul) ainsi que la diminution exponentielle du coût de stockage (une centaine de dollars par TB) ont contribué à l'émergence d'une nouvelle science : la science des données.
Ce nouveau domaine vise à expliquer et à modéliser des phénomènes complexes en se basant sur l'interprétation et l'analyse des données avec des approches interdisciplinaires : statistique et informatique. Cette science s'applique à tous les domaines à condition d'avoir des données à analyser. Le génome humain est composé de 6 milliards de paires de nucléotides, environ 22000 gènes, 46 chromosomes et il tient sur un disque de 500GB.
Ces chiffres couplés avec la baisse du prix du séquençage d'ADN expliquent la nécessité de l'utilisation des méthodes automatiques et intelligentes pour extraire de l'information dans un laps de temps réduit.
Le but de l'exposé
Au cours de cette conférence j'exposerai une vulgarisation scientifique de l'automatisation de l'analyse des données avec des méthodes à base d'apprentissage automatique (Machine Learning). Je passerai en revue les différentes étapes nécessaires pour l'automatisation tout en donnant des exemples d'utilisations dans le domaine génétique.
Les prérequis pour participer à cette conférence
Le but est de vous présenter une vulgarisation scientifique du Machine Learning appliqué à la génétique. L'ensemble des concepts informatiques sera illustré par des cas d'utilisations. Aucun prérequis informatique n'est nécessaire pour participer.
1. Big Data au service de la génétique
Abdelhalim Rafra
Institut Pasteur de Tunis
18 Avril 2017
Abdelhalim Rafra Big Data au service de la génétique 1/37
2. Qui je suis
Ingénieur RD
2010
-2013Doctorat
2014
-Present
Data Scientist
2007
-2010
Abdelhalim Rafra Big Data au service de la génétique 2/37
9. Use case : Séquençage de l'ADN
Abdelhalim Rafra Big Data au service de la génétique 9/37
10. Use case : Séquençage de l'ADN
Abdelhalim Rafra Big Data au service de la génétique 10/37
11. Projet Data Science : Théorie
Abdelhalim Rafra Big Data au service de la génétique 11/37
12. Projet Data Science : Application simple
Abdelhalim Rafra Big Data au service de la génétique 12/37
13. Projet Data Science : Application
Abdelhalim Rafra Big Data au service de la génétique 13/37
14. Machine Learning ?
Machine learning is the science of getting computers to act without
being explicitly programmed. Andrew Ng
Machine Learning
Abdelhalim Rafra Big Data au service de la génétique 14/37
17. Apprentissage
Deux modes d'apprentissages :
◦ Supervisé :
- Un corpus pour l'apprentissage et un
corpus de validation.
- Simple à évaluer
- Généralisation sur des nouvelles données.
- Automatiser le traitement d'un ux de
données
◦ Non supervisé
- Détecter des corrélations cachées dans
des données.
- Compliqué à évaluer.
- La quantité de données améliore les
résultats.
Abdelhalim Rafra Big Data au service de la génétique 17/37
20. Arbre de décision
◦ Une règle par n÷ud.
◦ Un modèle de classication
simple.
◦ Modèle interprétable.
◦ Adaptable à un problème de
régression.
Abdelhalim Rafra Big Data au service de la génétique 20/37
22. Machine à vecteur de support (SVM)
w = arg min
w
C(x, y) + λΩ(f )
◦ Hyperplan séparateur.
◦ Modèle linéaire.
◦ Classication binaire.
◦ Adaptable :
- au multi-classes.
- à la régression.
◦ Apprentissage par descente
de gradient.
◦ kernel trick
Abdelhalim Rafra Big Data au service de la génétique 22/37
29. Clustering
◦ Regroupe des données par
similarités.
◦ Minimise la distance
intra-groupe.
◦ Maximise la distance
inter-groupes.
◦ La qualité du modèle dépend
du nombre de groupes et de
la distance.
Abdelhalim Rafra Big Data au service de la génétique 29/37
30. Changement de dimension
◦ Réduire l'espace de
représentation.
◦ Préserve les liens entre les
données.
◦ Essentiel pour comprendre et
illustrer les données et les
résultats.
Abdelhalim Rafra Big Data au service de la génétique 30/37