Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Euratech'trends : Machine Learning

382 vues

Publié le

introduction au Machine Learning et un panorama des savoir-faire des laboratoires de la région Hauts de France

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Euratech'trends : Machine Learning

  1. 1. Le machine learning ou apprentissage automatique retrouve depuis quelques années un regain d'intérêt (cf. Hype Cycle de Gartner ci-après), lié en partie au développe- ment des technologies du Big Data. Comme bon nombre de technologies, le Machine Learning existait déjà dans l'esprit d'Alan Turing ("Computing Machinery and intelligence", 1950) ou d'Arthur Samuel ("Some studies un Machine Learning, Using the game of checkers", 1959) comme un moyen de dépasser les limites de l'informatique naissante. Dans un traitement habituel, déterministe, on applique à un jeu de données, une suite d'opérations ou algorithme, pour obtenir un résultat, un objectif; exemple le plus trivial, un tri par couleur et / ou taille. Dans le cas du machine learning, on dispose de données que l'on appelle communément jeu d'entrainement, dont le volume et la qualité sont cruciaux pour l'atteinte de l'objec- tif. L'enjeux va être de trouver par apprentissage (par itéra- tion) à partir de ce jeu d'entrainement un modèle ou programme, afin d'atteindre un objectif et / ou découvrir une relation. Pour parer à l'explosion combinatoire de l'analyse de l'ensemble des solutions possibles et proposer dans un temps contraint (bien souvent en temps réel) la meilleure solution, on s'appuie sur des lois statistique et de probabilité. Le travail du Data Scientist va consister à s'assurer de la qualité du jeu d'entrainement, à choisir un ou plusieurs al- gorithmes, à choisir les valeurs des variables de risque ou d'incertitude en fonction des objectifs à atteindre et enfin à créer un ou plusieurs modèles qui seront ensuite utilisés de manière opérationnelle. Afin d'optimiser ce processus, le Data Scientist doit également posséder des connaissances métier. Le choix de l'algorithme est un des éléments primordiaux dans le processus de réalisation du modèle. Il existe au- jourd'hui une multitude d'algorithme. La multiplication des domaines d'applications implique également la création de nouveaux algorithme, adaptée aux besoins du domaine, en s'appuyant notamment sur la recherche. 24 mars 2016 Édition 1 Numéro 8 euratech trends Statistiques, Probabilités et Algorithmique ... et Data Scientist " Le Machine Learning est le champs d'étude qui donne aux ordinateurs la capacité d'apprendre sans être explicitement programmés" Arthur Samuel ­ 1959 EuraTechnologies +(33) 320 191 855 "Most of the knowledge in the world in the future is going to be extracted by machines and will reside in ma- chines." Yann LeCun Director of AI Research, Facebooks. Machine Learning, algorithme à tout faire... "It is probably wise to include a random element in a learning machine" Alan Turing
  2. 2. 23% des data scientist travaillent dans l'industrie du logiciel pour seulement 1% en cybersécurité ‐ "2015 Data Science Salary Survey”, O'Reilly, 2015. euratech trends Il existe plusieurs méthodes d'apprentissage auxquelles sont associées des familles d'algorithme. Ces méthodes et algorithmes évoluent au grès des besoins et demandes in- duites par la diffusion du Machine Learning dans de nom- breux secteurs d'activités. Nous ne présenterons ci-dessous que quelques exemples, n'ayant pas la préten- tion de pouvoir être exhaustif, tant ce champ est vaste à explorer. L’apprentissage supervisé consiste à créer des modèles prédictifs à partir de jeux de données d’entrée et de sorties connues. Il est appliqué dans les problématiques de clas- sification ou de régression (relation entre deux ou plusieurs variables). Quelques algorithmes associés : - arbres de décision boostés et agrégés - machines à vecteur de support - classifieur bayésien naïf - classification des k plus proches voisins - analyse discriminante - réseaux de neurones L’apprentissage non supervisé permets de détecter des motifs cachés ou des structures intrinsèques propres au jeux de données. Quelques algorithmes associés : - k-means et groupement hiérarchique - mélanges gaussiens (utilisant la maximisation de l’espérance conditionnelle) - chaînes de Markov cachées - cartes auto-organisatrices (SOM) - réseaux de neurones par couche compétitive - réseaux de neurones d’apprentissage par quantification de vecteur (LVQ) En complément, citons l'apprentissage semi-supervisé (jeux de données connues et inconnues), l'apprentissage par renforcement (récompense) ou encore l'apprentissage profond (Deep Learning). L'avenir se dessine avec le mariage de l'informatique quantique et du machine learning, on parle déjà de Quantum Machine Learning. Par ailleurs certains commen- cent à imaginer l'algorithme ultime, capable de tout ap- prendre, de tout comprendre, de tout résoudre, "The Master Algorithm"!!! (Pedro Domingos, 2015) Les usages sont multiples, et chacun d'entre nous l'a expérimenté, souvent sans en avoir vraiment conscience! Que ce soit le logiciel anti-spam d'une boîte mails, le logi- ciel de reconnaissance de caractères d'un scanner, le moteur de recommandations d'un site marchand ou "Translate" de Google, tous utilisent le Machine Learning. Son utilisation s'étend au domaine de la finance, pour le calcul de risque d'emprunt, la détection de fraude ou le trading; en médecine, dans l'imagerie médicale ou pour le diagnostic préventif du cancer; dans les Télécoms, réseaux informatiques et la logistique pour l'optimisation des flux (données ou véhicules); en robotique, en vision artificielle et encore bien d'autres. L'un des derniers domaines investit par le Machine Learning est l'usine. En effet, la diffusion de milliers de capteurs dans les sites de production et par voie de conséquence l'enregistrement de millions de données sont un nouveau terrain de jeu pour le Machine Learning, notamment pour le suivi de la qualité, de la production, de la planification ou de la maintenance en temps réel (projet iPRODICT, Industry 4.0, Fraunhofer-Institut). 02 Kaggle, une plateforme dédiée aux challenges Machine Learning Kaggle ( www.kaggle.com) propose aux entre- prises, laboratoires de recherche ou universités d'orga- niser des challenges primés ou non sur la base de leur jeux de données. Santander Bank y propose par exemple un challenge primé de 60 000$ dont l'objectif est de ré- pondre à la question "Quels clients sont des clients heureux?" Kaggle est également le partenaire de The National Insti- tutes of Health lors d'un concours dont la finalité est de créer un algorithme pour automatiser le diagnostic cardi- aque sur la base de données recueillies auprès de plus de 1000 patients. Apprentissage et algorithme USAGES Les outils informatiques du Data Scientist
  3. 3. La région des Hauts-de-France ne compte pas moins de 6 équipes de recherche, soit près d'une centaine de chercheurs et doctorants qui travaillent sur le Machine Learning et ses applications. Magnet - "MAchine learninG in information NETworks" - team.inria.fr/magnet Magnet s'intéresse à la définition de méthodes et modèles d'apprentissage automatique au sein de réseaux d'informations, en particulier ceux présents sur Internet : réseaux d'interac- tions, hyperliens ou réseaux sociaux. Ces réseaux sont constitués d'informations en grand volume, hétérogènes, principalement textuelles, organisées sous forme de grands graphes dont les liens sont explicites ou induits. Les objectifs envisagés sont les systèmes de veille, de recherche et d'extraction d'informations, et de recom- mandation. Les axes de recherche se décomposent en: - découverte de structures pour la prédiction structurée pour les textes, prédiction de liens, clustering, evaluation de densités dans les graphes; - association de représentations et de méthodes d'apprentissage pour la manipulation de données hétérogènes; - structuration en graphes des données pour la classification, la diffusion et la recom- mandation. Partenariats industriels : SAP, Music Story, Clic and Walk, Pôle de compétitivité PICOM SequeL - "Sequential Learning" - sequel.lille.inria.fr SequeL développe des concepts et al- gorithmes fiables pour répondre aux problématiques de systèmes artificiels traitant, par exemple, des pages web créées, modifiées ou supprimées du web ou des mesures de capteurs acquises par un système passif ou actif (interagissant sur son environnement, tel que agent logiciel ou robot matériel). À partir de ces données, ces systèmes extraient des informations, pour repérer des objets (classification), pour évaluer les paramètres d'un processus (estimation), pour interagir avec son environnement (décision séquentielle). Ces algorithmes sont également utilisables dans le cadre de traitement par lot de gros volume de données. Ces travaux ont des applications dans les systèmes de recommendation ou le jeu de Go ( Crazy Stone, logiciel primé à de nombreuses reprises). Les axes de recherche couverts sont : - apprentissage séquentiel; - prise de décision dans l'incertain; - problèmes de bandits; - apprentissage par renforcement;. Partenariats industriels : France Telecom, Oranges Labs, Intel, Nuukik, ... Dolphin - "Discrete multiobjective Optimization for Large-scale Problems with Hybrid dIstributed techNiques" - dolphin.lille.inria.fr DOLPHIN a pour objectif la modélisation et la résolution parallèle de problèmes d'optimisation combinatoire (multi-objectifs) de grande taille. Des méthodes parallèles coopératives efficaces sont développées à partir de l'analyse de la structure du problème traité. Les problèmes ciblés sont aussi bien AGENDA Machine Learning Conference : 15 avril - New York 7 octobre, Londres hmlconf.com 12th International Conference on Machine Learning and Data Mining : du 16 au 21 juin, New York www.mldm.de 33rd International Conference on Machine Learning (ICML 2016) : du 19 au 24 juin, New York icml.cc/2016 Conférence francophone sur l’apprentissage automatique (CAp 2016): du 4 au 7 juillet , Mar- seille cap16.lif.univ-mrs.fr European Conference on Machine Learning and Principles and Practice of Knowledge Discovery : du 19 au 23 septembre - Rival del Garda www.ecmlpkdd2016.org IEEE International Conference on Machine Learning and Applications (ICMLA'16) : du 18 au 20 décembre, Los Angeles 03euratech trends SQL reste un outil indispensable : 70 % des répondants du sondage O'reilly ("2015 Data Science Salary Survey”, 2015) déclarent l'utiliser et qu'une étude de CrowdFlower ( "What skills should data scientists have in 2016?", 2016) indique qu'il est une compétence demandée dans près de 60% des offres d'emploi. Logiciels conçus par les équipes de recherche, à découvrir!! Crazy Stone - www.remi-coulom.- fr/CrazyStone JProGraM - goo.gl/FislJe ParadisEO - paradiseo.gforge.inria.fr Mixmod - www.mixmod.org STKK++ - www.stkpp.org Packages pour R disponibles sur cran.r- project.org et r-forge.r-project.org : BlockCluster, Clustericat, CoModes, CorReg, FunFEM, FunHDDC, HDPenReg, MPAGenomics, MetaMA, MetaRNASeq, MixAll, MixCluster, RankCluster, clere, rtkore Les Hauts de France, le Machine Learning dans la peau
  4. 4. des problèmes génériques (ordonnancement flow-shop, élaboration de tournées, etc.) que des problèmes industriels de logistique, transport, énergie ou de bioin- formatique. Les axes de recherche sont : - Analyse de la structure d'un problème d'optimisation combinatoire, où plusieurs indicateurs sont utilisés pour étudier le contexte du problème. Ceci a permis la conception d'opérateurs, fonctions objectifs et de méthodes hybrides efficaces pour la résolution de problèmes mono-objectif et multi-objectif; - hybridation de méthodes aux comportements complémentaires (métaheuristiques et/ou méthodes exact- es); - méthodes d'optimisation parallèles, pour accélérer les temps de recherche, résoudre des problèmes de grande taille, améliorer la robustesse et la qualité des solutions ob- tenues. Partenariats industriels : EDF, GDF-Suez, Tasker, énergie (électricité, cloud); Genes Diffusion, Alicante, bioinform- atique; DHL, Vekia, Opalean, logistique et transport. MODAL - "MOdel for Data Analysis and Learning" - sequel.lille.inria.fr MODAL développe de modèles génératifs pour l'analyse de données hétérogènes et / ou complexes multivariées. les exemples typiques de ce type de données sont des covari- ables nominales multivariées ou la combinaison de vari- ables continues et nominales hétérogènes. Bien évidemment, le traitement d'autres covariables com- plexes - ordinales, de rapport ou d'intervalle - est envis- ageable. A partir de ces modèles génératifs, une analyse statistique pertinente permet ensuite d'obtenir l'analyse visuelle et la classification supervisée, semi-supervisée ou à l'estimation de densité. les axes de recherche se concentre sur les modèles génératifs, qui sont des modèles décrivant le processus de génération des données, à la différence des modèles prédictifs. Relations industriels : PGXIS UK, PharmacoGenomic Innovative Solutions, Institut Pasteur de Paris, IBL Institut Biologique de Lille, Rouge gorge, PIXEO INOCS - "INtegrated Optimization with Complex Structure" - team.inria.fr/inocs INOCS travaille sur la modélisation et la résolution des problèmes d’optimisation de grande taille avec structure complexe. L’optimisation consiste à trouver une meilleure solution parmi un ensemble de solutions possibles. Sa modélisation peut être un programme mathématique où les variables de décisions doivent satisfaire un ensemble de contraintes définissant la réalisabilité de la solution et optimiser une ou plusieurs fonctions objectifs. Elle est dite à structure complexe quand il comprend des décisions de type/nature différentes (par exemple stratégique, tactique ou opérationnelle) et/ou des décisions présentant une structure hiérarchique du type meneur- suiveur (problèmes bi-niveau) et/ou des décisions prises dans un environnement incertain. Les axes de recherche sont : - utiliser la structure de façon explicite pour déterminer les modèles les plus appropriés - méthodes de résolutions intégrées basées sur la programmaition mathématique - outil de détection de structure dans les modèles - boîte à outils de méthodes pour résoudre des problèmes d'optimisation avec structure complexe. Partenariats industriels : EDF, DHL, Alcatel, Eurocontrol, Coliweb HEUDIASYC - " Heuristique et Diagnostic des Systèmes Complexes" - www.hds.utc.fr/heudiasyc/recher- che/equipe-di L'équipe DI (Décision, Image) concentre son activité sur le développement de nouvelles méthodes d'analyse et de fu- sion de données, le raisonnement dans l'incertain, l'apprentissage statistique, l'analyse d'images et la vision par ordinateur. Les axes de recherches sont : - théorie des fonctions de croyance - fusion, estimation d’état - régression, discrimination, classification automatique - apprentissage faiblement supervisé - classification croisée - pénalités parcimonieuses - perception 3D référencée vision et image Les applications se font dans les secteurs de l'environ- nement, de la santé, des transports, du diagnostic industri- el, la bioinformatique et l'aide au diagnostic médical. 04 euratech trends Retrouvez‐nous sur le Web! www.euratechnologies.com EuraTechnologies 165 avenue de Bretagne 59000 Lille Equipe Développement économique : 03.20.19.18.55 Accueil EuraTechnologies : 03.59.08.32.30 contact@euratechnologies.com

×