1. Le machine learning ou apprentissage automatique
retrouve depuis quelques années un regain d'intérêt (cf.
Hype Cycle de Gartner ci-après), lié en partie au développe-
ment des technologies du Big Data. Comme bon nombre de
technologies, le Machine Learning existait déjà dans l'esprit
d'Alan Turing ("Computing Machinery and intelligence",
1950) ou d'Arthur Samuel ("Some studies un Machine
Learning, Using the game of checkers", 1959) comme un
moyen de dépasser les limites de l'informatique naissante.
Dans un traitement habituel, déterministe, on applique à
un jeu de données, une suite d'opérations ou algorithme,
pour obtenir un résultat, un objectif; exemple le plus trivial,
un tri par couleur et / ou taille.
Dans le cas du machine learning, on dispose de données
que l'on appelle communément jeu d'entrainement, dont le
volume et la qualité sont cruciaux pour l'atteinte de l'objec-
tif. L'enjeux va être de trouver par apprentissage (par itéra-
tion) à partir de ce jeu d'entrainement un modèle ou
programme, afin d'atteindre un objectif et / ou découvrir
une relation. Pour parer à l'explosion combinatoire de
l'analyse de l'ensemble des solutions possibles et proposer
dans un temps contraint (bien souvent en temps réel) la
meilleure solution, on s'appuie sur des lois statistique et de
probabilité.
Le travail du Data Scientist va consister à s'assurer de la
qualité du jeu d'entrainement, à choisir un ou plusieurs al-
gorithmes, à choisir les valeurs des variables de risque ou
d'incertitude en fonction des objectifs à atteindre et enfin à
créer un ou plusieurs modèles qui seront ensuite utilisés de
manière opérationnelle. Afin d'optimiser ce processus, le
Data Scientist doit également posséder des connaissances
métier.
Le choix de l'algorithme est un des éléments primordiaux
dans le processus de réalisation du modèle. Il existe au-
jourd'hui une multitude d'algorithme. La multiplication des
domaines d'applications implique également la création de
nouveaux algorithme, adaptée aux besoins du domaine, en
s'appuyant notamment sur la recherche.
24 mars 2016 Édition 1 Numéro 8
euratech trends
Statistiques, Probabilités
et Algorithmique ...
et Data Scientist
" Le Machine Learning est le champs d'étude qui
donne aux ordinateurs la capacité d'apprendre sans
être explicitement programmés"
Arthur Samuel 1959
EuraTechnologies +(33) 320 191 855
"Most of the knowledge
in the world in the
future is going to be
extracted by machines
and will reside in ma-
chines."
Yann LeCun
Director of AI Research,
Facebooks.
Machine Learning, algorithme à tout faire...
"It is probably wise to
include a random
element in a learning
machine"
Alan Turing
2. 23% des data scientist travaillent dans l'industrie du logiciel
pour seulement 1% en cybersécurité ‐ "2015 Data Science Salary Survey”,
O'Reilly, 2015.
euratech trends
Il existe plusieurs méthodes d'apprentissage auxquelles
sont associées des familles d'algorithme. Ces méthodes et
algorithmes évoluent au grès des besoins et demandes in-
duites par la diffusion du Machine Learning dans de nom-
breux secteurs d'activités. Nous ne présenterons
ci-dessous que quelques exemples, n'ayant pas la préten-
tion de pouvoir être exhaustif, tant ce champ est vaste à
explorer.
L’apprentissage supervisé consiste à créer des modèles
prédictifs à partir de jeux de données d’entrée et de sorties
connues. Il est appliqué dans les problématiques de clas-
sification ou de régression (relation entre deux ou
plusieurs variables). Quelques algorithmes associés :
- arbres de décision boostés et agrégés
- machines à vecteur de support
- classifieur bayésien naïf
- classification des k plus proches voisins
- analyse discriminante
- réseaux de neurones
L’apprentissage non supervisé permets de détecter des
motifs cachés ou des structures intrinsèques propres au
jeux de données. Quelques algorithmes associés :
- k-means et groupement hiérarchique
- mélanges gaussiens (utilisant la maximisation de
l’espérance conditionnelle)
- chaînes de Markov cachées
- cartes auto-organisatrices (SOM)
- réseaux de neurones par couche compétitive
- réseaux de neurones d’apprentissage par quantification
de vecteur (LVQ)
En complément, citons l'apprentissage semi-supervisé
(jeux de données connues et inconnues), l'apprentissage
par renforcement (récompense) ou encore l'apprentissage
profond (Deep Learning).
L'avenir se dessine avec le mariage de l'informatique
quantique et du machine learning, on parle déjà de
Quantum Machine Learning. Par ailleurs certains commen-
cent à imaginer l'algorithme ultime, capable de tout ap-
prendre, de tout comprendre, de tout résoudre, "The Master
Algorithm"!!! (Pedro Domingos, 2015)
Les usages sont multiples, et chacun d'entre nous l'a
expérimenté, souvent sans en avoir vraiment conscience!
Que ce soit le logiciel anti-spam d'une boîte mails, le logi-
ciel de reconnaissance de caractères d'un scanner, le
moteur de recommandations d'un site marchand ou
"Translate" de Google, tous utilisent le Machine Learning.
Son utilisation s'étend au domaine de la finance, pour le
calcul de risque d'emprunt, la détection de fraude ou le
trading; en médecine, dans l'imagerie médicale ou pour le
diagnostic préventif du cancer; dans les Télécoms, réseaux
informatiques et la logistique pour l'optimisation des flux
(données ou véhicules); en robotique, en vision artificielle
et encore bien d'autres.
L'un des derniers domaines investit par le Machine
Learning est l'usine. En effet, la diffusion de milliers de
capteurs dans les sites de production et par voie de
conséquence l'enregistrement de millions de données sont
un nouveau terrain de jeu pour le Machine Learning,
notamment pour le suivi de la qualité, de la production, de
la planification ou de la maintenance en temps réel (projet
iPRODICT, Industry 4.0, Fraunhofer-Institut).
02
Kaggle, une plateforme dédiée aux
challenges Machine Learning
Kaggle ( www.kaggle.com) propose aux entre-
prises, laboratoires de recherche ou universités d'orga-
niser des challenges primés ou non sur la base de leur
jeux de données. Santander Bank y propose par exemple
un challenge primé de 60 000$ dont l'objectif est de ré-
pondre à la question "Quels clients sont des clients
heureux?"
Kaggle est également le partenaire de The National Insti-
tutes of Health lors d'un concours dont la finalité est de
créer un algorithme pour automatiser le diagnostic cardi-
aque sur la base de données recueillies auprès de plus
de 1000 patients.
Apprentissage et algorithme
USAGES
Les outils informatiques du Data Scientist
3. La région des Hauts-de-France ne compte pas
moins de 6 équipes de recherche, soit près
d'une centaine de chercheurs et doctorants
qui travaillent sur le Machine Learning et ses
applications.
Magnet - "MAchine learninG in information
NETworks" - team.inria.fr/magnet
Magnet s'intéresse à la définition de méthodes
et modèles d'apprentissage automatique au
sein de réseaux d'informations, en particulier
ceux présents sur Internet : réseaux d'interac-
tions, hyperliens ou réseaux sociaux. Ces
réseaux sont constitués d'informations en
grand volume, hétérogènes, principalement
textuelles, organisées sous forme de grands
graphes dont les liens sont explicites ou
induits. Les objectifs envisagés sont les
systèmes de veille, de recherche et
d'extraction d'informations, et de recom-
mandation.
Les axes de recherche se décomposent en:
- découverte de structures pour la prédiction
structurée pour les textes, prédiction de liens,
clustering, evaluation de densités dans les
graphes;
- association de représentations et de
méthodes d'apprentissage pour la
manipulation de données hétérogènes;
- structuration en graphes des données pour
la classification, la diffusion et la recom-
mandation.
Partenariats industriels : SAP, Music Story,
Clic and Walk, Pôle de compétitivité PICOM
SequeL - "Sequential Learning" -
sequel.lille.inria.fr
SequeL développe des concepts et al-
gorithmes fiables pour répondre aux
problématiques de systèmes artificiels traitant,
par exemple, des pages web créées, modifiées
ou supprimées du web ou des mesures de
capteurs acquises par un système passif ou
actif (interagissant sur son environnement, tel
que agent logiciel ou robot matériel). À partir
de ces données, ces systèmes extraient des
informations, pour repérer des objets
(classification), pour évaluer les paramètres
d'un processus (estimation), pour interagir
avec son environnement (décision
séquentielle). Ces algorithmes sont également
utilisables dans le cadre de traitement par lot de
gros volume de données.
Ces travaux ont des applications dans les
systèmes de recommendation ou le jeu de Go
( Crazy Stone, logiciel primé à de nombreuses
reprises).
Les axes de recherche couverts sont :
- apprentissage séquentiel;
- prise de décision dans l'incertain;
- problèmes de bandits;
- apprentissage par renforcement;.
Partenariats industriels : France Telecom,
Oranges Labs, Intel, Nuukik, ...
Dolphin - "Discrete multiobjective Optimization
for Large-scale Problems with Hybrid
dIstributed techNiques" - dolphin.lille.inria.fr
DOLPHIN a pour objectif la modélisation et la
résolution parallèle de problèmes
d'optimisation combinatoire (multi-objectifs)
de grande taille. Des méthodes parallèles
coopératives efficaces sont développées à
partir de l'analyse de la structure du problème
traité. Les problèmes ciblés sont aussi bien
AGENDA
Machine Learning
Conference :
15 avril - New York
7 octobre, Londres
hmlconf.com
12th International
Conference on
Machine Learning and
Data Mining :
du 16 au 21 juin, New
York
www.mldm.de
33rd International
Conference on
Machine Learning
(ICML 2016) :
du 19 au 24 juin, New
York
icml.cc/2016
Conférence
francophone sur
l’apprentissage
automatique (CAp
2016):
du 4 au 7 juillet , Mar-
seille
cap16.lif.univ-mrs.fr
European Conference
on Machine Learning
and Principles and
Practice of Knowledge
Discovery :
du 19 au 23 septembre
- Rival del Garda
www.ecmlpkdd2016.org
IEEE International
Conference on
Machine Learning and
Applications
(ICMLA'16) :
du 18 au 20 décembre,
Los Angeles
03euratech trends
SQL reste un outil indispensable : 70 % des répondants du sondage O'reilly ("2015 Data
Science Salary Survey”, 2015) déclarent l'utiliser et qu'une étude de CrowdFlower ( "What skills
should data scientists have in 2016?", 2016) indique qu'il est une compétence demandée dans
près de 60% des offres d'emploi.
Logiciels conçus par les équipes de
recherche, à découvrir!!
Crazy Stone - www.remi-coulom.-
fr/CrazyStone
JProGraM - goo.gl/FislJe
ParadisEO - paradiseo.gforge.inria.fr
Mixmod - www.mixmod.org
STKK++ - www.stkpp.org
Packages pour R disponibles sur cran.r-
project.org et r-forge.r-project.org :
BlockCluster, Clustericat, CoModes, CorReg,
FunFEM, FunHDDC, HDPenReg, MPAGenomics,
MetaMA, MetaRNASeq, MixAll, MixCluster,
RankCluster, clere, rtkore
Les Hauts de France, le
Machine Learning dans la peau
4. des problèmes génériques (ordonnancement flow-shop,
élaboration de tournées, etc.) que des problèmes
industriels de logistique, transport, énergie ou de bioin-
formatique.
Les axes de recherche sont :
- Analyse de la structure d'un problème d'optimisation
combinatoire, où plusieurs indicateurs sont utilisés pour
étudier le contexte du problème. Ceci a permis la
conception d'opérateurs, fonctions objectifs et de
méthodes hybrides efficaces pour la résolution de
problèmes mono-objectif et multi-objectif;
- hybridation de méthodes aux comportements
complémentaires (métaheuristiques et/ou méthodes exact-
es);
- méthodes d'optimisation parallèles, pour accélérer les
temps de recherche, résoudre des problèmes de grande
taille, améliorer la robustesse et la qualité des solutions ob-
tenues.
Partenariats industriels : EDF, GDF-Suez, Tasker, énergie
(électricité, cloud); Genes Diffusion, Alicante, bioinform-
atique; DHL, Vekia, Opalean, logistique et transport.
MODAL - "MOdel for Data Analysis and Learning" -
sequel.lille.inria.fr
MODAL développe de modèles génératifs pour l'analyse de
données hétérogènes et / ou complexes multivariées. les
exemples typiques de ce type de données sont des covari-
ables nominales multivariées ou la combinaison de vari-
ables continues et nominales hétérogènes.
Bien évidemment, le traitement d'autres covariables com-
plexes - ordinales, de rapport ou d'intervalle - est envis-
ageable.
A partir de ces modèles génératifs, une analyse statistique
pertinente permet ensuite d'obtenir l'analyse visuelle et la
classification supervisée, semi-supervisée ou à l'estimation
de densité.
les axes de recherche se concentre sur les modèles
génératifs, qui sont des modèles décrivant le processus de
génération des données, à la différence des modèles
prédictifs.
Relations industriels : PGXIS UK, PharmacoGenomic
Innovative Solutions, Institut Pasteur de Paris, IBL Institut
Biologique de Lille, Rouge gorge, PIXEO
INOCS - "INtegrated Optimization with Complex
Structure" - team.inria.fr/inocs
INOCS travaille sur la modélisation et la résolution des
problèmes d’optimisation de grande taille avec structure
complexe. L’optimisation consiste à trouver une meilleure
solution parmi un ensemble de solutions possibles. Sa
modélisation peut être un programme mathématique où les
variables de décisions doivent satisfaire un ensemble de
contraintes définissant la réalisabilité de la solution et
optimiser une ou plusieurs fonctions objectifs.
Elle est dite à structure complexe quand il comprend des
décisions de type/nature différentes (par exemple
stratégique, tactique ou opérationnelle) et/ou des décisions
présentant une structure hiérarchique du type meneur-
suiveur (problèmes bi-niveau) et/ou des décisions prises
dans un environnement incertain.
Les axes de recherche sont :
- utiliser la structure de façon explicite pour déterminer les
modèles les plus appropriés
- méthodes de résolutions intégrées basées sur la
programmaition mathématique
- outil de détection de structure dans les modèles
- boîte à outils de méthodes pour résoudre des problèmes
d'optimisation avec structure complexe.
Partenariats industriels : EDF, DHL, Alcatel, Eurocontrol,
Coliweb
HEUDIASYC - " Heuristique et Diagnostic des Systèmes
Complexes" - www.hds.utc.fr/heudiasyc/recher-
che/equipe-di
L'équipe DI (Décision, Image) concentre son activité sur le
développement de nouvelles méthodes d'analyse et de fu-
sion de données, le raisonnement dans l'incertain,
l'apprentissage statistique, l'analyse d'images et la vision
par ordinateur.
Les axes de recherches sont :
- théorie des fonctions de croyance
- fusion, estimation d’état
- régression, discrimination, classification automatique
- apprentissage faiblement supervisé
- classification croisée
- pénalités parcimonieuses
- perception 3D référencée vision et image
Les applications se font dans les secteurs de l'environ-
nement, de la santé, des transports, du diagnostic industri-
el, la bioinformatique et l'aide au diagnostic médical.
04 euratech trends
Retrouvez‐nous sur le Web! www.euratechnologies.com
EuraTechnologies
165 avenue de Bretagne
59000 Lille
Equipe Développement économique : 03.20.19.18.55
Accueil EuraTechnologies : 03.59.08.32.30
contact@euratechnologies.com