Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Big data telecom-evolution
1.
2. Big Data : de nouveaux champs de
développement et d’innovation
pour les entreprises
Le Big Data est une tendance de fond appelant de
nouveaux profils et de nouvelles compétences sur le
marché de l’emploi. En effet, s’il y a quelques années le
Big Data ne touchait que certains métiers ou certaines
industries, telles le marketing ou la finance, il s’est
aujourd’hui étendu à des secteurs très variés. La majorité
des entreprises et administrations se transforment en
détentrices et utilisatrices d’informations massives. Ces
flux de données imposent leur présence dans l’activité
productive et commerciale, et posent un triple défi en
termes d’adaptation et de mise à niveau.
Le premier défi est d’ordre technique et tient à la collecte,
l’analyse et la protection des données à travers la maîtrise
des outils informatiques auxquels s’ajoute un besoin
d’expertise en mathématiques et algorithmique afin de
manipuler ces données et extraire des informations en
temps réel.
Le second défi concerne les opportunités et risques nés
de ces données. Il s’agit de définir leur valeur marchande
mais également d’appréhender les obligations juridiques
et les cadres éthiques liés à leur manipulation et plus
spécifiquement quand il s’agit de données personnelles.
Le troisième défi est d’ordre organisationnel, concurrentiel
et stratégique. Les entreprises ou administrations doivent-
elles reconsidérer leur fonctionnement et leurs process
pour intégrer la gestion de données ?
De plus, de très nombreuses start-up se lancent chaque
année, créant applications mobiles, services innovants
et objets connectés issus directement des dernières
avancées du domaine, générateurs de nouvelles activités
porteuses de croissance.
les métiers de la
donnée
Data Analyst
Organise, synthétise et traduit les
données internes de l’entreprise. Le poste
peut évoluer vers celui de data scientist.
Data Scientist
Travaille à un niveau stratégique et
manipule les données structurées ou
non, internes ou externes à l’entreprise
pour faire remonter les informations
susceptibles de favoriser la prise de
décisions.
Architecte des systèmes d’information
Big Data
Conçoit et crée le système informatique
de l’entreprise pour stocker et traiter les
données en temps réel.
Data Protection Officer
Responsable de la protection et de la
conformité des données de la société.
Chief Data Officer (CDO)
Assure la qualité de l’information au sein
de l’entreprise et son exploitabilité ; met
en place la stratégie.
Expert en Data Visualisation
Représente une grande quantité de
données de façon visuelle (graphique,
diagramme, …) afin de les comprendre et
de les analyser facilement.
2 Télécom Evolution - Big Data
Le Big Data fait partie des priorités
nationales fixées par le Gouvernement
au travers du Plan Big Data lancé en 2014
qui vise à faire de la France la référence
mondiale dans ce domaine, notamment
via la création de 10 000 emplois d’ici
2019, pour une valorisation de 2,8 milliards
d’euros.
Les secteurs concernés sont extrêmement
variés : banque et assurance, automobile,
santé, recherche… Tous recherchent les
compétences de data scientists que ce soit
pouranalyserpluseffacementleursdonnées,
trouver des applications innovantes, créer
de la valeur à partir de ressources jusqu’alors
inexploitées, proposer de nouveaux services
aux consommateurs...
Il est nécessaire de disposer de
compétences techniques, mais aussi d’une
capacité à anticiper les services et les
usages rendus possibles par le Big Data.
Les connaissances juridiques relatives à la
collecte, au stockage et à l’exploitation des
données sont également un atout.
Le domaine Big Data ne se limite pas au seul
métier de data scientist, mais concerne des
postes transversaux et multidisciplinaires,
qui se créent aussi dans le cadre d’évolutions
ou de reconversions internes.
3. Télécom Evolution, une expertise dans la
transition numérique par le Big Data
Télécom Evolution conçoit et produit des solutions de formations innovantes,
dans tous les domaines du numérique. La valeur de ses formations vient
de l’attention portée aux besoins réels des entreprises, avec qui elle
travaille en étroite collaboration. Télécom Evolution intègre l’expertise
de professionnels reconnus et des équipes pluridisciplinaires
d’enseignants-chercheurs des écoles d’ingénieurs de l’Institut
Mines-Télécom spécialisées dans le numérique : Télécom
Bretagne, Télécom ParisTech et Télécom SudParis. Ces
équipes participent à de nombreux projets de recherche
en partenariat avec les acteurs économiques. Cet ancrage
scientifique de haut niveau garantit un positionnement d’excellence de Télécom Evolution au cœur de
l’écosystème du domaine Big Data.
Mathématiques financières, graph-mining et
exploration des réseaux sociaux, ranking et
filtragecollaboratif,sécurité,détectiond’attaque,
publicité sur Internet, analyse d’images et de
données spatio-temporelles, anonymisation des
données, indexation/recherche de documents
multimédia, visualisation de données mais aussi
aspects sociétaux, juridiques, économiques,
politiques et philosophiques en relation avec
l’utilisation des données personnelles.
De grandes forces académiques
• Télécom Bretagne :
PôleCID(Connaissance,Information,
Décision)
• Télécom ParisTech :
50 enseignants-chercheurs et
50 doctorants répartis entre les
départements TSI (Traitement du
Signal et des Images), COMELEC
(COMmunication ELECtronique),
INFRES(INFormatiqueetRESeaux),
SES (Sciences Economiques et
Sociales)
• Télécom SudParis :
DépartementsCITI(Communications,
ImagesetTraitementdel’Information),
RS2M (Réseaux et Services
Multimédia Mobiles), RST (Réseaux et
ServicesdeTélécommunications),INF
(Informatique), ARTEMIS (Advanced
Research and TEchniques for
Multidimensional Imaging Systems)
Trois Chaires de recherche et
d’enseignement
Les écoles Télécom s’investissent
dans trois Chaires, soutenues par des
partenaires industriels qui travaillent
de façon rapprochée avec les
enseignants-chercheurs.
• Machine Learning for Big Data
avec Criteo, PSA Peugeot Citroën,
Safran et BNP Paribas.
• Big Data & Market Insights avec
Deloitte, Groupe BPCE, Groupe
Rocher et SNCF.
• Valeurs et Politiques des
Informations Personnelles avec
Groupe Imprimerie Nationale, BNP
Paribas, Orange, LVMH, Dassault
Systèmes, Deveryware et la CNIL.
Trois incubateurs
La valorisation de l’innovation dans
le domaine du Big Data se fait
au travers de trois incubateurs :
ParisTech Entrepreneurs (Télécom
ParisTech), Télécom & Management
SudParis Entrepreneurs (Télécom
SudParis) et l’incubateur de Télécom
Bretagne qui accueillent plusieurs
dizaines de start-up reposant sur
ces technologies.
Une plateforme pour catalyser
l’innovation
La plateforme Teralab, pilotée
par l’Institut Mines-Télécom et
le GENES (Groupe des écoles
nationales d’économie et de
statistique), a pour but de lever
la barrière à l’entrée de l’adoption
des technologies Big Data. Teralab
est une infrastructure puissante,
flexibleetdeconfiance.Sonéquipe
est appuyée par des chercheurs
reconnus dans l’analyse des
données et le machine learning.
Elle accueille déjà de nombreux
projets d’excellence, d’envergure
internationale, regroupant acteurs
économiques et académiques.
Une expertise thématique large et variée au
sein des écoles Télécom
3
4. 3 niveaux adaptés à des
profils variés allant de
professionnels maitrisant
l’outil informatique
(ingénieurs, chefs de
projet, data scientists,
techniciens….) à un public
de non spécialistes.
S’initier aux concepts
(pour les non spécialistes)
Acquérir une vision
globale et comprendre
les enjeux
Acquérir une
expertise spécifique
et des connaissances
opérationnelles
Stage comportant une
proportion importante de
travaux pratiques et/ou
études de cas
STAGE "PANORAMA"STAGE "COMPRENDRE" STAGE "avancé" STAGE "aTELIER"
mOOC* fondamentaux pour le big data
Ce MOOC, proposé par Télécom ParisTech, a pour objectif de fournir une formation de base à toute personne
recherchant une solution flexible, accessible et compatible avec le maintien d’une activité professionnelle et
souhaitant accéder aux formations conduisant aux métiers du Big Data en raison des importants besoins
de recrutement dans ce domaine. Ce MOOC offre ainsi les connaissances de base dans les domaines de
l’algèbre, des probabilités, des statistiques, de la programmation Python et des bases de données afin
d’acquérir le niveau requis aux formations de spécialisation aux métiers du Big Data.
PROGRAMME
6 semaines / effort estimé en heures : 24 heures
Accès Libre
Prérequis : Bases en mathématiques et en algorithmique (niveau L2 validé)
Vérification du niveau des candidats par un test de connaissance (quiz)
organisé avant le début du MOOC.
Introduction générale
Python et Algèbre (Partie 1)
Limites des bases de données relationnelles / Python et Algèbre (Partie 2)
Python (Partie 3) / Probabilités et Analyse (Partie 1)
Probabilités et Analyse (Partie 2)
Statistiques / Présentation du mini-projet
Classifieur Perceptron
Ce MOOC peut être adapté pour une utilisation spécifique en entreprise
ou être enrichi de services d’accompagnement dédiés pour un parcours de
formation plus personnalisé.
Information sur les conditions
d'inscription et le planning :
www.telecom-evolution.fr/moocs
*Massive Open Online Course
4 Télécom Evolution - Big Data
une offre complète centrée sur des technologies spécifiquesformations courtes
Une gamme de huit formations courtes (1 à 2 jours) permettant un focus sur des compétences précises
dans le domaine du Big Data.
Big Data : Premiers succès et retours
d’expérience - 1 jour
Objectifs : apprécier l’étendue des cas
d’usages réels possibles du big data,
identifier les mesures de succès mises
en place par leurs auteurs, ainsi que les
obstacles rencontrés et les solutions
apportées ; interagir avec les praticiens de
la « data » autour de leurs problématiques.
Responsable : François Lainée, président
de CetaData, cabinet de conseil et
développement de solutions Big Data
Big Data : Enjeux stratégiques et défis
technologiques – 2 jours
Objectifs : mesurer et prendre en compte
tous les besoins, enjeux et défis techniques
associés au big data et à l’exploitation des
données massives qui s’y rattachent.
Responsables : Bruno Defude, enseignant-
chercheur à Télécom SudParis, spécialiste de
la gestion de données et Claire Levallois-Barth,
enseignant-chercheur en droit à Télécom
ParisTech, coordinatrice de la Chaire « Valeurs
et Politiques des Informations Personnelles »
5. Big Data : Panorama des infrastructures et
architectures distribuées – 2 jours
Objectifs : comprendre les paradigmes de
calculs distribués et les solutions de passage
à l’échelle (scaling).
Responsable : Jérémie Albert, senior architect
chez la start-up Ezakus
Data Science : Introduction au Machine
Learning - 2 jours
Objectifs : acquérir des bases solides dans
le domaine du machine learning ; apprendre
à mettre en place des plans expérimentaux,
les algorithmes d’apprentissage, interpréter
les règles prédictives et mesurer leur
performance.
Responsable:StéphanClémençon,enseignant-
chercheur au département « Traitement du
signal et des images » de Télécom ParisTech,
coordinateur de la Chaire « Machine Learning
for Big Data »
Introduction à la sécurité du Big Data
2 jours
Objectifs : acquérir une vision globale des
problèmes de sécurité liés au big data ;
disposer des bases nécessaires pour mettre
en place une architecture de sécurité et
comprendre les techniques de protection
des données dans un contexte big data.
Responsables : Thierry Baritaud, responsable
sécurité des services et réseaux à la division
innovation d’Orange et Xavier Aghina,
responsable du programme de recherche en
sécurité à la division Orange Labs
Visualisation d’information (Infovis)
2 jours
Objectifs : introduire les principes de
base de la visualisation des données et de
l’information ; apprendre à créer et à adapter
des représentations visuelles de différentes
données et tâches utilisateurs.
Responsable : James Eagan, enseignant-
chercheur à Télécom ParisTech, mène des
activités de recherche dans le domaine de la
visualisation d’information et de l’interaction
homme-machine
Web sémantique et extraction de données
2 jours
Objectifs : comprendre les bases du web
sémantique ; connaître les bases de la
représentation des connaissances et les
algorithmes les plus importants d’extraction
d’information ; savoir appliquer les
algorithmes à des problèmes concrets.
Responsable : Fabian Suschanek, enseignant-
chercheur à Télécom ParisTech et auteur
principal de Yago, une des plus grandes bases
de connaissances publiques dans le monde
Introduction à R – 2 jours
Objectifs : présenter R et les tests
d’hypothèses pour étudier les séries
chronologiques ainsi que les concepts de
base du traitement de données.
Responsable : Jean-Marc Le Caillec,
enseignant-chercheur à Télécom Bretagne,
enseigne le traitement et la décision
statistique et Patrick Meyer, enseignant-
chercheur à Télécom Bretagne, enseigne la
recherche opérationnelle et l’algorithmique
Retrouvez toutes les dates de ces formations sur
www.telecom-evolution.fr/domaines/big-data
Ces formations sont réalisables en inter-entreprises
pour un besoin individuel ou en intra-entreprise
pour un besoin collectif dans le cadre d’un projet de
formation.
5
6. Responsables pédagogiques :
Florence D’Alché-Buc, enseignant-chercheur au département « Traitement du Signal et des Images » de
Télécom ParisTech. Ses recherches portent sur l’apprentissage statistique à partir de données structurées
et/ou temporelles, la modélisation de systèmes dynamiques et la prédiction de liens dans les réseaux.
Pierre Senellart, enseignant-chercheur au département « INFormatique et RESeaux » de Télécom
ParisTech, directeur de l’information du Journal of the ACM. Ses recherches portent sur les aspects
pratiques et théoriques de la gestion de données du Web, en particulier le crawl et l’archivage
du Web, l’extraction d’informations depuis le Web, la gestion de l’incertitude, la fouille du
Web et l’interrogation sous contraintes d’accès.
Démarche pédagogique
Une formation en forte adéquation avec les besoins des
entreprises, validée par un comité de veille et assurée
par des experts reconnus du domaine qui regroupe :
- Enseignements académiques
- Acquisition de savoir-faire au travers de retours
d’expérience, études de cas et mises en situation
professionnelle
- Travail en groupe sur des cas opérationnels
- Projet personnel d’application se concrétisant par la
rédaction et la soutenance d’un mémoire professionnel
La formation se déroule en 12 modules de 2 jours
sur une période de 10 mois et est organisée pour
permettre la poursuite d’une activité professionnelle.
Evaluation et certification :
- Contrôle des acquis et des savoir-faire à travers des travaux individuels et en groupe
- Des projets inter-sessions illustrent la théorie par des cas pratiques.
Le Certificat d’Etudes Spécialisées « Data Scientist » de Télécom ParisTech est délivré après une
évaluation d’un projet individuel et une soutenance devant jury.
Participants concernés et prérequis
Cette formation s’adresse à des ingénieurs,
techniciens, chefs de projet souhaitant développer
leurs compétences dans le domaine de la gestion et
l’analyse statistique des données massives.
De bonnes connaissances en mathématiques
(optimisation, probabilités/statistique, algèbre linéaire)
et une bonne expérience de la programmation sont
nécessaires pour suivre avec profit cette formation. Le
suivi du MOOC « Fondamentaux pour le Big Data »
(gratuit) est un prérequis au suivi du CES.
CES (Certificat d’études Spécialisées) data scientist
Une formation certifiante permettant la maîtrise des techniques de gestion et d’analyse des Big Data et des
principaux algorithmes de machine learning.
OBJECTIFS :
La grande complexité des données disponibles aujourd’hui et la nécessité d’automatiser le
traitement en vue de satisfaire aux contraintes du temps réel, ont conduit au développement du
machine learning, discipline à l’interface des mathématiques appliquées et de l’informatique, ce
qui a favorisé l’essor d’un nouveau métier : Data Scientist.
L’objectif du CES est de former à ce métier permettant d’articuler des compétences en mathématiques et en
informatique afin d’appréhender la chaîne de traitement des données dans sa globalité.
Le programme vise à :
- Maitriser les techniques récentes de gestion et d’analyse de grandes masses de données
- Connaitre les différents formats des données, modèles, méthodes d’extraction de descripteurs structurels et
sémantiques
- Manipuler les algorithmes de prédiction et les techniques d’analyse des données et d’apprentissage statistique
- Appréhender les techniques de passage à l’échelle.
6 Télécom Evolution - Big Data
7. Programme du CES Data Scientist
Introduction à l’apprentissage statistique
• Objectifs et enjeux de l’apprentissage statistique,
Nomenclature des problèmes
• Formalisme probabiliste
• Régression logistique - loi/vraisemblance
conditionnelle - Newton Raphson
• Le perceptron, Méthode des k- plus proches voisins
Introduction aux bases de données NoSQL
• Bases de Données distribuées (MapReduce, clé-
valeur, orientées colonne, orientées document,
orientées graphe)
• Flux de données
Données textuelles/web
• Extraction d’informations du web
• Reconnaissance d’entités nommées
• Fast extraction
• Web sémantique
Données multimédia
• Indexation des images
• Indexation des sons
Apprentissage supervisé
• Théorie de Vapnik-Chervonenkis
• Arbres de décision, Réseaux de neurones, SVM,
Boosting, Lasso
• Apprentissage par renforcement
Techniques avancées pour l’apprentissage
• Apprentissage en ligne
• Apprentissage statistique distribué
• Techniques d’échantillonnage
Apprentissage non supervisé
• Variables latentes
• Clustering
• Analyse des affinités
• Détection d’anomalies
HMM, modèles graphiques, réseaux bayésiens/
markoviens
• Chaines de Markov cachées
• Réseaux bayésiens
Visualisation des données massives
• Principes de base de la visualisation d’information
• Critique des techniques de visualisation appliquées à
une donnée particulière pour une tâche donnée
• Evaluation des systèmes de visualisation
• Conception de nouveaux outils de visualisation
Stockage distribué : SQL, NewSQL, NoSQL
• SGBD relationnels distribués classiques
• Systèmes de fichiers distribués HDFS/GFS
• Stockage à grande échelle, clés-valeurs (Dynamo), par
arbre distribué (BigTable, HBase)
• Systèmes NewSQL (Google Spanner, SGBD en
mémoire, MySQL Cluster)
Calcul distribué
• MapReduce avancé
• Spark, Stratosphere, MPI
• Calculs distribués sur des graphes : GraphLab, Pregel,
Giraph
Machine learning distribué
• Distribution d’algorithmes d’indexation,
d’apprentissage et de fouille
• Index inversé
• Factorisation de matrice
• Echantillonnage
• PageRank
7
Informations pratiques
CES data scientist
Procédure d’admission :
- Dossier de candidature et entretien
individuel pour valider le projet
professionnel
Organisation pédagogique :
Durée : 10 mois
Rythme : 25 jours (175 heures)
Lieu : Télécom ParisTech à Paris
Tarif : 10 600 € nets de taxes
Financement :
Eligible au titre :
- du Compte Personnel de Formation (CPF)
(en cours d’agrément)
- du plan de formation de l’entreprise
- du Congé Individuel de Formation (CIF)
Contact :
cesdatascientist@telecom-evolution.fr