SlideShare une entreprise Scribd logo
www.cetic.be
De	la	collecte	des	données	à	l’exploitation	
de	modèles
Utilisation	de	SMACK	dans	un	projet	de	machine	learning	à	
grande	échelle
1
Mathieu	Goeminne
www.cetic.be
CETIC	?
2
Recherche	appliquée Études	de	faisabilité Preuves	de	concept Transferts	technologiques
www.cetic.be
CETIC:	3	départements
SOFTWARE	&	
SERVICES	
TECHNOLOGIES
3
• ECS	
• Électronique,	embarqué	
• IoT,	Blockchain	
• SSE	
• Ingénierie	logicielle	
• Qualité	logicielle,	validation	du	comportement	
• SST	
• Calcul	parallèle	et	distribué	
• Infrastructure	cloud,	gestion	de	la	donnée
www.cetic.be
Mathieu	Goeminne
• Master	en	Sciences	Informatiques	(UMons)	
• Thèse	en	Génie	Logiciel:	écosystèmes	logiciels	(UMons)	
• Postdoc	UMons-UNamur:	co-évolution	code	source	—	BDD	
• Depuis	2016:	Chercheur	CETIC	
• Big	Data	
• Analyse	de	données	
• Production,	Éolien,	Transport
4
www.cetic.be
Agenda
• Le	besoin	
• Akka	
• Kafka	
• Cassandra	
• Spark	
• Déploiement	de	modèle	
• Mesos	
• Conclusion
5
www.cetic.be 6
www.cetic.be
Combien	de	capteurs	dans	une	usine?
7
www.cetic.be
Combien	de	capteurs	dans	une	usine?
8
5	000	-	50	000
www.cetic.be 9
www.cetic.be
Quelles	sources	de	données	?
10
www.cetic.be
Quelles	sources	de	données	?
11
Capteurs
Fréq:	1	sec-1	~	1	minute-1	
Qt:	5	000	~	50	000	
80	~	50	000	(tag,	timestamp,	val)	/	sec	…	par	usine	(AGC	Europe	=	18+10	implantations)	
Soit	2.5	Mrd	-	1	600	Mrd	(tag,	timestamp,	val)	/	an	/	usine
LIMS Autres
www.cetic.be 12
www.cetic.be
Quels	usages?
13
www.cetic.be
Ce	que	souhaite	le	client
14
www.cetic.be
Ce	dont	le	client	dispose
15
www.cetic.be
Les	challenges	et	besoins	actuels
• On	veut	exploiter	toutes	les	données	
• Les	3	‘V’	du	big	data	(Volume,	Variété,	Vélocité)	
• Plus	que	de	l’opérationnel	
• Détection	d’anomalies	
• Soft	sensor	et	prédiction	
• Optimisation	de	process	
• Maintenance	prédictive	
• Besoin	de	nouvelles	compétences	
• (data	(manager|engineer|analyst|scientist))+	
• Besoin	de	nouveaux	outils
16
www.cetic.be
SMACK
Un	ensemble	d’outils	pour	le	traitement	de	données	
à	large	échelle
17
www.cetic.be
Quelques	propriétés
• Projets	Apache	(à	l’exception	de	Akka)	
• Répondre	aux	besoins	suivants:	
• Passage	à	l’échelle:	de	plusieurs	processeurs	à	plusieurs	data	
centers	
• Résilience:	N’importe	quel	élément	peut	tomber	
• Réplicabilité:	On	doit	pouvoir	refaire	un	travail	à	n’importe	
quel	moment,	et	obtenir	le	même	résultat	
• Efficacité:	La	donnée	perd	rapidement	de	sa	valeur,	donc	un	
traitement	doit	être	réalisé	dans	les	délais.	
• Gestion	intégrée	de	plusieurs	workflows	et	plusieurs	sources	
de	données:	typiquement,	traitement	de	données	historiques	
et	de	données	«	fraiches	»
18
www.cetic.be
Vue	globale	de	l’architecture
19
www.cetic.be
1.	Akka
Pour	la	collecte	de	données
20
www.cetic.be
Akka	pour	la	collecte	de	données
• Bibliothèque	Scala	pour	la	distribution	de	tâches	
• De	plusieurs	processeurs	à	plusieurs	réseaux	
• Échange	de	messages	plutôt	que	mémoire	partagée	
• Chaque	acteur	a	une	«	boîte	aux	lettres	»,	et	peut	envoyer	des	
messages	aux	autres	acteurs	
• Pas	d’état	(partagé):	un	acteur	peut	s’exécuter	n’importe	où	+	
travail	asynchrone	
• Mais	changement	de	paradigme	+	overhead	de	communication	
• Dans	SMACK,	chaque	acteur	représente	un	petit	service	
• Réception	ou	récupération	de	données	(via	un	service	REST,	par	
exemple)	
• Traitement	minimaliste.	Objectif:	expédier	le	message	vers	un	
service	prenant	en	charge	la	persistence.
21
www.cetic.be
Akka	pour	la	collecte	de	données:	exemple
22
www.cetic.be
2.	Kafka
Pour	le	transport	des	messages
23
www.cetic.be
Kafka	pour	le	transport	des	données
• Producteurs	—	Consommateurs	
• Optimisé	pour	écrire	à	grande	vitesse	(2	millions	d’écritures	/	seconde	sur	3	
machines	standard).	
• Organisation	des	messages	en	topics,	chacun	d’eux	étant	géré	par	un	cluster	
de	machines	(réplication,	résilience,	etc.)	
• Persistance	pendant	x	heures
24
www.cetic.be
3.	Cassandra
Pour	le	stockage
25
www.cetic.be
Cassandra	pour	le	stockage
• Base	de	données	NoSQL:	pas	votre	SGBD	habituel	
• Optimisée	pour	l’écriture	à	grande	vitesse	
• Chaque	ligne	peut	avoir	des	colonnes	différentes	
• Les	colonnes	«	manquantes	»	ne	coûtent	rien	
• BDD	distribuée,	masterless	
• Chaque	instance	possède	un	sous-ensemble	des	lignes	
• Les	lignes	sont	répliquées	(typiquement:	3x):	vitesse	et	
résilience	
• Sensibilité	topologique:	rack	▷	data	center	▷ monde	
• Peut	être	vue	comme	un	dictionnaire	de	dictionnaires	de	valeurs:	
• Accès	obligatoire	par	la	clef	de	ligne,	puis	optionnellement	par	
clef	de	colonne
26
www.cetic.be
Cassandra:	stockage	de	séries	chronologiques
27
Clef	primaire	composée.	
tag=clef	de	partition	(de	ligne)	
timestamp=clef	de	clustering	
Pour	chaque	tag,	les	timestamps	
sont	ordonnés.
tag time value quality
sensor1 t1 v1 q1
sensor1 t2 v2 q2
sensor2 t3 v3 q3
sensor2 t4 v4 q4
sensor1 t1 t2
value v1 value v2
quality q1 quality q2
sensor2 t3 t4
value v3 value v3
quality q3 quality q4
Ce	qu’on	voit Ce	qui	est	stocké
www.cetic.be
4.	Spark
Pour	le	traitement	des	données	
(et	le	machine	learning,	enfin!)
28
www.cetic.be
Spark	pour	le	traitement	des	données
• Un	framework	de	calcul	distribué		
• En	batch	et	en	streaming	
• DAG	de	transformations	paresseuses	sur	des	collections	d’éléments	
• Approche	fonctionnelle	(filter,	map,	reduce,	…)	
• Collections	immuables,	distribution	et	reprise	du	calcul	aisées
29
www.cetic.be
Spark	:	un	environnement	pour	les	gouverner	tous
30
www.cetic.be
Spark	❤	Cassandra
31
www.cetic.be
Machine	Learning	avec	Spark	-	fit
32
www.cetic.be
Machine	Learning	avec	Spark	-	transform
33
www.cetic.be
5.	Spark	-	Cassandra	-	Kafka	-	Akka
Pour	le	déploiement	des	modèles
34
www.cetic.be
Exploiter	un	modèle
1. En	batch,	avec	Spark	(cf	slide	précédent)	
2. Précalculer	les	prédictions	dans	Spark,	stocker	dans	Cassandra,	
présenter	avec	Akka	
3. Charger	le	modèle	dans	Spark	Streaming,	appliquer	à	tous	les	
nouveaux	éléments,	stocker	le	résultat	dans	Cassandra.	
4. Charger	le	modèle	dans	Spark	Streaming,	appliquer	à	tous	les	
nouveaux	éléments,	production	des	prédictions	dans	Kafka	pour	
consommation	par	Akka
35
www.cetic.be
6.	Mesos
Pour	gérer	les	ressources	du	cluster
36
www.cetic.be
Mesos	pour	gérer	les	ressources	du	cluster
• Efficace	
• Partage	efficace	des	ressources	entre	les	applications	
• Flexible	
• Supporte	de	nombreux	frameworks	actuels	et	à	venir	
• Supporte	des	demandes	de	ressources	de	différentes	natures	
• Passe	à	l’échelle	
• Des	clusters	de	quelques	nœuds	à	des	milliers	de	nœuds	
• Robuste	
• Tolérance	aux	erreurs:	si	ça	plante,	on	recommence	sur	le	
nœud	d’à	côté	
• Le	scheduler	lui-même	est	redondant
37
www.cetic.be
Mesos	pour	gérer	les	ressources	du	cluster
38
www.cetic.be
Conclusion
39
www.cetic.be
Tout	ce	beau	monde…
• est	distribué	
• est	résilient	
• passe	à	l’échelle	
• interagit	de	manière	intelligente	
• est	open	source	
• est	vraiment	utilisé	par	de	vraies	
entreprises
40
www.cetic.be
Mais	tout	n’est	pas	rose…
• De	nouveaux	paradigmes,	De	
nouveaux	outils,	de	nouvelles	
compétences	
• Distribuer	le	traitement	est	une	
chose,	maintenir	le	système	en	
production	en	est	une	autre	
• Aujourd’hui	encore,	grande	
complexité	accidentelle	
• Vers	des	distributions	de	SMACK	
• Hortonworks,	Cloudera,	etc.
41
www.cetic.be
linkedin.com/company/cetic
info@cetic.be	
+32	71	490	700
twitter.com/@CETIC	
twitter.com/@CETIC_be
www.cetic.be
Aéropole	de	Charleroi-Gosselies		
Avenue	Jean	Mermoz	28	
B-6041	Charleroi	-	Belgique
Questions	?
Mathieu	Goeminne		
	mathieu.goeminne@cetic.be

Contenu connexe

Similaire à De la collecte des données à l’exploitation de modèles -- Utilisation de SMACK dans un projet de machine learning à grande échelle

20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
20231404 - Extraordinaire - zerodefaut - Nivelles.pdf20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
Infopole1
 
Petit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projetsPetit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projets
Adrien Blind
 
Petit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projetsPetit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projets
OCTO Technology
 
Déploiment des tablettes et gestion du parc informatique dans les établisseme...
Déploiment des tablettes et gestion du parc informatique dans les établisseme...Déploiment des tablettes et gestion du parc informatique dans les établisseme...
Déploiment des tablettes et gestion du parc informatique dans les établisseme...
Microsoft Ideas
 
Introduction à la formation Digitalent
Introduction à la formation DigitalentIntroduction à la formation Digitalent
Introduction à la formation Digitalent
ECAM Brussels Engineering School
 
IoT Académie
IoT AcadémieIoT Académie
IoT Académie
line-up.io
 
MasterElectroniqueSystemesEmbarques.ppsx
MasterElectroniqueSystemesEmbarques.ppsxMasterElectroniqueSystemesEmbarques.ppsx
MasterElectroniqueSystemesEmbarques.ppsx
aminazil
 
soutenance_aux_BTS_2022-2023.pdf
soutenance_aux_BTS_2022-2023.pdfsoutenance_aux_BTS_2022-2023.pdf
soutenance_aux_BTS_2022-2023.pdf
bydiaskemtsa
 
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
FactoVia
 
Le BIM en support des études d’exécution
Le BIM en support des études d’exécutionLe BIM en support des études d’exécution
Le BIM en support des études d’exécution
Aconex
 
Architecture logiciel et efficacité de développement
Architecture logiciel et efficacité de développementArchitecture logiciel et efficacité de développement
Architecture logiciel et efficacité de développement
2le
 
Labo Mediatron - Presentation 2017
Labo Mediatron - Presentation 2017Labo Mediatron - Presentation 2017
Labo Mediatron - Presentation 2017
Maro B
 
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
EISTI
 
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docxPRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
AlbanHenovi
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
FactoVia
 
Robotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
Robotique collaborative / Déjeuner du GATE 1/3 – Université de SherbrookeRobotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
Robotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
Sherbrooke Innopole
 
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Antoine Poliakov
 
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
Matooma
 

Similaire à De la collecte des données à l’exploitation de modèles -- Utilisation de SMACK dans un projet de machine learning à grande échelle (20)

20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
20231404 - Extraordinaire - zerodefaut - Nivelles.pdf20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
20231404 - Extraordinaire - zerodefaut - Nivelles.pdf
 
KAMAL 2016
KAMAL 2016KAMAL 2016
KAMAL 2016
 
Petit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projetsPetit déjeuner Octo - L'infra au service de ses projets
Petit déjeuner Octo - L'infra au service de ses projets
 
Petit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projetsPetit-déjeuner OCTO - L'Infra au service de ses projets
Petit-déjeuner OCTO - L'Infra au service de ses projets
 
Déploiment des tablettes et gestion du parc informatique dans les établisseme...
Déploiment des tablettes et gestion du parc informatique dans les établisseme...Déploiment des tablettes et gestion du parc informatique dans les établisseme...
Déploiment des tablettes et gestion du parc informatique dans les établisseme...
 
Introduction à la formation Digitalent
Introduction à la formation DigitalentIntroduction à la formation Digitalent
Introduction à la formation Digitalent
 
IoT Académie
IoT AcadémieIoT Académie
IoT Académie
 
MasterElectroniqueSystemesEmbarques.ppsx
MasterElectroniqueSystemesEmbarques.ppsxMasterElectroniqueSystemesEmbarques.ppsx
MasterElectroniqueSystemesEmbarques.ppsx
 
soutenance_aux_BTS_2022-2023.pdf
soutenance_aux_BTS_2022-2023.pdfsoutenance_aux_BTS_2022-2023.pdf
soutenance_aux_BTS_2022-2023.pdf
 
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
Sido 2017 : Vincent Thavonekham, MVP azure et Regional Director, VISEO, Retou...
 
Le BIM en support des études d’exécution
Le BIM en support des études d’exécutionLe BIM en support des études d’exécution
Le BIM en support des études d’exécution
 
CV-Elhassane-NAIM-FR
CV-Elhassane-NAIM-FRCV-Elhassane-NAIM-FR
CV-Elhassane-NAIM-FR
 
Architecture logiciel et efficacité de développement
Architecture logiciel et efficacité de développementArchitecture logiciel et efficacité de développement
Architecture logiciel et efficacité de développement
 
Labo Mediatron - Presentation 2017
Labo Mediatron - Presentation 2017Labo Mediatron - Presentation 2017
Labo Mediatron - Presentation 2017
 
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
Eisti - École d'ingénieurs pour Bac S & CPGE 2015-2016
 
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docxPRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
 
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...Pres azure   paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
Pres azure paas tdf -rex-hager-vincent thavonekham-regional director-azug f...
 
Robotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
Robotique collaborative / Déjeuner du GATE 1/3 – Université de SherbrookeRobotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
Robotique collaborative / Déjeuner du GATE 1/3 – Université de Sherbrooke
 
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Retour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
 
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
Webcast - Ces nouveaux outils qui assurent le succès de vos solutions IOT /M2...
 

De la collecte des données à l’exploitation de modèles -- Utilisation de SMACK dans un projet de machine learning à grande échelle