Exemple d'IOT et ML avec Android, Cassandra et Spark

@Miralak Lausanne JUG 23.03.2017
Exemple d’IOT et ML avec Android,
Cassandra et Spark
Amira Lakhal @miralak
1

About me
Software Developer Java &
@Miralak
github.com/MiraLak
Running addict

Duchess France
3
www.duchess-france.org
@DuchessFr

Internet Of Things

Internet of things (IOT)

Big Data Era
Source: micronautomata.com

Transformation de la Data
Data
Knowledge
Information
Wisdom
Understanding
Context

IOT Future
Source: EX_MACHINA 2015

La réalité
Source: Aldebaran

Mes objets connectés

Objectif
La reconnaissance de l’activité physique en se basant sur les données d’un
capteur: l’accéléromètre
Activitées:
● Marcher,
● Courir,
● Debout,
● Assis.
➔ Utilisation pour des suivis médicaux

Acceleromètre
➔ Capteur de mouvement
➔ Mesure l’accélération
➔ Usages multiples

Acceleromètre
Chaque accélération contient:
● un timestamp (eg, 1428773040488)
● la force d’accélération selon l’axe x (unité m/s²)
● la force d’accélération selon l’axe y (unité m/s²)
● la force d’accélération selon l’axe z (unité m/s²)

Timeseries

Application Android
https://github.com/MiraLak/AccelerometerAndroidApp

Collecte des données
Serveur REST Base de données
https://github.com/MiraLak/accelerometer-rest-to-cassandra

Stockage des données

Historique
● Créé par Facebook
● Open-source en 2008
● current version 3.10
● Orienté colonne ☞ table distribuée

Caractéristiques
● Scalabilité linéaire
● Master-less: peer to peer
● Simplicité opérationnelle
● Multi-datacenter
● No SPOF ☞ Haute disponibilité (≈100% up-time)

Last Write Win
INSERT INTO users(login, name, age) VALUES (‘DuchessFr’ , ‘Duchess France’, ‘5’);
DuchessFr
name(t1) age(t1)
Duchess France 5
auto-generated timestamp

Last Write Win
UPDATE users SET age = ‘6’ WHERE login=‘DuchessFr’ ;
DuchessFr
name(t1) age(t1)
Duchess
France
5
DuchessFr
age(t2)
6
SSTable1 SSTable2

Last Write Win
DELETE age from users WHERE login=‘DuchessFr’ ;
DuchessFr
name(t1) age(t1)
Duchess
France
5
SSTable1
DuchessFr
age(t2)
6
SSTable2
DuchessFr
age(t3)
X
SSTable3

Last Write Win
SELECT age from users WHERE login=‘DuchessFr’ ;
DuchessFr
name(t1) age(t1)
Duchess
France
5
DuchessFr
age(t2)
6
SSTable2
DuchessFr
age(t3)
X
SSTable3SSTable1 SSTable3

Compaction
DuchessFr
name(t1) age(t1)
Duchess
France
5
DuchessFr
age(t2)
6
SSTable2
DuchessFr
age(t3)
X
SSTable3SSTable1
SSTable4
DuchessFr
name(t1) age(t3)
Duchess
France

Timeseries avec Cassandra
Nous allons utiliser des données historiques
➢ Timeseries data model
L’utilisateur et le timestamp sont uniques
➢ Sauvegarder autant que nécessaire

Timeseries data model
CREATE TABLE accelerometer (
user_id text,
timestamp bigint,
x double, y double, z double,
PRIMARY KEY (( user_id ),timestamp)
);
Clustering column
Partition key

Vue logique
user-id timestamp x y z
TEST_USER 1447034733210 10.9 34.5 12.6
TEST_USER 1447034733344 15.4 39.9 16.3
TEST_USER 1447034733462 13.5 36.1 20.3
TEST_USER 1447034733556 13.0 41.3 22.8”

Vue sur disque
TEST_USER
1447034733210 1447034733344 1447034733462
x Y Z x y z x y z
10.9 34.5 12.6 15.4 39.9 16.3 13.5 36.1 20.3

Timeseries data model
CREATE TABLE accelerometer (
user_id text,
date text,
timestamp bigint,
PRIMARY KEY ((user_id, date),timestamp)
);

Vue logique
user-id:date timestamp x y z
TEST_USER:
24-09-2015
1446034733566
10.9 34.5 12.6
TEST_USER:
24-09-2015
1446034733631 15.4 39.9 16.3
TEST_USER:
24-09-2015
1446034733740 13.5 36.1 20.3
TEST_USER:
24-09-2015
1446034733830 13.0 41.3 22.8

Vue sur disque
TEST_USER
:24-09-2015
1446034733566 1446034733631 .. 1446034734120
x Y Z x y z .. x y z
10.9 34.5 12.6 15.4 39.9 16.3 .. 13.5 36.1 20.3
TEST_USER
:25-09-2015
1447034733210 1447034733300 .. 1447034733810
x Y Z x y z .. x y z
13.3 30.5, 12.1 25.2 34.9 16.1 .. 15.0 32.1 12.4

Requêtage
Range queries ☞ Slice on disk
Select user_id, date, timestamp, x, y, z
From accelerometer
Where user_id =”TEST_USER”
and date = “24-04-2015”
and timestamp > “1447034733462” and timestamp < “1447034733890”

Ordre d’aggrégation
CREATE TABLE latest_accelerations (
user_id text,
timestamp bigint,
PRIMARY KEY (user_id, timestamp)
WITH CLUSTERING ORDER BY (timestamp, DESC);
);

Expiration: TTL
INSERT INTO latest_accelerations( user_id, timestamp, x, y, z )
VALUES ( ’TEST_USER’, 1447034733462, 10.9, 34.5, 12.6 )
USING TTL 20;

Analyse des données

Historique
● Créé par AMPLab
● Open-source en 2010
● Version actuelle 2.1.0
● Totalement écrit en Scala
● Calcul distribué en mémoire vive

Ecosystème
Spark Core
Spark SQL
Spark
Streaming
ML lib GraphX

Data sources
Source: Databricks

RDD
● Abstraction : collection d’objet
● Opéré en parallèle
● Tolérant aux fautes sans réplication

Transformations et actions

SparkConf conf = new SparkConf()
.setAppName("Wordcount")
.setMaster("local[*]");
JavaSparkContext sc = new JavaSparkContext(conf);
//Transformations
JavaRDD<String> words = sc.textFile(myFilePath)
.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> pairs = words.mapToPair(x -> new Tuple2(x,1))
.reduceByKey((a,b) -> a+b)
.filter(tuple -> tuple._2() > 3);
//Action
List<Tuple2<String, Integer>> result = words.collect();
44
Exemple: Word count

Gestionnaire de cluster
● Standalone
● Mesos
● Yarn
Source: http://spark.apache.org

Caractéristiques de Spark
● Rapide
● Flexible
● Facile à utiliser

Analyse en temps réel

&

Spark Cassandra Connector
● Open source
● Version 2.0
● Ecrit en Scala
● Charge les données de Cassandra vers Spark
● Ecrit les données de Spark vers Cassandra
https://github.com/datastax/spark-cassandra-connector

Spark Cassandra Connector
Exposes les tables Cassandra comme des Spark RDD + Spark DStreams
c*
Cassandra
driver
Spark
Cassandra
Connector
Spark

Setup Spark Connection
val sparkConf:SparkConf = new SparkConf()
.setAppName("activityRecognition")
.set("spark.cassandra.connection.host", "127.0.0.1"))
.set("spark.cassandra.connection.native.port", "9142")
.setMaster("local[*]");
val sc:SparkContext = new SparkContext(sparkConf);
51

De Cassandra vers Spark
val cassandraRowsRDD:CassandraRDD[CassandraRow] =
new SparkContextFunctions(sc)
.cassandraTable("activityrecognition", "training");
val users:Array[String] = cassandraRowsRDD.select("user_id")
.distinct
.map(row => row.toMap)
.map(entry => entry.get("user_id"))
.collect();
52

Spark Streaming
Scalable, high-throughput, fault-tolerant stream processing
53

Spark Streaming
// declare a streaming context
val ssc = new StreamingContext(sparkConf, Durations.seconds(2))
val cassandraReceiver: ReceiverInputDStream[RDD[CassandraRow]] =
ssc.receiverStream(
new CassandraReceiver(StorageLevel.MEMORY_ONLY)) // custom Cassandra receiver
// The transformations are done here then print the receiver value
cassandraReceiver.map(rdd => computePrediction(model, rdd)).print(0)
ssc.start
ssc.awaitTermination // Wait for the computation to terminate
54

Spark Streaming
class CassandraReceiver(storage: StorageLevel) extends
Receiver[RDD[CassandraRow]](storage: StorageLevel) with Logging{
override def onStart() = { // Start the thread that receives data over a connection
new Thread() {
override def run() = {
receive() //Read data from Cassandra
}
}.start()
}
override def onStop() = { //Nothing to do }
}
55

Et la prédiction?
56

Reconnaissance d’activité
Activités possibles: marcher, courir, debout ou assis
Mesures depuis un acceleromètre : timeseries
Classification d’un timeserie en des
classes d’activités physiques
Machine Learning
57

Classification multiclasses
Labélisé un pattern inconnu à partir de patterns connus
Régression logistique Naive Bayes Random forest
58

Random forest model
59

Apprentissage supervisé
features label
features label
features label
features label
Features Label
Features ?
Train
Predict
60

Modèle prédictif
● Collecter les données labélisées
● Identifier les caractéristiques (features)
● Calculer les caractérisques
● Créer le modèle Random Forest et l’entrainer
● Prédire l’activité
61

Echantillon
62

Collecte des données
63

Application Android
64

Données d’entraînement
65

Données d’entraînement
13679 training acceleration => Seulement 1.6 Mo
66

Echantillonnage
67

Identification des caractéristiques
Calculer la différence X < Y ou X > Y
68

Identification des caractéristiques
Calculer l’amplitude entre les pics de Y
69

Caractéristiques
● Accélération moyenne pour chaque axe
● La différence moyenne entre l’axe X et l’axe Y
● La variance (pour chaque axe)
● L’écart type (pour chaque axe) 1/n * ∑ (x - mean_x)
● La difference absolue moyenne (pour chaque axe)
● Le résultant moyen d’accélération 1/n * ∑ √(x² + y² + z²)
● L'amplitude moyenne pour l’axe des Y
70

Calcul des caractéristiques
//Data comes from ReceiverStream
val accelerationData: RDD[Array[Double]] = data.map(row => row.toMap)
.map(row => Array(row.getOrElse("x",0), row.getOrElse("y",0) ,row.getOrElse("z",0))
.map(row => row.map(_.doubleValue()))
val vectorsXYZ: RDD[Vector] = accelerationData.map(Vectors.dense)
var summary: MultivariateStatisticalSummary = Statistics.colStats(data)
val mean: Array[Double] = summary.mean.toArray
val variance: Array[Double] = summary.variance.toArray
val difference: Double = feature.computeDifferenceBetweenAxes(mean)
//build LabeledPoint with an activity label
val labeledPoint:LabeledPoint = new LabeledPoint(label, Vectors.dense(features))
71

Random Forest Model
// parameters
val categoricalFeaturesInfo: Map[Int, Int] = Map.empty
val numTree: Int = 10
val numClasses: Int = 4
val featureSubsetStrategy: String = "auto"//nb features for splits at each node
val impurity: String = "gini"
val maxDepth: Int = 20
val maxBins: Int = 32
val randomSeeds: Int = 12345 //Random seed for bootstrapping and choosing subsets
// create model
val model = RandomForest.trainClassifier(trainingData, numClasses,
categoricalFeaturesInfo, numTree, featureSubsetStrategy, impurity, maxDepth,
maxBins, randomSeeds)
model.save(sc, "randomForestModel")
72

Précision
● 1.6 Mo mesures d’accélération
● 15 caractéristiques calculées
Random forest accuracy 92.3%
73

Live Demo
74

Conclusion
● Collecter les données depuis un objet et l’analyser
● Les capteurs combinés?
● Une infinité de possibilité avec l’IOT

Merci
76
@Miralak
github.com/MiraLak

Exemple d'IOT et ML avec Android, Cassandra et Spark

Recommandé

Recommandé

Contenu connexe

Plus de JUG Lausanne

Plus de JUG Lausanne (17)

Exemple d'IOT et ML avec Android, Cassandra et Spark