Slides diffusés pendant le webinaire animé par Victor Coustenoble de Trifacta et Marc Sallières et Malick Konate de Synaltic : "Préparez et visualisez vos Open Data avec Trifacta et Tableau"
Retrouvez la vidéo sur blog.synaltic.fr !
Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...Sylia Baraka
Presentation of the paper Performance Analysis of IoT-Based Sensor,Big Data Processing, and Machine Learning Model for Real-Time Monitoring System in Automotive Manufacturing.
presented February 2019 at UPEC
link to original paper
https://www.researchgate.net/publication/327443835_Performance_Analysis_of_IoT-Based_Sensor_Big_Data_Processing_and_Machine_Learning_Model_for_Real-Time_Monitoring_System_in_Automotive_Manufacturing
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
12 juin 2017
Groupe Excel et Power BI
Sujet: Microsoft Flow
Conférencière : Galla Pupel
Microsoft Flow permet d'automatiser des tâches sans maîtriser de code. Il s'utilise notamment très bien avec Power BI.
Slides diffusés pendant le webinaire animé par Victor Coustenoble de Trifacta et Marc Sallières et Malick Konate de Synaltic : "Préparez et visualisez vos Open Data avec Trifacta et Tableau"
Retrouvez la vidéo sur blog.synaltic.fr !
Paper presentation of Performance Analysis of IoT-Based Sensor,Big Data Proce...Sylia Baraka
Presentation of the paper Performance Analysis of IoT-Based Sensor,Big Data Processing, and Machine Learning Model for Real-Time Monitoring System in Automotive Manufacturing.
presented February 2019 at UPEC
link to original paper
https://www.researchgate.net/publication/327443835_Performance_Analysis_of_IoT-Based_Sensor_Big_Data_Processing_and_Machine_Learning_Model_for_Real-Time_Monitoring_System_in_Automotive_Manufacturing
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
12 juin 2017
Groupe Excel et Power BI
Sujet: Microsoft Flow
Conférencière : Galla Pupel
Microsoft Flow permet d'automatiser des tâches sans maîtriser de code. Il s'utilise notamment très bien avec Power BI.
Après un panorama du Big Data / Data Science, nos experts font le focus sur Spark, l’un des composants de la stack SMACK.
Spark est un framework de cluster computing qui permet de faire du traitement de larges volumes de données de manière distribuée. Le modèle de programmation proposé par Spark est plus simple que celui d'Hadoop et jusqu'à 100 fois plus rapide en temps d'exécution.
Nous découvrons ensuite Zeppelin, un outil graphique simple et rapide à mettre en oeuvre se plaçant au-dessus de Spark.
Pour terminer, nous nous intéressons au Machine Learning, aujourd’hui en plein essor. Pourquoi cela ? Quels sont ses principaux domaines d'applications et ses apports ? Quelles sont les principales stratégies utilisées dans le domaine de l'analyse prédictive ? Il est temps d'y voir plus clair et de comprendre les enjeux de cette discipline !
Le Big Data en temps réel n’est plus seulement réservée projets à gros budget. En s'appuyant sur Apache Spark, Talend 6 permet aux entreprises de toute taille et de tout secteur d’activité de convertir des Big Data et données issues de l’Internet des Objets en connaissances exploitables immédiatement.
Les exemples d’utilisation d’analytique en temps réel tels que les recommandations personnalisées, la détection des fraudes, les soins préventifs et la tarification prédictive représentent seulement un échantillon des possibilités qui s’offrent aux entreprises ayant accès en temps réel aux informations métier. Cette présentation permet de découvrir les nouvelles capacité de Talend 6 dans ce domaine et aussi de manière plus générale, et aussi comment :
- révéler les données utiles concernant vos produits, clients, et opérations ;
- passer sans efforts au traitement Big Data temps réel et aux applications pour données décisionnelles ;
- capturer et traiter des données issues de l’Internet des Objets facilement pour délivrer des insights rapidement ;
- fournir des données plus sécurisées et fiables grâce à la qualité de données.
Fiche Produit Verteego Data Suite, mars 2017Jeremy Fain
La Verteego Data Suite, suite logicielle open source et gratuite pour les data scientists. Installable depuis le lien GitHub accessible depuis l'onglet Lab du site web Verteego.com
Spark Summit Europe Wrap Up and TASM State of the CommunityJean-Georges Perrin
On 12/12, we held our Spark meetup at IBM, called Winter 3x30. Those are the slides I used for both introducing the state of our community, TASM (Triangle Apache Spark Meetup) as well as a Spark Summit Europe Wrap Up.
Spark - An In-Memory Distributed Computing Engine.pptxAnass Nabil
Spark - An In-Memory Distributed Computing Engine
Présentation Spark le Framework de big data pour traitement et l'analyse des données massives réalisé par Anass Nabil et Marouane Benabdelkader
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
Après un panorama du Big Data / Data Science, nos experts font le focus sur Spark, l’un des composants de la stack SMACK.
Spark est un framework de cluster computing qui permet de faire du traitement de larges volumes de données de manière distribuée. Le modèle de programmation proposé par Spark est plus simple que celui d'Hadoop et jusqu'à 100 fois plus rapide en temps d'exécution.
Nous découvrons ensuite Zeppelin, un outil graphique simple et rapide à mettre en oeuvre se plaçant au-dessus de Spark.
Pour terminer, nous nous intéressons au Machine Learning, aujourd’hui en plein essor. Pourquoi cela ? Quels sont ses principaux domaines d'applications et ses apports ? Quelles sont les principales stratégies utilisées dans le domaine de l'analyse prédictive ? Il est temps d'y voir plus clair et de comprendre les enjeux de cette discipline !
Le Big Data en temps réel n’est plus seulement réservée projets à gros budget. En s'appuyant sur Apache Spark, Talend 6 permet aux entreprises de toute taille et de tout secteur d’activité de convertir des Big Data et données issues de l’Internet des Objets en connaissances exploitables immédiatement.
Les exemples d’utilisation d’analytique en temps réel tels que les recommandations personnalisées, la détection des fraudes, les soins préventifs et la tarification prédictive représentent seulement un échantillon des possibilités qui s’offrent aux entreprises ayant accès en temps réel aux informations métier. Cette présentation permet de découvrir les nouvelles capacité de Talend 6 dans ce domaine et aussi de manière plus générale, et aussi comment :
- révéler les données utiles concernant vos produits, clients, et opérations ;
- passer sans efforts au traitement Big Data temps réel et aux applications pour données décisionnelles ;
- capturer et traiter des données issues de l’Internet des Objets facilement pour délivrer des insights rapidement ;
- fournir des données plus sécurisées et fiables grâce à la qualité de données.
Fiche Produit Verteego Data Suite, mars 2017Jeremy Fain
La Verteego Data Suite, suite logicielle open source et gratuite pour les data scientists. Installable depuis le lien GitHub accessible depuis l'onglet Lab du site web Verteego.com
Spark Summit Europe Wrap Up and TASM State of the CommunityJean-Georges Perrin
On 12/12, we held our Spark meetup at IBM, called Winter 3x30. Those are the slides I used for both introducing the state of our community, TASM (Triangle Apache Spark Meetup) as well as a Spark Summit Europe Wrap Up.
Spark - An In-Memory Distributed Computing Engine.pptxAnass Nabil
Spark - An In-Memory Distributed Computing Engine
Présentation Spark le Framework de big data pour traitement et l'analyse des données massives réalisé par Anass Nabil et Marouane Benabdelkader
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
Hadoop, initialement conçu pour traiter les (très) gros batchs, a été victime de son succès : il s'affirme de plus en plus comme la plateforme à tout faire du Big Data. On lui demande désormais de supporter plusieurs utilisateurs, les traitements interactifs, la ségrégation ou le partage de données entre entité, et, évidemment... la sécurité qui va avec ces nouveaux usages !
D'une solution de geeks, Hadoop est devenu une plateforme business stratégique pour les entreprises.
Pour aller chatouiller des Oracle ou des Teradata sur leur terrain, Hadoop a dû muscler son jeu avec de nouvelles fonctionnalités.
Ce petit déjeuner est l'occasion de faire un point sur les dernières évolutions d'Hadoop, l'état de l'art de sa mise en oeuvre chez nos clients, et sur les éléments clés de la roadmap des principales distributions.
Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.
Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.
Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.
Polybase est le front-end universel entre le monde relationnel et non relationnel.
Dans cette session nous verrons les capacités de la plateforme Analytics Platform System (APS) contenant une région HDInsight (Distribution Hadoop de Microsoft) et une région PDW (Parallel Data Warehouse, l’offre MPP de SQL Server).
Nous présenterons ensuite l’offre Polybase incluse dans SQL Server 2016 Public Preview. Sans oublier l’intérêt et les bénéfices du MPP, les cas d’usage de la Big Data en entreprise et le gain à utiliser en même temps ces deux technologies.
Nous analyserons ainsi des données non structurées et volumineuses et les exploiterons au sein d’un système décisionnel et relationnel avec un langage que nous connaissons tous : le T-SQL !
Voici la présentation d'Adrien Grassein, Technical Expert en logiciel embarqué chez Smile, lors du petit déjeuner technique [ROM Android Customs] du 29 juin 2018.
Séminaire E-commerce "J'ai mal à mon catalogue" by Smile & AkeneoSmile I.T is open
Si vous aussi vous avez des milliers de produits diffusés sur votre site e-commerce, sur mobile ou en magasin, avec des médias à mettre régulièrement à jour par différents contributeurs, il vous faut une solution de PIM (Product Information Management) !
Retour sur le Séminaire Smile et Akeneo qui s'est déroulé le 16 mars à Marseille.
Au programme :
→ Présentation : Smile & Akeneo
→ Le PIM : c'est quoi ?
→ Mise en œuvre : éviter les pièges
Meet'up "Linux et Android dans les systèmes embarqués et les objets connectés"Smile I.T is open
Retour sur le Meet'up "Linux et Android dans les systèmes embarqués et les objets connectés" qui s'est déroulé le 7 mars à Nantes.
Dans cette présentation, découvrez :
→ L'état de l'art "Android, Linux, et Tizen dans les systèmes embarqués et objets connectés"
→ 2 études de cas techniques :
1) La partie Android décrira comment accéder à un capteur de température (USB ou I²C) afin d'afficher la valeur mesurée dans une application écrite en Java. La cible utilisée sera une carte BeagleBone Black.
2) La partie Linux décrira comment réaliser un capteur de température (I²C) sur la base d'une carte Raspberry Pi zero sous Linux, la distribution adaptée étant produite avec l'outil Yocto.
2 experts de l'embarqué chez Smile sont intervenus :
• Pierre Ficheux, directeur technique Smile ECS, aussi enseignant et responsable de la spécialité Gistre (Génie informatique des systèmes temps réel et embarqués) de l’EPITA et auteur de l’ouvrage "Linux embarqué", ainsi que des livres blancs "Linux pour l'embarqué " et "Logiciel libre pour l'IoT " ;
• Cédric Ravalec, en charge de l'offre open source IoT de Smile, a cocréé et développé la société GENYMOBILE, dotée d’une très forte expertise autour d’Android, et de la société d'expertise Firefox Phoxygen. Il est aussi membre fondateur du Paris Android User Group.
Cette présentation vous donne les clés pour réussir votre application métier. Elle explique comment définir son besoin, comment choisir les technologies et frameworks et enfin comment réussir votre application.
La présentation comprends également deux témoignages de clients de Smile ayant collaboré pour réaliser leurs propres applications.
Blend Web Mix - Hackathon, Quand on ne sait pas où on va, autant y aller le ...Smile I.T is open
Intervention de Vincent Maucorps (Directeur Digital) et Vincent Pelletier (Consultant Digital) de la Business Line Digital chez Smile dans le cadre du Blend Web Mix les 26 et 27 octobre à Lyon.
Voici quelques astuces simples d'user experience pour augmenter votre taux de conversion. A/B testing, responsive, call-to-action... Découvrez les principes clés d'un site agréable à visiter.
Séminaire Smile & Akeneo : e-commerce - J'ai mal à mon catalogueSmile I.T is open
Si vous aussi vous avez des milliers de produits diffusés sur votre site e-commerce, sur mobile ou en magasin avec des médias à mettre régulièrement à jour par différentes personnes, alors il vous faut un PIM !
Et pour cela, Smile et Akeneo vous explique tout :
- Pourquoi un PIM ?
- Cas d'écoles
- Retours d'expérience...
Retrouvez ici les slides de notre séminaire organisé le 5 juillet 2016 à Lyon.
Webinar SMILE : "Découvrez Alfresco 5.1, la solution pour une gestion documen...Smile I.T is open
Notre expert Olivier Favreau, Business Line Manager Systèmes d’Information, Open Wide / Smile, vous fait découvrir la suite Alfresco (GED et BPM), un socle Open Source complet pour répondre aux besoins de :
- Dématérialisation des documents et des processus
- Travail collaboratif
- Gestion des référentiels documentaires
- Recherche unifiée
La gestion des documents et des processus est un enjeu clé dans la transformation numérique des entreprises. Ce webinar vous aidera à mieux l'appréhender.
Pour aller plus loin, n'hésitez pas à contacter notre expert !
Webinar SMILE : "L'Open Source, un accélérateur d'innovation pour les objets ...Smile I.T is open
Notre expert Olivier Viné, Directeur Offre Ingénierie, Open Wide / Smile, vous emmène faire un petit tour d'horizon des solutions disponibles pour accélérer votre Time to Market avec l'Open Source !
Utiliser des logiciels Open Source pour créer des objets connectés, c'est faire le choix de maîtriser sa technologie et de bénéficier de la mutualisation des efforts de R&D d'un nombre croissant d'industriels et d'experts.
Principaux points abordés :
- Panorama des technologies libres pour les objets connectés
- Les pièges à éviter
- Exemples concrets de mise en œuvre.
Pour aller plus loin, n'hésitez pas à contacter notre expert !
Smile's conference at the Meet Magento 2016 on Friday 13 May in Utrecht (Netherlands)
Our E-business expert Fabien Gasser animated this presentation about "Magento bring digital in store".
The Meet Magento conference is the perfect place for merchants, system integrators, developers and service providers that want to get independent information about Magento and ecommerce.
Séminaire IoT EISTI du 14 avril 2016 avec Open Wide / SmileSmile I.T is open
La journée portait sur les Systèmes d’Information utilisant des Objets Connectés, avec une matinée consacrée aux entreprises et l’après midi aux universitaires.
Entre 60 et 100 personnes étaient attendues pour participer aux conférences telles que :
« Systèmes de géolocalisation indoor »
« Internet des objets : un enjeu analytique pour les organisations »
Côté Open Wide / Smile, Christophe Brunschweiler présentait le thème « IoT, M2M, etc... entre mythes et réalité... ».
Présentation sur l'accessibilité numérique / Evènement université de Lille 3 Smile I.T is open
Présentation réalisée par Olivier Nourry - Chef de projet RGAA chez Smile - lors du Symposium handicap de l'université de Lille le 10 mars 2016.
Depuis 2005, une loi sur le handicap précise que tous les services en ligne publics doivent être accessibles.
Sur le terrain, on peut observer un écosystème complet (formations, ressources, label), une communauté professionnelle active, un modèle collaboratif et open source et plein d'autres initiatives.
Webinar Smile : Comment industrialiser votre SI avec Ansible ?Smile I.T is open
Retrouvez les slides du webinar Smile co-organisé le 5 février avec RedHat et Ansible.
Ansible est une plate-forme logicielle libre pour la configuration et la gestion des ordinateurs. Elle combine le déploiement de logiciels multi-nœuds, l'exécution des tâches ad-hoc, et la gestion de configuration.
Lors du webinar, vous avez pu découvrir comment la solution Ansible déployée par Smile pour la troisième enseigne spécialisée dans la commercialisation de biens et loisirs culturels et créatifs en France, permet d'industrialiser leur SI.
Juste après sa sortie en version stable le 19 novembre, Smile vous fait découvrir la dernière version d’une des solutions de CMS les plus utilisés au monde grâce à notre séminaire dédié à la solution Drupal 8.
Au programme :
- Les clés du succès de la transformation digitale
- La transformation digitale : à quoi ça ressemble ? Exemples et use cases
- Pourquoi Drupal ?
- Drupal 8 : quelles sont les nouveautés ?
- Drupal 7 vs Drupal 8 : Quelles compétences ? Pour quel type de projet ? Comment et quand migrer ?...
Drupal offre une polyvalence et une modularité rarement égalée et dispose d'une des communautés d'utilisateurs les plus actives.
Smile a intégré et déployé Drupal pour Total, Louvre Hotels, Kering, Safran... et de nombreux autres clients.
Smile, partenaire de WSO2, intègre cette technologie Open Source dans de nombreux cas d’usage. Nous avons choisi de vous présenter deux cas d’usages opérationnels basés sur la brique ESB de WSO2.
Au programme :
- Centrale d’achat pour un réseau d’indépendants
- Marketplace de vente en ligne, multi fournisseurs.
Découvrez la présentation du séminaire Smile sur la dernière version d’un des CMS les plus utilisés au monde.
Plan :
Première partie : Drupal 8, les nouveautés
Deuxieme partie : Drupal 8, pourquoi? Quand? Comment?
Troisième partie : www.drupal8-guide.com , retour d’expérience sur le déploiement de la solution
Drupal offre une polyvalence et une modularité rarement égalée et dispose d'une des communautés d'utilisateurs les plus actives.
Smile a intégré et déployé Drupal pour Total, Louvre Hotels, Kering, Safran... et de nombreux autres clients.
1. Atelier – Big Data et les enjeux du
temps réel avec Spark
2. VOS SPEAKERS
Atelier –
Big Data et les
enjeux du
temps réel
avec Spark
Demba NGOM
Consultant Big Data
(SMILE)
Adrien FUTSCHIK
Directeur BU Data
(SMILE)
3. Avec de l’audace et des beaux projets, ajoutez une pincée de
culture visionnaire, une bonne dose d’innovation, saupoudrez le
tout d’une expertise technique pluridisciplinaire et vous
obtenez Smile, le leader européen de l’intégration et de
l’infogérance de solutions open source.
4. UNE OFFRE
GLOBALE
Agiles, open et engagés,
chez Smile, nous adorons
avoir un coup d’avance
pour garder notre place
sur le podium des acteurs
majeurs du digital. Pour
cela, nous
avons développé 4
offres pour vous
accompagner dans votre
transformation numérique
DIGITAL
BUSINESS
APPS
EMBEDDED
& IOT
INFRA
9. STREAMING DE
DONNÉES
Streaming de données = traitement de données en temps réel
=> Ceci permet de rapprocher les utilisateurs et d’accélérer le
traitement des données et la prise de décision dans les entreprises
Quelques « Use-cases »
les automates bancaires
IoT (Objects connectés, Usine 4.0, Maintenance prédictive, …)
les systèmes de contrôle du trafic (routier, …)
=> Comment traiter une grosse volumétrie de donnée en temps réel
ou pseudo-temps réel ?
C’est le sujet de cet Atelier !
10. APACHE NIFI Apache NiFi permet de définir un flux de données
entre 2 systèmes
L’interface graphique « full-web » permet de designer facilement des
flux entre plusieurs sources et destinations.
C’est un outil puissant qui permet :
Le routage
La transformation
10
11. KAFKA Apache Kafka est une plate-forme logicielle de
traitement de flux de données open-source développée
par Apache Software Foundation en Scala et Java.
C’est une plate-forme unifiée, à haut débit et à faible latence pour la
gestion des flux de données en temps réel.
couche de stockage : une file d'attente de messages massivement
extensible
Kafka se connecte à des systèmes externes (pour l'import / export de
données) via Kafka Connect
Kafka fournit Kafka Streams, une bibliothèque de traitement de flux
Java
11
12. SPARK ET SPARK
STREAMING
Spark est un framework de traitement de données
distribué
Spark propose différents modules :
Spark core : Une API de haut niveau pour traiter des RDD et planifier des
taches sur le cluter
Spark SQL : Language de manipulation de donnée basé sur SQL
Spark streaming : gestion de flux par micro-batch
Spark ML : bibliothèque de gestion de Machine Learning
Graphx : traitement « graph » en parallèle
Spark design principles
Lazy computing design
Optimisation des jobs avant exécution
In-memory caching
Lectures/Ecritures plus rapides
Performances accrues pour les traitements itératifs (Machine learning)
Optimized pipelines
I/O réduits