Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Les « Données de la recherche » : définitions, enjeux et perspectives pour...Cairn.info
La réflexion sur les enjeux épistémologiques, culturels, politiques et économiques de l’exposition, la valorisation et la réutilisation des données de la recherche mobilise actuellement une variété d’acteurs du milieu de la recherche : institutions, chercheurs, éditeurs scientifiques, documentalistes / bibliothécaires, etc. A partir d’une série d’entretiens semi-directifs menés auprès de chercheurs en sciences humaines et sociales (SHS), nous avons essayer de comprendre la façon spécifique dont cette question plurielle se pose dans ces disciplines : Qu’est-ce qu’une donnée de la recherche en SHS ? Quelles données partager et dans quel but ? Quelles conditions et quels freins à l’accès et au partage dans ces domaines ? Comment les chercheurs souhaitent-ils valoriser ces données ? Cette étude exploratoire a donné lieu à un présentation du groupe "Big data / Smart data" du GFII.
Le buzz est à son comble, tout le monde en parle, mais avez-vous déjà eu l'occasion de voir un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Geraud Duge De Bernonville - Architecte Big Data, Valtech
geraud.dugedebernonville@valtech.fr
Pierre-Yves Koenig - Data Scientist, Valtech
pierre-yves.koenig@valtech.fr
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...Lesticetlart Invisu
Communication présentée lors de la journée d'étude "Outils, méthodes, corpus : la modélisation des données en SHS" (Paris, Institut national d'histoire de l'art, 17 novembre 2014).
Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr
Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
Big Data effet de mode ou vrai utilité? On entend de plus en plus parler de Big Data, qui devrai bouleverser notre vie de tous les jours. On génere, avec internet, de plus en plus de quantités extraordinaires de données, qu'en fait-on? Forbes le classe parmi les 10 "technologies" qui devront marquer 2014! Mais qu'est-ce que c'est? Comment le mettre en oeuvre?
Les « Données de la recherche » : définitions, enjeux et perspectives pour...Cairn.info
La réflexion sur les enjeux épistémologiques, culturels, politiques et économiques de l’exposition, la valorisation et la réutilisation des données de la recherche mobilise actuellement une variété d’acteurs du milieu de la recherche : institutions, chercheurs, éditeurs scientifiques, documentalistes / bibliothécaires, etc. A partir d’une série d’entretiens semi-directifs menés auprès de chercheurs en sciences humaines et sociales (SHS), nous avons essayer de comprendre la façon spécifique dont cette question plurielle se pose dans ces disciplines : Qu’est-ce qu’une donnée de la recherche en SHS ? Quelles données partager et dans quel but ? Quelles conditions et quels freins à l’accès et au partage dans ces domaines ? Comment les chercheurs souhaitent-ils valoriser ces données ? Cette étude exploratoire a donné lieu à un présentation du groupe "Big data / Smart data" du GFII.
Le buzz est à son comble, tout le monde en parle, mais avez-vous déjà eu l'occasion de voir un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Geraud Duge De Bernonville - Architecte Big Data, Valtech
geraud.dugedebernonville@valtech.fr
Pierre-Yves Koenig - Data Scientist, Valtech
pierre-yves.koenig@valtech.fr
Anne-Violaine Szabados : L’expérience LIMC & CLAROS : pour l’élévation des do...Lesticetlart Invisu
Communication présentée lors de la journée d'étude "Outils, méthodes, corpus : la modélisation des données en SHS" (Paris, Institut national d'histoire de l'art, 17 novembre 2014).
Le buzz est à son comble, tout le monde en parle, mais avez-vous vu un Data Scientist travailler en temps réel sur des données Big Data ? Découvrez un cas d’utilisation basé sur des données Open Data et sur un modèle predictif.
Hervé Desaunois - Directeur technique, Valtech Toulouse
herve.desaunois@valtech.fr
Pierre-Yves Koenig – Data Scientist, Valtech Toulouse
pierre-yves.koenig@valtech.fr
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
L'émergence du phénomène du web 2.0, des nouveaux outils d'accès à l'information qu'il propose, des nouveaux types de contenus qu'il met en ligne, et des nouveaux protocoles de filtrage et de validation qu'il abolit ou transcende, interroge les pratiques actuelles de formation à l'IST. Parmi d'autres, le phénomène des blogs d'experts gagne le domaine de l'enseignement en général et de l'université en particulier. Des institutions, des composantes, des formations, des services, des communautés scientifiques, mais aussi des enseignants-chercheurs ouvrent de nouveaux espaces de paroles, mettant en œuvre de nouvelles dynamique de collaboration. Ces nouveaux collaboratoires, sous l'angle des rapports entre science et société, permettent d'articuler différemment un grand nombre de pratiques scientifiques en terme de diffusion, de collecte, de recherche, de publication et d'enseignement. Le domaine de la culture informationnelle et de la maîtrise de l'information en particulier, et celui des sciences de l'information et de la communication en général est à la fois un terrain et un révélateur particulièrement pertinent pour analyser les problématiques sous-jacentes de ces nouveaux collaboratoires, au rang desquelles la construction d'une culture du préprint, la mise à disposition d'indicateurs adaptés, la facilitation du déploiement rapide d'expertises dispersées et la reconfiguration des champs.
discovery tool, libraries, library, library and information science, mobile application development, mobile phone, universite paul sabatier toulouse 3, university, web design, web design and development, website...
Exploiter les données issues de WikipediaRobert Viseur
Wikipedia est un projet collaboratif de référence. Il s’agit aussi d’un formidable réservoir de données, utilisable par exemple pour des applications reposant sur les technologies du Web sémantique (DBpedia).
Cette conférence proposera un cas pratique d’extraction et d’intégration de données biographiques, ainsi que les résultats d’une évaluation de la qualité des données.
L'utilisation d’ontologies dans le cadre de BiblissimaEquipex Biblissima
Présentation du travail en cours sur le portail Biblissima aux journées "Ontologie en Sciences Humaines et Sociales" par Stefanie Gehrke (MSH Val de Loire, Tours, 09/11/2015)
Le CETIC organisait le mardi 24 novembre 2015 à 14h une après-midi dédiée au Big Data. Cet événement prenait place au sein de la programmation de la Big Data Week 2015, consacrée aux retours d'expérience du Big Data. J'Robert Viseur introduisait l'après-midi avec la présentation d'une première version d'une cartographie des prestataires belges / wallons en Big Data.
1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
Une présentation du Big Data faite dans le cadre des Open Source Days à l'ENSA de Khouribga. Elle traite du potentiel business et des opportunités qui peuvent être crées par le Big Data dans différents domaines métier avec un apperçu également sur les outils et les techniques associées
Résumé des présentations et ressources de l'événement "Parcours Big Data" organisé par @Cetic dans la cadre de la Big Data Week 2014, en collaboration avec @awtbe
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
Du Big Data vers le SMAR Data : Scénario d'un processus
Scénario d'une implémentation d'un processus de transformations des données Big Data vers des données exploitables et représentatives via des traitements des streaming, systèmes distibués, messages, stockage dans un environnement NoSQL, gestion avec un éco-système Big Data et présentation graphique et quantitative des données avec les technologies:
Apache Storm, Apache Zookeeper, Apache Kafka, Apache Cassandra, Apache Spark et Data-Driven Document.
Données de la recherche : quel positionnement et quels rôles pour les bibliot...Pierre Naegelen
Analyser les statistiques de consultation de la documentation en vue d'évaluer les besoins des chercheurs
Etre un acteur de l'indexation des données : "médiateur de la valorisation des données" (Catherine Morel-Pair)
Constituer une cellule d'appui pour la gestion des données de la recherche : l'élaboration d'un Digital Management Plan (DMP) ou Plan de Gestion des Données (PGD)
1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
C'est une initiation au Big Data, qui est présenté dans un workshop organisé en 12 Décembre 2015 par un club TB3C (Tunisian Big Data Cloud Computing Community) au sein de ISSAT de Sousse
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
L'émergence du phénomène du web 2.0, des nouveaux outils d'accès à l'information qu'il propose, des nouveaux types de contenus qu'il met en ligne, et des nouveaux protocoles de filtrage et de validation qu'il abolit ou transcende, interroge les pratiques actuelles de formation à l'IST. Parmi d'autres, le phénomène des blogs d'experts gagne le domaine de l'enseignement en général et de l'université en particulier. Des institutions, des composantes, des formations, des services, des communautés scientifiques, mais aussi des enseignants-chercheurs ouvrent de nouveaux espaces de paroles, mettant en œuvre de nouvelles dynamique de collaboration. Ces nouveaux collaboratoires, sous l'angle des rapports entre science et société, permettent d'articuler différemment un grand nombre de pratiques scientifiques en terme de diffusion, de collecte, de recherche, de publication et d'enseignement. Le domaine de la culture informationnelle et de la maîtrise de l'information en particulier, et celui des sciences de l'information et de la communication en général est à la fois un terrain et un révélateur particulièrement pertinent pour analyser les problématiques sous-jacentes de ces nouveaux collaboratoires, au rang desquelles la construction d'une culture du préprint, la mise à disposition d'indicateurs adaptés, la facilitation du déploiement rapide d'expertises dispersées et la reconfiguration des champs.
discovery tool, libraries, library, library and information science, mobile application development, mobile phone, universite paul sabatier toulouse 3, university, web design, web design and development, website...
Exploiter les données issues de WikipediaRobert Viseur
Wikipedia est un projet collaboratif de référence. Il s’agit aussi d’un formidable réservoir de données, utilisable par exemple pour des applications reposant sur les technologies du Web sémantique (DBpedia).
Cette conférence proposera un cas pratique d’extraction et d’intégration de données biographiques, ainsi que les résultats d’une évaluation de la qualité des données.
L'utilisation d’ontologies dans le cadre de BiblissimaEquipex Biblissima
Présentation du travail en cours sur le portail Biblissima aux journées "Ontologie en Sciences Humaines et Sociales" par Stefanie Gehrke (MSH Val de Loire, Tours, 09/11/2015)
Le CETIC organisait le mardi 24 novembre 2015 à 14h une après-midi dédiée au Big Data. Cet événement prenait place au sein de la programmation de la Big Data Week 2015, consacrée aux retours d'expérience du Big Data. J'Robert Viseur introduisait l'après-midi avec la présentation d'une première version d'une cartographie des prestataires belges / wallons en Big Data.
1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
Une présentation du Big Data faite dans le cadre des Open Source Days à l'ENSA de Khouribga. Elle traite du potentiel business et des opportunités qui peuvent être crées par le Big Data dans différents domaines métier avec un apperçu également sur les outils et les techniques associées
Résumé des présentations et ressources de l'événement "Parcours Big Data" organisé par @Cetic dans la cadre de la Big Data Week 2014, en collaboration avec @awtbe
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
Du Big Data vers le SMAR Data : Scénario d'un processus
Scénario d'une implémentation d'un processus de transformations des données Big Data vers des données exploitables et représentatives via des traitements des streaming, systèmes distibués, messages, stockage dans un environnement NoSQL, gestion avec un éco-système Big Data et présentation graphique et quantitative des données avec les technologies:
Apache Storm, Apache Zookeeper, Apache Kafka, Apache Cassandra, Apache Spark et Data-Driven Document.
Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.ioHervé Bourdon
Loin des buzzwords et de la noyade conceptuelle, Thomas nous livre un point précis sur la situation des technologies et des marché. Il enchaîne sur une approche raisonnée des outils et des déclinaisons profitables de l'usage de la big data
Étude comparative sur la valorisation du big data pour les contenus audiovisuelsThomas Malice
Étude comparative sur la valorisation du big data
pour les contenus audiovisuels des sociétés suivantes : Netflix, Youtube et Spotify.
Études réalisée avec El Ouardi Dounia, Marie Dewitte, Nashita Essa Lalhani, Romane Henkinbrant, Thomas Malice
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
Smart cities, internet des objets, plateformes open data … grâce à sa plateforme intégrée de Data Management et Data Publishing, OpenDataSoft propose à ses clients des solutions simples et évolutives pour créer et opérer leur plateforme de d’échanges de données dédiée au développement rapide de nouveaux services BtoC ou BtoB :
- saisir toute opportunité de croiser des données internes et externes pour les valoriser à travers des applications innovantes (API, mobilité, data visualisation …)
- bénéficier de coûts très faibles par rapport aux approchesIT classiques et de permettre ainsi l’émergence et la validation de modèles économiques compatibles avec l’économie du web (“low cost – best value”)
- piloter de façon équitable et durable les services aux citoyens grâce à une approche originale de notarisation des données grâces aux solutions de hubs d’OpenDataSoft
- engager concrètement son organisation dans une cultture de l’innovation grâce aux solutions de plateforme participative de données d’OpenDataSoft
Acteurs Publics, Industrie et Services, Médias , Développeurs sont concernés par les solutions d’OpenDataSoft.
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
Sensibiliser au contexte des données massives et du big data.
Le web est un incroyable réservoir de données.
Concept des données structurées et non structurées.
Les 5V : Volumétrie Vitesse Valeur Variété Véracité
Comprendre les technologies de récolte des données : scraping et crawling.
Comment traiter les données récoltées ?
Formation réalisée par Philippe Métayer - IUT MMI Bordeaux.
This document discusses OpenFed, a Drupal distribution created by BOSA, the Belgian Federal Public Service Policy and Support, to help administrations set up Drupal sites more easily. OpenFed is a selection of compatible modules that avoid maintenance issues and focus on features like multilingual support and privacy. BOSA hosts the sites, while external companies handle development and configuration. The distribution and BOSA's service model can be reused by other administrations. The document also briefly mentions Data.gov.be and exchanging data between portals using DCAT metadata standards.
Open Summer of Code is organized by Open Knowledge Belgium and sponsored by public and private sectors to have students get paid to work for about 3 weeks on real projects in teams of 3-5 people focusing on fields like ICT, communications, and design. The program emphasizes community, teamwork, coaching, project pitches, and training.
This document summarizes Belgium's efforts around open data and data portals at the federal level. It discusses:
1) The Open Data Task Force consisting of FPS BOSA DG DT and DAV/ASA that manages Data.gov.be and seeks to revamp it in 2021/22.
2) Other Belgian data portals including SODHA for social science data, a national transport data portal, and Statbel's data lab for beta datasets.
3) Available open data resources like the BeST address database and upcoming open datasets on election results, judicial maps, and cadastral statistics.
4) Initiatives around open government, reusable APIs, and encouraging sharing of open data
This document summarizes a presentation about open source and open data. It discusses key topics like open source licenses and business models, how to evaluate healthy open source projects, and examples of open data types and licensing. Open communities and initiatives are also covered, such as OpenSummerOfCode which funds students to build open source projects using open data.
This document discusses several open community projects including Wikipedia, Wikimedia Commons, Wikidata, OpenStreetMap, Wheelmap, Telraam, Weather Observations Website, GitHub curated lists, Common Voice, and others. It provides brief descriptions of each project, what opportunities they present for public administrations and organizations, and encourages contributions to help document government data and services.
From webform to API using microframeworksBart Hanssens
This document discusses converting a webform into an API using microframeworks like Quarkus and libraries such as Jsoup and WireMock. It notes that while microframeworks allow rapid prototyping with few lines of code and fast development, the resulting API can be brittle and break if the underlying form or responses change. The document provides links to the Quarkus, Jsoup, Jib, and WireMock open source projects discussed.
Voordeel halen uit zoekmachines en semantic webBart Hanssens
Hoe kan gestructureerde, semantische opmaak en machineleesbare content ervoor zorgen dat zoekmachines websites beter gaan "begrijpen".
Presentatie tijdens het "Make your website great again" event.
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
4. • Données (électroniques)
• Photos, documents, cartes, données de mesure …
• Structuré ou non-structuré
Qu'est-ce que data ?
4
5. • Métadonnées sont également des données
• Données sur des autres données
• Souvent utiliser pour la recherche
• Par exemple:
• Donnée: vidéo YouTube
• Métadonnées: titre, date, nom de l’artiste, …
Qu’est-ce que metadata ?
5
6. • Enregistrer et récupérer des données, ça coûte
• Du temps, de l’argent, de l’espace
• La collecte de données ne suffit pas
• Le but est de faire quelque chose avec les donnéess
• Une analyse correcte des données peut être très difficile
• La sécurité des données est importante
• Surtout lorsque des données privés sont stockées/traitées
Points d’attention (méta)données
6
8. Taille Data (environ)
Zettabyte ZB 15 ZB: toutes les données sur internet
Exabyte EB 2 EB: (par jour) nouvelles données dans le monde entier
Petabyte PB 4 PB: (par jour) data sur Facebook
Terabyte TB 8 TB: disque dur plus large (consommateur)
Gigabyte GB 60 GB: Wikipedia en anglais (sans historique)
3 GB: (par heure) film Netflix en qualité HD
1 GB: (par mois) limite d‘un abonnement GSM bon marché
Megabyte MB 2 MB: présentation PowerPoint
Kilobyte kB 3 KB: texte d’une page A4
Byte B
Combien est beaucoup ?
8
9. Type Prix par GB (environ) Max. vitesse de lecture (environ)
Disque dur 0.03 EUR 250 MB/s
Clé USB 0.2 EUR 150 MB/s
SSD m.2 0.3 EUR 3 500 MB/s
DDR4 RAM 10 EUR 25 600 MB/s
Comparaison mémoire / stockage
9
10. Type Commentaire Max.vitesse (en réalitié)
4G 5 MB/s
Wifi (n) 5 GHz 30 MB/s
Wifi (ac) 90 MB/s
Ethernet (Gigabit) 115 MB/s
Ethernet (10 GbE) 1 150 MB/s
MAREA Câble réseau Est USA - Espagne 20 000 000 MB/s
Comparaison vitesse de téléchargement
10
11. Dans les articles sur Big Data, on parle souvent de "V":
• Volume: beaucoup de données
• Velocity: traitement rapide
• Variety: structures et sources différentes
Actuellement des "V" supplémentaires sont mentionnés
• Value: valeur
• …
Les “V”s de Big Data
11
12. • Produire et stocker des données devient moins cher
• De plus en plus services "personnels" basés sur données:
• Google: publicité basée sur des recherches
• Netflix: suggestions de films
• TomTom: trajets plus rapides basés sur info embouteillages
• “Internet of Things”, “Smart City”, “Connected Cars”
• De plus en plus de communication entre les machines
Pourquoi de plus en plus Big Data ?
12
13. • Des capteurs partout, (souvent) connectés::
• Smartphones avec GPS, camera et capteur de mouvement
• Capteur de qualité de l’air, radiation, …
• Systèmes d’alarme, domotique
• Cameras et détecteurs trafic
• Voitures (autonomes)
• Capteurs dans des machines industrielles
Internet des Objets
13
14. • Online et médiaux sociaux
• Twitter, Facebook, Google, …
• Sciences
• Météo et climat, physique, astronomie
• Banques et industrie
• Bourse, assurances, chimie, secteur de santé
• Mobilité et transport
• Circulation plus fluide, voitures autonomes
• Sports
Applications
14
15. • Avantages et désavantages
• “Si le produit est gratuit alors vous êtes le produit ”
• Souvent l'intention de vendre quelque chose, basé sur
• Quelles applications vous utilisez et quand
• Où vous êtes, et avec qui
• Quelles pages, vidéos ... vous regardez et partagez
• Le produits que vous avez déjà acheté en ligne
• …
Exemple: médiaux sociaux et plateformes en ligne
15
16. • Grande quantité de photos et de mesures
• La terre: photos de bâtiments, température
• L’espace: étoiles, planètes
• USA: 25+ PB data, code et exemples NASA
• https://open.nasa.gov/open-data
• Belgique:
• Agriculture: croissance des cultures (https://watchitgrow.be)
• Plateforme Terrascope (https://terrascope.be)
Exemple: données satellite
16
18. • Véhicules enregistrent la situation sur la route
• Trous sur la route, glace, routes glissantes, …
• L'information est partagée
• Avertissement aux véhicules dans le voisinage
• Message au gestionnaire de la route (souffleuse à neige …)
• Exemple: « BADA » projet Volvo / Scania (Suède)
• http://www.nvfnorden.org/library/Files/Per-
Olof%20Svensk_BADA%207%20June%202017.pdf
Exemple: améliorer la situation des autoroutes
18
19. • Beaucoup de gens garde leur mobile à portée de main
• En contact avec les antennes
• Opérateurs peuvent faire des analyses des événements
• Quel trajet les visiteurs suivent-ils ?
• Combien de temps restent-ils ?
• Exemple: Proximus MyAnalytics
• https://www.proximusanalytics.be
• Rapports anonymisés (payants)
• Seules des données Proximus (estimation autres opérateurs)
Exemple: visiteurs d’un événement basé sur GSM
19
21. • « La vie deviendra-t-elle plus chère en Belgique ? »
• Achats tels que nourriture/boisson… carburant, vêtements
• Influence indirecte sur l'indexation (augmentation) du loyer
• E.a. articles scannés aux caisses des supermarchés
• Comparaison n'est pas toujours facile
• Produits saisonniers, même produit / autre code
• https://statbel.fgov.be/fr/propos-de-
statbel/methodologie/analyses
Exemple: prix de consommation Statbel
21
22. • Formule 1
• 100 – 300 capteurs par bolide F1
• Vitesse, pression des pneus, freins, carburant …
• Football: FC Barcelona
• (big) data analytics
• Performance sportive, interaction personnalisée aves les fans
Exemples: sports
22
23. • CERN “Large Hadron Collider” accélérateur de particules
• 10 PB/s, « seulement » 30 PB données / an sont conservées
• https://home.cern/about/computing/processing-what-record
• NASA “Square Kilometre Array” télescope
• Prêt en 2024 ? 1 EB/jour, au moins 200 PB/an conservé
• https://www.skatelescope.org
Exemple: science
23
25. • Le stockage des données devient moins cher
• Tout n'est pas utile pour l’analyse
• Pas toujours clair ce qui a / n'a pas d'influence
• Souvent fait pour prédictions ou améliorer quelque chose
• Prévoir le temps, la qualité de l'air, les ventes, ...
• Détection de la fraude
• Composer de nouveaux matériaux et médicaments
Analyse de données
25
26. • « Entraîner » les machines de reconnaître des structures
• Images: personnes, panneaux de signalisation, tumeurs
• Textes et produits: catégorisation automatique
• Recherche sur le ML par les grandes entreprises TIC
• https://www.tensorflow.org (Google)
• http://www.paddlepaddle.org (Baidu)
• http://torch.ch (Facebook)
• https://www.ibm.com/watson (IBM)
Machine learning
26
27. • Par exemple via “notebooks” ou “dashboards”
• Alternative en ligne pour rapports et documents
• Particulièrement populaire auprès des chercheurs
• Peut aussi être utilisé sans big data
• Souvent écrit en Python, “R” et/ou Javascript
• http://shiny.rstudio.com
• http://jupyter.org
Visualisation des données
27
29. Quand Big Data / comment choisir les composants ?
29
• N'a de sens que pour de grandes quantités de données
• Terabytes ou plus
• Beaucoup de composants différents
• évoluent encore très vite
• Ne devraient pas tous être utilisés
• Aucun système parfait dans toutes les situations
• Recherches compliquées ou pas ?
• Données structurées ou non-structurées ?
• Interaction avec d'autres systèmes ?
31. Plateforme Big Data Hadoop
31
• Pas la seule plateforme, mais très populaire
• Se compose de différents composants
• HDFS, MapReduce, …
• Java open source: usage libre sur vos propres serveurs
• Paquets commerciaux: Cloudera, MapR, Hortonworks …
• Installation sur vos propres machines ou “dans le cloud”
• Amazon, Google, Microsoft, Oracle, SAP …
• Attention: pas gratuit, stocker/récupérer les données coûte
33. Apache Hadoop HDFS
33
• Système de fichiers distribué
• (partie des) disques séparés se comportent comme 1
• Optimisé pour les grandes opérations de lecture « batch »
• Pas pour des petites opérations d'écriture “random”
• Peut être utilisé avec de nombreux disques "normaux"
• Même milliers de machines, dizaines de milliers de disques
• Centaines de petabytes
• Données automatiquement distribuées et copiées
• Détection + réparation rapide des erreurs (ex: disque cassé)
34. Pourquoi diviser les données / plusieurs systèmes ?
34
• Lecture / écriture des données n'est pas infiniment rapide
• Distribuer le travail entre différentes machines
• Éviter que les utilisateurs doivent attendre trop longtemps
• Faciliter la résolution des problèmes
• Machines et réseaux peuvent temporairement échouer
35. MapReduce
35
• Manière d'exécuter des tâches en parallèle
• Ex: compter mots, chercher
• Très grandes quantités de données
• (beaucoup) plus que rentre à la mémoire
• Destiné aux tâches où toutes les données sont lues 1 fois
• Distribuer les calculs
• Exécuter le plus près possible des données
• Éviter d'envoyer des données dans les deux sens
• Combiner les résultats
36. Apache HBase
36
• Base de données qui peuvent tourner sur HDFS
• Très grandes bases de données (milliards de lignes)
• Ne remplace pas les bases de données "classiques"
• Pas des enquêtes compliquées
• Pas beaucoup de structure
• Postgresql, Oracle… ont des fonctions supplémentaires
37. Quelques autres composants
37
• Apache Cassandra
• Également une base de données
• "Toujours disponible" plus important que « même données »
• Apache Hive
• Langage comme SQL, au-dessus de Hadoop
• Facilite l'utilisation d'Hadoop
39. • Apache open source
• https://projects.apache.org/projects.html?category#big-data
• http://hadoop.apache.org
• http://spark.apache.org
• Communauté Big Data:
• http://bigdata.be
• Évènement annuel Data Science:
• https://datasciencebe.com
Quelques liens big data / data science
39
41. Caractéristiques Apache Spark
41
• Peut fonctionner sur HDFS ou séparément
• Alternative à MapReduce
• Peut effectuer des traitements en mémoire
• Beaucoup plus rapide pour petites quantités de données
• Plus pratique pour parcourir mêmes données plusieurs fois
43. • Données sans informations sensibles / personnelles
• Oui: statistiques
• Non: dossier médical
• Dans un format facile à traiter
• Ex: tableaux au format MS-Excel, CSV, XML …
• Peut être utilisé gratuitement par tout le monde
• Aussi à des fins commerciales
Qu’est ce que Open Data ?
43
45. • Big data n’est pas toujours open data
• Ex: données des entreprises ne sont pas publiques / gratuites
• Open data n’est pas toujours big data
• Exemple: liste des écoles bruxelloises est courte
Open Data et Big Data (2)
45
46. • Généralement des services publics
• Villes, régions, gouvernement fédéral …
• Payé par les impôts des citoyens et des entreprises
• Obligations imposées par l'Union européenne
• Parfois des entreprises
• Ex: entreprises louant des vélos ou des voitures
• Souvent aussi des personnes / bénévoles
• Ex: WikiPedia, OpenStreetMap, …
Qui publie des données ouvertes ?
46
47. • Surtout les villes publient des info d'adresses
• Places, piscines, …
• Données cartographiques
• Limites communales, carte 3D (Flandre) …
• Beaucoup de statistiques
• Population par commune, prix moyens, ...
De quel type de données s'agit-il ?
47
48. • Combiner avec autres données
• Publier des articles
• Ex: prix moyen maison/appartement par commune
• Créer des sites web
• Ex: https://ici.brussels/fr
• Créer des apps
• Ex: “Top Baby Names”: prénoms le plus populaires
Que faire avec open data ?
48
50. • Différentes formats sont utilisés
• CSV, MS-Excel, XML, JSON…
• Différentes par région possible
• Mentionner la source est parfois obligatoire, parfois pas
• Souvent pas de garantie de disponibilité / mises à jour
• Pas de contrat
Points d’attention open data
50
51. • Portail open data:
• https://data.gov.be
• Évènement annuel open data:
• http://www.openbelgium.be
• Communauté OpenKnowledge:
• https://www.openknowledge.be
Quelques liens autour l’open data
51