Le Big Data

465 vues

Publié le

Nous sommes quatre élèves en BTS Communication au lycée Jeanne d'Arc à Rennes et nous avons du réaliser dans le cadre de notre BTS un dossier de veille sur le thème du Big Data.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
465
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Le Big Data

  1. 1. Lycée Jeanne d’Arc Rennes Chloé LE GALL Lisa VIOTTY Floriane TERRIER Alexandra HOGER BTS Communication 2ème année Dossier Veille Année scolaire : 2014-2015 BIG DATA
  2. 2. 2 Introduction Le Big Data est un terme phare de ces dernières années, il traite des données, de leur utilisation et de leur provenance. Cette révolution de l'information, en particulier pour le monde du marketing, est devenue la matière première de l'économie de l'information. Les technologies n'ont jamais eu un tel rôle à jouer et le champ des opportunités n'as jamais été aussi vaste. Nouvel or noir de la société de l'information, le Big Data est devenu un environnement de plus en plus complexe. Pour cause, les sources de données se sont multipliées et la quantité d'information a explosé au fil des années. C'est ce potentiel inépuisable des données qui explique en partie l'engouement des acteurs marketing pour cet outil. Toute l'information, tout le temps, est donc partout. Le Big Data, c'est la ligne directrice de l'évolution technologique actuelle. Internet n'oublie rien, et nul ne peut effacer complètement des données. C'est pourquoi des millions de données s'entassent chaque année. Face à cet afflux massif, beaucoup de moyens sont mis en œuvre pour traiter toutes ces informations et on observe l'apparition d’organismes spécialisés dans le traitement et le stockage des données. En effet, ce phénomène grandissant, à la limite entre technologies, outils économiques et méthodes managériales, touchent de plus en plus de secteurs chaque jour, et s’élargit à toutes les échelles. Mais jusqu’où son pouvoir s'étend t-il? Ses limites en termes de possibilité d'exploitation restent à définir. Encore faut-il savoir si toutes les entreprises, organisations, qu'elles soiENt internationales ou locales peuvent utiliser les données pour promouvoir leur activité. Reste également à dissocier les fausses informations des vraies informations, c'est le Smart Data. Enfin, le concept du Big Data a révolutionné le monde d'aujourd'hui et partage les opinions. Quand certains voient en ce phénomène un réel potentiel, d'autre y voient des risques très importants. Tous s'accordent cependant a dire que les conséquences sont irrémédiables. Le retour en arrière étant impossible, certains organismes et entreprises visent à protéger les utilisateurs et leurs données personnelles. « Dans la société de l'information notre valeur ne viendras plus de ce que l'on sait, mais de ce que l'on partage. » Ginni Rometty, dirigeante d'IBM
  3. 3. 3 Sommaire I. Qu'est ce que le big data?................................................. p 4 à 7 A. Définition……………………………………………………………………..………….…………………. p 4 à 5 B. Utilisation……………………………………………………………………….…….………………..…… p 5 à 6 C. Évolution……………………………………………………………………….………….……………...... p 6 D. Enjeux………………………………………………………………………………………….……….…….. p 6 à 7 II. Traitement des données…………………………..…………….…….. p 8 à 11 A. Une matière première : les données………………………………………….…...….……….. p 8 à 9 B. Les acteurs……………………………………………………………………………..……………………. p 9 à 10 C. Les technologies du Big Data………………………………..…………….……………………….. p 10 à 11 D. Le stockage…………………………………………………………………………………….……………. p 11 III. L'exploitation des données…………………………………………… p 12 à 15 a. Au niveau international…………………………………………………………………………........ p 12 à 13 b. Au niveau national……………………………………………………………………………………….. p 13 à 14 c. Au niveau des organisations…………………………………………………………………………. p 14 à 15 IV. Partie juridique………………………………………………….…………. p 16 à 19 a. Déontologie…………………………………………………………………………………….……………. p 16 à 18 b. Droit…………………………..………………………………………………………….………..…………… p 18 à 19 c. Loi……………………………………………………………………………………………………..…………. p 19 Conclusion…………………………………………………………………………. p 20 Glossaire……………………………………………………………………………. p 21 à 22 Annexes…………………………………………………………………………..… p 23 à 29
  4. 4. 4 I. Qu’est-ce que le Big Data ? A. Définition « Big Data » a été élu mot numérique de l’année 2012, succédant ainsi à « Cloud Computing » élu en 2011. Pour l’un comme pour l’autre, il n’existe pas de traduction en français qui soit adoptée. Kenneth Cukier, journaliste de The Economist et auteur de « Big Data : la révolution des données est en marche », considère le Big Data comme une révolution qui va transformer nos vies et refaçonner le monde. Chaque jour, nous générons 2,5 trillion d’octets de données informatiques. Toutes ces sources constituent un volume massif de données, appelées Big Data. Jamais les particuliers n’ont partagé autant de d’information et par conséquent, laissés autant de traces, c’est une mine d’or potentiellement exploitable pour les marques. Depuis l’émergence de ce terme, peu de remise en cause de ce phénomène sont apparues, cette expression est d’ailleurs considérée comme une formule marketing destinée à vendre. Le Big Data serait donc une révolution majeure d’un point de vu économique, appuyée par des évolutions techniques, elles-mêmes alimentés par les progrès constants de l’électronique. Ensemble de technologies et d’algorithme, le Big Data permet de classer une masse toujours plus importante de données, afin de cerner de manière de plus en plus précises les comportements des internautes-consommateurs. Volume, vivacité, variété, valeur et vitesse, ce sont les 5 dimensions, dites les 5V, que regroupe le Big Data. On parle de volume pour désigner le nombre important de donnée dont les entreprises sont envahies, de vivacité pour rendre compte de l’utilisation du Big Data à mesure du temps, de variété pour montrer la diversité des sources de données et de leurs nombreuses utilisations, de valeur afin de s’assurer de la qualité des informations recueillies et de vitesse pour désigner la rapidité du traitements.
  5. 5. 5 Le Big Data est un phénomène alimenté par 4 forces génératrices, qui se combinent et qui ont un impact majeur sur l’économie du 21ème siècle. Tout d’abord le web 2.0 et les réseaux sociaux avec la nouvelle vision du monde qu’ils offrent et incarnent. Ensuite le mobile, avec les quantités de plus en plus importantes de données générées par chaque être humain possédant un smartphone. Egalement les objets électroniques connectés à internet, que l’on estime à plus de 10 milliards dans le monde. Enfin, le mouvement Open Data qui amène les administrations publiques et para-publiques à mettre à disposition l’ensemble de leurs données (traitées et générées) pour un accès libre de tous les acteurs. B. L’utilisation du Big Data C’est à certains grands de l’internet que l’on doit l’apparition de ce phénomène de collecte de données, comme par exemple Amazon, qui en l’échange de services gratuits, récoltent les données laissées par les internautes. Leur modèle économique est donc principalement bâti sur les informations personnelles de millions de personnes. Aujourd’hui de nombreux secteurs économiques ont recours au Big Data : finance, santé, médias, grande distribution …. Ce qui importe réellement ce ne sont pas les données en soit, mais la capacité à donner du sens à ces dernières, afin de mieux connaître les consommateurs ce qui permet l’optimisation des campagnes marketing. La data présente un avantage important, elle se collecte à tout moment et sur tout les supports grâce aux nouvelles technologies : CRM, média sociaux et e-mailing. Aujourd’hui, elles sont utilisées pour faire des statistiques dans des domaines tels que la publicité ou encore les ressources humaines. En effet une collecte suffisante de données permet d’effectuer des prédictions et de mettre en lumière certaines choses qui nous seraient cachées autrement, notamment en termes de compréhension de l’audience, ce qui permet de mieux interagir et répondre à ses attentes. D’où l’importance d’adopter le « Big Data », qui rend les annonceurs plus compétitifs, dans l’intérêt d’offrir le meilleur service aux consommateurs, dans une démarche de ciblage plus personnalisée et donc plus intelligente. Certaines agences médias achètent par exemple des profils type de consommateurs, reflet d’une disposition de datas plus précises, qui peuvent également se combiner entre elles : comme les données comportementales et les données médias des annonceurs. Le Big Data participe à l’amélioration de moteur de recherche. Par exemple, le projet Google Flu (suivi de la grippe) permet d’identifier une combinaison de 45 termes utilisés par les internautes dans leur moteur de recherche qui, selon les chercheurs de Google, semble être de bons indicateurs de la propagation de la grippe saisonnière, en corrélation avec les statistiques officielles issues des consultations médicales sur le terrain, ce qui atteste de la fiabilité des prédictions. On peut donc en conclure l’utilité d’un tel outil, s’il était rendu disponible gratuitement sur Google.
  6. 6. 6 Les modalités de représentation des données du Big Data permettent le développement de nouvelles technologies. Ces possibilités de visualisation de données, appelée DataViz, sont aux centre de la relation entre utilisateur et usagers du Big Data. C. Évolution Alors que pendant 20 ans nous sommes passé à coté de la Data, il est aujourd’hui impossible de négliger le Big Data. Il est le fruit de la numérisation croissante de notre société, dont la connectivité toujours plus accrue est notamment due à l’augmentation du taux d’équipement des français : en 2013, 39% d’entre eux possédait un Smartphone contre 17 % en 2011, le taux d’équipement en tablette tactile a quant à lui doublé en 1 an, passant de 8% à 17%. L’adaptation est rapide et l’apparition des réseaux sociaux, qui est un réel bouleversement pour le web ces dernières années, participe également à la production toujours plus importante de données produites par notre société. A tel point que 90% des données dans le monde ont été créées au cours de ces deux dernières années (2013-2014) seulement. En effet le social média est l’un des plus gros producteurs de données, où chacune des interactions des internautes est source d’information, on note : Facebook, Twitter, Linkedin ou Foursquare. Courant 2015, l’exploitation des données en grande quantité devrait atteindre 16, 9 milliards de dollars. L’ancien ciblage, dit par critères comportementaux, est aujourd’hui obsolète. Désormais l’annonceur peut définir ses propres critères de segmentation en rapport avec son activité, on appelle cela le ciblage attudinal. Ainsi, les goûts, les avis, les souhaits mais également les critiques des internautes peuvent être retenus et pris en compte. Le Big Data est une évolution technologique qui implique une révolution managériale au sein des acteurs économiques. Pour les nouvelles entreprises numériques qui vont voir le jour, la ressource première sera l’information, mais surtout, la pertinence de cette information. Malgré toutes ces évolutions, le web n’est qu’à la genèse de ses possibilités et le mouvement Big Data ne cesse de prendre de l’ampleur. D. Enjeux Pour les annonceurs et les prestataires technologiques, le Big Data constituent un enjeu crucial. En effet l’internaute est aujourd’hui le plus grand producteur et consommateur de data, d’où l’importance de l’évaluation de données. La collecte d’informations qui peuvent sembler sans importance aux yeux des utilisateurs, permet aux marques de cibler clients et prospects par affinité, ce qui donne un réel impact à la communication et constitue une réelle valeur ajoutée pour l’annonceur.
  7. 7. 7 Certaines associations françaises soutiennent le développement du « Big Data » et contribuent à son émergence, pour le potentiel économique et sociétal de la donnée. Dans le secteur de la communication, l’AACC (Association des Agences-Conseils en Communication) soutient les acteurs dominants et participe à la récompense de leur développement technologique. Ainsi, les diverses associations impliquées permettent de rendre compte au public de l’avancé et du poids du marché français au niveau international. Comme la plateforme Big Data d’IBM, qui à recours aux technologies les plus pointues et à des solutions d’analyses brevetées afin d’ouvrir la porte à de nouvelles possibilité. Les enjeux de l’ingénierie numérique sont importants. En effet, certains systèmes complexes demande de nouvelles modélisations, entrainant une modification des périmètres de la Data, avec la prise en compte de données encore inexistantes à ce jour, comme les données créées en temps réel sur les déplacements des usagers. L’Institut de Recherche Technologique dédié à l’ingénierie, travaille actuellement sur des programmes visant la résolution de ce genre de défis posés par l’ingénierie numérique. De plus, d’autres projets variés sont menés de front, comme l’extraction de données signifiantes issues de médias et de langues multiples, ainsi que la révision de la gestion des réseaux électriques. Le marché du « Big Data » étant en constante évolution, le traitement de la donnée devient plus intelligent, éduqué par diverses interactions qui tendent à démocratiser le traitement de la donnée, pour une meilleure compréhension de ce système complexe par tous. Même si la valeur accordée à son utilisation n’est pas la même pour toutes les activités, l’enjeu reste néanmoins central pour tous les acteurs.
  8. 8. 8 II. Le traitement des données A. Une matière première : les données Chaque jour, des millions de données sont créées. Cette masse d'informations est la conséquence d'une multiplication des outils et appareils numériques, toujours plus sophistiqués et de plus en plus connectés sur le web. Le caractère omniprésent des réseaux sociaux, des blogs ou encore des plateformes renforce leur accessibilité. Selon un sondage d'AVAS, en 2013, 71% des internautes français sont membres d'au moins un réseau social grâce à leurs tablettes, ordinateur, smartphones ou plus récemment via la TV connectée. Les réseaux sociaux tels que Facebook, Twitter sont donc les premiers créateurs de données, ils ont initié le phénomène. On peut dire que les informations sont désormais accessibles de partout et par n'importe qui. Si le nombre de données est de plus en plus volumineux, leur forme est également variée. En effet, elles peuvent être collectées sous la forme de textes, de schémas, d'images, de chiffres ou encore de statistiques. Elles peuvent également être publiques et disponibles à la réutilisation pour les internautes (Open data), localisées ou liées à une personne privée, fixes ou mobiles. En conclusion, les données viennent de partout et sous toutes les formes. Le Big Data peut être source de confusion pour les utilisateurs. En effet, ceux-ci se heurtent à l'immensité du phénomène, qui intègre en son cœur d'innombrables anomalies, fausses informations et incohérences. Le fait est qu'internet n'oublie rien et que toutes les données entrées sur le web sont stockées, qu’elles soient pertinentes ou non, véridiques ou non. Il est indispensable que les données récoltées soient fiables, utiles et d'actualités car la qualité de l'information est un facteur nécessaire pour effectuer une bonne analyse et générer de la valeur. Toutes les données ne sont donc pas bonnes à prendre et demandent beaucoup de temps à exploiter. Mais depuis peu, on ne parle plus de « Big Data » mais de « Smart Data ». Le développement du marché, et l'intérêt des entreprises pour l'exploitation des données ont permis un traitement de plus de plus intelligent de celles-ci. Le Smart Data permet alors de
  9. 9. 9 se focaliser uniquement sur les informations pertinentes pour empêcher les erreurs. Le but est d'exploiter une data filtrée, triée et nettoyée au préalable afin d'éliminer tout risque de résultats biaisés. Cependant, trouver les bonnes informations sur internet peut se révéler parfois encore plus compliqué. En conclusion, les utilisateurs du Big Data se confrontent à deux situations : d'une part, à la difficulté de piocher les informations dites "filtrées" et d'autre part, au manque d'outils et de ressources pour exploiter les informations en masse. C'est ces problématiques qui ont, en majeur partie, entraînées l'apparition de nouveaux acteurs et systèmes technologiques spécialisés dans la gestion et analyses de données. NB: Le marché du Big Data est composé des produits et services liés a celui ci tels que les serveurs, les logiciels de traitement, et le stockage. B. Les acteurs Le traitement des données n'est pas chose aisée et une question subsiste : les outils d'hier suffisent t-ils à transformer et analyser les datas? En effet, toute entreprise peut-elle exploiter les données du web sans investissements conséquents? La réalité est que les outils d'hier, qui convenaient pour les analyses des organismes locaux, ne permettent plus de se confronter à l'immensité des sources d'informations. Afin de répondre à une demande massive sur le marché, de nouveaux profils d'acteurs interviennent donc depuis quelques années. Aux États-Unis et depuis peu en Europe, les entreprises misent sur de nouvelles qualifications, à la frontière entre science et marketing. Les métiers d'experts en datas tel que « data scientist » ou « data analyst » sont de plus en plus recherchés et deviennent les activités les plus porteuses. C'est deux termes ne sont cependant pas a confondre : en effet, le data analyst utilise des statistiques pour synthétiser et de traduire les informations, tandis que le data scientist effectue des recherches plus poussées afin d'analyser et comprendre les données. Depuis les années 2000, les agences marketing digitales profitent de ce levier de croissance et développent des pôles «data», tels que Performics ou encore Publicis. Le développement de ces activités se poursuit de plus en plus aujourd'hui comme nous le montre Loyalty Expert ajoutant deux nouveaux data analyst à son pôle "Intelligence de la Donnée Client" (crée en 2005) en novembre dernier. En parallèle, des agences de conseil spécialisées dans le Big data arrivent sur le marché. Celles ci ont pour vocation d'accompagner les entreprises qui souhaitent investir dans les applications qui concernent le traitement des données afin de mieux bénéficier des
  10. 10. 10 opportunités qu'offre le Big Data. Parmi les plus importantes, Fifty-Five, agence qui se spécialise dans l'optimisation de la performance des annonceurs d'internet, ou encore Tiny Clues. En France, une agence se démarque. Synomia, fondée en 2000, est devenu la première agence de conseil en data analytics. La raison de son succès? Elle propose à ses clients une analyse très poussée de toutes les données textuelles du web. En effet, grâce à sa collaboration avec le CNRS, l'agence a mis au point une avancé technologique unique, une innovation permettant de traiter les données dites "non structurées", impossible à catégoriser. Les données structurées, c'est à dire les données dont les valeurs possibles sont connues a l'avance, sont faciles à traiter, et beaucoup d'entreprise les exploitent. Cependant, les informations non-structurées nécessitent des moyens technologiques très performants et innovants dont ne disposent pas ces exploiteurs. Cette technologie que propose Synomia, appelée "analyseur syntaxique" rend alors plus accessible ces données textuelles et permet une exploitation plus poussée de la data. C'est cette catégorisation en temps réel de données non structurées qui est l'un des secteurs les plus porteurs du « Big Data ». C. Les technologies du Big Data En effet, les technologies d'hier ne sont plus adaptées compte tenu de l'ampleur démesurée du Big Data. C'est pourquoi de nouvelles technologies sont apparues sur le marché afin de faciliter le traitement, le stockage ainsi que l'exploitation d'un nombre de données toujours en progression. Nombre de ces logiciels sont Open Source. Mais qu'est ce que l'Open Source? L’Open Source est une plateforme regroupant des logiciels libres qui reposent sur le partage et la collaboration. Les utilisateurs ont alors la liberté de les copier, les étudier ou encore de les modifier afin d'améliorer leur performance. Hadoop en est un exemple. Il est l'un des logiciels de traitement les plus utilisés. Il consiste en effet à collecter, stocker et traiter des données de formats hétérogènes (dont des données non-structurées). Conçue en 2004, il a pour vocation la mise à disposition de logiciels et programme permettant le traitement de donnée au volume important (au moins une dizaine de téraoctet). Grâce à des serveurs standardisés et à bas prix, et à l’utilisation d’un programme simplifié, il sera possible d’extraire des données de manière simples. Géré par la fondation Apache, il fonctionne sur un principe de grilles de calcul consistant à répartir un traitement conséquent de données sur plusieurs serveurs. HDFS est le nom donné au système de stockage distribué, il permet d'héberger et de récupérer les données des grilles de calcul. C’est l’élément sur lequel repose tout le Framework Hadoop.
  11. 11. 11 Map Reduce est un outil de programmation, un algorithme développé par Google. Cet outil de traitement et d'analyse consiste à découper une requête en multiples sous-requêtes (le Map) et réduire les calculs obtenus en un calcul global (le Reduce). Il est souvent implémenté à Hadoop. Machine Learning est un algorithme qui permet de donner aux ordinateurs la capacité d'apprendre sans être explicitement programmé. D. Le stockage Nous avons pu le voir, les données sur le web sont en pleine explosion. C'est grâce à la popularité du phénomène et a ses opportunités grandissantes que diverses acteurs sont apparu sur le marché afin de profiter de la tendance. Ainsi, agences de conseil, entreprises et spécialistes en analyse de data émergent. L'objectif? Trier, nettoyer, et traiter toutes sortes de données afin de les exploiter par la suite. Mais pour obtenir ce résultat, une étape non-négligeable ne doit pas être oublié: les données doivent être gérer, stocker et surtout préservés. En effet, le nombre grandissant des datas depuis les années 2000 a entraîné des modifications pour les espaces de stockage. Ceux-ci ont dû faire évoluer leurs capacités de stockage afin de pouvoir accueillir de plus en plus de données. C'est l'adaptabilité de ces espaces qui reste à perfectionner compte tenu des rapides évolutions technologique. Le choix de l'espace de stockage par un organisme doit se faire en fonction de différentes caractéristiques comme le volume de données ou encore la fréquence d'utilisation par exemple. Avancée majeure, le Cloub Computing, "informatique dans les nuages" a révolutionné ce domaine. Il est porté par des grandes entreprises tels que IBM, Microsoft ou encore Orange Business Services. Le Cloud Computing désigne l'utilisation des serveurs distants sur internet pour traiter ou stocker l'information. En d'autre terme, le cloud représente toutes les ressources informatiques par lesquels on peut accéder à travers internet. Il peut être gratuit ou payant suivant ses capacités de stockage et ses fonctions. Il permet aux entreprises de ne pas investir de grandes sommes pour préserver leurs données. Cependant, d'autres systèmes sont utilisés pour le stockage de données telles que les bases de données NoSQL appelées également bases de données orientées colonne instauré par Google. Cassandra en est un exemple. Ces systèmes très performants sont accessibles par un grand nombre d'utilisateur et offre une possibilité de stockage presque infinie. Autre base de données, le data wharehouse (entrepôt de données) est dédié aux informations fonctionnelles d'une entreprise. Il est utilisé pour la prise des décisions dans une entreprise grâce à des statistiques et des rapports réalisés par des outils de reporting. Un data wharehouse est organisé et structuré.
  12. 12. 12 III.L’exploitation des données Aujourd’hui, des quantités astronomiques de données sont récoltées partout dans le monde. La majeure partie de ces données est inutilisable. Leur exploitation peut être différente suivant l’environnement dans lequel on se trouve et elle joue un rôle important à différentes échelles. A. Au niveau international Événement sportif majeur de cet été 2014, la Coupe du Monde de Football n'a pas échappé au Big Data. En effet, la sélection allemande a utilisé un logiciel d'analyse poussé produit par la société SAP. Ce fut pour l'entraîneur, une aide à la décision. Des puces RFID étaient intégrées aux protège-tibias et aux chaussures des joueurs. Elles permettaient alors de récupérer un maximum de données telles que : la vitesse, les accélérations, les fautes, le types d'action ou encore le nombre de ballons touchés. De plus, pour compléter les données fournies par les puces, le logiciel était relié à des caméras présentent sur le terrain. Toutes ces données ont été analysées par des datascientists qui font partie du staff de l’équipe allemande afin d’optimiser le potentiel du logiciel. Une fois ces informations analysées, elles ont permis à l’entraîneur d’analyser le jeu de chaque joueur pour une meilleure efficacité. Mais l’utilisation du Big Data et de ses résultats dans le football n’est pas un fait nouveau, ce phénomène remonte aux années 1990 en Angleterre. Arsène Wenger, entraîneur d’Arsenal, est l’un des premier à y avoir eu recourt. L’utilisation des données ont permis à Arsène Wenger de remplacer Patrick Vieira, lors de son départ, par un joueur quasi inconnu aux statistiques similaires. Depuis, tous les clubs de Premier League utilisent ces méthodes et les dirigeants n’hésitent pas à engager dans leur staff des mathématiciens, d’anciens traders ou encore des statisticiens pour analyser ces données. En France, cette pratique touche seulement les grands clubs tels que le Paris Saint-Germain, les Olympique Lyonnais et Marseillais, Saint-Etienne ou encore Lille. Les formations françaises dépensent 50 000 à 300 000 euros par saison pour le matériel nécessaire à la collecte de ces données. Ces études ont par exemple montré pour le Paris Saint-Germain que seulement 2% des tirs en dehors de la surface finissent dans le but du camp adversaire, c’est donc pour cela que les joueurs parisiens tentent peu les frappes de loin.
  13. 13. 13 D'autres secteurs utilisent eux aussi le Big Data afin d'améliorer leurs performances. C'est le cas du domaine de la santé qui s'intéresse de plus en plus aux données afin de prévenir de maladies telles qu’Ebola. La société HealthMap basée au Boston Children Hospital avait remarqué neuf jours avant la déclaration officielle de la propagation d'Ebola, l'existence et le développement de ce virus en Guinée grâce à l'étude des réseaux sociaux, des bulletins d'informations locaux et d'autres bases de données. Avec toutes ces données réunies, un algorithme développé par HealthMap a pu détecter la progression du virus en Afrique. Il est impossible de savoir si une détection du virus plus tôt aurait permis de résorber l'épidémie. Mais d'après Mme Eisenberg, épidémiologiste à l'Université du Michigan, l'utilisation des mégadonnées pourrait permettre d'aider à combattre de nombreuses épidémies. Le Ministre des Communications et de la Technologie nigérian a affirmé avoir eu recourt à l'exploitation des données afin de combattre Ebola au Nigéria. La technologie et les médias sociaux sont au centre de la disparition de ce virus. Le Ministre Omobola Johnson à déclaré que l'application mobile «a permis de réduire de 75% le temps d'alerte quand une personne tombait malade». Le rassemblement des données pourrait aider les autorités de santé à allouer avec le plus d'efficience possible les ressources nécessaires à la lutte contre les virus de type Ebola dans le futur. D'après le Docteur Laurent Alexandre, chirurgien urologue, fondateur de Doctissimo et DNAVision, le cancer pourrait être d'ici 2030 une maladie chronique maîtrisée. Elle pourra être mise sous contrôle comme le SIDA et cela grâce au Big Data. En effet, l'utilisation des nanotechnologies ainsi que l'augmentation de la puissance informatique permettront à long terme de faire reculer le cancer. Afin d'analyser la constitution génétique d'une tumeur, 20 000 milliards d'informations sont nécessaires. L'essor de l'information et du Big Data va permettre de traiter rapidement ces informations et de fournir à chaque patient un traitement thérapeutique adapté. Mais cet exercice peut être amené à rencontrer des problèmes. Le cancer est une maladie qui peut muter et il y a constamment des résistances dans le cancer. Il est très complexe d'analyser ces mutations génétiques c'est pourquoi les ordinateurs devront être très performants. B. Au niveau national En matière de technologie, on place toujours les États-Unis largement devant les pays Européen. Si la France est autant compétitive, c'est grâce à l'État qui a très bien compris l'importance du Big Data. Le gouvernement met en place de nombreuses formations pour former des datascientists. Et la position de la France est en partie due à la qualité de la formation que reçoivent les ingénieurs en mathématiques et en statistiques. L'esprit du système éducatif français est en parfaite adéquation avec l'enjeu du Big Data, ce qui est un atout considérable pour la France. Ces derniers sont très demandés à travers le monde. La France a donc toutes les compétences pour gagner la bataille du Big Data.
  14. 14. 14 Mais pour transformer les risques en opportunités et profiter pleinement des effets du Big Data, l'État doit mettre en place un cadre réglementaire favorable et fournir une puissante réserve de datascientists. Le Big Data repose sur une actualisation permanente des données et un croisement de ces dernières. Ces deux piliers évoluent très rapidement et vont venir, en France, se heurter au cadre réglementaire strict. Des discussions sont en cours entre l'État et la CNIL afin d'adapter le cadre réglementaire français aux enjeux du Big Data. Le Big Data va devenir au fur et à mesure des années un levier de croissance majeur. Certes il supprimera de nombreux emplois, mais d'autres, plus nombreux, vont apparaître d'ici 2020 aussi bien dans les fonctions liées au Big Data au sein des entreprises mais aussi chez les fournisseurs de technologies et de services. Ce secteur est en plein essor et affiche un taux de croissance de 40%. La publicité n’échappe pas au Big Data. En effet de nombreuses start-up françaises spécialisées dans le Big Data permettent à leurs clients de mieux adapter leur publicité à leurs clients grâce à l'analyse des données. Grâce aux mégadonnées on peut analyser les comportements des consommateurs et leur proposer des publicités qui correspondent à leurs besoins qui sont plus efficaces. La start-up française Quinten permet à ses clients d'affiner leur communication grâce à un algorithme qui identifie et caractérise les sous- groupes achetant un tel ou tel produit. D'après Reda Gomery, associé responsable data et analytics chez le cabinet Deloitte, le Big Data "est un enjeu majeur pour la pub et le marketing". Les publicités sont alors adaptées à la cible, ce qui à plus d'impact sur cette dernière et nous permet, selon lui, de "sortir de l'ère des publicités de masse". Il est aussi possible d'exploiter les paiements afin de déterminer les comportements d'achats dans certains lieux. D'après une étude Toluna pour Havas Media, 93% français sont conscients que leurs données sont captées et analysées mais 84% d'entre eux sont inquiets de l'usage qui peut en être fait. Des nombreuses négociations sont en cours au niveau européen pour décider des nouvelles règles à mettre en œuvre concernant les données personnelles. Cela aboutirait à une unification des réglementations en Europe. Les acteurs du numérique seraient alors obligés d'appliquer ce droit lorsqu'ils s'adressent à un consommateur européen. Ces démarches sont mal perçues par certaines personnes qui craignent que cela accentue le retard du développement numérique en Europe par rapport aux grands acteurs américains. C. Au niveau des organisations Une étude commandée par Teradata montre que la France est largement devant ses compères européens en termes de de gestion et d'analyse du Big Data. D'après l'étude, l'avancement de la France est dû au fait que les entreprises françaises ont pris conscience de l'importance de l'exploitation des données dans le monde actuel. Ainsi, trois entreprises sur cinq utilisent le traitement analytique des données afin de maximiser leur efficacité et de
  15. 15. 15 bénéficier d'un gain de temps considérable. Le Big Data est un secteur à exploiter pour les entreprises mais il est important de bien le faire pour le valoriser. Il peut jouer un rôle au niveau de nombreuses étapes : au niveau de la conception il permet de récolter de nombreuses données sur les clients et les analyser afin de cerner plus précisément la demande potentielle. Au niveau de la distribution il va permettre d’optimiser le mode de distribution à la demande potentielle et effective. Enfin, au niveau marketing et publicitaire il va permettre d’analyser les besoins et les attentes des clients afin d’anticiper leurs demandes. Toutes les entreprises commencent à s'y intéresser mais seulement 34 % d'entre elles se sont lancées dans un projet d'envergure pour l'analyse des données. En France, d'après une étude publiée par le cabinet de conseil EY, les entreprises françaises se montrent réticentes à son utilisation, car pour deux tiers d'entre elles, c'est un concept intéressant à développer mais encore trop vague pour que cela puisse constituer un levier de croissance. Les secteurs qui utilisent le plus le Big Data en France sont les télécoms, les médias et les technologies. Certaines entreprises françaises ont fait le choix d’avoir recourt à l’analyse des données pour améliorer leurs performances, c’est le cas de BlablaCar et des Pompiers de Paris. Le groupe HP a mis en place un logiciel d’analyse des données, HP Vertica. Ce dernier a récemment été utilisé par le site de covoiturage BlablaCar pour améliorer sa relation client, la fidélisation des clients et ses campagnes marketing. Ce logiciel permet à des entreprises comme BlablaCar d’analyser très rapidement des volumes importants de données qui sont essentielles à l’élaboration des stratégies marketing. Les pompiers de Paris ont aussi bien compris l’intérêt du Big Data et ses bénéfices. Ils l’utilisent pour de nombreuses interventions pour gagner du temps. Pour cela, ils utilisent, en plus de leur données, celles fournies par EDF, les mairies, GDF ou encore la SNCF. Suite à l'analyse de ces données, ils savent quelles sont les caractéristiques du lieu d'intervention et ils peuvent être plus efficace en mieux allouant les ressources (exemple de nombre d'échelles à envoyer en fonction du bâtiment où a lieu l'intervention). D'après le commandant Raclot, d'ici un à trois ans, ils auront des informations plus précises sur les caractéristiques du lieu d'intervention telles que le nombre d'étages, la localisation des accès pompiers. Ceci permettra de gagner du temps pour sauver des vies. Lors de la réception d'un appel, ils pourront dire la probabilité pour qu'une urgence vitale arrive dans ce secteur et s’il faut préserver le camion en réserve et appeler une équipe plus loin. Dans l'Ain, l'analyse des données est utilisée pour prédire les orages et établir leur évolution. Cette étude va permettre de rendre plus efficace l'intervention des pompiers pour éviter d'appeler une équipe qui sera contactée par la suite du fait de l'évolution de l'orage.
  16. 16. 16 IV. La protection des données Suite au développement des nouvelles technologies, le Big Data représente une véritable révolution du numérique dans une« société de la connaissance » (Smartphones, Internet, Cloud, Open Data…). Souvent comparé au « Big Brother » pour l'utilisation que l'on peut en faire, ce concept désigne une quantité importante de données, de différentes natures, en circulation générées par celui-ci. Mais une des principales problématiques de ce phénomène porte sur la protection des données D'autant plus qu'elles ne sont pas toutes de même nature et ne sont donc pas réglementées sous le même régime juridique. Ce sont les données à caractère personnel générées par le Big Data qui représentent le plus gros enjeu : entre innovation pour les entreprises et inquiétude pour les internautes et consommateurs. Alors que dit la loi sur la protection de ces données et comment est elle mise en œuvre et appliquée face à l’évolution des technologies ? En 2013, Edward Snowden a dévoilé le programme de surveillance électronique PRISM de la NSA (Agence de sécurité nationale des Etats-Unis) alimenté par les plus grands du Web comme Google, Facebook, Microsoft... De plus, les nouvelles technologies ne permettent pas une protection et un contrôle total de toutes ces informations. En effet, il est possible de rencontrer des problèmes tels que des fuites de données (Orange) ou le piratage du cloud (Sony...) Ces multiples événements nous poussent à se poser la question de la protection de nos données et du droit à la vie privée. A. Les différentes natures de données Lorsqu’une notion émerge, il est nécessaire de définir les concepts et leur périmètre, limiter les contextes d’usages et repenser les textes de loi lorsqu'ils sont devenus obsolètes. En France, la collecte, l'analyse et l’usage de ce type de données sont réglementés par la loi Informatique et Libertés de 1978 qui transpose la directive européenne de Protection des données du 24 octobre 1995 et qui régit la collecte et le traitement des données à caractère personnel. Il est donc indispensable de fixer certaines mesures juridiques afin de protéger la vie privée des individus et leurs données récoltées afin de trouver un équilibre entre la protection des
  17. 17. 17 individus et la libre circulation de ces données. Il est aussi important de distinguer les différents types de données, car il existe plusieurs régimes de protection selon leur nature :  Les données publiques : Ces données sont disponibles à tout moment. Elles sont réglementées par 3 principes : _ principe de disponibilité : (loi CADA depuis 1978) libertés d'accès aux documents par les citoyens et obligations de communiquer pour les administrations. _ principe de réutilisation _ principe de gratuité Le développement de ces données s'est fait grâce à la mission Etalab par l’ouverture, la plus large possible, et la gratuité des données publiques pour plus de transparence et de rendre l’action publique efficace.. C'est ce qu'on appelle l'Open Data ou « données ouvertes » qui désigne le fait de mettre à disposition de tous les données récoltées par les administrations publiques.  Les données privées : Pour ces données, il n'y a pas de régime juridique défini. Il est donc nécessaire de vérifier s'il existe des clauses concernant la réutilisation  Les données provenant des réseaux sociaux : Données à forte valeur ajoutée ? D'un point de vue générale, elles sont privées mais cela peut diverger par rapport aux « paramètres de confidentialité »  Les données provenant des bases de données : Ces données sont quant à elles régies par le Code de la Propriété Intellectuelle, 1998, art. L112.3 qui définit une base de données comme « «recueil d'œuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen ». Ce code protège l'utilisation, la reproduction ou la représentation de productions intellectuelles car « l'auteur d'une œuvre de l'esprit jouit sur cette œuvre, du seul fait de sa création, d'un droit de propriété incorporelle exclusif et opposable à tous » (art.L111-1). La création de données faites par le biais des bases appartient au droit « sui generis », c'est à dire qu'on ne peut classer ces données dans une catégorie déjà connue. Cela s'explique par le fait du récent développement des technologies et des réseaux sociaux depuis plusieurs années.  Les données personnelles : Ce sont ces données qui nous intéressent principalement car elles sont celles qui ont le plus de valeur. D'autant plus que des données parfois non personnelles peuvent le devenir après avoir été analysées (ou recoupées). Ce phénomène est de plus en plus rencontré à cause du
  18. 18. 18 Big Data, qui a pour objectif une meilleure identification, un meilleur ciblage comportemental des individus grâce à la quantité des informations. Une grande attention est portée sur la gestion des données à caractère personnel (data privacy) et leur sécurité et confidentialité (data security). En France, le Big Data est en parti réglementé par la loi Informatique et Libertés du 6 janvier 1978. Elle est celle qui réglemente l'utilisation de ces données personnelles. Une donnée à caractère personnel est définie comme « toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres » (art.2 de la loi Informatique et Libertés), c'est à dire des informations nominatives ou non (nom, prénom, adresse postale, mail, adresse IP, numéro de téléphone, géolocalisation, comportement...) Les données personnelles sont protégées par cinq critères : Finalité de l’utilisation : Selon l’article 6 de la loi Informatique et Libertés, les données doivent être conservées dans un but bien précis, c'est à dire pour une finalité « déterminée, explicite et légitime » Pertinence : elles ne doivent pas être traitées ultérieurement de manière incompatible avec ces finalités et seules les données nécessaires et pertinentes pour les atteindre doivent être collectées. Le droit à l’oubli : permet de conserver les données pendant un certain temps, en fonction de l’objectif de l’utilisation. La durée de conservation des données ne doit pas excéder la durée nécessaire aux finalités pour lesquelles elles sont collectées et doivent être détruites passé ce délai. Le droit à l'oubli est un projet de règlement européen du 25 janvier 2012 qui a pour but d'harmoniser et unifier le régime de protection des données personnelles au sein des États-Membres de l'Union Européenne, tout en protégeant davantage les citoyens. Ex : Google a annoncé dernièrement la mise à disposition d’un formulaire pour les Européens qui veulent demander la suppression de résultats sur son moteur de recherche. Sécurité et confidentialité : les personnes responsables des données doivent assurer leur sécurité et leur confidentialité. Le respect des droits des personnes : chaque personne ayant transmis ses données, a le droit d’y avoir accès et être informer sur leur utilisation. B. Réglementation Au sein de l'Union Européenne, la directive 95/46/CE du Parlement Européen fixe les limites et oblige la création, dans chaque État membre, d'un organisme national indépendant chargés de la protection des données personnelles.
  19. 19. 19 En France, l'organisme qui en est chargé et qui a pour but de réglementer ce domaine, depuis 1978, est la CNIL (Commission nationale de l'informatique et des libertés). Cet organisme a un droit de regard et de contrôle sur les fichiers de renseignement. Sa principale mission est de « protéger la vie privée et les libertés dans le monde numérique ». Concernant le Big Data, toute collecte ou traitement d'informations doivent être déclarés auprès de cet organisme. Elle exerce ces missions d'information et de régulation auprès des personnes, du gouvernement et des organisations. En plus de son pouvoir de contrôle qui assure la conformité des traitements informatiques, la CNIL possède le pouvoir de publier les sanctions qu’elle prononce du fait de son indépendance. Ces sanctions sont sous forme d’avertissements, mises en demeure ou de sanctions administratives et financières. Ses sanctions vont jusqu'à 150 000 € et peuvent doubler en cas de récidive. C. Contrôle des données Il est primordial d'instaurer une relation de confiance et de transparence entre les différents acteurs. Mais bien souvent les individus ne sont pas ou sont mal informés. Or, il est nécessaire que les personnes concernées aient connaissance de l'utilisation que l'on peut faire de leurs données et pour ainsi pouvoir le contrôler. La directive vue précédemment permet, par conséquent, aux individus de garder un minimum de contrôle de leurs données grâce à plusieurs principes : _ leur consentement, c'est à dire « toute manifestation de volonté libre, spécifique et informée ». Par exemple, les Cookies (ou témoins de connexion) ne peuvent être utilisés qu'avec le consentement préalable de l’utilisateur. _ le droit d'accès à ses informations _ le droit d'opposition au traitement des ses données ou à la revente à des tiers _ le droit de rectification pour modifier les données erronées qui les concernent _ la notification ou droit à l'information auprès de l'autorité de contrôle (CNIL).
  20. 20. 20 Conclusion Le nombre de données produites chaque jour par les internautes est en constante évolution, en parallèle avec le taux d'équipement en objets connectés qui ne cesse de croître. Le Big Data est donc devenu une formule courante, désignant une évolution majeure dans de nombreux domaines comme l'économie ou les nouvelles technologies et de l'électronique. Mais le traitement des données devient alors de plus en plus complexe, car celles-ci peuvent être fausses, dépassées ou biaisés. Pour analyser les bonnes données, de nouvelles technologies et de nouveaux acteurs spécialisés dans le traitement de données sont apparus sur le marché afin de trier et de nettoyer les données. De plus, afin de conserver les données, les capacités de stockage sont devenues plus flexibles afin de pouvoir recueillir toute cette masse de données. Les données peuvent être exploitées dans des domaines totalement différents et à des échelles différentes. En effet elles peuvent servir à suivre l'évolution d'une maladie ou encore améliorer l'efficacité et la relation client d'une entreprise. Les entreprises ne sont pas les seules à utiliser le Big Data et les États jouent un rôle majeur dans leur exploitation. En effet les législations que ces derniers vont mettre en place vont orienter l'exploitation des données. Ces données peuvent contenir des informations concernant les individus qui peuvent porter atteinte à leur vie privée. Il est donc primordial que la loi encadre ces pratiques. En effet les législations que ces derniers vont mettre en place vont orienter l'exploitation des données. Celui-ci a pour mission de protéger la vie privée et les libertés des individus grâce à son pouvoir de contrôle et de sanctions. Ainsi, pour permettre une utilisation optimale du Big Data dans les années à venir il faut que la légalisation s'adapte aux évolutions. De plus c'est un milieu en expansion et plein d'avenir pour les nouvelles technologies et l'emploi.
  21. 21. 21 Glossaire BIG DATA : Le terme utilisé lorsque la quantité importante de données nécessite de nouvelles approches technologiques pour leur stockage, leur traitement et leur utilisation. Volume, vitesse et variété sont souvent les trois critères qui permettent de qualifier le “Big Data”. CADA : autorité administrative indépendante dont le rôle est consultatif, et qui permet d’accéder aux données publiques. Elle intervient pour tous les documents détenus par un service de l’Etat, une collectivité territoriale, un établissement public ou un organisme chargé de la gestion d’un service public, que cet organisme soit public ou privé. CNIL : autorité publique chargée de veiller à la protection des données personnelles. Elle dispose d’un pouvoir de contrôle et peut également sanctionner les entreprises, organisations ou individus collectant des informations personnelles qui ne respectent pas la loi informatique et liberté. DATAJOURNALISME : Nouveau type de journalisme basé essentiellement sur l’utilisation des données, consistant à identifier des données intéressantes, en faire l’analyse, en extraire des informations nouvelles et en présenter éventuellement les résultats sous la forme d’une visualisation interactive. DONNEES PUBLIQUES : Données collectées, maintenues et utilisées par les organismes publics pour accomplir leur mission. ETALAB : Mission chargée de mettre en œuvre la politique d’ouverture des données de l’administration française, et de mettre en place un annuaire des données publiques françaises.
  22. 22. 22 HADOOP : Infrastructure logicielle pour application big data qui inclut un système de stockage et un outil d’exécution parallèle d’applications. MAP REDUCE : Méthode d’exécution de programme parallèle consistant à envoyer sur chaque donnée une fonction à exécuter (map) puis à récupérer les résultats pour les intégrer dans un résultat final (reduce). NOSQL : Base de Données n’obéissant pas au modèle relationnel, à fonctionnalités réduites, se prêtant bien au traitement massivement parallèle des données. OPEN DATA / OUVERTURE DES DONNEES : Principe selon lequel les données publiques (celles recueillies, maintenues et utilisées par les organismes publics) doivent être disponibles pour accès et réutilisation par les citoyens et les entreprises. SMART DATA : Alternative au Big Data qui vise à ne collecter et analyser que les données utiles et pertinentes.
  23. 23. 23 Annexes o Infographie : Définition du Big Data
  24. 24. 24 o Infographie : L’évolution du Big Data
  25. 25. 25 o Infographie : Le Big Data à la coupe du monde par l’équipe allemande
  26. 26. 26 o Infographie : Protection des données personnelles
  27. 27. 27 o Tableau des sources :
  28. 28. 28
  29. 29. 29

×