Formation professionnelle "Big data : concepts et enjeux"

par Philippe METAYER

philippe.metayer@iut.u-bordeaux-montaigne.fr

!
Directeur Formation Continue et Alternance { Métiers du web et des médias }

!
Département MMI - Métiers du Multimédia et de l’Internet - IUT Bordeaux Montaigne

!
www.iut.u-bordeaux-montaigne.fr & www.mmibordeaux.com

Journée de Formation Professionnelle

!
Le « BIG DATA » : concepts et enjeux

!
!
IUT MMI - Université Bordeaux Montaigne - Vendredi 28 novembre 2014

Sommaire
1 2
Vous avez dit « Big Data » ?
2
3 4
Conclusions
Extraire la Data
Traiter la Data

1
Vous avez dit « Big Data » ?!
!
!
Qu’est-ce que la data ?
Data structurée, Data non structurée…
Démystiﬁcation du terme « big data » avec les « 5V ».
3

1 - Vous avez dit « Big Data » ?
Contexte : le déluge des données
Il est souvent évoqué le terme d’infobésité tant nous sommes sollicités en permanence
par des nouvelles informations, souvent les mêmes répétées sur différents sites et
supports que nous consultons.
!
Outre ce phénomène, nous sommes aussi touchés par un autre phénomène équivalent
qui illustre de la même manière cette création permanente et ininterrompue de données :
The data deluge.
Couverture
The Economist
Mars 2010

Le web est un incroyable réservoir de données
1er janvier 1985 : enregistrement du premier nom de domaine.!
En 2012 : 252 millions noms de domaines enregistrés.!
!
Nombre de serveurs Google en 2014 :plus de 1 million de serveurs.!
Nombre d’utilisateurs Facebook par jour : 699 millions !
!
Nombre de visiteurs uniques sur YouTube par mois : 1 milliard!
!
Nombre de pages web indexées : 36 milliards!
!
Nombre de tweets émis entre 2006 et 2012 : 170 milliards!
 
Sources : www.datapublica.com!
!
Et ce n’est pas tout…

Le web est un incroyable réservoir de données
!
Google : plus de 1 millions de serveurs en janvier 2010!
!
Amazon : plus de 450 000 serveurs en mars 2012!
!
Microsoft : plus de 300 000 serveurs en mars 2013!
!
OVH : plus de 140 000 serveurs en mars 2013!
!
!
Ces datacenters stockent et archivent toutes les données que nous créons en permanence
sur le web.!
!
Aussi, chaque jour, les programmes de Google parcourent 20 milliards de sites web.!
!
Sources : www.datapublica.com

5 000 recherches
mensuelles « big data »
20 000 recherches
mensuelles « big data »
x4
big data définition
définition big data
big data wiki
big data pdf
c’est quoi le big data
signification big data
big data pour les nuls
7

8
La data, c’est de l’information… variée.

La data structurée, c’est quand on connaît l’ensemble
des valeurs que cette donnée peut prendre.
Âge
20 ans
15 ans
16 ans
46 ans
33 ans
27 ans
37 ans
La simple connaissance de cette donnée permet de
l’utiliser à des ﬁns statistiques
9

En quoi la data structurée est-elle intéressante ?
1 2
3
Elle est facile d’accès Elle est facile à traiter
Elle est utilisable par tous… et déjà utilisée par bon
nombre d’organisations, voire toutes les organisations !
10

En quoi la data structurée est-elle intéressante ?
Elle n’est intéressante en rien de plus que ce que l’on fait déjà avec
les bases de données, les ﬁchiers clients, les CRM, les ﬁches
produits… On l’a déjà énormément exploité.
!
…et on continue à l’exploiter.
!
!
La data structurée n’est peut-être pas si intéressante, parce que
aujourd’hui, on a encore mieux !
11

Il existe une autre forme de données, la data non structurée :
qu’a-t-elle de si différent ?
12
+ -
La data non structurée est très
riche en contenu
La data non structurée est trop riche en
contenu, et devient donc très difﬁcile
d’accès et d’analyse. Mais cela devient
possible !

Comment déﬁnir le Big Data ?
=> Les 5
13

Volumétrie
5
7 000 milliards octets / jour
300 millions de photos / jour
14
Le domaine des Big Data s’intéresse à des ensembles de
données numériques, qui de par leur taille, ne peuvent être
traitées avec des méthodes traditionnelles. Les données peuvent
être de l’ordre au minimum du Gigaoctet, du Teraoctet… et
surtout ce volume ne cesse de croitre à grande vitesse.
> 250 milliards de mails / jour
72 heures de vidéo sont envoyées
sur Internet chaque jour

Votre prise de parole, vos réactions, vos interactions… et celles internautes !
15
D’après une étude IDC, les données numériques créées dans le monde
seraient passées de 1,2 zettaoctets en 2010 à 2,8 zettaoctets en 2012 pour
atteindre 40 zettaoctets en 2020 ! !
!
1 zettaoctet = 1021 octets = 1 000 milliards de Goctets

5
16
On estime que le volume de données stockées dans le
monde double tous les 4 ans. On a ainsi stocké plus
données depuis 2010 qu’on ne l’avait fait depuis le début
de l’humanité !
Vitesse

5
17
Il y a une très grande diversité des données : ce peut être
la consommation individuelle d’électricité, le nombre de
« like » sur Facebook ou les 5000 photographies déposées
chaque minute sur le site de partage Flickr.
Variété

5
18
Les données recueillies sont souvent bruitées et
imprécises et doivent être traitées pour en extraire
l’information utile.
Véracité
41 000 000 de français sont
sur le web
58% des français donnent leur
avis sur le web (blog, forum,
autres)

5
19
Valeur
90% des données présentes
sur le web sont des données
non structurées
10% des entreprises
exploitent le big data

Volumétrie
5
Vitesse Variété VéracitéValeur
20

2
Extraire la Data!
!
!
Deux méthodes d’extraction de la Data
Exemples concrets.
21

Pourquoi extraire la data ?
Structurer et
enrichir les
données existantes
Construire une
nouvelle offre
Mettre en place des
outils de Business
Intelligence
Etendre le champ des possibles qui devient
véritablement immense
22
2 - Extraire la Data
Parce que c’est devenu un véritable enjeu stratégique pour
l’entreprise ou l’organisation.

23
Il existe aujourd’hui deux principales techniques de recueil automatique
des données sur le web : le crawling et le scraping. Ces deux
techniques peuvent être utilisées de manière complémentaire.
5
Le crawling est l’action produite par un crawler, et le scraping est l’action
produite par un scraper. Crawlers et scrapers sont des programmes
informatiques.

Le crawling
24
Le crawler est donc un programme informatique dont la fonction est de
se promener de site en site et d’extraire automatiquement toute
l’information présente sur les pages.
!
Le crawler est connu sous d’autres noms : spider, web spider, bot,
harvester.
!
A partir d’une liste de sites web, il parcourt chaque page de chacun des
sites web pour ensuite suivre les liens qui pointent vers d’autres sites
web qui n’étaient pas dans la liste initiale.

Eléments clés pour le crawling :
25
Performance : comment crawler des milliers de pages ? en combien de temps ?
!
Politesse : il important de ne pas saturer les sites web visités en limitant les
fréquences des requêtes sur les mêmes serveurs. (voir aussi ﬁchier robot.txt)
!
Délai de réponse : un délai de réponse trop long indiquera peut-être que le site
crawlé ne supporte pas la charge. Il peut aussi y avoir un time out.
!
Obstacles : Liens morts, code 200, code 404… le crawler doit être paramétré pour
ne pas analyser ces pages quand il reçoit ces codes.
!
Cible et profondeur de crawl : le terme « seel » déﬁnit la liste initiale des sites à
visiter. Le niveau correspond à la profondeur d’analyse souhaitée (0=liste initiale ; 1 =
liste initiale + liens de niveau 1 ; 2 = liste initiale + liens de niveau 1).
!
Implémentations : comment stocker les données extraites ? Le sont-elles sans ou
avec traitement ? Faut-il stocker uniquement les informations pertinentes ? Toutes ces
questions doivent être bien étudiées avant de lancer le crawl.

Exemple concret N°1 de crawling : IMPORT.IO
26
L’outil https://import.io est un outil open source de crawling
!
!
Principe de fonctionnement : https://www.youtube.com/watch?v=cdmsTxu45-c
!
!
Exemple avec le site IKEA :

Exemple concret N°2 de crawling : Common Crawl
27
Common Crawl est une fondation américaine dont l’objectif est d’archiver toutes les pages web et
de les mettre à disposition gratuitement à travers une plate-forme.
!
Cet objectif ambitieux nécessite l’utilisation de crawlers très puissants et d’une énorme capacité de
stockage. Actuellement, 15% du web mondial est disponible soit près de 6 milliards de pages web.
!
Même si cela n’est pas exhaustif, cela reste sufﬁsamment important pour attaquer la couche
« haute » du web et donc contenir une grande partie des sites facilement accessibles et/ou
couramment utilisés.

Exemple concret N°2 de crawling : Common Crawl
28
Exemple de graphe des acteurs de l’Open Data français :
!
http://www.data-publica.com/content/2012/09/le-graphe-des-sites-francais-dopendata/

Le scraping
29
Le scraper est donc un programme informatique capable d’extraire de
l’information d’un site web. Toutefois, le site doit être bien étudié avant le
travail d’extraction.
!
En effet, contrairement au crawling, le scraping a pour but d’extraire du
contenu d’un site web dans le but de le transformer, et de l’utiliser dans
un autre contexte.

Le « coeur sémantique »
Les mots du métier
Les mots de votre
langage
Les mots des
internautes
30
3 - Traiter la Data

Mais à quoi cela sert-il ?
Le référencement
naturel (SEO)
Le référencement
payant (SEA)
Une stratégie
social médias
(SMO)
+ +
Avoir une vision transverse et
basée sur les données et rien de plus
31
3 - Traiter la Data

Récupérer les données, tout le monde sait faire. Mais…
Comment la rendre exploitable ?
32
3 - Traiter la Data
Exemple concret d’entreprise : SYNOMIA
=> grâce à l’analyse syntaxique.

Déjà compliqué pour un jeune écolier…
… Mais alors, pour un algorithme ?
33
3 - Traiter la Data

L’analyse syntaxique, une tâche complexe.
Nouvel élément à prendre en compte : l’ambiguïté.
Et quand on mêle tout, la difﬁculté atteint un niveau très
élevé.
34
3 - Traiter la Data

35
3 - Traiter la Data
Autres exemples d’entreprise :

Présence en ligne + écosystème = big data
Big data + technologie = richesse extrême du résultat
Big data - technologie = opportunité pour la concurrence
D’où l’urgence pour le marché de comprendre cette notion
et ses enjeux aﬁn d’oser en exploiter sa richesse.
36
Conclusion côté monde économique

37
ConclusionConclusion côté politique et technique
L’algorithme est la clé d’accès à un savoir cumulatif sur soi et
sur la société, dans un but d’amélioration, mais le prix à payer
est l’accès à la donnée.
Nécessité d’établir une éthique de la data : expliquer le
contexte de collecte et de traitement des données
personnelles.

Formation professionnelle "Big data : concepts et enjeux"

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Formation professionnelle "Big data : concepts et enjeux"

Similaire à Formation professionnelle "Big data : concepts et enjeux" (20)

Formation professionnelle "Big data : concepts et enjeux"