Étude comparative sur la valorisation du big data
pour les contenus audiovisuels des sociétés suivantes : Netflix, Youtube et Spotify.
Études réalisée avec El Ouardi Dounia, Marie Dewitte, Nashita Essa Lalhani, Romane Henkinbrant, Thomas Malice
2. Sommaire
→ Définition du Big Data
→ Etude du cas Netflix
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Etude du cas YouTube
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Etude du cas Spotify
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Tableau comparatif
→ Conclusion
3. Le Big Data : Définition
Mégadonnées - Données massives :
1. Ensemble de données
○ Grande taille
○ Très complexes
2. Applications traditionnelles
○ Traitement de données sont insuffisantes
Les clés du Big Data :
● Collecte
● Traitement
● Analyse
● Intégration
4. Le Big Data : Les 8 V
Volume : La quantité de données produites est très importante
Variété : Un grand volume implique une nombre important de sources
Vélocité : La vélocité représente la fréquence à laquelle les données sont
capturée, traitées et partagées. Mais aussi la vitesse à laquelle ces données
grandissent
Variabilité : Les flux de données entrantes peuvent subir des pics périodiques
5. Le Big Data : Les 8 V
Véracité : La qualité et la fiabilité des données est un paramètre essentiel à
prendre en compte
Visibilité : L’accessibilité aux données peut être entravé par des protections
Visualisation : Les données doivent être lues et comprises par les utilisateur et
décideurs à travers des tableaux récapitulatifs ou dashboards
Valorisation : L’exploitation des données doit produire un bénéfice
6. “Service de diffusion en streaming qui permet à ses utilisateurs de
regarder une grande variété de séries TV, films, documentaires et
autres programmes”
Récolte des données et analyse est importante → base pour la stratégie de communication et de production
7. Netflix - Récolte des données
Lié aux utilisateurs
○ Création du compte individuel + modifications des paramètres
○ Utilisation de la plateforme (collecte automatique) → diverses sources
Poids des données : 86 millions de membres → entrepôt de données = 60 pétaoctets
Pas de propre infrastructure → utilisation du service d’Amazon Web Service
8. Netflix - Récolte des données
➔ Outils de récoltes
◆ Ursula : classement des événements + introduction
dans l’entrepôt
◆ Aegisthus : mise à jour quotidienne des données
● Amazon est élastique et sécurisé
◆ Cassandra : assume 95% de la base de données
◆ Suro : collecte, regroupe et envoi des informations
● Capture de données efficace
➔ Code source Falcor
◆ Bibliothèque JavaScript, récolte des données JSON
(présentation structurée)
◆ Efficacité dans la récupération des données de
sources multiples
9. Netflix - Stockage des données
➔ HADOOP : logiciel
◆ Stockage et traitement des données
● Stockage : HDFS
● Traitement : MapReduce
◆ Fragmentation des fichiers en blocs
◆ Partage via des noeuds de cluster (grappe de serveurs)
◆ Association de différents serveurs = noeuds
➔ Outils provenant d’HADOOP
◆ Hive : requêtes & analyses
◆ PIG : ETL & algorithmes
◆ MapReduce : algorithmes complexes
◆ Python : langage commun
➔ Limites de HADOOP
◆ Simple comptage des mots → pas pour des opérations complexes
10. Netflix - Traitement des données
➔ Logiciels utilisés
◆ PIG : processus d’intégration d’informations complexes + prend des décisions
● 2 types de données : données scalaires / données complexes
◆ Python : circulation d’informations via un réseau + création de programmes
complets
◆ Presto (open source) : moteur de requête qui traite les interactions en temps
réel + base de données de grande taille
◆ Genie : moteur d’orchestration de travail - développé par Netflix
● Fournit des API → exécution d’une variété de tâches pour l’écosystème
Hadoop
● Fournit des API → gestion des métadonnées de clusters
● Utilisation importante pour faciliter la soumission des travaux
11. Netflix - Traitement des données
➔ Logiciels utilisés
◆ Franklin : API de métadonnées → comprend les autres données en
extrayant des infos à partir de divers outils
● Cassandra : collecte des données en ligne
● Teradata : spécialisé dans l'entrepôt des données + applications
analytiques
➔ Utilisation des données : outils
◆ Forklift : circulation des données
◆ Quinto : évaluer la qualité des données
◆ Etc.
12. Netflix - Partage et divulgation des données
➔ Différentes finalités et à de tierces personnes
◆ Filiales Netflix
◆ Fournisseurs de services (sous-traitants du domaines informatique etc.)
◆ Personnes qui prennent en charge les offres promotionnelles
◆ Autres entreprises (en cas de fusion, réorganisation …)
➔ Divulgation des infos des utilisateurs à leur insu
◆ Avis sur le contenu
◆ Plug-ins des réseaux sociaux
13. Netflix - Utilisation des données
➔ Finalité principale : système de recommandation basé sur des algorithmes
◆ Comparaison de goût semblables entre clients
◆ Chaînes de Markov : processus aléatoire permettant l’élaboration de recommandation
● Utilisation d’Hadoop :
○ Utilisation de PIG & Map Reduce : simplifier la gestion des procédures stockées
◆ Environnement : contenu différent selon la position spatio-temporelle
◆ Filtrage collaboratif (algorithme) : exploite les évaluations du contenu par les utilisateurs
● Qualité de recommandation excellente
◆ Algortihmes utilisés :
● PVR (Personnalised Video Ranker) : contenu personnalisé
● Top-N Ranker : contenu personnalisé + programmes les mieux classés
14. Netflix - Utilisation des données
➔ Autres finalités
◆ Prévention d’activité inégale
◆ Communication de Netflix
◆ Création de contenu
◆ Analyse de l’utilisation de Netflix par les utilisateurs
16. « YouTube est un site web d’hé bergement vidé o sur lequel les utilisateurs
peuvent envoyer, é valuer, regarder, commenter et partager des vidé os. »
17. YouTube - Récolte des données
1. Actions des utilisateurs (recherches effectuées, ensemble des sites internet consultés, vidéos
regardées, annonces publicitaire activées, situation géographique, les informations concernant le
support utilisé, l’adresse IP et les cookies).
2. Productions et importations des utilisateurs (e-mails envoyés et reçus, contacts récemment
ajoutés, événements de l’agenda, photos et vidéos importées, tous les fichiers Docs, Sheets et
Slides).
3. Inscription des utilisateurs (nom, prénom, adresse, e-mail, mot de passe, date de naissance,
sexe, numéro de téléphone, pays).
Mais également : les métadonnées liées aux vidéos (titre, description, date d’ajout, tags, annotations,
“likes”, nombre de vues, etc.)
Taille YouTube = plusieurs Exabytes (entre 75 et 130 Petabytes de données vidéo stockées chaque
année) !
18. YouTube - Stockage des données
→ MYSQL = système de gestion de base de données Open Source.
YouTube y stocke toutes les données essentielles et les métadonnées
- Comme base de données relationnelle : données organisées dans des tableaux à deux
dimensions.
=> Base de données normalisée, “des règles des construction (sont imposées) à sa structure afin
de respecter la cohérence des données et éviter tout redondance d’informations”.
- Comme base de données BLOB : permettant le stockage de données binaires (image, son, vidéo)
dans le champs d’une table d’une base de données.
=> Pas adaptée pour stocker de grandes quantités de données binaires.
19. YouTube - Stockage des données
→ VITESS = système de partitionnement de base de données
- Développé par Google
- Langage de programmation Go, rapide à compiler
- Combine des caractéristiques de MySQL avec la capacité de passage à l’échelle d’une base de
données NoSQL
→ BIGTABLE = système de gestion de base de données NoSQL orienté colonne
- Développé par Google
- Traite des volumes de données monumentales
- “Faible latence et un débit élevé, quels que soient le volume de la charge de travail”
- “Évolue automatiquement pour prendre en charge des centaines de pétaoctets et peut gérer de
manière fluide des millions d'opérations par seconde”
20. YouTube - Stockage des données
Le cas des vidéos :
Chaque vidéo uploadée se voit attribuer un nom unique (UUID) et est envoyée dans un programme de traitement. Les
métadonnées récoltées sont stockées dans les bases de données MySQL. Mais qu’en est-il des fichiers vidéo ?
→ CDN (Content Delivery Network)
- Les vidéos les plus populaires sont stockées dans des CDN, qui sont des “réseaux de diffusion de
contenu, constitués d’ordinateurs reliés en réseau à travers internet et qui coopèrent afin de mettre
à disposition du contenu ou des données à des utilisateurs”.
→ Data Centers Google
- Les vidéos les moins populaires sont stockées dans des serveurs possédés par YouTube dans de
nombreux pays.
21. YouTube - Traitement des données
→ PYTHON = langage de programmation objet
- La plupart des lignes de code de YouTube sont en Python
- Avantages : rapidité, performance, flexibilité du langage
→ Quid de la pérennité des données ?
- Algorithme d’archivage : extrait les métadonnées liées aux vidéos pour stocker efficacement et
rapidement ces dernières
- Permet à l’utilisateur de rapidement satisfaire ses recherches sur la plateforme
22. YouTube - Partage et divulgation des données
→ Sécurité des données
- Chiffrement qui protège les données pendant leur transfert entre l’appareil, les services Google et
les centres de données.
→ Partage des données
Données liées aux informations personnelles des utilisateurs ainsi que des données récoltées sur leurs activités en ligne
mais jamais le nom, l’adresse mail et les informations bancaires.
- A l’ensemble des services Google
- Aux partenaires qui s’associent à eux pour diffuser de la publicité
- Aux annonceurs
→ Divulgation des données
- Aux autorités administratives, aux tribunaux et à des parties de procès civil (sur base d’une analyse
rigoureuse de la demande).
23. → Système de recommandation pour fournir aux utilisateurs des recommandations leur
permettant de trouver des vidéos de qualité et en lien avec leurs intérêts
- Utilisation de données de contenu (fichier vidéo brut et métadonnées associée) et de données liées
à l’activité de l’utilisateur (explicites et implicites).
- Règle “d’association de vidéos” (paires de vidéos les plus regardées sur une session donnée)
- Classement des recommandations (qualité de la vidéo, spécificités de l’utilisateur, la diversité, etc.)
- “Il est important que les recommandations soient mises à jour régulièrement et reflètent une activité
récente de l’utilisateur sur le site”
→ Correction orthographique et saisie semi-automatique
YouTube - Utilisation des données par YouTube
24. YouTube - Utilisation des données par YouTube
→ Publicités
- Utilisation de données sur les vidéos précédemment regardées par l’utilisateur ainsi que sur leurs
recherches récentes ou actuelles.
- Possibilité d’ignorer ces annonces et de connaître les raisons de leur sélection.
25. YouTube - Analyser et optimiser une chaîne
→ YouTube Analytics
- Il est intéressant d’utiliser “YouTube Analytics régulièrement afin d’évaluer les performances de
votre chaîne et étudier les changements ou tendances grâce à des indicateurs clés. La fonction
d’analyse génère des données exploitables pour créer de meilleures vidéos, mettre en oeuvre et
mesurer les améliorations et développer un programme stratégique”.
● Vue d’ensemble (nombre de vues, durée de la session de visionnage, nombre d’abonnés, nombre
de vues provenant des abonnées, pourcentage de “J’aime”, vidéos les plus regardées, vues en
temps réel)
● Revenus (revenus estimés, lectures monétisées estimées, transactions, modèles économiques, les
types d’annonces, les vidéos les plus rentables et le top des pays par CPM)
26. YouTube - Analyser et optimiser une chaîne
● Découvertes (types de sources de trafic, top des sources externes, top des termes de recherche
YouTube, top des vidéos suggérant ou présentant le contenu du créateur)
● Audience (sexe, âge, pays les plus concernés, les langues pour les sous-titres les plus utilisées)
● Contenu interactif (clics sur les accroches de fiches par accroche affichée, clics sur les fiches par
fiche affichée, top des fiches, clics sur les annotations par annotation affichée, top des vidéos par
nombre de clic sur les annotations)
● Playlists (nombre de visionnages des playlists, nombre de visionnages de vidéos dans les playlists,
durée moyenne pour la playlist, top des playlists).
- Exportation de ces données depuis YouTube Analytics en CSV ou XLS.
27. YouTube - Les API’s
→ L’API YouTube Data
- Permet de récolter des données statiques, disponibles pour tous les utilisateur
→ L’API YouTube Reporting
- Conçue pour les applications pouvant importer de grands ensembles de données (en vrac) et
possédant les outils nécessaires au filtrage, triage et à l’exploitation de ces données.
→ L’API YouTube Analytics
- Génère des rapports YouTube Analytics personnalités. L’API fournit des outils de filtrage et de tri,
de sorte que l’application n’a pas besoin de prendre en charge ces fonctions.
28. YouTube - Les enjeux
→ Enjeux environnementaux liés à la consommation d’électricité des centres de données et à la
chaleur produite par les serveurs.
Pour améliorer l’efficacité énergétique des data centers...
- Système de refroidissement (eau pompée puis épurée avant d’être injectée)
- DeepMind (tech. associant apprentissage machine et réseaux neuronaux artificiels)
- Investissement dans des parcs éoliens et solaires
→ Enjeux sociaux liés aux algorithmes de recommandation qui encourageraient la diffusion de faits
alternatifs.
- Explorateur de recommandation open source
- Impact du temps de visionnage sur les recommandations
- Cercle vicieux
29.
30. Spotify en quelques chiffres...
→ 140 millions d’utilisateurs
→ 70 millions d’abonnés premium
→ 30 millions de chansons dans son catalogue
→ 2 milliards de playlists créées
→ 60 GB de données produites par les utilisateurs/jour
→ 61 pays dans lesquels la plateforme est active
→ 1ère plateforme de streaming dans le monde
31. Récolte des données
- Via informations requises lors de l’inscription
- Via données mobiles disponibles suite à l’utilisation de l’application
smartphone (localisation, liste de contacts…)
- Via utilisation du service Spotify (suivi des recherches effectuées, stockage des mots clés
enregistrés, playlists créées ou écoutées…)
→ Etablir un profil social et comportemental de l’utilisateur pour lui offrir un service
plus personnalisé!
33. Processus en plusieurs étapes:
1. L’utilisateur se connecte via différents points d’accès (application, site…)
2. L’utilisateur effectue une recherche
→ mots clés stockés sur Google Cloud Big Table (service de base de données NoSQL orienté colonnes)
→ requête envoyée au serveur de Google via PubSub (service de messagerie entre applications en
temps réel).
3. La requête est reconnue et traitée par Spotify
→ stockage des données via Google Cloud Storage (en ligne)
→ traitement des données via Google Cloud Dataflow (service de traitement de données par flux et lots
de données).
→ traitement des données via Hadoop MapReduce
→ à l’aide de Scio (interface de programmation créée par Spotify, langage Scala, pour exécuter à la fois
des fichiers batch et de streaming).
4. Les données sont analysées par l’entreprise
→ via BigQuery de Google (entrepôt en ligne d'analyse de données d'entreprise, sans serveur)
→ présentation structurée des données dans le langage JSON: sous forme de tables et/ou tableaux de
bords analytiques.
34. Analyse et utilisation des données
→ Investissement dans le machine learning
But? Comprendre le comportement de l’utilisateur
→ Développement de nombreuses fonctionnalités de recommandation:
“Discover Weekly”
“Fresh Finds”
“Spotify radio”
...
35. Techniques utilisées pour recommander des playlists personnalisées?
→ filtrage collaboratif
Proposer de nouvelles recommandations basées sur les similitudes entre utilisateurs et non pas sur les
chansons en tant qu’objet, en tant que produit musical.
L’algorithme de filtrage collaboratif trouve les utilisateurs qui ont des similitudes en fonction de leur activité
sur la plateforme puis recommande les chansons écoutées par un utilisateur à un autre.
Ex: Utilisateur A écoute Beyoncé
Utilisateur B écoute Beyoncé + Rihanna
Utilisateur C écoute Beyoncé + Franck Ocean
→ comptage des occurrences par l’algorithme
→ Recommandation à utilisateur A: “écouter Rihanna et/ou Franck Ocean”
36. → machine learning from audio et méthode mathématique
= analyse du son et de ses propriétés techniques (intensité, durée, fréquence…)
But? Régler le problème du démarrage à froid (pas encore de données d’utilisateurs)
L’entreprise va utiliser une méthode mathématique lui permettant d’associer des musiques à des
vecteurs:
- traitement des playlists en tant que paragraphe textuel
- chaque chanson de la playlist comme un mot individuel
- Il en résulte des représentations vectorielles de chansons qui peuvent être utilisées pour déterminer
deux morceaux de musique similaires.
- Spotify est capable de déterminer quelles chansons sont similaires les unes aux autres en
comparant les vecteurs et donc de recommander des playlists sans disposer de beaucoup de
données.
37. → deep learning: réseau neural convolutif
= neurones artificiels sous forme de constructions mathématiques que l’on va empiler afin de créer un
réseau de fonctions complexes.
- Ce réseau va ainsi pouvoir interpréter une image et non plus simplement une donnée et en conclure
des prédictions.
- Ce réseau neural convolutif parcourt la chanson elle-même et l’analyse afin de déterminer les
chansons qui ont une acoustique similaire.
- Image = spectrogramme (représentation sous forme d’image de la fréquence d’un son)
38. → technique de détection des données aberrantes
La détection des valeurs aberrantes est utilisée pour déterminer si un usage particulier fait ou non-partie
d'un comportement normal.
De cette façon, si un proche empreinte notre compte Spotify une fois et qu’il écoute des musiques
totalement différentes, la plateforme va comprendre qu’il s’agit là d’une autre personne et qu’il ne faut
donc pas prendre en compte ces données pour nous recommander une chanson.
39. Quels enjeux?
→ Economiques
- Marché en forte croissance avec de nombreux nouveaux entrants
- Se démarquer en offrant toujours plus de services personnalisés
- Etre attrayante auprès des annonceurs: ciblage publicitaire précis
→ Culturels
- Avant: artistes qui génèrent peu de clics = peu de promotion
- Dorénavant, Spotify veut se devenir vecteur de nouveaux talents: création de playlists d’artistes
émergents, organisation de concerts
→ Légaux
- Nécessité de transparence liée au traitement des informations personnelles de ses utilisateurs
43. Conclusion
● Le Big Data est un secteur d’avenir
● La collecte, le traitement, l’analyse et l’utilisation de ces données joue un rôle
important dans les entreprises
● Les concepts de valorisation des données sont les mêmes à travers les
sociétés étudiées
○ Chacune exploitent ces données de la manière qu’elles souhaitent
● La protection des données privées est un thème essentiel dans notre société
hyper-connectée
44. Conclusion
Le succès du big data est lié aux données non structurées
que nous pouvons traiter maintenant grâce aux technologies cognitives