SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Étude comparative sur la valorisation du big data
pour les contenus audiovisuels
Sommaire
→ Définition du Big Data
→ Etude du cas Netflix
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Etude du cas YouTube
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Etude du cas Spotify
Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise.
→ Tableau comparatif
→ Conclusion
Le Big Data : Définition
Mégadonnées - Données massives :
1. Ensemble de données
○ Grande taille
○ Très complexes
2. Applications traditionnelles
○ Traitement de données sont insuffisantes
Les clés du Big Data :
● Collecte
● Traitement
● Analyse
● Intégration
Le Big Data : Les 8 V
Volume : La quantité de données produites est très importante
Variété : Un grand volume implique une nombre important de sources
Vélocité : La vélocité représente la fréquence à laquelle les données sont
capturée, traitées et partagées. Mais aussi la vitesse à laquelle ces données
grandissent
Variabilité : Les flux de données entrantes peuvent subir des pics périodiques
Le Big Data : Les 8 V
Véracité : La qualité et la fiabilité des données est un paramètre essentiel à
prendre en compte
Visibilité : L’accessibilité aux données peut être entravé par des protections
Visualisation : Les données doivent être lues et comprises par les utilisateur et
décideurs à travers des tableaux récapitulatifs ou dashboards
Valorisation : L’exploitation des données doit produire un bénéfice
“Service de diffusion en streaming qui permet à ses utilisateurs de
regarder une grande variété de séries TV, films, documentaires et
autres programmes”
Récolte des données et analyse est importante → base pour la stratégie de communication et de production
Netflix - Récolte des données
Lié aux utilisateurs
○ Création du compte individuel + modifications des paramètres
○ Utilisation de la plateforme (collecte automatique) → diverses sources
Poids des données : 86 millions de membres → entrepôt de données = 60 pétaoctets
Pas de propre infrastructure → utilisation du service d’Amazon Web Service
Netflix - Récolte des données
➔ Outils de récoltes
◆ Ursula : classement des événements + introduction
dans l’entrepôt
◆ Aegisthus : mise à jour quotidienne des données
● Amazon est élastique et sécurisé
◆ Cassandra : assume 95% de la base de données
◆ Suro : collecte, regroupe et envoi des informations
● Capture de données efficace
➔ Code source Falcor
◆ Bibliothèque JavaScript, récolte des données JSON
(présentation structurée)
◆ Efficacité dans la récupération des données de
sources multiples
Netflix - Stockage des données
➔ HADOOP : logiciel
◆ Stockage et traitement des données
● Stockage : HDFS
● Traitement : MapReduce
◆ Fragmentation des fichiers en blocs
◆ Partage via des noeuds de cluster (grappe de serveurs)
◆ Association de différents serveurs = noeuds
➔ Outils provenant d’HADOOP
◆ Hive : requêtes & analyses
◆ PIG : ETL & algorithmes
◆ MapReduce : algorithmes complexes
◆ Python : langage commun
➔ Limites de HADOOP
◆ Simple comptage des mots → pas pour des opérations complexes
Netflix - Traitement des données
➔ Logiciels utilisés
◆ PIG : processus d’intégration d’informations complexes + prend des décisions
● 2 types de données : données scalaires / données complexes
◆ Python : circulation d’informations via un réseau + création de programmes
complets
◆ Presto (open source) : moteur de requête qui traite les interactions en temps
réel + base de données de grande taille
◆ Genie : moteur d’orchestration de travail - développé par Netflix
● Fournit des API → exécution d’une variété de tâches pour l’écosystème
Hadoop
● Fournit des API → gestion des métadonnées de clusters
● Utilisation importante pour faciliter la soumission des travaux
Netflix - Traitement des données
➔ Logiciels utilisés
◆ Franklin : API de métadonnées → comprend les autres données en
extrayant des infos à partir de divers outils
● Cassandra : collecte des données en ligne
● Teradata : spécialisé dans l'entrepôt des données + applications
analytiques
➔ Utilisation des données : outils
◆ Forklift : circulation des données
◆ Quinto : évaluer la qualité des données
◆ Etc.
Netflix - Partage et divulgation des données
➔ Différentes finalités et à de tierces personnes
◆ Filiales Netflix
◆ Fournisseurs de services (sous-traitants du domaines informatique etc.)
◆ Personnes qui prennent en charge les offres promotionnelles
◆ Autres entreprises (en cas de fusion, réorganisation …)
➔ Divulgation des infos des utilisateurs à leur insu
◆ Avis sur le contenu
◆ Plug-ins des réseaux sociaux
Netflix - Utilisation des données
➔ Finalité principale : système de recommandation basé sur des algorithmes
◆ Comparaison de goût semblables entre clients
◆ Chaînes de Markov : processus aléatoire permettant l’élaboration de recommandation
● Utilisation d’Hadoop :
○ Utilisation de PIG & Map Reduce : simplifier la gestion des procédures stockées
◆ Environnement : contenu différent selon la position spatio-temporelle
◆ Filtrage collaboratif (algorithme) : exploite les évaluations du contenu par les utilisateurs
● Qualité de recommandation excellente
◆ Algortihmes utilisés :
● PVR (Personnalised Video Ranker) : contenu personnalisé
● Top-N Ranker : contenu personnalisé + programmes les mieux classés
Netflix - Utilisation des données
➔ Autres finalités
◆ Prévention d’activité inégale
◆ Communication de Netflix
◆ Création de contenu
◆ Analyse de l’utilisation de Netflix par les utilisateurs
Netflix - Enjeux
➔ Enjeux environnementaux
◆ Serveurs → effets néfastes sur l’environnement
➔ Enjeux économiques
◆ Meilleur rendement + satisfaction des clients (acquisition)
➔ Enjeux éthiques
◆ Exploitation des données personnelles
« YouTube est un site web d’hé bergement vidé o sur lequel les utilisateurs
peuvent envoyer, é valuer, regarder, commenter et partager des vidé os. »
YouTube - Récolte des données
1. Actions des utilisateurs (recherches effectuées, ensemble des sites internet consultés, vidéos
regardées, annonces publicitaire activées, situation géographique, les informations concernant le
support utilisé, l’adresse IP et les cookies).
2. Productions et importations des utilisateurs (e-mails envoyés et reçus, contacts récemment
ajoutés, événements de l’agenda, photos et vidéos importées, tous les fichiers Docs, Sheets et
Slides).
3. Inscription des utilisateurs (nom, prénom, adresse, e-mail, mot de passe, date de naissance,
sexe, numéro de téléphone, pays).
Mais également : les métadonnées liées aux vidéos (titre, description, date d’ajout, tags, annotations,
“likes”, nombre de vues, etc.)
Taille YouTube = plusieurs Exabytes (entre 75 et 130 Petabytes de données vidéo stockées chaque
année) !
YouTube - Stockage des données
→ MYSQL = système de gestion de base de données Open Source.
YouTube y stocke toutes les données essentielles et les métadonnées
- Comme base de données relationnelle : données organisées dans des tableaux à deux
dimensions.
=> Base de données normalisée, “des règles des construction (sont imposées) à sa structure afin
de respecter la cohérence des données et éviter tout redondance d’informations”.
- Comme base de données BLOB : permettant le stockage de données binaires (image, son, vidéo)
dans le champs d’une table d’une base de données.
=> Pas adaptée pour stocker de grandes quantités de données binaires.
YouTube - Stockage des données
→ VITESS = système de partitionnement de base de données
- Développé par Google
- Langage de programmation Go, rapide à compiler
- Combine des caractéristiques de MySQL avec la capacité de passage à l’échelle d’une base de
données NoSQL
→ BIGTABLE = système de gestion de base de données NoSQL orienté colonne
- Développé par Google
- Traite des volumes de données monumentales
- “Faible latence et un débit élevé, quels que soient le volume de la charge de travail”
- “Évolue automatiquement pour prendre en charge des centaines de pétaoctets et peut gérer de
manière fluide des millions d'opérations par seconde”
YouTube - Stockage des données
Le cas des vidéos :
Chaque vidéo uploadée se voit attribuer un nom unique (UUID) et est envoyée dans un programme de traitement. Les
métadonnées récoltées sont stockées dans les bases de données MySQL. Mais qu’en est-il des fichiers vidéo ?
→ CDN (Content Delivery Network)
- Les vidéos les plus populaires sont stockées dans des CDN, qui sont des “réseaux de diffusion de
contenu, constitués d’ordinateurs reliés en réseau à travers internet et qui coopèrent afin de mettre
à disposition du contenu ou des données à des utilisateurs”.
→ Data Centers Google
- Les vidéos les moins populaires sont stockées dans des serveurs possédés par YouTube dans de
nombreux pays.
YouTube - Traitement des données
→ PYTHON = langage de programmation objet
- La plupart des lignes de code de YouTube sont en Python
- Avantages : rapidité, performance, flexibilité du langage
→ Quid de la pérennité des données ?
- Algorithme d’archivage : extrait les métadonnées liées aux vidéos pour stocker efficacement et
rapidement ces dernières
- Permet à l’utilisateur de rapidement satisfaire ses recherches sur la plateforme
YouTube - Partage et divulgation des données
→ Sécurité des données
- Chiffrement qui protège les données pendant leur transfert entre l’appareil, les services Google et
les centres de données.
→ Partage des données
Données liées aux informations personnelles des utilisateurs ainsi que des données récoltées sur leurs activités en ligne
mais jamais le nom, l’adresse mail et les informations bancaires.
- A l’ensemble des services Google
- Aux partenaires qui s’associent à eux pour diffuser de la publicité
- Aux annonceurs
→ Divulgation des données
- Aux autorités administratives, aux tribunaux et à des parties de procès civil (sur base d’une analyse
rigoureuse de la demande).
→ Système de recommandation pour fournir aux utilisateurs des recommandations leur
permettant de trouver des vidéos de qualité et en lien avec leurs intérêts
- Utilisation de données de contenu (fichier vidéo brut et métadonnées associée) et de données liées
à l’activité de l’utilisateur (explicites et implicites).
- Règle “d’association de vidéos” (paires de vidéos les plus regardées sur une session donnée)
- Classement des recommandations (qualité de la vidéo, spécificités de l’utilisateur, la diversité, etc.)
- “Il est important que les recommandations soient mises à jour régulièrement et reflètent une activité
récente de l’utilisateur sur le site”
→ Correction orthographique et saisie semi-automatique
YouTube - Utilisation des données par YouTube
YouTube - Utilisation des données par YouTube
→ Publicités
- Utilisation de données sur les vidéos précédemment regardées par l’utilisateur ainsi que sur leurs
recherches récentes ou actuelles.
- Possibilité d’ignorer ces annonces et de connaître les raisons de leur sélection.
YouTube - Analyser et optimiser une chaîne
→ YouTube Analytics
- Il est intéressant d’utiliser “YouTube Analytics régulièrement afin d’évaluer les performances de
votre chaîne et étudier les changements ou tendances grâce à des indicateurs clés. La fonction
d’analyse génère des données exploitables pour créer de meilleures vidéos, mettre en oeuvre et
mesurer les améliorations et développer un programme stratégique”.
● Vue d’ensemble (nombre de vues, durée de la session de visionnage, nombre d’abonnés, nombre
de vues provenant des abonnées, pourcentage de “J’aime”, vidéos les plus regardées, vues en
temps réel)
● Revenus (revenus estimés, lectures monétisées estimées, transactions, modèles économiques, les
types d’annonces, les vidéos les plus rentables et le top des pays par CPM)
YouTube - Analyser et optimiser une chaîne
● Découvertes (types de sources de trafic, top des sources externes, top des termes de recherche
YouTube, top des vidéos suggérant ou présentant le contenu du créateur)
● Audience (sexe, âge, pays les plus concernés, les langues pour les sous-titres les plus utilisées)
● Contenu interactif (clics sur les accroches de fiches par accroche affichée, clics sur les fiches par
fiche affichée, top des fiches, clics sur les annotations par annotation affichée, top des vidéos par
nombre de clic sur les annotations)
● Playlists (nombre de visionnages des playlists, nombre de visionnages de vidéos dans les playlists,
durée moyenne pour la playlist, top des playlists).
- Exportation de ces données depuis YouTube Analytics en CSV ou XLS.
YouTube - Les API’s
→ L’API YouTube Data
- Permet de récolter des données statiques, disponibles pour tous les utilisateur
→ L’API YouTube Reporting
- Conçue pour les applications pouvant importer de grands ensembles de données (en vrac) et
possédant les outils nécessaires au filtrage, triage et à l’exploitation de ces données.
→ L’API YouTube Analytics
- Génère des rapports YouTube Analytics personnalités. L’API fournit des outils de filtrage et de tri,
de sorte que l’application n’a pas besoin de prendre en charge ces fonctions.
YouTube - Les enjeux
→ Enjeux environnementaux liés à la consommation d’électricité des centres de données et à la
chaleur produite par les serveurs.
Pour améliorer l’efficacité énergétique des data centers...
- Système de refroidissement (eau pompée puis épurée avant d’être injectée)
- DeepMind (tech. associant apprentissage machine et réseaux neuronaux artificiels)
- Investissement dans des parcs éoliens et solaires
→ Enjeux sociaux liés aux algorithmes de recommandation qui encourageraient la diffusion de faits
alternatifs.
- Explorateur de recommandation open source
- Impact du temps de visionnage sur les recommandations
- Cercle vicieux
Spotify en quelques chiffres...
→ 140 millions d’utilisateurs
→ 70 millions d’abonnés premium
→ 30 millions de chansons dans son catalogue
→ 2 milliards de playlists créées
→ 60 GB de données produites par les utilisateurs/jour
→ 61 pays dans lesquels la plateforme est active
→ 1ère plateforme de streaming dans le monde
Récolte des données
- Via informations requises lors de l’inscription
- Via données mobiles disponibles suite à l’utilisation de l’application
smartphone (localisation, liste de contacts…)
- Via utilisation du service Spotify (suivi des recherches effectuées, stockage des mots clés
enregistrés, playlists créées ou écoutées…)
→ Etablir un profil social et comportemental de l’utilisateur pour lui offrir un service
plus personnalisé!
Stockage et traitement des données
Processus en plusieurs étapes:
1. L’utilisateur se connecte via différents points d’accès (application, site…)
2. L’utilisateur effectue une recherche
→ mots clés stockés sur Google Cloud Big Table (service de base de données NoSQL orienté colonnes)
→ requête envoyée au serveur de Google via PubSub (service de messagerie entre applications en
temps réel).
3. La requête est reconnue et traitée par Spotify
→ stockage des données via Google Cloud Storage (en ligne)
→ traitement des données via Google Cloud Dataflow (service de traitement de données par flux et lots
de données).
→ traitement des données via Hadoop MapReduce
→ à l’aide de Scio (interface de programmation créée par Spotify, langage Scala, pour exécuter à la fois
des fichiers batch et de streaming).
4. Les données sont analysées par l’entreprise
→ via BigQuery de Google (entrepôt en ligne d'analyse de données d'entreprise, sans serveur)
→ présentation structurée des données dans le langage JSON: sous forme de tables et/ou tableaux de
bords analytiques.
Analyse et utilisation des données
→ Investissement dans le machine learning
But? Comprendre le comportement de l’utilisateur
→ Développement de nombreuses fonctionnalités de recommandation:
“Discover Weekly”
“Fresh Finds”
“Spotify radio”
...
Techniques utilisées pour recommander des playlists personnalisées?
→ filtrage collaboratif
Proposer de nouvelles recommandations basées sur les similitudes entre utilisateurs et non pas sur les
chansons en tant qu’objet, en tant que produit musical.
L’algorithme de filtrage collaboratif trouve les utilisateurs qui ont des similitudes en fonction de leur activité
sur la plateforme puis recommande les chansons écoutées par un utilisateur à un autre.
Ex: Utilisateur A écoute Beyoncé
Utilisateur B écoute Beyoncé + Rihanna
Utilisateur C écoute Beyoncé + Franck Ocean
→ comptage des occurrences par l’algorithme
→ Recommandation à utilisateur A: “écouter Rihanna et/ou Franck Ocean”
→ machine learning from audio et méthode mathématique
= analyse du son et de ses propriétés techniques (intensité, durée, fréquence…)
But? Régler le problème du démarrage à froid (pas encore de données d’utilisateurs)
L’entreprise va utiliser une méthode mathématique lui permettant d’associer des musiques à des
vecteurs:
- traitement des playlists en tant que paragraphe textuel
- chaque chanson de la playlist comme un mot individuel
- Il en résulte des représentations vectorielles de chansons qui peuvent être utilisées pour déterminer
deux morceaux de musique similaires.
- Spotify est capable de déterminer quelles chansons sont similaires les unes aux autres en
comparant les vecteurs et donc de recommander des playlists sans disposer de beaucoup de
données.
→ deep learning: réseau neural convolutif
= neurones artificiels sous forme de constructions mathématiques que l’on va empiler afin de créer un
réseau de fonctions complexes.
- Ce réseau va ainsi pouvoir interpréter une image et non plus simplement une donnée et en conclure
des prédictions.
- Ce réseau neural convolutif parcourt la chanson elle-même et l’analyse afin de déterminer les
chansons qui ont une acoustique similaire.
- Image = spectrogramme (représentation sous forme d’image de la fréquence d’un son)
→ technique de détection des données aberrantes
La détection des valeurs aberrantes est utilisée pour déterminer si un usage particulier fait ou non-partie
d'un comportement normal.
De cette façon, si un proche empreinte notre compte Spotify une fois et qu’il écoute des musiques
totalement différentes, la plateforme va comprendre qu’il s’agit là d’une autre personne et qu’il ne faut
donc pas prendre en compte ces données pour nous recommander une chanson.
Quels enjeux?
→ Economiques
- Marché en forte croissance avec de nombreux nouveaux entrants
- Se démarquer en offrant toujours plus de services personnalisés
- Etre attrayante auprès des annonceurs: ciblage publicitaire précis
→ Culturels
- Avant: artistes qui génèrent peu de clics = peu de promotion
- Dorénavant, Spotify veut se devenir vecteur de nouveaux talents: création de playlists d’artistes
émergents, organisation de concerts
→ Légaux
- Nécessité de transparence liée au traitement des informations personnelles de ses utilisateurs
Tableau comparatif
Tableau comparatif
Tableau comparatif
Conclusion
● Le Big Data est un secteur d’avenir
● La collecte, le traitement, l’analyse et l’utilisation de ces données joue un rôle
important dans les entreprises
● Les concepts de valorisation des données sont les mêmes à travers les
sociétés étudiées
○ Chacune exploitent ces données de la manière qu’elles souhaitent
● La protection des données privées est un thème essentiel dans notre société
hyper-connectée
Conclusion
Le succès du big data est lié aux données non structurées
que nous pouvons traiter maintenant grâce aux technologies cognitives

Contenu connexe

Tendances

La veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clésLa veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clésLoïc Haÿ
 
Gérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesGérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesMathieu Saby
 
Aide à la prise en main des deux versions de Google Analytics.pdf
Aide à la prise en main des deux versions de Google Analytics.pdfAide à la prise en main des deux versions de Google Analytics.pdf
Aide à la prise en main des deux versions de Google Analytics.pdfMurielDenis
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Datajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDatajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDjamel Zouaoui
 
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...SEO CAMP
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...Mariem SELLAMI
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaireBoris Guarisma
 
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxAnalyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxYacine Yakoubi
 
Définir Un Persona
Définir Un PersonaDéfinir Un Persona
Définir Un PersonaKinoa
 
Algorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de NetflixAlgorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de Netflixlaurence allard
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 

Tendances (20)

La veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clésLa veille sur internet en 5 étapes clés
La veille sur internet en 5 étapes clés
 
Gérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesGérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiques
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Aide à la prise en main des deux versions de Google Analytics.pdf
Aide à la prise en main des deux versions de Google Analytics.pdfAide à la prise en main des deux versions de Google Analytics.pdf
Aide à la prise en main des deux versions de Google Analytics.pdf
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 
Datajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandationDatajob 2013 - Construire un système de recommandation
Datajob 2013 - Construire un système de recommandation
 
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...
Etude de cas : 1 destination / 1 site. De 0 à 50K visiteurs / mois en mode ra...
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Marketing digital
Marketing digitalMarketing digital
Marketing digital
 
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...
La pratique de la veille chez les entreprises tunisiennes : "Cas d'Orange Tun...
 
5.2 Régression linéaire
5.2 Régression linéaire5.2 Régression linéaire
5.2 Régression linéaire
 
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxAnalyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
 
Définir Un Persona
Définir Un PersonaDéfinir Un Persona
Définir Un Persona
 
Algorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de NetflixAlgorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de Netflix
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 

Similaire à Étude comparative sur la valorisation du big data pour les contenus audiovisuels

BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfMissaouiWissal
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfAhmedToujani1
 
Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriAymen ZAAFOURI
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Principes et fonctionnalités d'un portail open data www.open datasoft.com
Principes et fonctionnalités d'un portail open data   www.open datasoft.comPrincipes et fonctionnalités d'un portail open data   www.open datasoft.com
Principes et fonctionnalités d'un portail open data www.open datasoft.comOpenDataSoft
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdfGonnaBe1
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google CloudPierre Coste
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelMicrosoft Décideurs IT
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content PlatformBertrand LE QUELLEC
 
Construire un data lake managé - GDG Paris - Juin 2019
Construire un data lake managé - GDG Paris - Juin 2019Construire un data lake managé - GDG Paris - Juin 2019
Construire un data lake managé - GDG Paris - Juin 2019Jean-Baptiste Claramonte
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Big data et open data
Big data et open dataBig data et open data
Big data et open dataBart Hanssens
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 

Similaire à Étude comparative sur la valorisation du big data pour les contenus audiovisuels (20)

BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouri
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Big data
Big dataBig data
Big data
 
Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...Réussissez vos projets d’analytique self-service avec une couche de services ...
Réussissez vos projets d’analytique self-service avec une couche de services ...
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Principes et fonctionnalités d'un portail open data www.open datasoft.com
Principes et fonctionnalités d'un portail open data   www.open datasoft.comPrincipes et fonctionnalités d'un portail open data   www.open datasoft.com
Principes et fonctionnalités d'un portail open data www.open datasoft.com
 
Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 
Meetup Google Cloud
Meetup Google CloudMeetup Google Cloud
Meetup Google Cloud
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec IntelRévolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content Platform
 
Construire un data lake managé - GDG Paris - Juin 2019
Construire un data lake managé - GDG Paris - Juin 2019Construire un data lake managé - GDG Paris - Juin 2019
Construire un data lake managé - GDG Paris - Juin 2019
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Big data et open data
Big data et open dataBig data et open data
Big data et open data
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 

Plus de Thomas Malice

Pratiques et utilisation des sites et applications de rencontre
Pratiques et utilisation des sites et applications de rencontrePratiques et utilisation des sites et applications de rencontre
Pratiques et utilisation des sites et applications de rencontreThomas Malice
 
Analyse du RSN "Plazza" et de la communication d'Orange
Analyse du RSN "Plazza" et de la communication d'OrangeAnalyse du RSN "Plazza" et de la communication d'Orange
Analyse du RSN "Plazza" et de la communication d'OrangeThomas Malice
 
Action plan against youth unemployment across europe
Action plan against youth unemployment across europeAction plan against youth unemployment across europe
Action plan against youth unemployment across europeThomas Malice
 
Intercultural communication through advertising
Intercultural communication through advertisingIntercultural communication through advertising
Intercultural communication through advertisingThomas Malice
 
Comparatif de différents clouds
Comparatif de différents cloudsComparatif de différents clouds
Comparatif de différents cloudsThomas Malice
 
Analyse de site e-commerce : maliceoffice.calipage.be
Analyse de site e-commerce : maliceoffice.calipage.beAnalyse de site e-commerce : maliceoffice.calipage.be
Analyse de site e-commerce : maliceoffice.calipage.beThomas Malice
 
Logistique : Le transport dans le commerce
Logistique : Le transport dans le commerceLogistique : Le transport dans le commerce
Logistique : Le transport dans le commerceThomas Malice
 
Pays développés VS Pays en développements
Pays développés VS Pays en développementsPays développés VS Pays en développements
Pays développés VS Pays en développementsThomas Malice
 

Plus de Thomas Malice (8)

Pratiques et utilisation des sites et applications de rencontre
Pratiques et utilisation des sites et applications de rencontrePratiques et utilisation des sites et applications de rencontre
Pratiques et utilisation des sites et applications de rencontre
 
Analyse du RSN "Plazza" et de la communication d'Orange
Analyse du RSN "Plazza" et de la communication d'OrangeAnalyse du RSN "Plazza" et de la communication d'Orange
Analyse du RSN "Plazza" et de la communication d'Orange
 
Action plan against youth unemployment across europe
Action plan against youth unemployment across europeAction plan against youth unemployment across europe
Action plan against youth unemployment across europe
 
Intercultural communication through advertising
Intercultural communication through advertisingIntercultural communication through advertising
Intercultural communication through advertising
 
Comparatif de différents clouds
Comparatif de différents cloudsComparatif de différents clouds
Comparatif de différents clouds
 
Analyse de site e-commerce : maliceoffice.calipage.be
Analyse de site e-commerce : maliceoffice.calipage.beAnalyse de site e-commerce : maliceoffice.calipage.be
Analyse de site e-commerce : maliceoffice.calipage.be
 
Logistique : Le transport dans le commerce
Logistique : Le transport dans le commerceLogistique : Le transport dans le commerce
Logistique : Le transport dans le commerce
 
Pays développés VS Pays en développements
Pays développés VS Pays en développementsPays développés VS Pays en développements
Pays développés VS Pays en développements
 

Étude comparative sur la valorisation du big data pour les contenus audiovisuels

  • 1. Étude comparative sur la valorisation du big data pour les contenus audiovisuels
  • 2. Sommaire → Définition du Big Data → Etude du cas Netflix Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise. → Etude du cas YouTube Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise. → Etude du cas Spotify Récolte, stockage, traitement, analyse, utilisation des données et enjeux pour l’entreprise. → Tableau comparatif → Conclusion
  • 3. Le Big Data : Définition Mégadonnées - Données massives : 1. Ensemble de données ○ Grande taille ○ Très complexes 2. Applications traditionnelles ○ Traitement de données sont insuffisantes Les clés du Big Data : ● Collecte ● Traitement ● Analyse ● Intégration
  • 4. Le Big Data : Les 8 V Volume : La quantité de données produites est très importante Variété : Un grand volume implique une nombre important de sources Vélocité : La vélocité représente la fréquence à laquelle les données sont capturée, traitées et partagées. Mais aussi la vitesse à laquelle ces données grandissent Variabilité : Les flux de données entrantes peuvent subir des pics périodiques
  • 5. Le Big Data : Les 8 V Véracité : La qualité et la fiabilité des données est un paramètre essentiel à prendre en compte Visibilité : L’accessibilité aux données peut être entravé par des protections Visualisation : Les données doivent être lues et comprises par les utilisateur et décideurs à travers des tableaux récapitulatifs ou dashboards Valorisation : L’exploitation des données doit produire un bénéfice
  • 6. “Service de diffusion en streaming qui permet à ses utilisateurs de regarder une grande variété de séries TV, films, documentaires et autres programmes” Récolte des données et analyse est importante → base pour la stratégie de communication et de production
  • 7. Netflix - Récolte des données Lié aux utilisateurs ○ Création du compte individuel + modifications des paramètres ○ Utilisation de la plateforme (collecte automatique) → diverses sources Poids des données : 86 millions de membres → entrepôt de données = 60 pétaoctets Pas de propre infrastructure → utilisation du service d’Amazon Web Service
  • 8. Netflix - Récolte des données ➔ Outils de récoltes ◆ Ursula : classement des événements + introduction dans l’entrepôt ◆ Aegisthus : mise à jour quotidienne des données ● Amazon est élastique et sécurisé ◆ Cassandra : assume 95% de la base de données ◆ Suro : collecte, regroupe et envoi des informations ● Capture de données efficace ➔ Code source Falcor ◆ Bibliothèque JavaScript, récolte des données JSON (présentation structurée) ◆ Efficacité dans la récupération des données de sources multiples
  • 9. Netflix - Stockage des données ➔ HADOOP : logiciel ◆ Stockage et traitement des données ● Stockage : HDFS ● Traitement : MapReduce ◆ Fragmentation des fichiers en blocs ◆ Partage via des noeuds de cluster (grappe de serveurs) ◆ Association de différents serveurs = noeuds ➔ Outils provenant d’HADOOP ◆ Hive : requêtes & analyses ◆ PIG : ETL & algorithmes ◆ MapReduce : algorithmes complexes ◆ Python : langage commun ➔ Limites de HADOOP ◆ Simple comptage des mots → pas pour des opérations complexes
  • 10. Netflix - Traitement des données ➔ Logiciels utilisés ◆ PIG : processus d’intégration d’informations complexes + prend des décisions ● 2 types de données : données scalaires / données complexes ◆ Python : circulation d’informations via un réseau + création de programmes complets ◆ Presto (open source) : moteur de requête qui traite les interactions en temps réel + base de données de grande taille ◆ Genie : moteur d’orchestration de travail - développé par Netflix ● Fournit des API → exécution d’une variété de tâches pour l’écosystème Hadoop ● Fournit des API → gestion des métadonnées de clusters ● Utilisation importante pour faciliter la soumission des travaux
  • 11. Netflix - Traitement des données ➔ Logiciels utilisés ◆ Franklin : API de métadonnées → comprend les autres données en extrayant des infos à partir de divers outils ● Cassandra : collecte des données en ligne ● Teradata : spécialisé dans l'entrepôt des données + applications analytiques ➔ Utilisation des données : outils ◆ Forklift : circulation des données ◆ Quinto : évaluer la qualité des données ◆ Etc.
  • 12. Netflix - Partage et divulgation des données ➔ Différentes finalités et à de tierces personnes ◆ Filiales Netflix ◆ Fournisseurs de services (sous-traitants du domaines informatique etc.) ◆ Personnes qui prennent en charge les offres promotionnelles ◆ Autres entreprises (en cas de fusion, réorganisation …) ➔ Divulgation des infos des utilisateurs à leur insu ◆ Avis sur le contenu ◆ Plug-ins des réseaux sociaux
  • 13. Netflix - Utilisation des données ➔ Finalité principale : système de recommandation basé sur des algorithmes ◆ Comparaison de goût semblables entre clients ◆ Chaînes de Markov : processus aléatoire permettant l’élaboration de recommandation ● Utilisation d’Hadoop : ○ Utilisation de PIG & Map Reduce : simplifier la gestion des procédures stockées ◆ Environnement : contenu différent selon la position spatio-temporelle ◆ Filtrage collaboratif (algorithme) : exploite les évaluations du contenu par les utilisateurs ● Qualité de recommandation excellente ◆ Algortihmes utilisés : ● PVR (Personnalised Video Ranker) : contenu personnalisé ● Top-N Ranker : contenu personnalisé + programmes les mieux classés
  • 14. Netflix - Utilisation des données ➔ Autres finalités ◆ Prévention d’activité inégale ◆ Communication de Netflix ◆ Création de contenu ◆ Analyse de l’utilisation de Netflix par les utilisateurs
  • 15. Netflix - Enjeux ➔ Enjeux environnementaux ◆ Serveurs → effets néfastes sur l’environnement ➔ Enjeux économiques ◆ Meilleur rendement + satisfaction des clients (acquisition) ➔ Enjeux éthiques ◆ Exploitation des données personnelles
  • 16. « YouTube est un site web d’hé bergement vidé o sur lequel les utilisateurs peuvent envoyer, é valuer, regarder, commenter et partager des vidé os. »
  • 17. YouTube - Récolte des données 1. Actions des utilisateurs (recherches effectuées, ensemble des sites internet consultés, vidéos regardées, annonces publicitaire activées, situation géographique, les informations concernant le support utilisé, l’adresse IP et les cookies). 2. Productions et importations des utilisateurs (e-mails envoyés et reçus, contacts récemment ajoutés, événements de l’agenda, photos et vidéos importées, tous les fichiers Docs, Sheets et Slides). 3. Inscription des utilisateurs (nom, prénom, adresse, e-mail, mot de passe, date de naissance, sexe, numéro de téléphone, pays). Mais également : les métadonnées liées aux vidéos (titre, description, date d’ajout, tags, annotations, “likes”, nombre de vues, etc.) Taille YouTube = plusieurs Exabytes (entre 75 et 130 Petabytes de données vidéo stockées chaque année) !
  • 18. YouTube - Stockage des données → MYSQL = système de gestion de base de données Open Source. YouTube y stocke toutes les données essentielles et les métadonnées - Comme base de données relationnelle : données organisées dans des tableaux à deux dimensions. => Base de données normalisée, “des règles des construction (sont imposées) à sa structure afin de respecter la cohérence des données et éviter tout redondance d’informations”. - Comme base de données BLOB : permettant le stockage de données binaires (image, son, vidéo) dans le champs d’une table d’une base de données. => Pas adaptée pour stocker de grandes quantités de données binaires.
  • 19. YouTube - Stockage des données → VITESS = système de partitionnement de base de données - Développé par Google - Langage de programmation Go, rapide à compiler - Combine des caractéristiques de MySQL avec la capacité de passage à l’échelle d’une base de données NoSQL → BIGTABLE = système de gestion de base de données NoSQL orienté colonne - Développé par Google - Traite des volumes de données monumentales - “Faible latence et un débit élevé, quels que soient le volume de la charge de travail” - “Évolue automatiquement pour prendre en charge des centaines de pétaoctets et peut gérer de manière fluide des millions d'opérations par seconde”
  • 20. YouTube - Stockage des données Le cas des vidéos : Chaque vidéo uploadée se voit attribuer un nom unique (UUID) et est envoyée dans un programme de traitement. Les métadonnées récoltées sont stockées dans les bases de données MySQL. Mais qu’en est-il des fichiers vidéo ? → CDN (Content Delivery Network) - Les vidéos les plus populaires sont stockées dans des CDN, qui sont des “réseaux de diffusion de contenu, constitués d’ordinateurs reliés en réseau à travers internet et qui coopèrent afin de mettre à disposition du contenu ou des données à des utilisateurs”. → Data Centers Google - Les vidéos les moins populaires sont stockées dans des serveurs possédés par YouTube dans de nombreux pays.
  • 21. YouTube - Traitement des données → PYTHON = langage de programmation objet - La plupart des lignes de code de YouTube sont en Python - Avantages : rapidité, performance, flexibilité du langage → Quid de la pérennité des données ? - Algorithme d’archivage : extrait les métadonnées liées aux vidéos pour stocker efficacement et rapidement ces dernières - Permet à l’utilisateur de rapidement satisfaire ses recherches sur la plateforme
  • 22. YouTube - Partage et divulgation des données → Sécurité des données - Chiffrement qui protège les données pendant leur transfert entre l’appareil, les services Google et les centres de données. → Partage des données Données liées aux informations personnelles des utilisateurs ainsi que des données récoltées sur leurs activités en ligne mais jamais le nom, l’adresse mail et les informations bancaires. - A l’ensemble des services Google - Aux partenaires qui s’associent à eux pour diffuser de la publicité - Aux annonceurs → Divulgation des données - Aux autorités administratives, aux tribunaux et à des parties de procès civil (sur base d’une analyse rigoureuse de la demande).
  • 23. → Système de recommandation pour fournir aux utilisateurs des recommandations leur permettant de trouver des vidéos de qualité et en lien avec leurs intérêts - Utilisation de données de contenu (fichier vidéo brut et métadonnées associée) et de données liées à l’activité de l’utilisateur (explicites et implicites). - Règle “d’association de vidéos” (paires de vidéos les plus regardées sur une session donnée) - Classement des recommandations (qualité de la vidéo, spécificités de l’utilisateur, la diversité, etc.) - “Il est important que les recommandations soient mises à jour régulièrement et reflètent une activité récente de l’utilisateur sur le site” → Correction orthographique et saisie semi-automatique YouTube - Utilisation des données par YouTube
  • 24. YouTube - Utilisation des données par YouTube → Publicités - Utilisation de données sur les vidéos précédemment regardées par l’utilisateur ainsi que sur leurs recherches récentes ou actuelles. - Possibilité d’ignorer ces annonces et de connaître les raisons de leur sélection.
  • 25. YouTube - Analyser et optimiser une chaîne → YouTube Analytics - Il est intéressant d’utiliser “YouTube Analytics régulièrement afin d’évaluer les performances de votre chaîne et étudier les changements ou tendances grâce à des indicateurs clés. La fonction d’analyse génère des données exploitables pour créer de meilleures vidéos, mettre en oeuvre et mesurer les améliorations et développer un programme stratégique”. ● Vue d’ensemble (nombre de vues, durée de la session de visionnage, nombre d’abonnés, nombre de vues provenant des abonnées, pourcentage de “J’aime”, vidéos les plus regardées, vues en temps réel) ● Revenus (revenus estimés, lectures monétisées estimées, transactions, modèles économiques, les types d’annonces, les vidéos les plus rentables et le top des pays par CPM)
  • 26. YouTube - Analyser et optimiser une chaîne ● Découvertes (types de sources de trafic, top des sources externes, top des termes de recherche YouTube, top des vidéos suggérant ou présentant le contenu du créateur) ● Audience (sexe, âge, pays les plus concernés, les langues pour les sous-titres les plus utilisées) ● Contenu interactif (clics sur les accroches de fiches par accroche affichée, clics sur les fiches par fiche affichée, top des fiches, clics sur les annotations par annotation affichée, top des vidéos par nombre de clic sur les annotations) ● Playlists (nombre de visionnages des playlists, nombre de visionnages de vidéos dans les playlists, durée moyenne pour la playlist, top des playlists). - Exportation de ces données depuis YouTube Analytics en CSV ou XLS.
  • 27. YouTube - Les API’s → L’API YouTube Data - Permet de récolter des données statiques, disponibles pour tous les utilisateur → L’API YouTube Reporting - Conçue pour les applications pouvant importer de grands ensembles de données (en vrac) et possédant les outils nécessaires au filtrage, triage et à l’exploitation de ces données. → L’API YouTube Analytics - Génère des rapports YouTube Analytics personnalités. L’API fournit des outils de filtrage et de tri, de sorte que l’application n’a pas besoin de prendre en charge ces fonctions.
  • 28. YouTube - Les enjeux → Enjeux environnementaux liés à la consommation d’électricité des centres de données et à la chaleur produite par les serveurs. Pour améliorer l’efficacité énergétique des data centers... - Système de refroidissement (eau pompée puis épurée avant d’être injectée) - DeepMind (tech. associant apprentissage machine et réseaux neuronaux artificiels) - Investissement dans des parcs éoliens et solaires → Enjeux sociaux liés aux algorithmes de recommandation qui encourageraient la diffusion de faits alternatifs. - Explorateur de recommandation open source - Impact du temps de visionnage sur les recommandations - Cercle vicieux
  • 29.
  • 30. Spotify en quelques chiffres... → 140 millions d’utilisateurs → 70 millions d’abonnés premium → 30 millions de chansons dans son catalogue → 2 milliards de playlists créées → 60 GB de données produites par les utilisateurs/jour → 61 pays dans lesquels la plateforme est active → 1ère plateforme de streaming dans le monde
  • 31. Récolte des données - Via informations requises lors de l’inscription - Via données mobiles disponibles suite à l’utilisation de l’application smartphone (localisation, liste de contacts…) - Via utilisation du service Spotify (suivi des recherches effectuées, stockage des mots clés enregistrés, playlists créées ou écoutées…) → Etablir un profil social et comportemental de l’utilisateur pour lui offrir un service plus personnalisé!
  • 32. Stockage et traitement des données
  • 33. Processus en plusieurs étapes: 1. L’utilisateur se connecte via différents points d’accès (application, site…) 2. L’utilisateur effectue une recherche → mots clés stockés sur Google Cloud Big Table (service de base de données NoSQL orienté colonnes) → requête envoyée au serveur de Google via PubSub (service de messagerie entre applications en temps réel). 3. La requête est reconnue et traitée par Spotify → stockage des données via Google Cloud Storage (en ligne) → traitement des données via Google Cloud Dataflow (service de traitement de données par flux et lots de données). → traitement des données via Hadoop MapReduce → à l’aide de Scio (interface de programmation créée par Spotify, langage Scala, pour exécuter à la fois des fichiers batch et de streaming). 4. Les données sont analysées par l’entreprise → via BigQuery de Google (entrepôt en ligne d'analyse de données d'entreprise, sans serveur) → présentation structurée des données dans le langage JSON: sous forme de tables et/ou tableaux de bords analytiques.
  • 34. Analyse et utilisation des données → Investissement dans le machine learning But? Comprendre le comportement de l’utilisateur → Développement de nombreuses fonctionnalités de recommandation: “Discover Weekly” “Fresh Finds” “Spotify radio” ...
  • 35. Techniques utilisées pour recommander des playlists personnalisées? → filtrage collaboratif Proposer de nouvelles recommandations basées sur les similitudes entre utilisateurs et non pas sur les chansons en tant qu’objet, en tant que produit musical. L’algorithme de filtrage collaboratif trouve les utilisateurs qui ont des similitudes en fonction de leur activité sur la plateforme puis recommande les chansons écoutées par un utilisateur à un autre. Ex: Utilisateur A écoute Beyoncé Utilisateur B écoute Beyoncé + Rihanna Utilisateur C écoute Beyoncé + Franck Ocean → comptage des occurrences par l’algorithme → Recommandation à utilisateur A: “écouter Rihanna et/ou Franck Ocean”
  • 36. → machine learning from audio et méthode mathématique = analyse du son et de ses propriétés techniques (intensité, durée, fréquence…) But? Régler le problème du démarrage à froid (pas encore de données d’utilisateurs) L’entreprise va utiliser une méthode mathématique lui permettant d’associer des musiques à des vecteurs: - traitement des playlists en tant que paragraphe textuel - chaque chanson de la playlist comme un mot individuel - Il en résulte des représentations vectorielles de chansons qui peuvent être utilisées pour déterminer deux morceaux de musique similaires. - Spotify est capable de déterminer quelles chansons sont similaires les unes aux autres en comparant les vecteurs et donc de recommander des playlists sans disposer de beaucoup de données.
  • 37. → deep learning: réseau neural convolutif = neurones artificiels sous forme de constructions mathématiques que l’on va empiler afin de créer un réseau de fonctions complexes. - Ce réseau va ainsi pouvoir interpréter une image et non plus simplement une donnée et en conclure des prédictions. - Ce réseau neural convolutif parcourt la chanson elle-même et l’analyse afin de déterminer les chansons qui ont une acoustique similaire. - Image = spectrogramme (représentation sous forme d’image de la fréquence d’un son)
  • 38. → technique de détection des données aberrantes La détection des valeurs aberrantes est utilisée pour déterminer si un usage particulier fait ou non-partie d'un comportement normal. De cette façon, si un proche empreinte notre compte Spotify une fois et qu’il écoute des musiques totalement différentes, la plateforme va comprendre qu’il s’agit là d’une autre personne et qu’il ne faut donc pas prendre en compte ces données pour nous recommander une chanson.
  • 39. Quels enjeux? → Economiques - Marché en forte croissance avec de nombreux nouveaux entrants - Se démarquer en offrant toujours plus de services personnalisés - Etre attrayante auprès des annonceurs: ciblage publicitaire précis → Culturels - Avant: artistes qui génèrent peu de clics = peu de promotion - Dorénavant, Spotify veut se devenir vecteur de nouveaux talents: création de playlists d’artistes émergents, organisation de concerts → Légaux - Nécessité de transparence liée au traitement des informations personnelles de ses utilisateurs
  • 43. Conclusion ● Le Big Data est un secteur d’avenir ● La collecte, le traitement, l’analyse et l’utilisation de ces données joue un rôle important dans les entreprises ● Les concepts de valorisation des données sont les mêmes à travers les sociétés étudiées ○ Chacune exploitent ces données de la manière qu’elles souhaitent ● La protection des données privées est un thème essentiel dans notre société hyper-connectée
  • 44. Conclusion Le succès du big data est lié aux données non structurées que nous pouvons traiter maintenant grâce aux technologies cognitives