Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

case-study-arkena-fr

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 4 Publicité

Plus De Contenu Connexe

Similaire à case-study-arkena-fr (20)

Publicité

case-study-arkena-fr

  1. 1. Zoom sur une plateforme d’analytique adaptée à l’industrie des médias CAS d’usage
  2. 2. Arkena, l’une des plus importantes sociétés européennes de services médias, a choisi de s’appuyer sur Hortonworks Data Platform (HDP™) pour fournir aux entreprises de l’industrie des médias et à leurs propres clients, une plateforme d’analytique avancée pour l’analyse des données générées par la diffusion de contenus audio et vidéo. Grâce à HDP, Arkena est en mesure de fournir une analyse granulaire et en profondeur au regard de 15 métriques telles que le volume, le nombre de sessions actives et les visiteurs uniques. Cela peut être réparti en 15 dimensions différentes, parmi lesquelles le pays, la ville, le user agent, le navigateur et le code HTTP. Zoom sur les composants de l’architecture HDP mise en place par Arkena.
  3. 3. ÉTAPE 1 ÉTAPE 2 ÉTAPE 3 Plateformes VOD Diffuseurs de contenus audiovisuels Opérateurs télécoms VOD CDN ÉTAPE 4 Traitement batch (asynchrone) Traitement en temps réel Hadoop Distributed File System ÉTAPE 5 ÉTAPE 6 ÉTAPE 7 Logs de connexion RSYSLOG RSYSLOG RSYSLOG RSYSLOG Indexation API REST API REST UTILISATEURS TRANSFERT DES LOGS CLUSTER HADOOP CLIENTS ARKENA CLUSTER ELASTICSEARCH CLUSTER API ANALYSE APPROFONDIE DES DONNÉES Le moteur de recherche est interrogeable via une API REST Solution de répartition de charge de niveau 4 (TCP) et 7 (HTTP), particulièrement adaptée aux sites web fortement chargés qui nécessitent de la disponibilité Analyse de 15 métriques Selon 15 dimensions différentes Volume nombre de sessions actives visiteurs uniques Pays / ville, user agent navigateur code http ….. Le service distribué Apache Flume a permis d’assurer la collecte, l’agrégation et le déplacement efficace de grandes quantités de données de streaming dans le système de fichiers distribués Hadoop (HDFS) Le défi principal était de fiabiliser le transfert des logs en provenance du réseau vers la plateforme HDP. Le défi fut relevé en utilisant le protocole RELP avec Rsyslog afin de garantir l’acheminement de tous les messages. Le module Spark Streaming a été choisi pour sa capacité à réceptionner les flux de données en provenance d’Apache Flume et à les traiter au fur et à mesure de leur arrivée. L’avantage de Spark streaming est de permettre le traitement des données issues de nombreuses sources – y compris les flux streaming en provenance de Apache Kafka, Apache Flume et Amazon Kinesis. Le mode batch ou asynchrone permet de traiter de grosses quantités de données et de répondre aux besoins analytiques. La base de données NoSQL orientée colonne HBase permet un accès aléatoire en écriture/lecture en temps réel à un très grand ensemble de données. Le stockage repose sur une architecture distribuée grâce à Hadoop HDFS. Les données sont indexées dans un moteur de recherche clusterisé : Elastic Search Les calculs plus complexes sont assurés par le logiciel d’analyse Hive, qui permet d’utiliser Hadoop avec une syntaxe proche du SQL.

×