SlideShare une entreprise Scribd logo
1  sur  10
Big Data en
En Tema:
Que es Facebook
Facebook en Números
Reto Tecnológico
Descripción de Hadoop
Esquema de solución
Conclusión
Juan Pablo Frias Robles: Desarrollador BI
Que es Facebook
*Facebook (pronunciación [feɪsbʊk]) es un sitio web de redes sociales creado por Mark
Zuckerberg y fundado junto a Eduardo Saverin, Chris Hughes y Dustin Moskovitz. Originalmente
era un sitio para estudiantes de la Universidad de Harvard. Su propósito era diseñar un espacio
en el que los alumnos de dicha universidad pudieran intercambiar una comunicación fluida y
compartir contenido de forma sencilla a través de Internet. Fue tan innovador su proyecto que
con el tiempo se extendió hasta estar disponible para cualquier usuario de la red.
A mediados de 2007 lanzó las versiones en francés, alemán y español traducidas por usuarios de
manera no remunerada, principalmente para impulsar su expansión fuera de Estados Unidos, ya
que sus usuarios se concentraban en Estados Unidos, Canadá y Reino Unido.
Facebook en Números
Inicia operaciones en 2004 para usuarios de universidades y en 2007 se abre a todos los usuarios
en internet, para entonces recaudo datos por 15 Terabytes en un RDBMS comercial y para 2009
manejaban 700 Terabytes de datos y 300 millones de usuarios.
Traducido a 140 idiomas
Los ingresos por concepto de publicidad al trimestre son de más de 4.3 mil mdd (2015)
1,09 millones de usuarios activos al día (promedio marzo 2016)
Se dan alrededor de 4.500 millones de likes al día (2014)
se comparten 3,3 millones de actualizaciones (2014)
Los usuarios gastan aproximadamente 351 minutos al mes en la red social (2014)
Cada día agrega 4 Petabytes de almacenamiento de información de sus usuarios (2015)
En el lanzamiento de la
plataforma el esquema
de almacenamiento
estaba planteado
en el RDBMS MYSQL
Reto Tecnológico
Siendo 2008 con decenas de millones de usuarios y más de una página de mil millones de visitas
todos los días, Facebook termina acumulando grandes cantidades de datos.
Uno de los retos a los se enfrentaron desde los primeros días es el desarrollo de una forma
escalable de almacenamiento y procesamiento de todos estos bytes ya que con estos datos
históricos es una parte muy importante de cómo podemos mejorar la experiencia del usuario en
Facebook.
Esto sólo puede hacerse mediante la potenciación de sus
ingenieros y analistas con herramientas fáciles de usar para
extraer y manipular grandes conjuntos de datos.
Descripción de Hadoop
Hadoop es un Framework para almacenar y procesar grandes volúmenes de datos a través de
grupos de ordenadores.
PROS
Escalable: almacena y procesa terabytes, petabytes o zetabytes.
Económico: distribuye los datos y cargas a clúster de computadoras comúnmente disponible, los
clúster pueden componerse de miles de nodos.
Eficiente: Distribuyendo los datos puede procesar paralelamente en los nodos.
Confiable: Mantiene automáticamente copias de los datos en los múltiples nodos y mantiene
tareas para la prevención de fallas y posee resiliencia.
Contras:
Map-reduce difícil de programar ( Requiere conocimiento sql, bash, Python)
Necesidad de publicar datos en esquemas conocidos
Hadoop se basa en tres componentes fundamentales:
HDFS (Un sistema de archivos distribuido que proporciona alto rendimiento de acceso a datos de la
aplicación. )
Hadoop MapReduce (La plataforma para procesamiento distribuido de grandes conjuntos de datos.)
Hadoop Common (Las utilidades comunes sobre las cuales se apoyan los sub-proyectos de Hadoop.)
Solución: Hadoop HIVE
HIVE se compone de los siguientes componentes principales:
* MetaStore: Para almacenar los metadatos.
* Driver: El componente que gestiona el ciclo de vida de una declaración HiveQL medida que se
mueve a través de la colmena. El conductor también mantiene un identificador de sesión y cualquier
sesión estadística.
* Compilador de consultas y el motor de ejecución: Para convertir consultas SQL a una secuencia de
jobs map / reduce que a continuación se ejecutan en Hadoop.
*Motor de Ejecución: El motor de ejecución interactúa con la subyacente instancia Hadoop.
*HIVE Server: El componente que proporciona una segunda mano interfaz y un servidor JDBC/ODBC
y proporciona una manera de integrar con otras aplicaciones a Hive.
* SerDe y ObjectInspectors: las interfaces programables e implementaciones de formatos y tipos de
datos comunes.
* UDF y UDAF: las interfaces programables e implementaciones para las funciones definidas por el
usuario (escalares y funciones agregadas).
* Clientes: Comando cliente de línea similar a la línea de comandos de MySQL y una interfaz de
usuario web.
Esquema de Solución
Los mismos trabajos que habían tenido más de un
día para completar ahora podrían completarse en
unas pocas horas utilizando Hadoop.
Con Hadoop en 2009 se tenían 700TB de
datos en el almacén, los cuales 2.1PB
estaban en crudo en el espacio Hadoop
después de contar con 3 replicaciones
unidireccionales. Se añadían 5TB (15TB
después de la replicación) de datos
comprimidos al día. Se Procesaban 75TB
de datos al día.
Las empresas están en busca de hacerse de la habilidad de administrar y posteriormente analizar,
la gran cantidad de datos que se generan exponencialmente desde el boom de internet y que
anteriormente la tecnología no podía ofrecer una solución para ello. Empresas importantes de
diferentes verticales como Yahoo!, amazon, Google, ebay y otras están afianzados de la
plataforma Hadoop como lo hace Facebook.
Al ser herramientas de reciente creación y poca explotación, para los técnicos de Facebook les
fue complicado el generar los programas de map-reduce y en general su uso. Están afrontando
las carencias que cada vez son menos de la plataforma Hadoop. Esto con el beneficio
cuantificable de reducir de varios días a un par de horas el procesamiento de la información en
aquel 2009 en donde implementaron la herramienta.
Conclusión

Contenu connexe

Tendances

Introduction to Apache Hive(Big Data, Final Seminar)
Introduction to Apache Hive(Big Data, Final Seminar)Introduction to Apache Hive(Big Data, Final Seminar)
Introduction to Apache Hive(Big Data, Final Seminar)Takrim Ul Islam Laskar
 
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...Simplilearn
 
Cloud-Computing-ppt.pptx
Cloud-Computing-ppt.pptxCloud-Computing-ppt.pptx
Cloud-Computing-ppt.pptxMiltonMolla1
 
Big Data Technology Stack : Nutshell
Big Data Technology Stack : NutshellBig Data Technology Stack : Nutshell
Big Data Technology Stack : NutshellKhalid Imran
 
Building a Spatial Database in PostgreSQL
Building a Spatial Database in PostgreSQLBuilding a Spatial Database in PostgreSQL
Building a Spatial Database in PostgreSQLKudos S.A.S
 
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and Superset
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and SupersetInteractive Realtime Dashboards on Data Streams using Kafka, Druid and Superset
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and SupersetHortonworks
 
RDBMS vs Hadoop vs Spark
RDBMS vs Hadoop vs SparkRDBMS vs Hadoop vs Spark
RDBMS vs Hadoop vs SparkLaxmi8
 
Why apache Flink is the 4G of Big Data Analytics Frameworks
Why apache Flink is the 4G of Big Data Analytics FrameworksWhy apache Flink is the 4G of Big Data Analytics Frameworks
Why apache Flink is the 4G of Big Data Analytics FrameworksSlim Baltagi
 
Apache Tez - A New Chapter in Hadoop Data Processing
Apache Tez - A New Chapter in Hadoop Data ProcessingApache Tez - A New Chapter in Hadoop Data Processing
Apache Tez - A New Chapter in Hadoop Data ProcessingDataWorks Summit
 
Presentación Drupal
Presentación DrupalPresentación Drupal
Presentación DrupalMedio y forma
 
The Middleware technology that connects the enterprise
The Middleware technology that connects the enterpriseThe Middleware technology that connects the enterprise
The Middleware technology that connects the enterprise Kasun Indrasiri
 
Introduction to couchbase
Introduction to couchbaseIntroduction to couchbase
Introduction to couchbaseDipti Borkar
 
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...Simplilearn
 

Tendances (20)

Hadoop and Big Data
Hadoop and Big DataHadoop and Big Data
Hadoop and Big Data
 
Introduction to Apache Hive(Big Data, Final Seminar)
Introduction to Apache Hive(Big Data, Final Seminar)Introduction to Apache Hive(Big Data, Final Seminar)
Introduction to Apache Hive(Big Data, Final Seminar)
 
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
HBase Tutorial For Beginners | HBase Architecture | HBase Tutorial | Hadoop T...
 
Apache hive
Apache hiveApache hive
Apache hive
 
Cloud-Computing-ppt.pptx
Cloud-Computing-ppt.pptxCloud-Computing-ppt.pptx
Cloud-Computing-ppt.pptx
 
Big Data Technology Stack : Nutshell
Big Data Technology Stack : NutshellBig Data Technology Stack : Nutshell
Big Data Technology Stack : Nutshell
 
Building a Spatial Database in PostgreSQL
Building a Spatial Database in PostgreSQLBuilding a Spatial Database in PostgreSQL
Building a Spatial Database in PostgreSQL
 
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and Superset
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and SupersetInteractive Realtime Dashboards on Data Streams using Kafka, Druid and Superset
Interactive Realtime Dashboards on Data Streams using Kafka, Druid and Superset
 
Voldemort
VoldemortVoldemort
Voldemort
 
Unit-3_BDA.ppt
Unit-3_BDA.pptUnit-3_BDA.ppt
Unit-3_BDA.ppt
 
Stream connectors
Stream connectorsStream connectors
Stream connectors
 
RDBMS vs Hadoop vs Spark
RDBMS vs Hadoop vs SparkRDBMS vs Hadoop vs Spark
RDBMS vs Hadoop vs Spark
 
Why apache Flink is the 4G of Big Data Analytics Frameworks
Why apache Flink is the 4G of Big Data Analytics FrameworksWhy apache Flink is the 4G of Big Data Analytics Frameworks
Why apache Flink is the 4G of Big Data Analytics Frameworks
 
Introduction to HDFS
Introduction to HDFSIntroduction to HDFS
Introduction to HDFS
 
Apache Tez - A New Chapter in Hadoop Data Processing
Apache Tez - A New Chapter in Hadoop Data ProcessingApache Tez - A New Chapter in Hadoop Data Processing
Apache Tez - A New Chapter in Hadoop Data Processing
 
Presentación Drupal
Presentación DrupalPresentación Drupal
Presentación Drupal
 
The Middleware technology that connects the enterprise
The Middleware technology that connects the enterpriseThe Middleware technology that connects the enterprise
The Middleware technology that connects the enterprise
 
Introduction to couchbase
Introduction to couchbaseIntroduction to couchbase
Introduction to couchbase
 
Hadoop Technology
Hadoop TechnologyHadoop Technology
Hadoop Technology
 
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...
Introduction To Hadoop | What Is Hadoop And Big Data | Hadoop Tutorial For Be...
 

En vedette

Conductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHAConductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHASabitha Chittibabu
 
A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016GMOH_PSD
 
Embarazo en la adolescencia
Embarazo en la adolescenciaEmbarazo en la adolescencia
Embarazo en la adolescenciageorginamj
 
Знакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяЗнакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяОлена Семенець
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorAlberto Gimeno
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710mbommari
 
Manual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedManual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedGMOH_PSD
 

En vedette (19)

Prevision mercredi 7 mai 2015
Prevision mercredi 7  mai  2015Prevision mercredi 7  mai  2015
Prevision mercredi 7 mai 2015
 
Conductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHAConductor Searchligh MVP Certified - SABITHA
Conductor Searchligh MVP Certified - SABITHA
 
khaled cv and portfolio
khaled cv and portfoliokhaled cv and portfolio
khaled cv and portfolio
 
La comunicación
La comunicaciónLa comunicación
La comunicación
 
A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016A. Municipal O. Hospital - Ata de 24 de junho de 2016
A. Municipal O. Hospital - Ata de 24 de junho de 2016
 
Cat3D Novidades 2016. I Curso AFIBRA
Cat3D Novidades 2016. I Curso AFIBRACat3D Novidades 2016. I Curso AFIBRA
Cat3D Novidades 2016. I Curso AFIBRA
 
Embarazo en la adolescencia
Embarazo en la adolescenciaEmbarazo en la adolescencia
Embarazo en la adolescencia
 
Знакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті ЗапоріжжяЗнакові місця в «неформальному» житті Запоріжжя
Знакові місця в «неформальному» житті Запоріжжя
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valor
 
Embarazos no deseados
Embarazos no deseadosEmbarazos no deseados
Embarazos no deseados
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Curso mnps 2015 Introdução
Curso mnps 2015 IntroduçãoCurso mnps 2015 Introdução
Curso mnps 2015 Introdução
 
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip KovačekJavantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
Javantura v4 - Spring Boot and JavaFX - can they play together - Josip Kovaček
 
Javantura v4 - DMN – supplement your BPMN - Željko Šmaguc
Javantura v4 - DMN – supplement your BPMN - Željko ŠmagucJavantura v4 - DMN – supplement your BPMN - Željko Šmaguc
Javantura v4 - DMN – supplement your BPMN - Željko Šmaguc
 
Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710Fmea Sponge Retention Mpb 041710
Fmea Sponge Retention Mpb 041710
 
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
Javantura v4 - (Spring)Boot your application on Red Hat middleware stack - Al...
 
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
Javantura v4 - Java or Scala – Web development with Playframework 2.5.x - Kre...
 
Manual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reducedManual%20 breve%20de%20cidadania%20local reduced
Manual%20 breve%20de%20cidadania%20local reduced
 
NIVEL I
NIVEL I NIVEL I
NIVEL I
 

Similaire à Big Data en FaceBook

SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Tecnologías que implementa facebook
Tecnologías que implementa facebookTecnologías que implementa facebook
Tecnologías que implementa facebookAngel Vega
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Tecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesTecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesLuis Miguel
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes socialesCharlieDS
 
Tecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webTecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webJESUSFRANCISCOFLORES1
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBkattia vargas
 
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 Cesar Gustavo Diaz Vasquez
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Redes sociales (tecnología)
Redes sociales (tecnología)Redes sociales (tecnología)
Redes sociales (tecnología)Mirella Paico
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 

Similaire à Big Data en FaceBook (20)

SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Exposicion
ExposicionExposicion
Exposicion
 
Tecnologías que implementa facebook
Tecnologías que implementa facebookTecnologías que implementa facebook
Tecnologías que implementa facebook
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Tecnologias detras de las Redes sociales
Tecnologias detras de las Redes socialesTecnologias detras de las Redes sociales
Tecnologias detras de las Redes sociales
 
Tecnologia detras de las redes sociales
Tecnologia detras de las redes socialesTecnologia detras de las redes sociales
Tecnologia detras de las redes sociales
 
Tecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios webTecnologias y bd utilizados por sitios web
Tecnologias y bd utilizados por sitios web
 
Sgbd y tecnologias
Sgbd y tecnologiasSgbd y tecnologias
Sgbd y tecnologias
 
Tecnologías detrás de las redes sociales
Tecnologías detrás de las redes socialesTecnologías detrás de las redes sociales
Tecnologías detrás de las redes sociales
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0SGBD y tecnologías de aplicaciones web 2.0
SGBD y tecnologías de aplicaciones web 2.0
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEB
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 
Sgbd
SgbdSgbd
Sgbd
 
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0 SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
SISTEMA GESTOR DE BASE DE DATOS Y TECNOLOGIAS QUE USAN LAS HERRAMIENTAS WEB 2.0
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
L6 undergrad thesis(1)
L6   undergrad thesis(1)L6   undergrad thesis(1)
L6 undergrad thesis(1)
 
Redes sociales (tecnología)
Redes sociales (tecnología)Redes sociales (tecnología)
Redes sociales (tecnología)
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 

Dernier

variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointaria66611782972
 
02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdfguillermobernalocamp1
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxmariabeatrizbermudez
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxMarioKing10
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALMANUELVILELA7
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfLizRamirez182254
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANASanyahelmont
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptProduvisaCursos
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxHhJhv
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.pptssuserbdc329
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxJafetColli
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónJhon Jimenez
 
Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdfJC Díaz Herrera
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...claudioluna1121
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024IrapuatoCmovamos
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiaveronicayarpaz
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfjosellaqtas
 

Dernier (20)

variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdf
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 

Big Data en FaceBook

  • 1. Big Data en En Tema: Que es Facebook Facebook en Números Reto Tecnológico Descripción de Hadoop Esquema de solución Conclusión Juan Pablo Frias Robles: Desarrollador BI
  • 2. Que es Facebook *Facebook (pronunciación [feɪsbʊk]) es un sitio web de redes sociales creado por Mark Zuckerberg y fundado junto a Eduardo Saverin, Chris Hughes y Dustin Moskovitz. Originalmente era un sitio para estudiantes de la Universidad de Harvard. Su propósito era diseñar un espacio en el que los alumnos de dicha universidad pudieran intercambiar una comunicación fluida y compartir contenido de forma sencilla a través de Internet. Fue tan innovador su proyecto que con el tiempo se extendió hasta estar disponible para cualquier usuario de la red. A mediados de 2007 lanzó las versiones en francés, alemán y español traducidas por usuarios de manera no remunerada, principalmente para impulsar su expansión fuera de Estados Unidos, ya que sus usuarios se concentraban en Estados Unidos, Canadá y Reino Unido.
  • 3. Facebook en Números Inicia operaciones en 2004 para usuarios de universidades y en 2007 se abre a todos los usuarios en internet, para entonces recaudo datos por 15 Terabytes en un RDBMS comercial y para 2009 manejaban 700 Terabytes de datos y 300 millones de usuarios. Traducido a 140 idiomas Los ingresos por concepto de publicidad al trimestre son de más de 4.3 mil mdd (2015) 1,09 millones de usuarios activos al día (promedio marzo 2016) Se dan alrededor de 4.500 millones de likes al día (2014) se comparten 3,3 millones de actualizaciones (2014) Los usuarios gastan aproximadamente 351 minutos al mes en la red social (2014) Cada día agrega 4 Petabytes de almacenamiento de información de sus usuarios (2015)
  • 4. En el lanzamiento de la plataforma el esquema de almacenamiento estaba planteado en el RDBMS MYSQL
  • 5. Reto Tecnológico Siendo 2008 con decenas de millones de usuarios y más de una página de mil millones de visitas todos los días, Facebook termina acumulando grandes cantidades de datos. Uno de los retos a los se enfrentaron desde los primeros días es el desarrollo de una forma escalable de almacenamiento y procesamiento de todos estos bytes ya que con estos datos históricos es una parte muy importante de cómo podemos mejorar la experiencia del usuario en Facebook. Esto sólo puede hacerse mediante la potenciación de sus ingenieros y analistas con herramientas fáciles de usar para extraer y manipular grandes conjuntos de datos.
  • 6. Descripción de Hadoop Hadoop es un Framework para almacenar y procesar grandes volúmenes de datos a través de grupos de ordenadores. PROS Escalable: almacena y procesa terabytes, petabytes o zetabytes. Económico: distribuye los datos y cargas a clúster de computadoras comúnmente disponible, los clúster pueden componerse de miles de nodos. Eficiente: Distribuyendo los datos puede procesar paralelamente en los nodos. Confiable: Mantiene automáticamente copias de los datos en los múltiples nodos y mantiene tareas para la prevención de fallas y posee resiliencia. Contras: Map-reduce difícil de programar ( Requiere conocimiento sql, bash, Python) Necesidad de publicar datos en esquemas conocidos
  • 7. Hadoop se basa en tres componentes fundamentales: HDFS (Un sistema de archivos distribuido que proporciona alto rendimiento de acceso a datos de la aplicación. ) Hadoop MapReduce (La plataforma para procesamiento distribuido de grandes conjuntos de datos.) Hadoop Common (Las utilidades comunes sobre las cuales se apoyan los sub-proyectos de Hadoop.)
  • 8. Solución: Hadoop HIVE HIVE se compone de los siguientes componentes principales: * MetaStore: Para almacenar los metadatos. * Driver: El componente que gestiona el ciclo de vida de una declaración HiveQL medida que se mueve a través de la colmena. El conductor también mantiene un identificador de sesión y cualquier sesión estadística. * Compilador de consultas y el motor de ejecución: Para convertir consultas SQL a una secuencia de jobs map / reduce que a continuación se ejecutan en Hadoop. *Motor de Ejecución: El motor de ejecución interactúa con la subyacente instancia Hadoop. *HIVE Server: El componente que proporciona una segunda mano interfaz y un servidor JDBC/ODBC y proporciona una manera de integrar con otras aplicaciones a Hive. * SerDe y ObjectInspectors: las interfaces programables e implementaciones de formatos y tipos de datos comunes. * UDF y UDAF: las interfaces programables e implementaciones para las funciones definidas por el usuario (escalares y funciones agregadas). * Clientes: Comando cliente de línea similar a la línea de comandos de MySQL y una interfaz de usuario web. Esquema de Solución
  • 9. Los mismos trabajos que habían tenido más de un día para completar ahora podrían completarse en unas pocas horas utilizando Hadoop. Con Hadoop en 2009 se tenían 700TB de datos en el almacén, los cuales 2.1PB estaban en crudo en el espacio Hadoop después de contar con 3 replicaciones unidireccionales. Se añadían 5TB (15TB después de la replicación) de datos comprimidos al día. Se Procesaban 75TB de datos al día.
  • 10. Las empresas están en busca de hacerse de la habilidad de administrar y posteriormente analizar, la gran cantidad de datos que se generan exponencialmente desde el boom de internet y que anteriormente la tecnología no podía ofrecer una solución para ello. Empresas importantes de diferentes verticales como Yahoo!, amazon, Google, ebay y otras están afianzados de la plataforma Hadoop como lo hace Facebook. Al ser herramientas de reciente creación y poca explotación, para los técnicos de Facebook les fue complicado el generar los programas de map-reduce y en general su uso. Están afrontando las carencias que cada vez son menos de la plataforma Hadoop. Esto con el beneficio cuantificable de reducir de varios días a un par de horas el procesamiento de la información en aquel 2009 en donde implementaron la herramienta. Conclusión