4. Introducción
En esta sesión se abarcan los conceptos
principales de Big Data, así como las
herramientas de implementación tales como
Hadoop y su distribución de HD Insights y
HortonWorks.
El DBA aprende la forma de integrar Hadoop
dentro de sus soluciones de bases de datos
y soluciones de Inteligencia de Negocios.
5. Agenda
Introducción a Big Data
HortonWorks
Micrsooft Azure HDInsight
Consumir HDInsight desde Excel
La obtención de datos en el mercado de
datos Microsoft Azure
6. Introducción a los Big Data
¿Qué es el Big Data?
¿Qué es Hadoop?
Introducción a Map / Reduce
Soluciones de Big Data de Microsoft
7. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte =
1024 Megabytes.
Un Petabyte es una unidad de
almacenamiento de información cuyo símbolo
es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.
8. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
1 Petabyte es suficiente para almacenar 13.3
años de video HD
1.5 Petabytes son necesarios para
almacenar 10 Billones de fotos de Facebook
Google procesa alrededor de 24 Petabytes de
información por día.
Avatar, la película de James Cameron del 2009,
usó 1 Petabyte de información para realizar los
efectos especiales.
AT&T, el carrier del iPhone en Estados Unidos,
transmite 19 Petabytes de datos por mes.
9. Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
10. ¿Qué es el Big Data?
Datos que son demasiado grandes o
complejos para el análisis de bases de datos
relacionales tradicionales
Caracterizado por las tres” V”
Volumen - Enormes cantidades de datos
Variedad - Una mezcla de datos estructurados y
datos no estructurados
Velocidad - Nuevos datos generados
extremadamente rápido
11. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
12. Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
13. Casos en los cuales se utiliza Big Data
Sentiment Analysis
Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.
14. Casos en los cuales se utiliza Big Data
Modelado de riesgo
Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
Para preparar la posible "qué pasaría si" los escenarios
basados en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.
15. Casos en los cuales se utiliza Big Data
Motor de recomendación
Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados en
el análisis del perfil de usuario y los datos de comportamiento.
LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.
16. Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
17. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
18. Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
19. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
20. ¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout
21. Facebook
Hadoop Datawarehouse en Facebook se ha
convertido el clúster más grande de
almacenamiento Hadoop en el mundo.
21 PB de almacenamiento en un único HDFS clúster
2000 nodos
12 TB por nodos (algunos tienen 24 TB cada uno)
1.200 máquinas con 8 núcleos cada una + 800
máquinas con 16 núcleos cada una
32 GB de RAM por máquina
15 trabajos de Map/Reduce por máquina
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
22. Facebook
400 millones de usuarios activos mensuales,
25 millones de piezas de contenido
compartido cada mes
12 TB de datos comprimidos se agregan por día
800 TB de datos comprimidos se escanean por día
25,000 trabajos de Map/Reduce por día
65 millones de archivos HDFS
30,000 conexiones simultáneas al HDFS NameNode
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
24. Introducción a Big Data y Hadoop
Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que puede:
Almacenar petabytes de información
Permite procedamiento distribuido
Principales atributos:
Redundante y confiable (no se pierden datos)
Centrado en el análisis por lotes
Facilidad de crear aplicaciones y procesamiento
distribuido
Ejecuta en cualquier hardware
25. Componentes de Hadoop
Hadoop Distributed File System (HDFS): La capa de almacenamiento por
defecto en cualquier clúster Hadoop
NameNode: El nodo de un clúster Hadoop que proporciona la información al
cliente sobre donde se almacenan los datos y si un nodo falla
Nodo secundario: Una copia de seguridad del NameNode, se replica
periódicamente
Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce
Los nodos esclavos: Los nodos esclavos almacenan datos y procesan los
datos desde el gestor de trabajo.
29. Introducción a Map/Reduce
1. Los datos se
dividen entre los
nodos de datos
2. La fase de Map
genera pares clave
/ valor
3. La fase de reduce
agrega los valores
de cada clave
Lorem ipsum sit amet magma sit elit
Fusce magna sed sentarse amet magna
Clave Valor
Lorem 1
ipsum 1
sentarse 1
amet 1
magma 1
sentarse 1
elit 1
Clave Valor
Fusce 1
magma 1
sed 1
sentarse 1
amet 1
magma 1
Clave Valor
Lorem 1
ipsum 1
sentarse 3
amet 2
magma 3
elit 1
Fusce 1
sed 1
34. Soluciones Big Data Microsoft
SQL Server Parallel Data Warehouse
Appliance para data warehouse corporativo
Procesamiento paralelo masivo (MPP),
arquitectura de Shared-Noting
Windows Azure HDInsight
Implementación de Hadoop basada en la nube
Disponible como un servicio de Microsoft Azure
Polibase
Tecnología de integración de SQL Server Parallel
Data Warehouse y HDInsight
35. Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
38. HDP para Windows
Hortonworks
Data Platform
(HDP) For Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
39.
40. La distribución de Apache Hadoop distribución
desarrollado por Hortonworks y Microsoft
Integrado con Microsoft BI
Microsoft HDInsight
41. Creciente
volumenes de
datos
1
En tiempo real
datos
2
Nuevo datos
fuentes y tipos
3
Nacido en
la nube
datos
4
El almacén de datos tradicional
Las fuentes de datos
42. Big data + BI tradicional = BI Poderoso
grandes
cantidades
de datos
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
Visualización
PDW +
Polibase
43.
Las fuentes de datos Los datos no relacionales
El almacén de datos moderna
44. Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
45. Proporciona un único Modelo de consulta T-
SQL para PDW y Hadoop con características
de T-SQL, incluyendo joins sin ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight
para permitir escenarios híbridos de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
PDWMicrosoft Azure
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con polibase
Trayendo soluciones de Hadoop y el almacén de datos
Conjunto
de
resultados
Seleccionar
...
46. (HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
47. HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0
48. Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando
Herramientas de Microsoft BI
49. Microsoft Azure HDInsight
Cómo instalar un clúster HDInsight
Introducción a HDFS
Ejecución de una tarea de Map / Reduce
El procesamiento de los datos con Pig
Creación de tablas Hive
Cargando Tablas Datos en Hive
Consulta de Tablas con HiveQL
52. Cómo Provisión de un clúster HDInsight
Dependencias
Windows Azure Storage
Windows Azure SQL Database (optional)
Configuración del Cluster
Name
Size
Version
Storage
Metadata store
Credentials
Conecciones remotas
Time-limited remote desktop access
53. Introducción a HDFS
Alojado en un blob container en Windows Azure Storage
No se borra aunque se borre el cluster de
Las rutas pueden ser ASV o HDFS
asv://data@myaccount.blob.core.windows.net/logs/file.txt
/logs/file.txt
Comandos de HDFS
ls
cp, copyToLocal, and copyFromLocal
mv, moveToLocal, and moveFromLocal
mkdir
rm and rmr
cat
54. Ejecución de una tarea Map / Reduce
1. Preparar el ambiente
• Instalar Windows Azure PowerShell
• Herramientas PowerShell para Windows Azure HDInsight
• Descarga e importar los publishsettings
2. Ejecute el trabajo de Map / Reduce
• New-AzureHDInsightMapReduceJobDefinition para definir la tarea
• Start-AzureHDInsightJob para ejecutar la tarea
3. Ver los resultados de la tarea
• Wait-AzureHDInsightJob para comprobar el estado de finalización
• Get-AzureHDInsightJobOutput para comprobar si hay errores
• Get-AzureStorageBlobContent para descargar los resultados
55. JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};
56. El procesamiento de los datos con Pig
• Abstrae el Map/Reduce
• Realizar las operaciones de datos utilizando sentencias de Pig Latin
• Las sentencias son convertidas en tareas de Map/Reduce
• Schema On Read
• Los datos pueden almacenarse en cualquier formato
• Esquema se determina en el tiempo de procesamiento
• Los scripts de Pig describen una serie de operaciones
• Cada operación define una relación
• El Map/Reduce no se realiza hasta que exista una operación DUMP
o STORE
57. Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo)
como hora, consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
58. Creación de tablas Hive
• Utilice la sentencia CREATE TABLE HiveQL
• Define los metadatos del esquema que se establece sobre los datos
en una carpeta cuando se consulta la table
• Especifica el formato de archivo y ubicación
• Por defecto el formato es un archivo secuencial en la ruta
/hive/warehouse/<table_name>
• Crear tablas internas o tablas externas
59. Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de da
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo /
carpeta Hadoop
3
(Opcional) Rechazar parámetros4
60. Cargando Datos en Hive
• Guarde los archivos de datos en los directories
para tablas
• Utilice la instrucción LOAD
• Mueve o copia los archivos al directorio correspondiente
• Utilice la sentencia INSERT
• Inserta datos de una tabla a otra
61. Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
Tipo de fuente de datos externa1
Lugar de origen de datos extern2
La activación o desactivación de la
generación de trabajo MapReduce
3
62. Consulta de Tablas con HiveQL
• Consultar datos utilizando la sentencia TSQL
SELECT
• Hive traduce la consulta en tareas de Map/Reduce
y aplica el esquema de la tabla a los archivos de
datos
63. Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive
fichero de recursos]
2
Método de compresió3
(Opcional) Formato Opciones [Texto
Archivos]
4
64. HDInsight en Excel
Acceso a HDInsight desde Excel
Uso del proveedor Hive ODBC
Uso de las consultas con HDInsight
65. Acceder HDInsight desde Excel
• Driver Hive ODBC para HDInsight
• Soporta sintaxis similar a T-SQL para consultar las tablas
del clúster
• Requiere un clúster HDInsight activo
• PowerQuery
• Soporta la importación de datos desde cualquier archivo
en HDFS
• Se puede utilizar cuando el clúster HDInsight está
inactivo
66. Instalar el Hive ODBC Driver
1. Descargue e instale el driver Hive ODBC para
HDInsight
2. Crear un nombre de origen de datos (DSN) para
el clúster de HDInsight
3. Utilice el Asistente para la conexión de datos en
Excel para importar datos
67. Importación de datos Windows Azure
Marketplace En Excel
• Puede importar datos de Windows Azure
Marketplace directamente en Excel usando:
• PowerQuery
• PowerPivot
• PowerView