Que debe saber un DBA de SQL Server sobre Hadoop

Que debe saber un DBA sobre
Hadoop Big Data
Ing. Eduardo Castro, PhD
ecastro@simsasys.com
Microsoft SQL Server MVP
PASS Regional Mentor

SQL Saturday Sponsors
Gold Sponsors
Silver Sponsors
Bronze Sponsors

Canal en YouTube
 http://www.youtube.com/eduardocastrom

Introducción
 En esta sesión se abarcan los conceptos
principales de Big Data, así como las
herramientas de implementación tales como
Hadoop y su distribución de HD Insights y
HortonWorks.
 El DBA aprende la forma de integrar Hadoop
dentro de sus soluciones de bases de datos
y soluciones de Inteligencia de Negocios.

Agenda
 Introducción a Big Data
 HortonWorks
 Micrsooft Azure HDInsight
 Consumir HDInsight desde Excel
 La obtención de datos en el mercado de
datos Microsoft Azure

Introducción a los Big Data
 ¿Qué es el Big Data?
 ¿Qué es Hadoop?
 Introducción a Map / Reduce
 Soluciones de Big Data de Microsoft

Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte =
1024 Megabytes.
Un Petabyte es una unidad de
almacenamiento de información cuyo símbolo
es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.

Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
 1 Petabyte es suficiente para almacenar 13.3
años de video HD
 1.5 Petabytes son necesarios para
almacenar 10 Billones de fotos de Facebook
 Google procesa alrededor de 24 Petabytes de
información por día.
 Avatar, la película de James Cameron del 2009,
usó 1 Petabyte de información para realizar los
efectos especiales.
 AT&T, el carrier del iPhone en Estados Unidos,
transmite 19 Petabytes de datos por mes.

Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA

¿Qué es el Big Data?
 Datos que son demasiado grandes o
complejos para el análisis de bases de datos
relacionales tradicionales
 Caracterizado por las tres” V”
 Volumen - Enormes cantidades de datos
 Variedad - Una mezcla de datos estructurados y
datos no estructurados
 Velocidad - Nuevos datos generados
extremadamente rápido

Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización

Casos en los cuales se utiliza Big Data
 Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
 Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
 Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional

Sentiment Analysis
 Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
 Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
 El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.

Modelado de riesgo
 Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
 Para preparar la posible "qué pasaría si" los escenarios
basados en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.

Motor de recomendación
 Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados en
el análisis del perfil de usuario y los datos de comportamiento.
 LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.

Detección de Fraude
 Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
 Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.

Análisis de la campaña de marketing
 Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
 Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.

Análisis Social Graph
 Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
 Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.

Customer Experience Analytics
 Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
 Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.

¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout

Facebook
 Hadoop Datawarehouse en Facebook se ha
convertido el clúster más grande de
almacenamiento Hadoop en el mundo.
 21 PB de almacenamiento en un único HDFS clúster
 2000 nodos
 12 TB por nodos (algunos tienen 24 TB cada uno)
 1.200 máquinas con 8 núcleos cada una + 800
máquinas con 16 núcleos cada una
 32 GB de RAM por máquina
 15 trabajos de Map/Reduce por máquina
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/

Facebook
 400 millones de usuarios activos mensuales,
25 millones de piezas de contenido
compartido cada mes
 12 TB de datos comprimidos se agregan por día
 800 TB de datos comprimidos se escanean por día
 25,000 trabajos de Map/Reduce por día
 65 millones de archivos HDFS
 30,000 conexiones simultáneas al HDFS NameNode
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/

Nuevos enfoques para el procesamiento y análisis de datos
grandes

Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
 Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que puede:
 Almacenar petabytes de información
 Permite procedamiento distribuido
 Principales atributos:
 Redundante y confiable (no se pierden datos)
 Centrado en el análisis por lotes
 Facilidad de crear aplicaciones y procesamiento
distribuido
 Ejecuta en cualquier hardware

Componentes de Hadoop
 Hadoop Distributed File System (HDFS): La capa de almacenamiento por
defecto en cualquier clúster Hadoop
 NameNode: El nodo de un clúster Hadoop que proporciona la información al
cliente sobre donde se almacenan los datos y si un nodo falla
 Nodo secundario: Una copia de seguridad del NameNode, se replica
periódicamente
 Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce
 Los nodos esclavos: Los nodos esclavos almacenan datos y procesan los
datos desde el gestor de trabajo.

Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.

Componentes de Hadoopa de Hardware

MapReduce
Fundamentos de Hadoop

Introducción a Map/Reduce
1. Los datos se
dividen entre los
nodos de datos
2. La fase de Map
genera pares clave
/ valor
3. La fase de reduce
agrega los valores
de cada clave
Lorem ipsum sit amet magma sit elit
Fusce magna sed sentarse amet magna
Clave Valor
Lorem 1
ipsum 1
sentarse 1
amet 1
magma 1
sentarse 1
elit 1
Clave Valor
Fusce 1
magma 1
sed 1
sentarse 1
amet 1
magma 1
Clave Valor
Lorem 1
ipsum 1
sentarse 3
amet 2
magma 3
elit 1
Fusce 1
sed 1

Hadoop Distributed Architecture

MapReduce: Mover Código a los Datos

Plataforma de Big Data Micrsooft

Soluciones Big Data Microsoft
 SQL Server Parallel Data Warehouse
 Appliance para data warehouse corporativo
 Procesamiento paralelo masivo (MPP),
arquitectura de Shared-Noting
 Windows Azure HDInsight
 Implementación de Hadoop basada en la nube
 Disponible como un servicio de Microsoft Azure
 Polibase
 Tecnología de integración de SQL Server Parallel
Data Warehouse y HDInsight

Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)

Procesamiento de datos y análisis: The Old Way

HDP para Windows
Hortonworks
Data Platform
(HDP) For Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness

La distribución de Apache Hadoop distribución
desarrollado por Hortonworks y Microsoft
Integrado con Microsoft BI
Microsoft HDInsight

Creciente
volumenes de
datos
1
En tiempo real
datos
2
Nuevo datos
fuentes y tipos
3
Nacido en
la nube
datos
4
El almacén de datos tradicional
Las fuentes de datos

Big data + BI tradicional = BI Poderoso
grandes
cantidades
de datos
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
Visualización
PDW +
Polibase


Las fuentes de datos Los datos no relacionales
El almacén de datos moderna

Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato

Proporciona un único Modelo de consulta T-
SQL para PDW y Hadoop con características
de T-SQL, incluyendo joins sin ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight
para permitir escenarios híbridos de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
PDWMicrosoft Azure
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con polibase
Trayendo soluciones de Hadoop y el almacén de datos
Conjunto
de
resultados
Seleccionar
...

(HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL

HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0

Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando
Herramientas de Microsoft BI

Microsoft Azure HDInsight
 Cómo instalar un clúster HDInsight
 Introducción a HDFS
 Ejecución de una tarea de Map / Reduce
 El procesamiento de los datos con Pig
 Creación de tablas Hive
 Cargando Tablas Datos en Hive
 Consulta de Tablas con HiveQL

Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:

Windows Azure HDInsight Service

Cómo Provisión de un clúster HDInsight
 Dependencias
 Windows Azure Storage
 Windows Azure SQL Database (optional)
 Configuración del Cluster
 Name
 Size
 Version
 Storage
 Metadata store
 Credentials
 Conecciones remotas
 Time-limited remote desktop access

Introducción a HDFS
 Alojado en un blob container en Windows Azure Storage
 No se borra aunque se borre el cluster de
 Las rutas pueden ser ASV o HDFS
 asv://data@myaccount.blob.core.windows.net/logs/file.txt
 /logs/file.txt
 Comandos de HDFS
 ls
 cp, copyToLocal, and copyFromLocal
 mv, moveToLocal, and moveFromLocal
 mkdir
 rm and rmr
 cat

Ejecución de una tarea Map / Reduce
1. Preparar el ambiente
• Instalar Windows Azure PowerShell
• Herramientas PowerShell para Windows Azure HDInsight
• Descarga e importar los publishsettings
2. Ejecute el trabajo de Map / Reduce
• New-AzureHDInsightMapReduceJobDefinition para definir la tarea
• Start-AzureHDInsightJob para ejecutar la tarea
3. Ver los resultados de la tarea
• Wait-AzureHDInsightJob para comprobar el estado de finalización
• Get-AzureHDInsightJobOutput para comprobar si hay errores
• Get-AzureStorageBlobContent para descargar los resultados

JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};

El procesamiento de los datos con Pig
• Abstrae el Map/Reduce
• Realizar las operaciones de datos utilizando sentencias de Pig Latin
• Las sentencias son convertidas en tareas de Map/Reduce
• Schema On Read
• Los datos pueden almacenarse en cualquier formato
• Esquema se determina en el tiempo de procesamiento
• Los scripts de Pig describen una serie de operaciones
• Cada operación define una relación
• El Map/Reduce no se realiza hasta que exista una operación DUMP
o STORE

Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo)
como hora, consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();

Creación de tablas Hive
• Utilice la sentencia CREATE TABLE HiveQL
• Define los metadatos del esquema que se establece sobre los datos
en una carpeta cuando se consulta la table
• Especifica el formato de archivo y ubicación
• Por defecto el formato es un archivo secuencial en la ruta
/hive/warehouse/<table_name>
• Crear tablas internas o tablas externas

Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de da
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo /
carpeta Hadoop
3
(Opcional) Rechazar parámetros4

Cargando Datos en Hive
• Guarde los archivos de datos en los directories
para tablas
• Utilice la instrucción LOAD
• Mueve o copia los archivos al directorio correspondiente
• Utilice la sentencia INSERT
• Inserta datos de una tabla a otra

Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
Tipo de fuente de datos externa1
Lugar de origen de datos extern2
La activación o desactivación de la
generación de trabajo MapReduce
3

Consulta de Tablas con HiveQL
• Consultar datos utilizando la sentencia TSQL
SELECT
• Hive traduce la consulta en tareas de Map/Reduce
y aplica el esquema de la tabla a los archivos de
datos

Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive
fichero de recursos]
2
Método de compresió3
(Opcional) Formato Opciones [Texto
Archivos]
4

HDInsight en Excel
 Acceso a HDInsight desde Excel
 Uso del proveedor Hive ODBC
 Uso de las consultas con HDInsight

Acceder HDInsight desde Excel
• Driver Hive ODBC para HDInsight
• Soporta sintaxis similar a T-SQL para consultar las tablas
del clúster
• Requiere un clúster HDInsight activo
• PowerQuery
• Soporta la importación de datos desde cualquier archivo
en HDFS
• Se puede utilizar cuando el clúster HDInsight está
inactivo

Instalar el Hive ODBC Driver
1. Descargue e instale el driver Hive ODBC para
HDInsight
2. Crear un nombre de origen de datos (DSN) para
el clúster de HDInsight
3. Utilice el Asistente para la conexión de datos en
Excel para importar datos

Importación de datos Windows Azure
Marketplace En Excel
• Puede importar datos de Windows Azure
Marketplace directamente en Excel usando:
• PowerQuery
• PowerPivot
• PowerView

71 |
Eduardo
Castro
ecastro@simsasys.com ecastrom.blogspot.com
edocastro
PREGUNTAS Y RESPUESTAS

Proxima sesion
 Introducción al Análisis Predictivo con SQL
Server

Que debe saber un DBA de SQL Server sobre Hadoop

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Que debe saber un DBA de SQL Server sobre Hadoop

Similar a Que debe saber un DBA de SQL Server sobre Hadoop (20)

Más de Eduardo Castro

Más de Eduardo Castro (20)

Último

Último (20)

Que debe saber un DBA de SQL Server sobre Hadoop