SlideShare una empresa de Scribd logo
1 de 69
Que debe saber un DBA sobre
Hadoop Big Data
Ing. Eduardo Castro, PhD
ecastro@simsasys.com
Microsoft SQL Server MVP
PASS Regional Mentor
SQL Saturday Sponsors
Gold Sponsors
Silver Sponsors
Bronze Sponsors
Canal en YouTube
 http://www.youtube.com/eduardocastrom
Introducción
 En esta sesión se abarcan los conceptos
principales de Big Data, así como las
herramientas de implementación tales como
Hadoop y su distribución de HD Insights y
HortonWorks.
 El DBA aprende la forma de integrar Hadoop
dentro de sus soluciones de bases de datos
y soluciones de Inteligencia de Negocios.
Agenda
 Introducción a Big Data
 HortonWorks
 Micrsooft Azure HDInsight
 Consumir HDInsight desde Excel
 La obtención de datos en el mercado de
datos Microsoft Azure
Introducción a los Big Data
 ¿Qué es el Big Data?
 ¿Qué es Hadoop?
 Introducción a Map / Reduce
 Soluciones de Big Data de Microsoft
Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte =
1024 Megabytes.
Un Petabyte es una unidad de
almacenamiento de información cuyo símbolo
es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.
Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
 1 Petabyte es suficiente para almacenar 13.3
años de video HD
 1.5 Petabytes son necesarios para
almacenar 10 Billones de fotos de Facebook
 Google procesa alrededor de 24 Petabytes de
información por día.
 Avatar, la película de James Cameron del 2009,
usó 1 Petabyte de información para realizar los
efectos especiales.
 AT&T, el carrier del iPhone en Estados Unidos,
transmite 19 Petabytes de datos por mes.
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
¿Qué es el Big Data?
 Datos que son demasiado grandes o
complejos para el análisis de bases de datos
relacionales tradicionales
 Caracterizado por las tres” V”
 Volumen - Enormes cantidades de datos
 Variedad - Una mezcla de datos estructurados y
datos no estructurados
 Velocidad - Nuevos datos generados
extremadamente rápido
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
Casos en los cuales se utiliza Big Data
 Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
 Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
 Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
Casos en los cuales se utiliza Big Data
Sentiment Analysis
 Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
 Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
 El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.
Casos en los cuales se utiliza Big Data
Modelado de riesgo
 Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
 Para preparar la posible "qué pasaría si" los escenarios
basados ​​en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big Data
Motor de recomendación
 Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados ​​en
el análisis del perfil de usuario y los datos de comportamiento.
 LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.
Casos en los cuales se utiliza Big Data
Detección de Fraude
 Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
 Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
 Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
 Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big Data
Análisis Social Graph
 Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
 Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
Casos en los cuales se utiliza Big Data
Customer Experience Analytics
 Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
 Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout
Facebook
 Hadoop Datawarehouse en Facebook se ha
convertido el clúster más grande de
almacenamiento Hadoop en el mundo.
 21 PB de almacenamiento en un único HDFS clúster
 2000 nodos
 12 TB por nodos (algunos tienen 24 TB cada uno)
 1.200 máquinas con 8 núcleos cada una + 800
máquinas con 16 núcleos cada una
 32 GB de RAM por máquina
 15 trabajos de Map/Reduce por máquina
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
Facebook
 400 millones de usuarios activos mensuales,
25 millones de piezas de contenido
compartido cada mes
 12 TB de datos comprimidos se agregan por día
 800 TB de datos comprimidos se escanean por día
 25,000 trabajos de Map/Reduce por día
 65 millones de archivos HDFS
 30,000 conexiones simultáneas al HDFS NameNode
http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
Nuevos enfoques para el procesamiento y análisis de datos
grandes
Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
 Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que puede:
 Almacenar petabytes de información
 Permite procedamiento distribuido
 Principales atributos:
 Redundante y confiable (no se pierden datos)
 Centrado en el análisis por lotes
 Facilidad de crear aplicaciones y procesamiento
distribuido
 Ejecuta en cualquier hardware
Componentes de Hadoop
 Hadoop Distributed File System (HDFS): La capa de almacenamiento por
defecto en cualquier clúster Hadoop
 NameNode: El nodo de un clúster Hadoop que proporciona la información al
cliente sobre donde se almacenan los datos y si un nodo falla
 Nodo secundario: Una copia de seguridad del NameNode, se replica
periódicamente
 Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce
 Los nodos esclavos: Los nodos esclavos almacenan datos y procesan los
datos desde el gestor de trabajo.
Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Componentes de Hadoopa de Hardware
MapReduce
Fundamentos de Hadoop
Introducción a Map/Reduce
1. Los datos se
dividen entre los
nodos de datos
2. La fase de Map
genera pares clave
/ valor
3. La fase de reduce
agrega los valores
de cada clave
Lorem ipsum sit amet magma sit elit
Fusce magna sed sentarse amet magna
Clave Valor
Lorem 1
ipsum 1
sentarse 1
amet 1
magma 1
sentarse 1
elit 1
Clave Valor
Fusce 1
magma 1
sed 1
sentarse 1
amet 1
magma 1
Clave Valor
Lorem 1
ipsum 1
sentarse 3
amet 2
magma 3
elit 1
Fusce 1
sed 1
Hadoop Distributed Architecture
MapReduce: Mover Código a los Datos
Cómo trabaja?
Plataforma de Big Data Micrsooft
Soluciones Big Data Microsoft
 SQL Server Parallel Data Warehouse
 Appliance para data warehouse corporativo
 Procesamiento paralelo masivo (MPP),
arquitectura de Shared-Noting
 Windows Azure HDInsight
 Implementación de Hadoop basada en la nube
 Disponible como un servicio de Microsoft Azure
 Polibase
 Tecnología de integración de SQL Server Parallel
Data Warehouse y HDInsight
Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
Procesamiento de datos y análisis: The Old Way
HADOOP PARA WINDOWS
HDP para Windows
Hortonworks
Data Platform
(HDP) For Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
La distribución de Apache Hadoop distribución
desarrollado por Hortonworks y Microsoft
Integrado con Microsoft BI
Microsoft HDInsight
Creciente
volumenes de
datos
1
En tiempo real
datos
2
Nuevo datos
fuentes y tipos
3
Nacido en
la nube
datos
4
El almacén de datos tradicional
Las fuentes de datos
Big data + BI tradicional = BI Poderoso
grandes
cantidades
de datos
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
Visualización
PDW +
Polibase

Las fuentes de datos Los datos no relacionales
El almacén de datos moderna
Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
Proporciona un único Modelo de consulta T-
SQL para PDW y Hadoop con características
de T-SQL, incluyendo joins sin ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight
para permitir escenarios híbridos de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
PDWMicrosoft Azure
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conexión de islas de datos con polibase
Trayendo soluciones de Hadoop y el almacén de datos
Conjunto
de
resultados
Seleccionar
...
(HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
Hadoop
Column filtering
Dynamic binding
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Suz
Audie
Tom
Sanjay
Roger
Steve
CA
WA
CO
IL
MN
TX
AL
xbox
xbox
excel
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
1
5
0
0
8
0
0
0
8
2
8
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0
Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Los usuarios avanzados
Científico de datos
Todos los demás utilizando
Herramientas de Microsoft BI
Microsoft Azure HDInsight
 Cómo instalar un clúster HDInsight
 Introducción a HDFS
 Ejecución de una tarea de Map / Reduce
 El procesamiento de los datos con Pig
 Creación de tablas Hive
 Cargando Tablas Datos en Hive
 Consulta de Tablas con HiveQL
Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:
Windows Azure HDInsight Service
Cómo Provisión de un clúster HDInsight
 Dependencias
 Windows Azure Storage
 Windows Azure SQL Database (optional)
 Configuración del Cluster
 Name
 Size
 Version
 Storage
 Metadata store
 Credentials
 Conecciones remotas
 Time-limited remote desktop access
Introducción a HDFS
 Alojado en un blob container en Windows Azure Storage
 No se borra aunque se borre el cluster de
 Las rutas pueden ser ASV o HDFS
 asv://data@myaccount.blob.core.windows.net/logs/file.txt
 /logs/file.txt
 Comandos de HDFS
 ls
 cp, copyToLocal, and copyFromLocal
 mv, moveToLocal, and moveFromLocal
 mkdir
 rm and rmr
 cat
Ejecución de una tarea Map / Reduce
1. Preparar el ambiente
• Instalar Windows Azure PowerShell
• Herramientas PowerShell para Windows Azure HDInsight
• Descarga e importar los publishsettings
2. Ejecute el trabajo de Map / Reduce
• New-AzureHDInsightMapReduceJobDefinition para definir la tarea
• Start-AzureHDInsightJob para ejecutar la tarea
3. Ver los resultados de la tarea
• Wait-AzureHDInsightJob para comprobar el estado de finalización
• Get-AzureHDInsightJobOutput para comprobar si hay errores
• Get-AzureStorageBlobContent para descargar los resultados
JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};
El procesamiento de los datos con Pig
• Abstrae el Map/Reduce
• Realizar las operaciones de datos utilizando sentencias de Pig Latin
• Las sentencias son convertidas en tareas de Map/Reduce
• Schema On Read
• Los datos pueden almacenarse en cualquier formato
• Esquema se determina en el tiempo de procesamiento
• Los scripts de Pig describen una serie de operaciones
• Cada operación define una relación
• El Map/Reduce no se realiza hasta que exista una operación DUMP
o STORE
Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo)
como hora, consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
Creación de tablas Hive
• Utilice la sentencia CREATE TABLE HiveQL
• Define los metadatos del esquema que se establece sobre los datos
en una carpeta cuando se consulta la table
• Especifica el formato de archivo y ubicación
• Por defecto el formato es un archivo secuencial en la ruta
/hive/warehouse/<table_name>
• Crear tablas internas o tablas externas
Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de da
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo /
carpeta Hadoop
3
(Opcional) Rechazar parámetros4
Cargando Datos en Hive
• Guarde los archivos de datos en los directories
para tablas
• Utilice la instrucción LOAD
• Mueve o copia los archivos al directorio correspondiente
• Utilice la sentencia INSERT
• Inserta datos de una tabla a otra
Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
Tipo de fuente de datos externa1
Lugar de origen de datos extern2
La activación o desactivación de la
generación de trabajo MapReduce
3
Consulta de Tablas con HiveQL
• Consultar datos utilizando la sentencia TSQL
SELECT
• Hive traduce la consulta en tareas de Map/Reduce
y aplica el esquema de la tabla a los archivos de
datos
Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
Tipo de fuente de datos externa1
(De) método de serialización [Hive
fichero de recursos]
2
Método de compresió3
(Opcional) Formato Opciones [Texto
Archivos]
4
HDInsight en Excel
 Acceso a HDInsight desde Excel
 Uso del proveedor Hive ODBC
 Uso de las consultas con HDInsight
Acceder HDInsight desde Excel
• Driver Hive ODBC para HDInsight
• Soporta sintaxis similar a T-SQL para consultar las tablas
del clúster
• Requiere un clúster HDInsight activo
• PowerQuery
• Soporta la importación de datos desde cualquier archivo
en HDFS
• Se puede utilizar cuando el clúster HDInsight está
inactivo
Instalar el Hive ODBC Driver
1. Descargue e instale el driver Hive ODBC para
HDInsight
2. Crear un nombre de origen de datos (DSN) para
el clúster de HDInsight
3. Utilice el Asistente para la conexión de datos en
Excel para importar datos
Importación de datos Windows Azure
Marketplace En Excel
• Puede importar datos de Windows Azure
Marketplace directamente en Excel usando:
• PowerQuery
• PowerPivot
• PowerView
71 |
Eduardo
Castro
ecastro@simsasys.com ecastrom.blogspot.com
edocastro
PREGUNTAS Y RESPUESTAS
Proxima sesion
 Introducción al Análisis Predictivo con SQL
Server

Más contenido relacionado

La actualidad más candente

Learn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceLearn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceDatabricks
 
Introduction to the Query-driven Approach
Introduction to the Query-driven ApproachIntroduction to the Query-driven Approach
Introduction to the Query-driven ApproachTimothy Valihora
 
Making Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse TechnologyMaking Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse TechnologyMatei Zaharia
 
Guru4Pro Data Vault Best Practices
Guru4Pro Data Vault Best PracticesGuru4Pro Data Vault Best Practices
Guru4Pro Data Vault Best PracticesCGI
 
Turning big data into big value césar hernandez
Turning big data into big value   césar hernandezTurning big data into big value   césar hernandez
Turning big data into big value césar hernandezAMDIA-Integra
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouseJames Serra
 
Comparison of MPP Data Warehouse Platforms
Comparison of MPP Data Warehouse PlatformsComparison of MPP Data Warehouse Platforms
Comparison of MPP Data Warehouse PlatformsDavid Portnoy
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesAndrés Londoño
 
An Introduction to Talend Integration Cloud
An Introduction to Talend Integration CloudAn Introduction to Talend Integration Cloud
An Introduction to Talend Integration CloudTalend
 
Presentation 1 - SSRS (1)
Presentation 1 - SSRS (1)Presentation 1 - SSRS (1)
Presentation 1 - SSRS (1)Anurag Rana
 
Big Data Storage Challenges and Solutions
Big Data Storage Challenges and SolutionsBig Data Storage Challenges and Solutions
Big Data Storage Challenges and SolutionsWSO2
 
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetup
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics MeetupIntroduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetup
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetupiwrigley
 
Base de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosBase de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosAlejandro Rodriguez
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsMundo Contact
 

La actualidad más candente (20)

Learn to Use Databricks for Data Science
Learn to Use Databricks for Data ScienceLearn to Use Databricks for Data Science
Learn to Use Databricks for Data Science
 
Introduction to the Query-driven Approach
Introduction to the Query-driven ApproachIntroduction to the Query-driven Approach
Introduction to the Query-driven Approach
 
Data Vault Overview
Data Vault OverviewData Vault Overview
Data Vault Overview
 
Ebook - The Guide to Master Data Management
Ebook - The Guide to Master Data Management Ebook - The Guide to Master Data Management
Ebook - The Guide to Master Data Management
 
Big data
Big dataBig data
Big data
 
Making Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse TechnologyMaking Data Timelier and More Reliable with Lakehouse Technology
Making Data Timelier and More Reliable with Lakehouse Technology
 
Modelo Tabulares con Azure SSAS
Modelo Tabulares con Azure SSASModelo Tabulares con Azure SSAS
Modelo Tabulares con Azure SSAS
 
Guru4Pro Data Vault Best Practices
Guru4Pro Data Vault Best PracticesGuru4Pro Data Vault Best Practices
Guru4Pro Data Vault Best Practices
 
Turning big data into big value césar hernandez
Turning big data into big value   césar hernandezTurning big data into big value   césar hernandez
Turning big data into big value césar hernandez
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouse
 
Comparison of MPP Data Warehouse Platforms
Comparison of MPP Data Warehouse PlatformsComparison of MPP Data Warehouse Platforms
Comparison of MPP Data Warehouse Platforms
 
Redshift VS BigQuery
Redshift VS BigQueryRedshift VS BigQuery
Redshift VS BigQuery
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionales
 
An Introduction to Talend Integration Cloud
An Introduction to Talend Integration CloudAn Introduction to Talend Integration Cloud
An Introduction to Talend Integration Cloud
 
Presentation 1 - SSRS (1)
Presentation 1 - SSRS (1)Presentation 1 - SSRS (1)
Presentation 1 - SSRS (1)
 
Big Data Storage Challenges and Solutions
Big Data Storage Challenges and SolutionsBig Data Storage Challenges and Solutions
Big Data Storage Challenges and Solutions
 
Data Mesh
Data MeshData Mesh
Data Mesh
 
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetup
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics MeetupIntroduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetup
Introduction to Hadoop and Cloudera, Louisville BI & Big Data Analytics Meetup
 
Base de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datosBase de datos y sistemas de gestion de datos
Base de datos y sistemas de gestion de datos
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 

Destacado

Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerEduardo Castro
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 
Utilizando Filetable en SQL Server 2012
Utilizando Filetable en SQL Server 2012Utilizando Filetable en SQL Server 2012
Utilizando Filetable en SQL Server 2012Adrian Miranda
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014Eduardo Castro
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Big data components - Introduction to Flume, Pig and Sqoop
Big data components - Introduction to Flume, Pig and SqoopBig data components - Introduction to Flume, Pig and Sqoop
Big data components - Introduction to Flume, Pig and SqoopJeyamariappan Guru
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Eduardo Castro
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Hadoop & Cloud Storage: Object Store Integration in Production
Hadoop & Cloud Storage: Object Store Integration in ProductionHadoop & Cloud Storage: Object Store Integration in Production
Hadoop & Cloud Storage: Object Store Integration in ProductionDataWorks Summit/Hadoop Summit
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexEduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integraciónEduardo Castro
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIsBig Data Spain
 
Moving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloudMoving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloudDataWorks Summit/Hadoop Summit
 
Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...DataWorks Summit/Hadoop Summit
 

Destacado (20)

Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL Server
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Utilizando Filetable en SQL Server 2012
Utilizando Filetable en SQL Server 2012Utilizando Filetable en SQL Server 2012
Utilizando Filetable en SQL Server 2012
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch Databases
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Big data components - Introduction to Flume, Pig and Sqoop
Big data components - Introduction to Flume, Pig and SqoopBig data components - Introduction to Flume, Pig and Sqoop
Big data components - Introduction to Flume, Pig and Sqoop
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Hadoop & Cloud Storage: Object Store Integration in Production
Hadoop & Cloud Storage: Object Store Integration in ProductionHadoop & Cloud Storage: Object Store Integration in Production
Hadoop & Cloud Storage: Object Store Integration in Production
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
 
Modernise your EDW - Data Lake
Modernise your EDW - Data LakeModernise your EDW - Data Lake
Modernise your EDW - Data Lake
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
Architecting a multi-tenanted platform
Architecting a multi-tenanted platform Architecting a multi-tenanted platform
Architecting a multi-tenanted platform
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
Smart Cities: An APAC Necessity
Smart Cities: An APAC Necessity Smart Cities: An APAC Necessity
Smart Cities: An APAC Necessity
 
Moving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloudMoving towards enterprise ready Hadoop clusters on the cloud
Moving towards enterprise ready Hadoop clusters on the cloud
 
Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...
 

Similar a Que debe saber un DBA de SQL Server sobre Hadoop

HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stackEduardo Castro
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...Joseph Lopez
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 

Similar a Que debe saber un DBA de SQL Server sobre Hadoop (20)

HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
BigData
BigDataBigData
BigData
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Big data
Big dataBig data
Big data
 
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
big data
big  databig  data
big data
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Big data
Big dataBig data
Big data
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 

Más de Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL AzureEduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceEduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql serverEduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsEduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsEduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en AzureEduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL ServerEduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
 

Más de Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

Último

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 

Último (20)

La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 

Que debe saber un DBA de SQL Server sobre Hadoop

  • 1. Que debe saber un DBA sobre Hadoop Big Data Ing. Eduardo Castro, PhD ecastro@simsasys.com Microsoft SQL Server MVP PASS Regional Mentor
  • 2. SQL Saturday Sponsors Gold Sponsors Silver Sponsors Bronze Sponsors
  • 3. Canal en YouTube  http://www.youtube.com/eduardocastrom
  • 4. Introducción  En esta sesión se abarcan los conceptos principales de Big Data, así como las herramientas de implementación tales como Hadoop y su distribución de HD Insights y HortonWorks.  El DBA aprende la forma de integrar Hadoop dentro de sus soluciones de bases de datos y soluciones de Inteligencia de Negocios.
  • 5. Agenda  Introducción a Big Data  HortonWorks  Micrsooft Azure HDInsight  Consumir HDInsight desde Excel  La obtención de datos en el mercado de datos Microsoft Azure
  • 6. Introducción a los Big Data  ¿Qué es el Big Data?  ¿Qué es Hadoop?  Introducción a Map / Reduce  Soluciones de Big Data de Microsoft
  • 7. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes. Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
  • 8. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php  1 Petabyte es suficiente para almacenar 13.3 años de video HD  1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook  Google procesa alrededor de 24 Petabytes de información por día.  Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales.  AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
  • 9. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • 10. ¿Qué es el Big Data?  Datos que son demasiado grandes o complejos para el análisis de bases de datos relacionales tradicionales  Caracterizado por las tres” V”  Volumen - Enormes cantidades de datos  Variedad - Una mezcla de datos estructurados y datos no estructurados  Velocidad - Nuevos datos generados extremadamente rápido
  • 11. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 12. Casos en los cuales se utiliza Big Data  Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 13. Casos en los cuales se utiliza Big Data Sentiment Analysis  Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales  Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.  El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 14. Casos en los cuales se utiliza Big Data Modelado de riesgo  Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros  Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 15. Casos en los cuales se utiliza Big Data Motor de recomendación  Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento.  LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 16. Casos en los cuales se utiliza Big Data Detección de Fraude  Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.  Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 17. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing  Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.  Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 18. Casos en los cuales se utiliza Big Data Análisis Social Graph  Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.  Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 19. Casos en los cuales se utiliza Big Data Customer Experience Analytics  Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes  Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 20. ¿Qué es Hadoop? • Clusters de Hadoop • Varios servidores con un sistema de archivos compartido denominado HDFS • Las solicitudes de cliente son atendidos por el “Name Node” • Varios nodos de datos procesan los datos mediante Map/Reduce • Proyectos relacionados • Hive • HCatalog • Pig • Oozie • Mahout
  • 21. Facebook  Hadoop Datawarehouse en Facebook se ha convertido el clúster más grande de almacenamiento Hadoop en el mundo.  21 PB de almacenamiento en un único HDFS clúster  2000 nodos  12 TB por nodos (algunos tienen 24 TB cada uno)  1.200 máquinas con 8 núcleos cada una + 800 máquinas con 16 núcleos cada una  32 GB de RAM por máquina  15 trabajos de Map/Reduce por máquina http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
  • 22. Facebook  400 millones de usuarios activos mensuales, 25 millones de piezas de contenido compartido cada mes  12 TB de datos comprimidos se agregan por día  800 TB de datos comprimidos se escanean por día  25,000 trabajos de Map/Reduce por día  65 millones de archivos HDFS  30,000 conexiones simultáneas al HDFS NameNode http://www.datanami.com/2012/04/26/six_super-scale_hadoop_deployments/
  • 23. Nuevos enfoques para el procesamiento y análisis de datos grandes
  • 24. Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  • 25. Componentes de Hadoop  Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop  NameNode: El nodo de un clúster Hadoop que proporciona la información al cliente sobre donde se almacenan los datos y si un nodo falla  Nodo secundario: Una copia de seguridad del NameNode, se replica periódicamente  Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce  Los nodos esclavos: Los nodos esclavos almacenan datos y procesan los datos desde el gestor de trabajo.
  • 26. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 27. Componentes de Hadoopa de Hardware
  • 29. Introducción a Map/Reduce 1. Los datos se dividen entre los nodos de datos 2. La fase de Map genera pares clave / valor 3. La fase de reduce agrega los valores de cada clave Lorem ipsum sit amet magma sit elit Fusce magna sed sentarse amet magna Clave Valor Lorem 1 ipsum 1 sentarse 1 amet 1 magma 1 sentarse 1 elit 1 Clave Valor Fusce 1 magma 1 sed 1 sentarse 1 amet 1 magma 1 Clave Valor Lorem 1 ipsum 1 sentarse 3 amet 2 magma 3 elit 1 Fusce 1 sed 1
  • 33. Plataforma de Big Data Micrsooft
  • 34. Soluciones Big Data Microsoft  SQL Server Parallel Data Warehouse  Appliance para data warehouse corporativo  Procesamiento paralelo masivo (MPP), arquitectura de Shared-Noting  Windows Azure HDInsight  Implementación de Hadoop basada en la nube  Disponible como un servicio de Microsoft Azure  Polibase  Tecnología de integración de SQL Server Parallel Data Warehouse y HDInsight
  • 35. Integración con herramientas Microsoft Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • 36. Procesamiento de datos y análisis: The Old Way
  • 38. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • 39.
  • 40. La distribución de Apache Hadoop distribución desarrollado por Hortonworks y Microsoft Integrado con Microsoft BI Microsoft HDInsight
  • 41. Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  • 42. Big data + BI tradicional = BI Poderoso grandes cantidades de datos Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 Visualización PDW + Polibase
  • 43.  Las fuentes de datos Los datos no relacionales El almacén de datos moderna
  • 44. Alto rendimiento y optimizado en el hardware Autenticación del usuario final con Active Directory Accesible para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento Apache Hadoop SQL Server Parallel Data warehouse Microsoft HDInsight Polibase APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
  • 45. Proporciona un único Modelo de consulta T- SQL para PDW y Hadoop con características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbridos de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server PDWMicrosoft Azure HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conexión de islas de datos con polibase Trayendo soluciones de Hadoop y el almacén de datos Conjunto de resultados Seleccionar ...
  • 46. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos PDWPuente HDFS Enhanced PDW query engine La tabla externa Los datos externos Archivo externo Regular T-SQL
  • 47. HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log Hadoop Column filtering Dynamic binding Row filtering User Location Product Sentiment Rtwt Hour Date Sean Suz Audie Tom Sanjay Roger Steve CA WA CO IL MN TX AL xbox xbox excel sqls wp8 ssas ssrs -1 0 1 1 1 1 1 5 0 0 8 0 0 0 8 2 8 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  • 48. Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Los usuarios avanzados Científico de datos Todos los demás utilizando Herramientas de Microsoft BI
  • 49. Microsoft Azure HDInsight  Cómo instalar un clúster HDInsight  Introducción a HDFS  Ejecución de una tarea de Map / Reduce  El procesamiento de los datos con Pig  Creación de tablas Hive  Cargando Tablas Datos en Hive  Consulta de Tablas con HiveQL
  • 50. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 52. Cómo Provisión de un clúster HDInsight  Dependencias  Windows Azure Storage  Windows Azure SQL Database (optional)  Configuración del Cluster  Name  Size  Version  Storage  Metadata store  Credentials  Conecciones remotas  Time-limited remote desktop access
  • 53. Introducción a HDFS  Alojado en un blob container en Windows Azure Storage  No se borra aunque se borre el cluster de  Las rutas pueden ser ASV o HDFS  asv://data@myaccount.blob.core.windows.net/logs/file.txt  /logs/file.txt  Comandos de HDFS  ls  cp, copyToLocal, and copyFromLocal  mv, moveToLocal, and moveFromLocal  mkdir  rm and rmr  cat
  • 54. Ejecución de una tarea Map / Reduce 1. Preparar el ambiente • Instalar Windows Azure PowerShell • Herramientas PowerShell para Windows Azure HDInsight • Descarga e importar los publishsettings 2. Ejecute el trabajo de Map / Reduce • New-AzureHDInsightMapReduceJobDefinition para definir la tarea • Start-AzureHDInsightJob para ejecutar la tarea 3. Ver los resultados de la tarea • Wait-AzureHDInsightJob para comprobar el estado de finalización • Get-AzureHDInsightJobOutput para comprobar si hay errores • Get-AzureStorageBlobContent para descargar los resultados
  • 55. JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  • 56. El procesamiento de los datos con Pig • Abstrae el Map/Reduce • Realizar las operaciones de datos utilizando sentencias de Pig Latin • Las sentencias son convertidas en tareas de Map/Reduce • Schema On Read • Los datos pueden almacenarse en cualquier formato • Esquema se determina en el tiempo de procesamiento • Los scripts de Pig describen una serie de operaciones • Cada operación define una relación • El Map/Reduce no se realiza hasta que exista una operación DUMP o STORE
  • 57. Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  • 58. Creación de tablas Hive • Utilice la sentencia CREATE TABLE HiveQL • Define los metadatos del esquema que se establece sobre los datos en una carpeta cuando se consulta la table • Especifica el formato de archivo y ubicación • Por defecto el formato es un archivo secuencial en la ruta /hive/warehouse/<table_name> • Crear tablas internas o tablas externas
  • 59. Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de da externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 (Opcional) Rechazar parámetros4
  • 60. Cargando Datos en Hive • Guarde los archivos de datos en los directories para tablas • Utilice la instrucción LOAD • Mueve o copia los archivos al directorio correspondiente • Utilice la sentencia INSERT • Inserta datos de una tabla a otra
  • 61. Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; Tipo de fuente de datos externa1 Lugar de origen de datos extern2 La activación o desactivación de la generación de trabajo MapReduce 3
  • 62. Consulta de Tablas con HiveQL • Consultar datos utilizando la sentencia TSQL SELECT • Hive traduce la consulta en tareas de Map/Reduce y aplica el esquema de la tabla a los archivos de datos
  • 63. Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; Tipo de fuente de datos externa1 (De) método de serialización [Hive fichero de recursos] 2 Método de compresió3 (Opcional) Formato Opciones [Texto Archivos] 4
  • 64. HDInsight en Excel  Acceso a HDInsight desde Excel  Uso del proveedor Hive ODBC  Uso de las consultas con HDInsight
  • 65. Acceder HDInsight desde Excel • Driver Hive ODBC para HDInsight • Soporta sintaxis similar a T-SQL para consultar las tablas del clúster • Requiere un clúster HDInsight activo • PowerQuery • Soporta la importación de datos desde cualquier archivo en HDFS • Se puede utilizar cuando el clúster HDInsight está inactivo
  • 66. Instalar el Hive ODBC Driver 1. Descargue e instale el driver Hive ODBC para HDInsight 2. Crear un nombre de origen de datos (DSN) para el clúster de HDInsight 3. Utilice el Asistente para la conexión de datos en Excel para importar datos
  • 67. Importación de datos Windows Azure Marketplace En Excel • Puede importar datos de Windows Azure Marketplace directamente en Excel usando: • PowerQuery • PowerPivot • PowerView
  • 69. Proxima sesion  Introducción al Análisis Predictivo con SQL Server