Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
2. Polybase en SQL Server 2016
• Motivación y Escenarios de Uso
• Arquitectura Hadoop – foco consultar
• Arquitectura Polybase
• Instalación y Puesta en Marcha
• Conclusiones
3. Definiciones de Big Data
• Un conjunto de tecnologías relacionales y no
relacionales para analítica a gran escala
• Gran volumen, alta velocidad y gran variedad de
información que demanda un procesado poco
costoso para obtener conocimiento y tomar
decisiones.
• Volumen: Terabytes, Petabytes, Exabytes
• Velocidad: hora, segundos, milisegundos
• Variedad: 5 formatos, 10 formatos, 20+ formatos
• Variabilidad: formatos cambian en el tiempo
• Valioso: beneficio/coste de la solución
7. Escenarios de Uso: Big Data
• Combinar cualquier origen de datos
• Desordenado: webs, media
• Bastante ordenado: fb, twitter, sensors,
• Casi ordenado: csv, arc. intercambio
• Ordenado: otros RDBMS
• Datos archivados
• Demasiado valiosos para borrar
8. Escenarios de Uso: Big Data Polybase
Latencia
Transformación
Desordenado -
Webs, Media
Ordenado -
Otros RDBMS
Casi
Ordenado
-
csv, txt
Bastante
Ordenado
-
twitter,
streams
Transformación
compleja
9. Escenarios de Uso Polybase:
Gran Depende
• Data Scientists: Leer muchos datos?
• Capacidad Calculo: A qué coste?
• ETL/ELT: Transformar datos?
• Archiving: A sitio barato?
10. Escenarios de Uso Polybase:
Data Scientists
Necesidad:
• Leer y transformar cualquier cosa
• Gran capacidad de cálculo
• Menos de 100 usuarios
Procedimiento:
• Modela su visión
• Transfiere modelo
Desordenados!?
Scale up, out
Concurrencia 32
11. Escenarios de Uso Polybase:
Capacidad Calculo
• Volumetría de procesamiento muy grande
• Predicate push-down!
• Dependiendo de necesidades
• Modelo on-prem
• Modelo appliance
• Modelo PaaS
• Modelo Storage
SQL DW PaaS Autogestionado
Grande, modelo
racks
SQL de siempre
Azure Storage Solo store!
12. Escenarios de Uso Polybase:
ETL/ELT
• Dilema en proyectos de Big Data
ETL (transforma
antes)
ELT (transforma
después)
Cuando “1 vez” En cada lectura
Flexible Esquema fijo Falsa Flexibilidad
Estructurado En Capas – Staging Mezcla de capas
Modelado Modelo Primero Modelo Después
Herramientas SSIS, BIML Hive, TSQL, APIs
13. Escenarios de Uso Polybase:
Archiving y acceso rápido/eventual
Polybase es mixto
• Mezclado con Hadoop existente
• Storage en Azure (no calculo)
• Push Storage a Azure. Distinto de StrechDB
Hadoop DELL/HP Legacy Systems
Coste / TB 1K USD 10-15K USD 40-50K USD
http://www.informationweek.com/software/how-hadoop-cuts-big-data-costs/d/d-id/1105546?
17. Las consultas
entran por aqui
Se consultan
tablas locales
o externas
Los Nodos de cálculo son útiles para escalar
procesamiento contra tablas externas HDFS
El DBA ajusta dinámicamente el número
de nodos de calculo
El cluster Hadoop se puede compartir con
varios clusters de SQL Server
Arquitectura: Diseño final on Prem
18. Las consultas
entran por aqui
Se consultan
tablas locales
o externas
Arquitectura: SQL DW PaaS
El DBA ajusta dinámicamente el número
de nodos de calculo (DW Units)
19. Instalación y Puesta en Marcha (INS)
• Pasos para usar Polybase:
1. Elegirlo en Setup
2. Habilitarlo en instancia
3. Enlazar SQL con Hadoop
4. Crear “tablas”
5. Consumir datos
20. INS: Elegirlo en el Setup
• Pre-requisitos:
• SQL2016 STD/EE
• .NET 4.5
• JRE 7.51
• 4GB RAM
• 2GB Disk Space
• TCP/IP
21. INS: Habilitarlo en Instancia
• Opciones de configuración:
exec sp_configure 'hadoop connectivity', 7;
28. Conclusiones y Retos
• Propósito
• Integrar datos de fuentes diversas
• Dentro de SQL Server, con Scale-out
• Retos y Dilemas
• ETL o ELT mientras lees?
• Índice de concurrencia?
• Tiempo real?
• Archivado?
29. También puedes preguntar tus
dudas con el hashtag
#SQSummit en Twitter
ADAPTIVE BI FRAMEWORK
Te ayudaremos a mejorar la velocidad de desarrollo de tu plataforma de
analítica de negocio basada en nuestra experiencia:
•Diseña antes de construir
•Automatización de procesos por ETL
•Servicios de mentoring para ayudarte a conseguir mejores prácticas para la construcción
de procesos específicos y plataformas de analítica de negocio
•Muy fácil de mantener
SOLIDQ FLEX SERVICES
Con SolidQ Flex Services evitarás sustos, consiguiendo que tus sistemas
sean estables. Desde una solución sencilla de monitorización, hasta un
servicio de atención de incidencias 24/7, mantenimiento proactivo,
resolución de problemas y línea de soporte.
Todo con un coste fijo mensual… y tú dedica el tiempo a las cosas
importantes.
¡Gracias!