The age of knowledge: Building the modern architecture of hybrid data for Big Data with Microsoft and Apache Hadoop Considering that knowledge is a value added for businesses today, in this exhibition show in a simple way as Microsoft and Hortonworks unite its efforts, in order to combine their data platforms ("Hortonworks Data Platform" and Microsoft: Windows, Office, SQL Server, Parallel Data Warehouse and Azure), to build with this, the modern architecture of data hybrid for Big Data.
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop
1. Construyendo la moderna arquitectura de
datos híbridos para Big Data con Apache
Hadoop y Microsoft Data Platform
José Redondo
Correo: jose.redondo@bitsamericas.com
Twitter: @redondoj
LinkedIn: http://co.linkedin.com/in/redondoj
Blog: http://redondoj.wordpress.com
2. Expositor
CTO – DPA Bits America SAS Colombia – U.S.A.
DPA SolidQ
MCP | MCTS – MS SQL Server; MTA – DAF
8. Arquitectura de Datos ActualAPLICACIONES
Business
Analytics
Aplicaciones
Personalizadas
Aplicaciones
Empaquetadas
SISTEMADE
BASESDEDATOS
REPOSITORIOS
RDBMS EDW MPP
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
4,2 ZB en 2013
85% de nuevos tipos de datos
15x datos maquina para 2020
40ZB para 2020
9. Arquitectura Moderna de Datos HabilitadaAPLICACIONES
Business
Analytics
Aplicaciones
Personalizadas
Aplicaciones
Empaquetadas
SISTEMADE
BASESDEDATOS
REPOSITORIOS
RDBMS EDW MPP
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
Orígenes Emergentes
(Sensores, Semánticos, Geo, No
Estructurados)
DESPLIEGUE & PRUEBAS
HERRAMIENTAS DE DATOS Y
DESARROLLO
ADMINISTRACIÓN & MONITOREO
HERRAMIENTAS OPERACIONES
10. CUAL ES LA ARQUITECTURA MODERNA DE
DATOS HIBRIDOS (MDA)?
11. El Poder de la Arquitectura Moderna de Datos
Hadoop
Compute
& Storage
Compute
& Storage
. . .
. . . .
. . .
Hadoop Cluster
Los Cluster Hadoop proporcionan
almacenamiento escalado y
procesamiento distribuido de datos
en el hardware disponible
Apache Hadoop es un proyecto open source, liderado por la Apache
Software Foundation (ASF), que nos permite comprender de
cantidades masivas de datos estructurados y no estructurados,
rápidamente y sin una inversión importante.
13. Requerimientos para la adopción de Hadoop
Requerimientos para el Rol de Hadoop en la Arquitectura
Moderna de Datos (MDA)
Integrado
Interopera con inversiones
de centro de datos
existentes
Destrezas
Aprovecha las habilidades
existentes en nuestro
ecosistema: Desarrollo,
Operaciones y Análisis
Servicio claves
Interopera con
inversiones de centro
de datos existentes
14. Casos de uso de la Arquitectura de Datos
Moderna
Industria Casos de Uso Tipo de Datos
Servicios Financieros
Nuevas cuentas de riesgo Textos, Registros de Servidores
Riesgos comerciales Registros de Servidores
Suscripción de seguros Datos Geográficos, Datos RFid, Textos
Telecomunicaciones
Detalle de llamadas (CDRs) Datos de Maquinas, Datos Geográficos
Inversión en infraestructura Datos de Maquinas, Registros de Servidores
Asignación de ancho de banda en tiempo real Registros de Servidores, Textos, Redes Sociales
Ventas
Vista 360° del cliente Clickstream, Textos
Promociones personalizadas, Localizadas Datos Geográficos
Optimización de sitios web Clickstream
Manufacturas
Cadena de suministro y logística Datos RFid
Aseguramiento de la calidad de línea de montaje Datos RFid
Aseguramiento de la calidad de CrowdSourcing Redes Sociales
Salud
Utilizar datos genómicos en ensayos médicos Datos Estructurados
Monitor de signos vitales de pacientes en tiempo real Datos RFid
Farmacéuticas
Reclutar y retener a los pacientes para los ensayos de medicamentos Redes Sociales, Clickstream
Mejorar el cumplimiento de la prescripción Redes Sociales, Datos No Estructurados, Datos Geográficos
Petroleras
Unificar la exploración & datos de producción Datos RFid, Datos Geográficos & Datos No Estructurados
Seguridad en tiempo real del monitoreo en la plataforma de producción Datos RFid, Datos No Estructurados
Gobierno
ETL para la descarga de datos fuera de linea en respuesta a las presiones presupuestarias federales Datos Estructurados
Análisis semántico para programas del gobierno Redes Sociales
16. Microsoft en la Arquitectura Moderna de DatosAPLICACIONES
SISTEMADE
BASESDEDATOS
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
Orígenes Emergentes
(Sensores, Semánticos, Geo, No
Estructurados)
HERRAMIENTAS DE DATOS Y
DESARROLLO
HERRAMIENTAS OPERACIONALES
INFRAESTRUCTURA
18. Plataforma de datos End-To-End
Inteligencia de Negocio
Almacén de Datos Moderno
Almacén de Datos Relacional Hadoop
Arquitectura de Datos Moderna
SQL Server PDW
SQL Server
para DW en
Azure
Hortonworks
Data
Platform
PDW vNext
(PDW +
HDInsight)
SQL Server
para DW en
Azure
Software en
Caja
Aplicaciones Nube
Software en
Caja
Aplicaciones Nube
Orígenes de Datos Relacionales Datos No Relacionales
OLTP ERM CRM LOB DISPOSITIVOS WEB SENSORES SOCIAL
HERRAMIENTAS DE DATOS Y
DESARROLLO
HERRAMIENTAS OPERACIONALES
19. Soluciones Hadoop desde Microsoft
Soluciones disponibles para la Nube y On-Premise
Apache Hadoop
Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
20. Plataforma de Datos Hortonworks para Windows
Hortonworks Data Platform
Software en Caja
Clientes ideales
On-Premises en sus propios servidores
Escenarios con altos datos sensibles, o
Clientes con altos volúmenes de datos generados
On-Premises
Casos de usos
El caso de uso CDW
Información clave
HDP 2.1 (Release – Junio 04) para Windows
Descargable: http://hortonworks.com/hdp/
21. Parallel Data Warehouse con HDInsight
Clientes ideales
Clientes que desean soluciones preconstruidas, de alta gama y
escalabilidad horizontal
Plataforma Microsoft Integrada (Directorio Activo, System
Center, etc)
Clientes que desean ventajas de hardware (Mayor tolerancia a
fallos, Rendimiento de red InfiniBand sintonizado)
Casos de usos
Casos de uso RSB – Royal Bank of Scotland
Información clave
PDW con nuevas características en segundo semestre de 2014
PDW vNext (PDW + HDInsight)
Aplicaciones
22. Integración Relacional + No Relacional
Modelo de consulta simple para entidades
relacionales y Hadoop
Procesos relacionales & Hadoop en paralelo
Costo de ETL no elevado para ingresar a
Hadoop en DW
Consultar Hadoop con habilidades de T-SQL
existentes
Valor incrementado para los nuevos datos
Consultas integradas con PolyBase en SQL PDW
Select
. . .
Conjunto
de
Resultados
Datos
Hadoop
PolyBase
Data
Relacional
Consulta Relacional + No Relacional
23. Ampliar datos relacionales hasta Petabytes
Consultas paralela con Massively Parallel Processing
(MPP)
Múltiples nodos con CPU dedicada, Memoria, Unidades
de almacenamiento
Añadir incrementalmente hardware para cerca de escala
lineal a multi-PB
Manejar complejas consultas y alta escalabilidad en la
concurrencia
Sin atajos previo en el almacén de datos para aumentar
la capacidad
Tecnologías Escalables en SQL Server Parallel Data Warehouse
Desde Terabytes a Multi-Pentabytes
Ampliar
el Entorno de Datos
24. Debido a que el PDW se encuentra
profundamente integrado con Hadoop, Direct
Edge puede utilizar datos no estructurados de
Big Data, desbloqueando nuevos escenarios
analíticos.
"Nuestros analistas tienen una comprensión
mucho más profunda de los datos
comerciales. Por ejemplo, pueden
comprender mejor las fluctuaciones
mensuales en los ingresos por comisiones
de honorarios".
Richard Horchron
CTO Direct Edge
25. Windows Azure HDInsight
Windows Azure | HDInsight
Nube
Clientes ideales
Ellos quieren todos los beneficios de la nube – Bajo costo y
Escalabilidad amplia
Escenarios con datos existentes en la nube
Tiempos de respuestas valorados por Hadoop (Sobre los 10
minutos)
Casos de usos
Casos de uso Hy-Vee
Información clave
HDInsight en Hadoop 2.2
Azure HDInsight en Hadoop 2.4
26. Master Chief
encontrándose con
Big Data
• En el juego de análisis, se
detectan a los tramposos y
mejora la experiencia para
todo el mundo
• Permite campañas específicas
con el fin de mejorar la
retención de clientes
27. Salvando vidas con
Pequeños y Grandes
datos
“Esto reinventará la forma en
que trabajamos con registros
médicos en el futuro”
Paul Handerson
BI Division Head
28. Soluciones Hadoop desde Microsoft
Hadoop
Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
Inteligencia de Negocio
29. Microsoft & Hortonworks
Orígenes
de datos
YARN
HDFS
JavaRPC
MAPREDUCE
SERVICIOS DE DATOS
TEZ
PIG HIVE
HCATALOG
HBASE
AMBARI
HERRAMIENTAS DE DATOS Y DESARROLLOADMINISTRACIÓN Y MONITOREO
Querys | Visualización | Reportes | Analysis
HADOOP
Servicios de Datos
Repositorios
Empresariales
Gobernabilidad
Intercambio
Replicación
Carga
de datos
SQOOP
FLUME
Web
HDFS
ODBC
JDBC
INTERFACES
SQOOP
JAVA RPC
Arquitectura de
Referencia
33. Construyendo la moderna arquitectura de datos híbridos para
Big Data con Apache Hadoop y Microsoft Data Platform
Jose Redondo – MS SQL Server MVP
Correo: redondoj@gmail.com
Twitter: @redondoj
Blog: redondoj.wordpress.com
34. Construyendo la moderna arquitectura de datos híbridos para
Big Data con Apache Hadoop y Microsoft Data Platform
Patrocinadores de esta conferencia