Este documento presenta una introducción a los conceptos de Big Data y análisis de datos. Define Big Data como la capacidad de extraer información de múltiples fuentes de datos dentro y fuera de una empresa para tomar mejores decisiones de negocios. Explica que la mayoría de los datos se generan fuera de las bases de datos estructuradas tradicionales y que es necesario integrar y analizar diferentes tipos y cantidades de datos. También introduce conceptos como Hadoop, datos en tiempo real, almacenes de datos modernos y la diferencia entre procesamiento paralelo mas
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
Big Data - Desarrollando soluciones efectivas
1.
2. Microsoft Data Platform
Avanet
Jose Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com
Big Data
Desarrollando soluciones efectivas
3. Expositor
• CEO de EntornoDB, USA
• Arquitecto de Datos – Especialista en Inteligencia de
Negocio, Análisis de Datos y Big Data
• Desarrollador de aplicaciones de Escritorio, Web y
Bases de Datos en .NET y Java
• Desarrollador y DBA en plataformas de datos Microsoft,
SyBase, IBM y Oracle
• Conferencista en eventos tecnológicos de Microsoft
en Latinoamérica y Estados Unidos
• SQL Server MCP - MSTS – MTA
• DPA SolidQ
• Contributing Technical Reviewer Packt Publishing
• Microsoft SQL Server MVP
5. He estado intentando desarrollar una solución de Big Data
pero…
Y termino vuelto un lío en mi oficina de casa viendo
“Mazinger Z”
Espero que logren que estos
no les pase a ustedes…
6. Agenda
• Revisión sobre como Construir una Arquitectura efectiva de una Bodega de Datos
• Definiciones sobre Big Data y Análisis de Datos
• Casos de uso
• Lago de Datos
• Hadoop y sus roles
• IoT y Datos en tiempo real
• Una moderna Bodega de Datos
• Consultas federadas de datos
• Bodegas de Datos y la nube
• Diferencias de Multiprocesamiento Simétrico (SMP) vs. Procesamiento Paralelo Masivo
(MPP)
7. Revisión sobre como Construir una Arquitectura
efectiva de una Bodega de Datos
8. Que es un Almacén de Datos y Porque usar uno?
Un Almacén de Datos es un
lugar donde se depositan
todos los datos procedentes
de multiples orígenes con el
fin de ser utilizado para
analizar históricamente y
tendencias del escenario a
través de reportes de datos.
Actúa como un repositorio
central para muchos temas y
contiene “La Versión Única de
la Verdad”. NO ES para ser
utilizado por aplicaciones
OLTP.
9. Que es un Almacén de Datos y Porque usar uno?
Razones para un almacén de datos:
• Reducir el estrés en el Sistema de Producción
• Optimizado para acceso de lectura, análisis
secuencial disco
• Integrar heterogéneamente varias fuentes de
datos
• Mantener registros históricos (No necesita
guardar informes impresos)
• Reestructuración y/o Renombramiento de las
tablas y columnas, Modelo de datos analítico
10. Que es un Almacén de Datos y Porque usar uno?
Razones para un almacén de datos:
• Se protege de actualizaciones de los sistemas
origen
• Uso Master Data Management, incluyendo las
jerarquías
• Ningún personal IT es necesario habilítalo para
que los usuarios finales puedan crear informes
• Mejorar la calidad de los datos así como los
escenarios de corrupción de datos en los orígenes
de datos fuente
• Una sola versión de la verdad
• Fácil crear soluciones de Inteligencia de Negocio
en general (Por Ejemplo: Bases de Datos
Multidimensionales y Cubos OLAP de SSAS)
11. Aplicaciones Heredadas + Bases de Datos = Caos Total Bodega de Datos Empresarial = Sinónimo de Orden y Éxito
Control de
Producción
CRM | MPR
Inventarios
Administración
de Partes
Logística
Ventas
Materia Prima
Pedidos |
Facturación
Control de
Envíos
Ingeniería
Finanzas
Inventarios
Administración
de Reportes
Logística
Contabilidad
Mercadeo
Recursos
Humanos
Ventas
• Continuidad
• Consolidación
• Control
• Estandarización
• Colaboración
Bodega de Datos
Empresarial
Cada consulta = Una decisión
UNA SOLA VERSIÓN DEL DATO
2 Propósitos de una Bodega de datos: 1.- Reducir el tiempo de creación de reportes empresariales | 2.- Dividir multidimensionalmente escenarios de cualquier índole
Porque utilizar un Almacén de Datos?
Previa presentación: Construyendo La Arquitectura de una eficiente Bodega de Datos en el ITProCamp Tampa, Florida 2014
(http://www.slideshare.net/redondoj/building-an-effective-data-warehouse-architecture)
12. Modelo Hibrido de un Almacén de DatosOLTPDataSources
Staging
Area 1
Staging
Area 2
Staging
Area 3
Data Warehouse
Áreas Empresariales
Esquema Estrella
Data Mart 1
Data Mart 2
Multi
Dimensional
Tabular
CapadeVisualización
SSIS
SSIS
SSIS
SSIS
SSIS
Procesamiento de
Cubos
Data Atómica
Procesamientode
Cubos
En la Arquitectura DW cada Data Mart seria un Esquema (Teniendo en cuenta que cada proceso empresarial sería un área a tratar), todo en una sola base de datos. Algunas
empresas y compañías tienen una sola base de datos donde se encuentran cada Data Mart como modulo independiente distribuido en Data Files y FileGroups
Staging
MirrorOLTP
EDW
Data Warehouse
(Normalizado)
Corporate Information
Factory (CIF)
Datos Atómicos
SSIS
SSIS
SSIS
Advertencia:UtilizarlasVistasdelSistemaSQLServer(SQLServerViews)comointerfacesencada
nivelenelmodelo
13. Arquitectura de un Almacén de Datos
CRM
ERP
EXCEL
Sistemas
Operacionales
Datos Externos
Tablas
Staging
ODS
DQS
MDM
3NF
Data Warehouse
Ventas
Finanzas
Mercadeo
Microsoft Data Platform – Plataforma de Datos de Microsoft
SSIS Transaccional
SSIS Dimensional
SSIS
Esquema
Estrella
SSAS
PowerPivot for Excel
SSIS
Data Mart
Tabular
OLAP
Power
Pivot
For
SP
Publicar
SharePoint
SQL Server Reporting Services
PerformancePoint Services
Power View
Excel Excel Services
1.- Recopilación 2.- Limpieza | Estandarización 3.- Almacén de Datos 4.- Modelo | Presentación 5.- Análisis 6.- Compartir
15. Gartner’s 2015 Hype Cycle
Subiendo:
• Data Lakes
• Hadoop-Based
• Data Discovery
En la cima:
• Big Data
• Predictive Analytics
• Hadoop SQL Interfaces
• IoT
• Logical Data Warehouse
16. Como Big Data puede ayudarnos?
Debemos ser capaces de extraer datos de varias fuentes en toda la empresa así
como fuera de la misma, y luego transformarlo todo en ideas de negocio claves
para poder proporcionar una ventaja competitiva en la toma de mejores
decisiones de negocios
17. Como Big Data puede ayudarnos?
• Todo inicia desde lo básico: Entre mas
datos tengas en tu empresa, pueden
ustedes generar las mejores decisiones
de negocios
• El Primer Paso es entender la
importancia de un Almacén de Datos
• Tener que entender que es Big Data
• Necesitar asegurarnos de que el
Almacén de Datos puede manejar datos
de diferentes orígenes y formatos
(Validemos lo siguiente: Tenemos algún
problema con los datos de diversas
procedencias?)
• Necesitar ejemplos de cuán grande
pueden ayudarnos los datos de
diferentes orígenes, formatos y tamaños
18. Como Big Data puede ayudarnos?
• Tener que entender Hadoop y sus
implicaciones de uso con un Almacén
de Datos
• Tener que entender la diferencia entre
el Scaling Up (SMP) y Scaling Out
(MPP)
• Comprender las limitaciones de un
Almacén de Datos moderno y
tradicional, y desarrollar un moderno
Almacén de Datos
• Conocer la diferencia entre Los Datos
Operativos vs. Los Datos de
Investigación Estadística
20. Datos en todas las
Formas & Tamaños se
generan más rápido que
nunca
Captura & Combina para
nuevos análisis & mejores
tomas de decisiones más
rápidas
21. El Reto es la combinación de datos transaccionales almacenados en bases de datos relacionales con menos datos estructurados
Big Data = Todos los datos
Obtener la información exacta a las personas adecuadas en el momento adecuado en el formato correcto
StreamingEstructurado No Estructurado
“ ”
22. Kalakota, R. (2012, October 22). Sizing “Mobile + Social” Big Data Stats. Retrieved from http://practicalanalytics.wordpress.com/
25. Datos están en todas partes
“El Volumen de Información está creciendo en todo el mundo a una velocidad mínima de 59% anualmente teniendo como
componentes con esto, el 15% de los datos como los Datos Estructurados y el resto se compone de Nuevos Tipos de Datos
contribuir y alimentar a Big Data".
- Donald Feinberg, Gartner IT Symposium, October 2010
26. Explosión de la
Información,
Nuevos
Conocimientos e
Ideas
90%
del mundo datos tan solo se han creado
en los últimos dos años 1
Cambiar a lo
simple,
Computación mas
económica, On
Demand
45%
del total a invertir en tecnología de aquí
al 2020 estarán relacionadas con cloud2
Fuerza laboral
cada vez más
conocedor de sus
datos
5X
Las empresas que utilizan análisis son 5x
más propensos a tomar decisiones más
rápidamente que sus competidores3
Oportunidad de Cambios
1. IDC. 2. Josh Waldo Senior Director, Cloud Partner Strategy, Microsoft. 3. Bain & Company, The Value of Big Data: How Analytics Differentiates Winners, 2013.
27. Implementaciones Complejas
Bodega de Datos Empresarial
Spreadmarts Siloed data
Hadoop
DashboardsAnálisis Ad Hoc
Machine Learning
OLAP
Cualquier DatoIn-Memory
Internet of Entidades
Innovación
Sistemas Transaccionales
ETL
Generador de Reportes Empresariales
Valor
Innovación de la tecnología acelera el valor
29. El nuevo ROI (Return On Information):
Consumiendo Datos
La formula
[datos + análisis + personas ]
@
velocidad
$1.6 trillones
En Consumo de Datos
Source: IDC Study: Realizing the Data Dividend, 2014.
Áreas Claves de
Oportunidades
Las Organizaciones pueden
realizar el Consumo de
Datos en diferentes áreas
claves del negocio…
Productividad
Incluir planeación
estratégica,
Administración de
Capital Humano,
Optimización de
personal IT
Operations
Includes demand
and supply chain
management,
logistics
Consumo de
Datos
$674
billones
Consumo de
Datos
$486
billones
Consumo de
Datos
$158
billones
$235
billones
Consumo de
Datos
Orientado
al Cliente
Incluye adquisición de
Clientes, Preservación,
Soporte y Precios
Innovaciones
Servicios incluidos,
Investigación y
Desarrollo e
Innovación
30. Inspiran a la Innovación
Aceleran las Tomas de Decisiones en cualquier Ámbito
Aprender desde El Conocimiento y Compartirlo
31. Personal de departamentosIngresos y Meta por Región
0 5 10 15
Contabilidad
Administración
Servicio al Cliente
Finanzas
Recursos Humanos
IT
Mercadeo
I & D
Ventas
5.2 5
9
11
(MILES)
Unidades vendidas con descuentos
y Beneficio antes de impuestos
Acoger Big Data a través de su negocio
Lista de Estatus XT2000
Mostrar solo problemas
Indicador
Presupuesto Preliminar
Revisión de Materiales y Empaquetado
Publicidad y Spot de Libros
Análisis de Eventos en Otoño
Encuesta de Usuarios Finales
Hitos de Revisión Técnica
Estatus 2M
1.5M
1M
0.5M
0M
Descuentos(Enmillones)
50K 60K 70K 80K 90K 100K 110
Producto A
Producto D Producto C
Producto F
Producto G
Ventas
Mejorar el rendimiento
de ingresos
RRHH
Maximizar la participación
del empleado
Mercadeo
Construir relaciones más
profundas con los
clientes
Finanzas
Impacto de la línea
inferior de su empresa
Norte Sur
Región: Sur
Meta: 13450
Destacado: 4900
Ingresos Meta
32. El Dato Dividido
80%
de datos
almacenados
70%
de los datos
generados por
clientes
<0.5%
siendo
optimizados
0.5%
siendo
analizados
3%
preparados
para el análisis
BIG DATA
EL GRAN ABISMO
33. Gran Error
Gartner: "Alrededor del 2017, el 60% de los proyectos de Big Data no van más allá de la navegación y la indagación de los datos“.
Paradigm4: 76% de quienes han utilizado Hadoop o Apache Spark se han quejado de limitaciones significativas.
34. Solución Analítica
Captura e
Integración de la
data
desde multiples orígenes tanto
internos como externos
Descubriendo
conocimiento desde los
datos
con enriquecidos paneles interactivos e
informes utilizando las herramientas que
conoces
Conocimiento
puesto en acción
para aumentar la eficiencia e
incrementar la experiencia de
usuario
35. Definición de Analítica Avanzada
Advanced Analytics o Business Analytics, se refiere al análisis orientado al futuro que pueden utilizarse para ayudar a los cambios de escenarios y
mejoras en las prácticas de negocios. Se compone de tres fases que a continuación se exponen:
36. Definición de Analítica Avanzada
Análisis Descriptivo: Es lo que es generalmente denominado "Business Intelligence", ya que esta fase es donde se captura una gran cantidad de la
información digital. Luego estos datos grandes se condensan en repositorios más pequeños, haciendo más útiles la información, creando con ello
una comprensión de las correlaciones entre esos repositorios con el fin de averiguar por qué algo está ocurriendo ("Análisis de Diagnóstico"). En
definitiva, están proporcionando información sobre lo que ha sucedido, descubriendo tendencias y patrones de comportamiento. Un ejemplo es
Netflix usando ventas históricas y datos del cliente para mejorar su motor de recomendación.
37. Definición de Analítica Avanzada
Análisis Predictivo: Utiliza una variedad de estadísticas, modelado, minería de datos y técnicas para estudiar los datos históricos y actuales,
permitiendo así a los analistas hacer predicciones o pronósticos sobre el futuro. En definitiva, es una ayuda modelo y predice lo que podría
suceder. Por ejemplo, tomando los datos de las ventas, datos de redes sociales y datos meteorológicos para la previsión de la demanda de
productos de una determinada región y para ajustar así la producción de dicho producto. O puede utilizar análisis predictivo para determinar los
resultados como si un cliente le "se va o se queda" o "compro o No compro".
38. Definición de Analítica Avanzada
Análisis Predictivo: Va más allá de predecir los resultados futuros sugiriendo también acciones para beneficiarse de las predicciones y mostrando
al responsable de las consecuencias de cada opción de decisión. El Análisis Prescriptivo no sólo anticipa lo que ocurrirá y cuándo va a suceder
sino que también del por qué va a suceder. El resultado es una decisión usando simulación y optimización. En definitiva, se busca determinar la
mejor solución o curso preferido de acción entre varias opciones. Por ejemplo, las líneas aéreas filtran a través de millones de itinerarios de vuelo
para fijar un precio óptimo en un momento dado, basado en la oferta y la demanda. También, el análisis prescriptivo en el área de la salud
pueden ser utilizado para guiar acciones a las clínicas y hospitales haciendo las recomendaciones de un tratamiento prescrito basados en
modelos que usan la intervención histórica relevante y datos de los resultados.
39. Definición de Analítica Avanzada
• Descriptivo: ¿Qué pasó?"
• Diagnóstico: "¿Por qué sucedió esto?"
• Predictivo: "¿Qué pasará?"
• Prescriptiva: "¿Cuál es el mejor resultado
y cómo podemos hacer que suceda?
45. Perspectivasdedatosen
unaCascaradeNuez
¿Qué ha pasado?
¿Cuántos, cuanto, donde?
¿Dónde exactamente está el problema?
¿Qué acciones son necesarias?
¿Por qué está ocurriendo?
¿Qué pasa si continúan estas tendencias?
¿Qué va a pasar?
¿Qué es lo mejor que puede pasar? Optimización
Predictivo
Modelado
Pronóstico
Análisis
Estadístico
Alertas en
Tiempo
Real
Consultas
Drilldown
Reportes
Ad hoc
Reportes
Estándar
Eficienciadelaorganización
Grado de inteligencia
49. Análisis de datos es necesario en todas partes
Recomendación
para Ingenieros
Monitoreo
inteligente de
Medidores de
Servicios
Comunes
Equipo de
Monitoreo
Análisis de la
Publicidad
Investigación de
las Ciencias de la
Vida
Detección de
Fraudes
Resultados de
salud
Pronóstico del
Tiempo para la
Planificación de
Negocios
Exploración de
Petróleo y Gas
Análisis de Redes
Sociales
Análisis de
Escenarios
Desorganizados
Optimización del
Flujo de Trafico
Infraestructura IT
& Optimización
de Web App
Descubrimiento
Legal y
Almacenamiento
de Documentos
Recopilación de
los Servicios de
Inteligencia
Seguimiento
basados en
Ubicación y
Servicios
Geodésicos
Análisis de
Precios
Seguros
Personalizados
50. Políticas
personalizadas
pueden reducir los
costos y satisfacer
mejor las
necesidades del
cliente.
Las compañías de seguros pueden ayudar (y
algunos ya han comenzado a ayudar) a la
medida de sus clientes con planes de seguro
verdaderamente personalizados a sus
necesidades y riesgos.
Seguro Personalizado
Las compañías de seguros puede recopilar datos en tiempo real de
sensores en los automóviles y combinarlo con geolocalización y
sistemas internos. Con información de distancia y velocidad, pueden
proporcionar seguros personalizados, ofreciendo los mismos,
basándose en cantidad, factores de riesgo y otros, para un plan
verdaderamente personalizado que puede a menudo ahorrar a
controladores de conducción.
$1,600/año
Prima de seguro de coche de
promedio nacional de Estados
Unidos
51. Infraestructura IT y Optimización de las aplicaciones Web
Una solución que incluye
HDInsight puede administrar los
datos de alta velocidad sobre el
estado del servidor, su
comportamiento y otros
indicadores, y así enviar alertas
cuando se producen problemas.
Mejorar características y
performance de las aplicaciones
Web y monitoreo de datos de
uso y acceso a fuentes de datos
no estructurados en tiempo real.
Reducir los costos
con la
infraestructura
adecuada y
gestionar las
cuestiones
rápidamente.
Los Gerentes de IT y de Aplicaciones necesita
ser capaz de entender ambas métricas de
inmediato y a largo plazo para resolver
problemas y mantener los costos manejables.
52. La gran cantidad de datos de compra, calificación y evaluaciones en
clientes actuales y creciente pueden estar todo recopilado y manejado
con una solución basada en Hadoop, para identificar preferencias
basadas en historial de compras y demografía, y ser capaces de ser
útil y atractiva para las ventas cruzadas y aumentar las
recomendaciones de dichas ventas.
Recomendaciones de Motores de Búsqueda
Mejorar
significativamente
las oportunidades
de up-sell y cross-
sell.
Los minoristas pueden utilizar información
sobre las compras de los clientes y así valorar
la misma para atender las recomendaciones
de los clientes actuales, basándose en
similitudes a través de muchas dimensiones.
471
Artículos
vendidos/segundo
por Amazon.com el
12/02/2013 (El Lunes
Cibernético)
53. Los minoristas, sea grande, pequeño, online o en el lugar de la tienda
pueden mejorar márgenes de ventas con análisis más detallado de
precios. Cuando un cliente está en el rango de una transacción (ya
sea en la tienda, en línea o tal vez revisando ofertas), ofrecemos la
mismas personalizadas, cotizaciones de precios en tiempo real u otras
ventajas de comprador frecuente para ayudar a llevar más clientes a
la tienda y mejorar las futuras compras en el negocio.
Análisis de Precios
Mejorar
significativamente
las ventas y
satisfacción del
cliente.
Los minoristas pueden utilizar la información
de los cliente referente a sus compras,
preferencias y su información demográfica
para servir en tiempo real precios
personalizados, descuentos instantáneos
cuando se encuentren cerca de la tienda.
Hasta un 30%
Precios adicionales a los
usuarios de Mac
aceptados para viajes de
Orbitz
54. Mejorar los resultados de mercadeo públicos combinando datos
demográficos, historial de sitio en el navegador (o las compras en el
sitio de la tienda o cupón de campañas de ofertas pasadas) e historia
de la publicidad en análisis de datos significativos que sirve para
establecer anuncios relevantes para así proporcionar herramientas
para el análisis y reporting.
Análisis de Publicidad
Mejorar el retorno
de Marketing con
una respuesta de
anuncios
actualizados y
mejorados.
Los vendedores pueden utilizar información
de una página actualizada, más allá de la
compra, la preferencia y la información
demográfica para servir en tiempo real,
obligando a que los anuncios publicitarios
sean más propensos a verse.
8%
Haga clic en tarifa
con anuncios de
Hotmail.
55. Para reducir la rotación, debemos saber que cada cliente
individualmente se deberia establecer identificadores de señales de
alerta con una solución de análisis de datos, demografica e historia,
revisando y monitoreando los datos, pudiendo con esto hacer
esfuerzos proactivos para evitar deserciones de clientes antes de que
ocurra.
Análisis de Rotación de Clientes
Reducir la rotación
con campañas al
Cliente proactivo.
La Rotación de los Clientes pasa por muchas
de razones, incluyendo calidad, servicio, o
cuestiones de característica o nuevas ofertas
de los competidores. Análisis individual
pueden ayudar a reducir cada uno.
23%
Tasa de suscriptores
inalámbricos de
conmutación de servicios
en Europa y EE.UU, 2013
56. Casos legales pueden requerir la
administración de un gran número
de documentos que debe ser
identificados, recogidos,
almacenados, procesados y
revisado, para luego enviarse al
abogado opositor.
Descubrimiento Legal y Almacenaje de Documentos
Los Gobiernos y Grandes
Organizaciones recogen un gran
número de documentos que
deban compartirse internamente
o públicamente. Estos deben ser
organizados, investigable y
periódicamente revisados.
Encontrar
documentos con
mayor rapidez; para
no perder la
información
necesaria.
Gestión de Documentos y Contenido con una
solución de Almacén de Datos y Análisis de
Datos para encontrar la información correcta
basado en Búsquedas, Análisis de la
Semántica y coincidencia de Patrones de
Consumo.
>50%
De las organizaciones no
realizar un seguimiento de los
procesos de retención legal
(US, 2012)
58. Casos de uso con Big Data
• Salud: Se garantiza que sólo las personas que
tienen derecho son capaces de acceder a
atención primaria (evitando el "Turismo de
salud" en atención primaria). Streaming de
datos vitales.
• Ventas: Uso de hardware Kinect para ayudar a
reconocer los compradores y ofrecerles una
experiencia de compra en la medida mediante
la localización de un carrito de compras.
• Automotriz: Informe de sensores del vehículo
cuando una parte está prevista para el servicio,
y el propietario del vehículo y el concesionario
son notificados, o por parte del seguro.
• Manufactura: Transmisión de datos a través de
sensores.
59. Casos de Uso para el Análisis Predictivo
http://www.zdnet.com/article/getting-big-data-right-is-about-more-than-the-size-of-your-database/
61. Qué es un Lago de Datos?
Un repositorio de almacenamiento de información que contiene una gran cantidad de
datos en su formato nativo hasta que se necesite.
• Un lugar para almacenar cantidades ilimitadas de datos en
cualquier formato a bajo costo
• Generalmente utilizando Hadoop
• Permite la recopilación de datos que usted puede o no puede
usar más tarde: Un, "Por si acaso" aplica perfectamente
• Una manera de describir cualquier "alberca" grande de datos
en la que los requisitos de esquema y datos no están definidos
hasta que se consultan los mismos: "Just in time" o "Schema on
read"
• También como lo denomina Cloudera, Bitbucket, Landing Zone
o Centro de Datos Empresariales
62. Actual estado de los Data Warehouse
Enfoques Tradicionales
ETL
Fuentes relacionales a menudo bien
cuidadas
Formatos y volumen de los datos
conocidos y esperados
Poco o ningún cambio
Transformaciones complejas, rígidas
Requiere monitorización extensa
Transformación histórica de datos en
las estructuras de lectura
Acceso a datos planos, preservados o
multidimensional de datos históricos
Muchos informes, varias versiones de
la verdad
Demora de 24 a 48h
ALMACEN DE DATOS - DW
Star schemas ,
vistas
y otras estructuras-
de lectura
optimizadas
BI Y ANALITICS
Por correo electrónico,
Reportes y Panales
de Información
almacenado
centralizadamente en
Excel
MONITOREO Y TELEMETRIA
CRMERPOLTP LOB
ORIGENES DE DATOS
63. Actual estado de los Data Warehouse
Enfoques Tradicionales
Aumento de la variedad de fuentes de datos
Aumento de volumen de datos
Aumento de tipos de datos
La presión sobre el motor de la toma de
datos
Transformaciones complejas, siendo
rígidas ya no pueden mantener el ritmo
El Monitoreo es abandonado
Retraso en los datos, Incapacidad para
transformar los volúmenes, o reaccionar
positivamente a nuevas fuentes
Reparación, ajuste y rediseño de ETL
Informes se convierten en inservibles o ya no
son válidos
El Retraso aumenta la conservación de los
informes existentes
Los usuarios empiezan a "innovar" para aliviar el
hambre de sus necesidades de información
ETL
ALMACEN DE DATOS - DW
Star schemas ,
vistas
y otras estructuras-
de lectura
optimizadas
BI Y ANALITICS
Por correo electrónico,
Reportes y Panales
de Información
almacenado
centralizadamente en
Excel
MONITOREO Y TELEMETRIA
CRMERPOLTP LOB
ORIGENES DE DATOS
INCREMENTANDO EL VOLUMÉN
DE LOS DATOS
-DATOS NO RELACIONALES
INCREMENTO EN EL TIEMPO
REPORTES TRADICIONALES
64. Enfoques Tradicionales
• Eliminación de datos útiles mediante la
introducción de ETL? (Parcialidad)
• Potencialmente se pierden los datos
importantes
• Crear latencia en volúmenes de datos
incrementados donde cambian
fuertemente
• Los datos a través de ambientes ODS para
ETL
• El Hardware resulta muy costoso para
soportar todos los requerimientos de la
escala de procesamiento
El fuerte impacto sino hacemos nada
65. Transformación del Lago de Datos (Ahora es ELT y no ETL)
Nuevos Enfoques
Se consideran todas las fuentes de datos
Aprovecha el poder de las tecnologías On-
Premise y la nube para el almacenamiento y
captura
Formatos nativos, Transmisión de datos, Big Data
Extraer y cargar, Transformación mínima o
No aplicable
Almacenamiento de datos muy cerca de su
formato nativo
La Orquestación se hace posible
El alojamiento del Streaming de datos llega
a ser posible
Las refinerías transforman datos sobre lectura
Producir los conjuntos de datos para integrarlo
con los almacenes tradicionales
Los usuarios descubren conjuntos de datos
publicados y servicios utilizando herramientas
conocidas
CRMERPOLTP LOB
ORIGENES DE DATOS
FUTUROS
ORIGENES DE
DATOS
-DATOS NO RELACIONALES
EXTRAER Y CARGAR
LAGO DE DATOS – DATA LAKE
OTROS PROCESOS DE
REFINAMIENTO DE
DATOS
PROCESO DE REFINERIA DE DATOS
(TRANSFORMACIÓN EN LECTURA)
Transformando
datos relevantes
dentro de los
Datasets
BI Y ANALITICS
Descubre y
Consume
análisis predictivo,
conjuntos de
datos y otros
informes
66. Nuevos Enfoques
• Todo el "universo" de los datos es capturado y mantenido
• La minería de datos a través de la transformación de
lectura deja todos los datos en su lugar
• Las Refinerías aprovechar el poder de la nube y las
tecnologías tradicionales
• La Integración con metodologías de almacenamiento de
datos tradicionales
• La Escalabilidad puede ser empujado a la nube con mas
velocidad que lo tradicional
• La Orquestación de los datos es una realidad (Menos
rígida, Más flexible, Operacional)
• La Democratización de análisis predictivo, conjuntos de
datos, servicios e informes
Cambios en las necesidades básicas del Analista
68. Qué es Hadoop?
Sistema Distribuido, Escalabre en productos básicos en HW
Compuesto de unas pocas partes:
HDFS - Sistema de Archivos Distribuido
MapReduce - Modelo de Programación
Otras herramientas: Hive, Pig, SQOOP, HCatalog,
HBase, Flume, Mahout, YARN, Tez, Spark, Stinger,
Oozie, ZooKeeper, Flume, Storm
Principales actores son Hortonworks, Cloudera, MapR
ADVERTENCIA: Hadoop, ideal para el procesamiento de
grandes volúmenes de datos, es inadecuada para el análisis
de los datos en tiempo real (Empresas hacen análisis de
lotes en su lugar)
68
Núcleo de
Servicios
SERVICIOS
OPERACIONALES
SERVICIO DE
DATOS
HDFS
SQOOP
FLUME
NFS
LOAD &
EXTRACT
WebHDFS
OOZIE
AMBARI
YARN
MAP
REDUCE
HIVE &
HCATALOG
PIG
HBASEFALCON
Cluster Hadoop
compute
&
storage . . .
. . .
. .
compute
&
storage
.
.
Los Clústeres de Hadoop
proporcionan Escalabilidad,
Almacenamiento y
Procesamiento de datos
distribuido en el Hardware de
todos los Productos Básicos
69. Hortonworks Data Platform 2.2
En pocas palabras, Hortonworks ata todos los productos de código abierto en una sola plataforma
70. Hadoop no es!!!
• Una tierra de Unicornios y Hadas Madrinas que
resolverán todos sus problemas
• Una solución completa para el almacén de datos de
empresa
• Una forma rápida para analizar los datos en tiempo real
• Producir resultados valiosos, útiles en muchas empresas
• Pocos productos que son fáciles de usar
• Una tecnología que podrá fácilmente encontrar
desarrolladores experimentados para ""
• "Es gratis", lol...
• Es imperativamente necesaria en todos los proyectos
para procesamiento de datos No-Relacional / Semi-
Estructurados
• Suficiente para el manejo de grandes datos en
componentes preestablecidos ya que fue construido
para indexar la Web, PLOP...
• Va a reemplazar soluciones OLTP
71. El costo real de Hadoop
http://www.wintercorp.com/tcod-report/
72. Los Beneficios de Hadoop
• Proporciona almacenamiento para datos
grandes a un costo razonable, ya que
vendría siendo el desarrollar alrededor de
los componentes básicos de hardware
• Proporciona un entorno robusto, ya que
fue diseñado para proporcionar un
ambiente tolerante y de alto rendimiento
para conjuntos de datos extremadamente
grandes
• Permite la captura de nuevos o más datos
no estructurados, semi-estructurados y
estructurado en lote o en tiempo real
73. Los Beneficios de Hadoop
• Ahorra tiempos y recursos, ya que no es
necesario crear modelos de datos, en
lugar de otro esquema de lectura
• Los datos pueden ser almacenados más
tiempo, así que ya no tienes que depurar
los datos anteriores
• Proporciona análisis escalable mediante
almacenamiento distribuido y
procesamiento distribuido
• Brinda un análisis enriquecido de todos
los datos gracias al soporte para
lenguajes como Java, Mahout, Ruby,
Python y R
74. Razones para no usar Hadoop en nuestros
DW
• Hadoop no prevé una segunda subconsulta al leerla.
Usuario de los dashboard no quieren esperar más de
10 segundos para un trabajo MapReduce para poner
en marcha la ejecución de una consulta con Hive
• Hadoop no es relacional, ya que todos los datos
están en archivos HDFS, así que siempre hay un
proceso de conversión para convertir los datos en un
formato relacional
• IMPORTANTE: Hadoop no es un sistema de gestión
de base de datos. No tiene funcionalidades como
Actualización de Datos, Integridad Referencial,
Estadísticas, Cumplimiento de ACID, Seguridad de
datos y la gran cantidad de herramientas e
instalaciones necesarias para gobernar los activos de
todos los datos corporativos
75. Razones para no usar Hadoop en nuestros
DW
• No hay metadatos almacenados en HDFS, así que hay
que utilizar otra herramienta para almacenar los datos,
añadiendo con esto, complejidad y ralentizando el
rendimiento
• Es muy difícil encontrar conocimientos en Hadoop: el
pequeño número de personas que entienden de
Hadoop y todas sus diferentes versiones y productos
frente a la gran cantidad de personas que saben SQL
• Súper complejo, hay que generar mucha integración
con múltiples tecnologías para hacer que todo esto
funcione
• Muchas Herramientas - Tecnologías - Versiones -
Vendors (Fragmentación), Sin Estándar, Muy difícil
establecer un estándar corporativo
• Algunas herramientas de reporting mas populares no
funcionan contra Hadoop
76. Casos de usos usando Hadoop y un Almacén de
Datos (DW) en combinación
Que permite unir las islas de datos mediante Hadoop
Los datos de almacenamiento de datos son almacenados mediante
Hadoop (Movidos)?
(Hadoop como Cold Storage)
Exportación de datos relacionales para Hadoop (Copia)?
(Hadoop como Copia de Seguridad / Recuperación de Desastres,
Análisis, Cloud Use)
Importación de datos Hadoop dentro de un Data Warehouse (Copia)
(Hadoop como área de Almacenamiento, Zona de Refinamiento
de Datos)
78. Qué es la Interconexión Digital de Objetos
cotidianos con Internet (IoT)?
Conectividad Datos AnálisisObjetos
79. Qué es la Interconexión Digital de Objetos
cotidianos con Internet (IoT)?
Dispositivos conectados a Internet que pueden
percibir su entorno de ejecución de alguna manera
para compartir sus datos y comunicarse con usted.
IoT es sólo un término comodín para formas de
utilización de los datos generados por la máquina con
el fin de crear algo útil.
IoT = Datos adquiridos desde un sensor
• Tiene que un procesador y un sensor para recopilar
información
• Ejemplos: centro control de implantes, transpondedores de
biochips en animales de granja, automóviles con sensores
incluidos, dispositivos de operación de campo que ayudan a
los bomberos en el rol de búsqueda y rescate
• Excluye computadoras, tabletas y teléfonos inteligentes
• Pero realmente, es en el ámbito de la inteligencia de
negocio (BI) que IoT realmente hará una diferencia.
80. Qué es la Interconexión Digital de Objetos
cotidianos con Internet (IoT)?
Posibilidades Probables
• Cuando un cartón de leche está casi vacío se
hará ping cuando estás cerca de un
supermarket
• Un despertador que señala a su cafetera
para iniciar la elaboración del café cuando te
despiertas
• Un chip integrado que monitorea signos
vitales y notifica al médico si este supera el
límite establecido
Gartner: 10 mil millones de dispositivos
conectados a la Internet hoy en día, 26 Billones
serán en el 2020
82. El Moderno Almacén de Datos
• Pensar en las necesidades futuras:
Aumento de volúmenes de datos
Rendimiento en tiempo real
Tipos y nuevas fuentes de datos
Datos nacidos en la nubes
Solución multiplataforma
Arquitectura híbrida
83.
Datos de Origen Datos No Relacionales
El Moderno Almacén de Datos Definido
88. Consultas Federadas
Otros nombres: Virtualización de datos,
Almacén de datos lógicos, Federación
de datos, Base de datos virtual y
Almacén de datos descentralizados.
Un modelo que permite una sola
consulta con el fin de recuperar y
combinar los datos que se almacenan
de múltiples fuentes de datos,
conllevando con esto a la no necesidad
de utilizar ETL o aprender más de una
tecnología de recuperación
89. Consultas Federadas
Select… Result set
Datos
Relacionales
DB2
Oracle
MongoDB
SQL Server
Query Model
Datos No
Relacionales
Cloudera CHD Linux
Hortonworks HDP
Windows Azure
HDInsight
91. DW y la nube
• ¿Debe mover los datos a la nube? Esa es la cuestión. La respuesta no es sencilla. Mientras que el movimiento de datos a la nube es la molestia de muchos, el hecho es
que una gran mayoría de las empresas según Fortune 500, no mantienen los datos en la nube en todo. Al menos no todavía. ¿Por qué? Bueno, porque algunas de
estas razones incluyen:
• Preocupaciones de seguridad (Potencial de información comprometida, Cuestiones de privacidad cuando los datos se almacenan en una instalación pública, podría
ser más propensos a amenazas de seguridad externas debido a su alto perfil, algunos proveedores podrían implementar las mismas capas de protección que se
puede lograr en la empresa)
• Falta de control operativo: Falta de acceso a servidores (es decir, decir que es hackeado y querer llegar a la seguridad y los archivos del registro del sistema; si algo
sale mal no se tiene ninguna manera de controlar cómo y cuándo se realiza una respuesta, el proveedor puede actualizar el software, cambiar configuración y asignar
recursos sin su entrada o su aprobación; debe ajustarse al ambiente y normas implementadas por el Proveedor)
• Falta de propiedad (Una agencia externa puede llegar a datos más fácil que en el centro de datos en la nube que no poseen vs. Conocer los datos en su ubicación en
el sitio al cual le pertenece. O una preocupación es que comparten un centro de datos en la nube con otras empresas y una persona de otra empresa puede estar al
lugar cerca de sus servidores)
• Restricciones de conformidad
• Reglamentos (Salud, Financiera entro muchos mas)
• Restricciones legales (es decir, los datos no pueden abandonar su país)
• Políticas de empresa
92. DW y la nube
• Usted puede compartir recursos en el servidor, así como la
competencia por los recursos del sistema y de la red
• Se pueden conseguir datos robados en vuelo (es decir, desde el
centro de datos en la nube para el usuario On-Premise)
• Si usted puede conseguir más allá de la mayoría o todas estas
razones, la nube ofrece muchas ventajas:
• Arranca el servidor de forma rápida (Infraestructura abreviada en los
tiempos de aplicación de despliegue)
• Al crecer siendo la demanda necesaria (Escala Elástica Ilimitado).
Cambio de hardware al instante
• Reducir como lecciones de demanda (salario por lo que necesita)
• No necesita espacio de coubicación, así el ahorro de costes es muy
grato (Espacio, Energía, etc.)
• Sin costo de hardware
• Sin compromiso o bloqueo de proveedor a largo plazo
• Permite a las empresas beneficiarse de los cambios en la tecnología
que afectan a las últimas soluciones de almacenamiento
93. DW y la nube
• Alta disponibilidad y Recuperación de desastres generado por
nosotros
• Actualizaciones más frecuentes del Sistema Operativo, SQL Server,
etc.
• Actualizaciones automáticas
• Redundancia geográfica automática
• Muy útil para proyectos de desarrollo con una duración conocida o
de prueba de concepto (POC)
• Además, hay algunas restricciones de datos local:
• Escalar obliga a la contratación local
• Los costos iniciales de CAPEX (Inversiones en bienes de capitales), a
través de algunas compañías pueden preferir esto sobre un anual
funcionamiento de gastos OPEX (Gastos de Funcionamiento)
• Un grupo de empleados o consultores debe conservarse para
administrar y soportar el hardware y el software en su lugar
• Se deben tener en cuenta los conocimientos necesarios para el
ajuste e implementación
94. Puedo utilizar la nube con mi DW?
• Nube Pública y Privada
• Datos Cloud-born vs Datos On-Premise
born
• Transferir costos desde / hasta la nube y
On-Premise
• Datos sensibles On-Premise, Non-
Sensitive en la nube
• Mira otras soluciones híbridas
97. SMP vs MPP
• Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa
• Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)
• Los Segmentos se comunican a través de la red de alta velocidad entre
Nodos
MPP -
Procesamiento en
Paralelo Masivo
• Múltiples CPU's solía completar distintos procesos simultáneamente
• Todas las CPU comparten la misma memoria, los discos y los controladores de
red (Scale-Up)
• Todas las implementaciones de SQL Server hasta ahora han sido SMP
• Sobre todo, la solución se encuentra en un SAN compartido
SMP -
Multiprocesamiento
Simétrico
98. Gráfico Spider de Escalabilidad de un Data Warehouse
MPP – Escalabilidad Multidimensional
SMP – Sintonizable en una dimensión
en el coste de otras dimensiones
50 TB
100 TB
500 TB
10 TB
5 PB
1.000
100
10.000
3-5 Way
Joins
Joins +
Operaciones OLAP +
Agregaciones +
Complejas restricciones “Where”
+
Views
Paralelismo de ejecución
5-10 Way
Joins
Normalizado
Integración Multiple
Stars y Normalizado
Simple
Star
Multiple,
Integrated
Stars
TB’s
MB’s
GB’s
Batch Reporting,
Consultas Repetitivas
Consultas Ad Hoc
Data Análisis / Minería
Cercano al Tiempo Real
Data Feeds
Carga
Diaria
Carga
Semanal
Estratégico, Táctico
Estratégico
Estratégico,
Carga Táctica
Estratégico, Carga
Táctica, SLA
“Libertad de Querys“
“Complejidad de Querys“
“Datos Actuales”
“Volumen de Datos en Consultas“
“Concurrencia de Querys“
“Carga de Trabajo
Mezclada”
“Sofisticación de Esquemas“
“Volumen de Datos”
El gráfico representa
atributos importantes a
considerar para con esto,
evaluar las opciones de
almacenamiento de datos.
El soporte a Big Data es
una nueva dimensión.
99. ¿Cuándo es necesario una solución MPP?
• Necesitamos por lo menos 3x de mejora del
rendimiento de una consulta
• Estamos cerca de la capacidad actual de los
discos, y con ello ver una gran cantidad de
crecimiento en los próximos años
• Necesitamos apoyar nuestras consultas durante
una ventana de mantenimiento
• Tenemos que cargar los datos fuera de nuestra
ventana de mantenimiento
• Vamos a pasar un gran cantidad de dinero para
las FusionIO cards, SSDs, SSD, más espacio de
SAN, más memoria, una CPU más rápida entro
otros
100. Usted utiliza o va a utilizar "Bi
g Data" o "Hadoop"
Sin acceso o acceso limitado
a datos detallados; sólo
puede surgir informes
simples y no pueden hacer
preguntas ad-hoc.
Lento rendimiento de carga
de datos no puede
mantenerse al día con la
necesidad de datos de
sistemas transaccionales para
reporte intradía.
Procesamiento de cubos MO
LAP y actualización de datos
tardaron demasiado.
Rendimiento de consultas
lentas con necesidad de
adaptación constante,
especialmente con
almacenamiento SAN.
Alto costo de cálculo de
costos de almacenamiento
SAN.
Algunos tienen estos dolores de cabezas?
101. Recomendaciones
- Para el Arquitecto: Permítanos utilizar su
escritorio de trabajo para diseñarle la
arquitectura de su futuro proyecto y
mostrarle como todos los productos de
Microsoft trabajan juntos.
- Para la Alta Gerencia: Reunión
informativa
- Para el Líder de Proyecto: Discutir
soluciones híbridas que utilizan la nube
- Para los Analistas: Inmersión profunda
en los casos de uso para su industria
- No hacerlo solo: Traiga en ese consultor
103. Recursos
• La Moderna Bodega de Datos: http://bit.ly/1xuX4Py
• Fast Track Data Warehouse Reference Architecture for SQL Server 2014: http://bit.ly/1xuX9m6
• Moviendo nuestros datos hacia la nube: http://bit.ly/1xuXbKU
• Presentaciones sobre las modernas bodegas de datos (Ingles): http://bit.ly/1xuXcP5
• Presentación sobre como construir una efectiva arquitectura de una bodega de datos:
http://bit.ly/1xuXeX4
• Hadoop y Data Warehouses: http://bit.ly/1xuXfu9
• Que es la Microsoft Analytics Platform System (APS)? http://bit.ly/1xuXipO
• Casos de ejemplo sobre Parallel Data Warehouse (PDW): http://bit.ly/1xuXlSy
• Como definimos el Análisis Avanzado? http://bit.ly/1JInGBP
104. Jose Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com