2. A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas
E. Reflexión final
3. • Hacia 2020, 5,200 Gigabytes de
datos serán generados para cada ser
humano del planeta.
• Un motor de jet en un vuelo de
Londres a Nueva York genera 10
Terabytes de datos cada 30
minutos.
4. • El 90% de los datos del mundo
actuales fueron generados en los
últimos 2 años.
• Según MIT, las organizaciones
grandes tienen en promedio 5.000
fuentes de datos, pero 1-2% terminan
en su Data Warehouse.
5. • El crecimiento exponencial se torna
cada vez mas difícil de administrar.
• Los datos contienen información
poco obvia que las empresas
podrían descubrir para mejorar sus
resultados.
• Las medidas de datos son relativas.
Cada industria enfrenta desafíos de
distinto tamaño.
6. A. Definición de
Big Data!
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas
E. Reflexión final
7. ¿Qué es Big Data?
¿Análisis Predictivo
¿Business Intelligence?
¿Data Discovery?
¿Visualizaciones e infografías?
10. ¿Cual es nuestra frontera?
MB GB TB PB
tabla
base
de
datos
fotos
w
eb
audio
social video
m
obile
tiem
po
real
casitiem
po
real
periodico
batch
Velocidad
Volumen
Variedad
20. Big Data es la frontera de una
firma para almacenar, procesar y
acceder a todos los datos que
necesita para operar eficazmente,
tomar decisiones, reducir riesgos
y servir a los clientes.
21. A. Definición de Big Data
B. Aplicaciones!
C. Tecnologías
D. Mejores Prácticas
E. Reflexión final
23. Banca
Bienes de
Consumo
IT
Telcos y
comunicaciones
Servicio al
consumidor
Análisis
sentimental
Seguridad
informática
Churn
Riesgo
crediticio
Recomendación
de productos
Escabilidad de
Infraestructura
Gestión de
promociones
Detección de
Transacciones
fraudulentas
Predicción de
demanda en
tiempo real
Optimización de
protocolos
Alocación
inteligente de
capacidad
Upsell y cross-sell
de productos
Vista 360 del
consumidor
Predicción de
fallos
M2M
24. Gobierno y
ciudad
Biología y
Medicina
Energía y
utilidades
Internet
Predicción y
prevención del
delito
Genómica
Medidores
inteligentes
Asistente
virtual
Ciudad
inteligente
Registro de
enfermedades
Redes
mixtas
Contenido
personalizado
Digitalización de
documentos
Diagnóstico
médico en la
nube
Predicción de la
demanda
Aprendizaje
profundo
Open
Government
“Yo” cuantificado
Gestión de
energía desde el
consumidor
Internet of
Things
25. A. Definición de Big Data
B. Aplicaciones
C. Tecnologías!
D. Mejores prácticas
E. Reflexión final
32. Hadoop
• Almacenaje y procesamiento
barato y a escala.
• Es la tecnología dominante
para procesamiento distribuido
a gran escala. Crece 60%
anual a tasa compuesta.
• Sin embargo su nivel de
utilización se encuentra por
debajo del 6% en empresas.
34. Hadoop instala herramientas en cada nodo:
• Librerías y scripts en Java
• Un filesystem de alta
disponibilidad -> HDFS
• Una plataforma de gestión
de recursos de cómputo -> YARN
• Un motor de
extracción -> Map-Reduce
38. Soy maestro primario… tengo una caja de
lápices de color y cajas más pequeñas
->
Caja de
lápices
Un alumno:
toma lápiz, le
pone etiqueta, y
lo vuelca en su
caja (Ejemplo:
Rojo, 1)
->
Otro alumno:
toma caja y
suma los 1s
-> Lápices
por color
input
Map(..)
Reduce(..)
output
39. Map Reduce
Storm!
Drill!
HANA
Spark
Alto volumen, alta latencia Alto volumen, baja latencia
Procesamiento en batch Acceso a datos en memoria
Se define proceduralmente
Son queries a bases de datos
columnares como HBase,
Cassandra o MongoDB
Es adecuado para el
procesamiento total de datos
Es adecuado para producir
reportes ah-hoc y procesamiento
en tiempo real
40. • Persistencia
Cassandra, HBase
• Manipulación de datos
Pig, Pandas
• Búsqueda de texto
Solr, Lucene
Tecnologías complementarias
que hay que saber obligado
41. Tecnologías complementarias
que hay que saber obligado
• Machine Learning
Mahout, R, SAS, MADLib
• Real-time processing
Drill, Storm, Impala
• In-memory
SAP HANA, Apache Spark
42. fácil ranking de ventas por
región
difícil clientes que estén por
dejar el servicio
ultra difícil clientes que
muestran insatisfacción sobre
problemas aún no identificados
Consulta SQL
Clasificador
Programación
neuro linguistica
44. fácil ranking de ventas por
región
difícil clientes que estén por
dejar el servicio
ultra difícil clientes que
muestran insatisfacción sobre
problemas aún no identificados
Microstrategy
Modelo en R
Luminoso
45. Las bases de datos columnares
tienen grandes beneficios
• Aprovechamiento de procesamiento
masivo en paralelo (MPP).
• Posibilitan el almacenamiento en
memoria RAM.
• Fáciles de administrar y de leer
(viejo y conocido SQL)
• Soportan un volumen del orden de
los TBs sin problemas
46. Analytics in-database y funciones
definidas por el usuario
• Ganancia cualitativa en performance.
• Compatibles con lenguajes de markup
para aplicaciones de Data Mining
(PMML)
• Contendientes: Aster Data, Vertica,
Netezza, Greenplum (EMC), ParAccel,
SAP Sybase
48. A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas!
E. Reflexión final
51. Algunas Mejores
prácticas
1. Partir siempre de una hipótesis
antes de actuar sobre los datos
2. No construir Legacy
3. Definir una “autopista de la
información”
4. Seguir pensando en dimensiones e
indicadores
52. Algunas Mejores
prácticas
5. Construir una infraestructura
flexible y escalable (la nube)
6. Implementar flujos conectados a
las etapas de caché anteriores
7. Los datos mas próximos van a ser
sucios, pero debe agregarse valor
en la etapas subsiguientes
53. A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Kimball
E. Reflexión
final
55. –Brett Sheppard, director de Big Data, Splunk
“2014 will be the year of the big data non-
specialist. Until recently, many big data
projects—including those built with Hadoop—
have required the skills of highly trained data
scientists. They’ve also tended to rely on fixed
schemas and scheduled reporting that limit
the kinds of questions the system can answer.
Starting in 2014, line-of-business
employees will be able to ask and
answer their own questions using
raw, unstructured big data from
disparate sources. They won’t need to
rely on specialists to unlock the value of big
data. Inevitably, they’ll start using data to help
make decisions they previously might have
made on gut-feel alone. Decision-making will
also become a more creative process, as
employees of all kinds start asking questions
of their data to test hypotheses and explore
new approaches to old problems.”
Fuente: http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/
56. Fuente: Read Write Web, 26 de Diciembre 2013, http://readwrite.com/2013/12/26/big-data-myths-reality
58. Resumiendo
1. Las empresas pueden
capturar más datos que
nunca.
2. La explosión del social
media y del Internet of
Things son los principales
disparadores.
59. Resumiendo
3. Identificar lo importante
entre tanto ruido depende
del las capacidades
intuitivas y de la apertura del
tomador de decisiones.
4. Hadoop es una herramienta
extremadamente flexible
que pocos ejecutivos
entienden.
60. Resumiendo
5. El cliente va cambiando. Las
gerencias de negocio son
las nuevas compradoras de
software.
6. La apuesta es a largo plazo,
pero con foco en lo diario.
Las empresas necesitan de
la prueba y el error.
61. Big Data es pensar en nuevos
modelos de negocio basados
en las necesidades del futuro