El mundo de Big Data y Data Science es altamente técnico, pero entender cuáles son sus ideas centrales no requiere súper poderes. Explicaremos en qué consiste esta fascinante tendencia tecnológica y sus principales conceptos, herramientas y posibilidades.
1. Un viaje de mil millas empieza con el primer paso.
Lao-tsé
2. • Ingeniero de sistemas.
• Especialista construcción de software.
• Scrum Master Certified.
• Oracle Expert.
• Inmerso en la ciencia de datos (estudiante datascience coursera).
• 12 años de experiencia en TI:
• Arquitecto software / empresarial
• Líder técnico
• Líder de proyectos
• Administrador de bases de datos
• Java/Oracle/Arduino developer.
• Emprendedor
• Entusiasta robótica e internet de las cosas
Industrias
• Banca
• Manufactura
• Editorial
• Fábrica de software
• Educación
3. Agenda
• Retrospectiva humana
• Qué es Big data
• Tipos de datos
• Big data y las 4 vs
• Tecnologías big data
• Open data
• Educación en big data
• Información de interés
• Referencias
4. 18000 a 200 años antes de Cristo
Año 18000 ac, Los humanos utilizan por primera vez huesos para
registrar inventarios y actividades de intercambio.
Año 2400 ac, el ábaco es desarrollado y las primeras bibliotecas son
construidas en babilonia.
Año 300 ac, la biblioteca de Alejandría es la mas grande del mundo.
Año 200 ac, los griegos desarrollan el Mecanismo de Anticitera.
5. Año 1663, John Graunt – conduce el primer análisis estadístico, en un intento de frenar la
propagación de la peste negra en Europa.
Año 1865, Richard Millar Devens, acuñó el termino inteligencia de negocios.
Año 1881, Herman Hollerith primeros informáticos, máquina tabuladora de Hollerith,
luego IBM.
Año 1928, Fritz Pfleumer, diseña un método para almacenar datos, base de los sistemas
modernos
Año 1926, Nicola Tesla predice que en el futuro los hombres podrán acceder y analizar
vastas cantidades de datos usando dispositivos que caben en un bolsillo.
Después de cristo…
6. Año 1970, Edgar F cood diseña el modelo de base datos relacionales IBM, habilitando
a cualquiera para poder usar las bases de datos.
Año 1989, Erik Larson, en un artículo para un magazine, se utiliza el término big data:
los datos tiene una manera de ser utilizados para fines distintos a los previstos
originalmente.
Año 1991, nace internet, cualquier persona puede estar online, cargar datos y
descargar datos.
Año 1996, cae el precio del almacenamiento digital siendo mas barato este que
tenerlo en papel.
Después de cristo…
7. Año 1997, Google lanza su motor de búsqueda, siendo este el mas popular.
Año 1999, primer uso del termino big data en un paper académico: “Visually
Exploring Gigabyte Datasets in Realime(ACM)”.
Año 1999, Se usa el termino de internet de las cosas, en una presentación de
negocios de Kevin Ashton de Procter y Gamble.
En 2001, Doug Laney, define las 3 v’s: Volume, Velocidad, Variedad.
En 2005, Hadoop empieza a ser desarrollado por Apache Foundation.
Después de cristo…
8. Año 2008, globalmente 9,57 zettabytes de información es procesada por los
computadores del mundo.
Año 2009, El promedio de las compañías norteamericanas con mas de 1000
colaboradores, almacenan mas de 200 terabytes de información.
Año 2010, Google dice que ahora cada dos días se crean mas datos, que los creados
desde el inicio de la civilización hasta el 2003.
Año 2014, el uso de internet móvil sobre pasa al de los computadores de escritorio.
Después de cristo…
9. ¿Qué es Big Data?
Big data es el corazón de una revolución inteligente. La idea básica de la frase es
que todo lo que hacemos esta dejando cada vez mas una huella digital (dato), que
nosotros y otros podemos utilizar y analizar para ser mas inteligentes.
[Big data: using big data analytics and metrics to make better decisions]
10. ¿Qué es Big Data?
Big data esta cambiando la forma es que hacemos los negocios y la manera en que
vivimos como sociedad.
Simples actividades como escuchar música y ver videos, leer un libro electrónico,
manejar un automóvil, navegar por internet, comprar, jugar en línea, chat,
videollamadas, redes sociales(Facebook, twiter, g+, instagram) y muchas, muchas
mas!!.
El reto ahora es imaginar que no genera datos, si se usa internet y/o servicios
tecnológicos.
11. ¿Cómo se esta usando?
• Imagina cualquier cosa que pueda dejar un rastro digital.
• Deportes inteligentes
• Salud Inteligente
• Hogares Inteligentes
• Amor inteligente
• Paternidad Inteligente
• Música Inteligente
• Causas Humanitarias
• Selección de talento humano
• Negocios, industria.
• Muchos, Muchos, Muchos mas!!
13. Descripción big data y las 4 v’s
Volumen
Esto se refiere a vastos volúmenes de datos generados cada segundo, ya no se
mencionan terabytes, se habla de zettabytes o yottabytes.
Bytes diarios : 1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000 (IBM)
Medidas en bytes
15. Descripción big data y las 4 v’s
Velocidad
Se refiere a la velocidad en la cual los datos son generados.
La velocidad en la cual los datos generan mas datos con base en su contexto.
Ejemplo: trending topics en las redes sociales.
#EnUnaFiestaNoFalta
#MeGustariaQueUsted
#EstereoPicnicEs40
#VanGaalOut
El objeto es que la tecnología habilita la posibilidad de analizar la data mientras es
generada, incluso sin necesidad de colocar estos análisis en bases de datos.
16. Descripción big data y las 4 v’s
Variedad
Se refiere a los diferentes tipos de datos que ahora podemos usar y generar, en el
pasado solo se hablaba de datos estructurados almacenados en tablas en bases de
datos no relacionales información derivada de la operación de las organizaciones.
De hecho se concluye que 80% de los datos actuales en el mundo es información no
estructurada.
17. Descripción big data y las 4 v’s
Veracidad
Se refiere a la calidad de la big data, es un trabajo desafiante teniendo en cuenta que
la información puede venir abreviada, con hashtags, términos coloquiales, legibilidad,
precisión de la información.
Ejemplo:
19. Capas de Big Data y tecnologías
Data Source
Layer
Data Storage
Layer
Data
Processing /
Analysis Layer
Data output
Layer
20. Data Source Layer
• ¿Qué datos tengo (operación)?
• ¿Qué preguntas puedo responder?
• ¿Debo establecer nuevos origenes?
21. Data Storage Layer
• Aquí es donde big data se alojará (volumen), Distributed File System,
MapReduce, Hadoop Common, YARN.
• Google File System.
22. Data Processing/Analysis Layer
• Selección de elementos de los datos a analizar, colocarlos en un formato en
donde las ideas se puedan extraer.
23. Data Output Layer
• Presentación de ideas a través del análisis realizado a quienes pueden tomar
acciones de ellas, clara y concisa comunicación.
24. Open data
El 30 de septiembre de 2010 es una fecha importante para la historia de los datos
abiertos: el Archivo Nacional del Reino Unido liberó una licencia gubernamental de
reutilización de los datos generados por esa nación.
Numerosos científicos han subrayado la ironía de que precisamente en el momento
histórico en el que tenemos tecnologías para permitir la disponibilidad y el proceso
distribuido de datos científicos a nivel mundial, aumentando la colaboración e
incrementando el ritmo y la profundidad del descubrimiento estamos ocupados
confinando esos datos y vetando el uso de las pertinentes nuevas tecnologías sobre el
conocimiento.
26. Educación en Big data
• Web Intelligence and Big Data – Coursera
• Behind and Beyond Big Data – Stanford
• Big Data University - http://bigdatauniversity.com/
27. Eventos y datos de Interés
• Impacto de analytics en la creación de ventajas competitivas – Uniandes marzo 16.
• Convocatoria para conformar centros del excelencia – Colciencias.
• Para el 2015 se generaran 4 millones de empleos en el sector.
• Cursos y mas cursos online!!!
• Workshop en estadística aplicada – universidad Santo Tomas – Abril 22
• Concursos y bolsas de premios compite!!
• Otros meetups, otras regiones, temas comunes
• Discusiones de big data(definiciones, seguridad, privacidad, gamificacion, enfoques
ágiles, etc)