El documento habla sobre el Big Data y cómo los grandes volúmenes de datos que se generan a diario pueden usarse para obtener nuevos conocimientos. Explica que el Big Data se refiere al aumento exponencial de datos disponibles y menciona algunas aplicaciones como el estudio del genoma humano y la física de partículas. También describe herramientas como Hadoop, MapReduce, Pig y Cassandra que permiten almacenar y procesar grandes cantidades de datos de forma distribuida.
2. BigData: Océano de datos que nos
dan una visión diferente del mundo
que nos rodea.
3. Que es el Big Data ?
En la actualidad vivimos en una tendencia a
un aumento de los datos que percibimos y
de los que no, a esto se le llama Big Data.
Cada vez más estamos creciendo con el
pasar del tiempo estas cantidades de datos
aumentan con la creacion y utilizacion de
nuevas tecnologias como IoT, Moviles y
herramientas y servicios que nos permiten
agilizar nuestras vidas.
2000 2005 2010 2020
4. Qué podemos hacer ?
La información que nos rodea es
demasiada si la sabemos procesar nos
brinda información importante, para esto
saber de BigData es importante, algunas
de las cosas que podemos hacer son :
● Estudio del Genoma Humano
● Estudios en Fisica (Aceleracion de
Particulas)
● Estudios sociales.
● Predicción y Control.
5. MapReduce
es un framework que proporciona un sistema de
procesamiento de datos paralelo y distribuido. Su
nombre se debe a las funciones principales que
son Map y Reduce, las cuales explicaremos a
continuación. MapReduce está pensado para la
solución práctica de algunos problemas que
pueden ser paralelizados, pero se ha de tener en
cuenta que no todos los problemas pueden
resolverse eficientemente con MapReduce.
MapReduce está orientado a resolver problemas
con conjuntos de datos de gran tamaño, por lo
que utiliza el sistema de archivos distribuido
6. The team
Answer the question, “Why are we the ones to solve the problem we identified?”
Hadoop
Sistema de
Almacenamiento y
Procesamiento de datos
distribuidos
Pig Cassandra
Entorno de ejecución de
aplicativos basados en
MapReduce, permite
agilizar el procesamiento
de datos de Hadoop
Base de datos distribuida,
basada en el modelo no
relacional, tiene la
capacidad de almacenar
grandes volúmenes de
datos.
Hive
Suite para el trabajo con
datos de forma amigable,
utilizando clústeres de
hadoop para la ejecución
de funciones MapReduce
Herramientas
7. Datos Interesantes
Esta informacion es sobre el crecimiento en la cantidad de datos.
Inicia la revolucion de
las .com
Un año despues de creada la red
social mas grande del mundo,
empieza el bigdata a generarce.
Facebook se consolida como la
red social más importante y
Twitter Acecha
Se inicia la Web 3.0, los
Móviles atacan.
IoT, IPv6, Tor, entre
otras, aparecen.
2000 2005 2010 2011 2015
8. Referencias
Cisco, Internet será cuatro veces más grande en 2016, Artículo Web
http://www.cisco.com/web/ES/about/press/2012/2012-05-30-internet-sera-cuatro-veces-mas-grande-en-2016--informe-vi
ni-de-cisco.html
Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today, Artículo Web
http://www.dataversity.net/not-your-type-big-data-matchmaker-on-five-data-types-you-need-to-explore-today/
Clegg Dai, Big Data: The Data Velocity Discussion, Artículo Web
http://thinking.netezza.com/blog/big-data-data-velocity-discussion
Kobielus James, Big Data Analytics Helps Researchers Drill Deeper into Multiple Sclerosis, Artículo Web
http://thinking.netezza.com/blog/big-data-analytics-helps-researchers-drill-deeper-multiple-sclerosis
Aprenda más acerca de Apache Hadoop en http://hadoop.apache.org/
Zikopolous Paul, Deroos Dirk, Deutsch Tom, Lapis George, Understanding Big Data: Analytics for Enterprise Class
Hadoop and Streaming Data, McGraw-Hill, 2012
Foster Kevin, Nathan Senthil, Rajan Deepak, Ballard Chuck, IBM InfoSphere Streams: Assembling Continuous Insight in
the Information Revolution, IBM RedBooks, 2011