Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Big data Jornada Fundación Ramón Areces
1. Un universo de datos. El
fenómeno Big Data y la Ciencia
Joaquín Salvachúa @ DIT ETSIT UPM
joaquin.salvachua@upm.es
2. Movimiento browniano
• Movimiento aleatorio de particulas en un
medio fluido.
• Analizado en función de la agregación de los
movimientos de las moléculas del agua.
• ¿Que ocurriría si tuviesemos acceso a los
movimientos de TODAS las moleculas del
agua? (en vez de una agregación de datos).
3. Movimiento browniano
social toda la
• Actualmente podemos tener
información de lo que realiza una persona.
• ... Incluso lo que piensa, siente o desea
(facebook, twitter, etc).
• .. Movimientos (smartCity, smartCar).
• El mundo como un gran fuente de datos.
4. Datos
• Análisis en casi tiempo real.
• Acceso a mayor cantidad de datos, de todo
tipo, relevancia y veracidad.
• Posiblidad de almacenarlos todos.
• Posiblidad de procesar y guardar TODOS los
datos. ( 1 W / n R ).
5. ¿Muerte del método
científico?
• ¿Modelo analítico? tengo datos...
• Evitar razonar sobre el problema.
• Ciencia guiada por datos.
• El mundo como experimento (gripe)
6. Big Data
• Capacidad de manipular grandes cantidades
heterogeneas de datos.
• Volumen
• Variedad
• Velocidad
• Veracidad
7. Volumen grande
• Es como lo de antes.. pero más
• Bussines intelligence.
• ¿Seguro?
• ¿Podemos tener una hormiga de 10 m de
largo?
8. Almacenamiento y
procesado
• Diversos enfoques para sistemas
distribuidos.
• Problemas de resistencia a caidas, dificultad
de configuración etc.
• Evitar que sea necesario manejar dichos
datos.
9. Sistemas de
almacenamiento
• BigTable (google GFS ) 2006
• Imitado en Hadoop (HDFS)
• Almacen clave-valor sin estructura.
• Discos baratos y fungibles (3 replicas)
10. P2P
• Sistemas autoregulados y autoconfigurados.
• Basados en DHT (Distributed Hash Tables)
• Base de los sistemas de compartición de
ficheros P2P.
• Bases de datos NoSQL
11. • Sistema deMapReduce
procesado distribuido
autoorganizado y autosincronizado.
• Diseñado por google (2004)
• Estado en disco.
• Dos fases.
12. Hadoop y otras hierbas.
• Proyecto de software libre Apache que
replica la infraestructura inicial de google.
• Escrito en Java.
• Diversas capas para que sea más sencillo
usarlo.
13. Relación con
CloudComputing
• Despliegue de Hadoop en la nube.
• Pagas por lo que gastas.
• Soporte en los distintos proveedores.
• Engarce con sistemas de almacenamiento y
de procesado de valores.
14. Variedad
• Manipulación de datos no estructurados, ni
agregados.
• Necesidad de “cocinarlos” previamente.
• De múltiples fuentes no disjuntas:
redundancia.
• Sobrepasar las ideas de la fracasada web
semántica. (enfoque más pragmatico).
15. Velocidad
• Problema en transportar datos de un sensor
a un almacenamiento o entre
almacenamiento.
• Necesidad de procesarlos rapidamente.
• Esquemas similares a multimedia.
• Uso de GPUs.
• Procesado en “streamming”.
16. Visualización
• Mark Twain : "Lies, damned lies, and
statistics Visualization”.
• Componente vital de todo análisis.
• Parte artistica del análisis.
• Nicho de gran futuro.
17. Privacidad
• Cambio en el esquema.
• Saben como nos comportamos (tipado de
patos// duck-typing ).
19. IoT & SmartCities
• Fuente de datos en crudo.
• Abundancia de sensores: nuevos API.
• Problemas de almacenamiento: procesado
distribuido.
• Ciudades inteligentes: propiedad emergente
de sistemas analizados con BigData.
20. Problemas prácticos
• Podemos sintetizar atributos a los que
debemos aplicar la ley de protección de
datos.
• Inferir sexo, orientación sexual, religión.
• Dificultad de la anonimización de los datos:
esquemas de federación de busquedas-
resultados.
22. Periodismo de datos
• Importancia de saber procesar datos no solo
por científicos.
• Importante para la sociedad.
• OpenData
• Necesidad de entornos sencillos.
23. “Los limites de mi lenguaje
son los limites de mi mundo”
• R : Comunidad y flexibilidad
• Julia : Rapidez.
• NumPy (selección por parte de Darpa)
24. Problemas clásicos
• Lo ha dicho el “BigData”: Eliminación de
teletrabajo en Yahoo (Marisa Mayer).
• GarbageIn-Garbage-Out
25. Social Media.
• Importancia del analisis basado en ciencia
de redes.
• Extrapolable a otros campos.
• el Grafo social como “mi tesoro”.
• Ciencia de las redes.
• Necesidad de avances teóricos.
26. Problemas de procesado de
grafos
• Almacenamientos poco orientado a análisis
de grafos
• Nuevos enfoques
• (Google Pregel 2010)
• ¿ enfoque correcto ?
28. Triste es pedir... pero más
triste es robar.
• Dificultad de acceder a “datasets”
interesantes.
• ¿Es realmente el nuevo petroleo?
• Enfoques abiertos y colaborativos.