Proyecto fin de carrera que nos introduce en el paradigma de Big Data y de las tecnologías que como Hadoop y sus ecosistema permiten la recolección y procesamiento masivo de datos. Incluye un caso práctico de movimiento, transformación y presentación de métricas e indicadores aplicado al sector de las máquinas expendedoras (vendings).
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
1. Pedro Martínez Luque
Antonio Solano Tarroc
Natividad Duro Carralero
Raquel Dormido Canto
Autor:
Dirigido por:
Supervisado por:
Proyecto de Fin de Carrera de Ingeniería Informática
BIG DATA en CLOUD PaaS
para Internet de las Cosas
2. Índice
1.- OPENVEND : “El Proyecto Global”
2.- Internet de la Cosas.
3.- Los datos en la plataforma.
4.- BIG DATA ¿Qué es?¿Por qué?
5.- DESARROLLO: Actividades y Casos de Uso.
6.- Conclusiones
7.- Líneas futuras
BIG DATA en CLOUD PaaS para Internet de las Cosas
3. 1. OPENVEND : “El proyecto Global”
EL RETO: Mejorar la competitividad de las PYMES que ofrecen sus productos
a través de las máquinas expendedoras “vending sector”.
2015
Meta
Inicio
BIG DATA en CLOUD PaaS para Internet de las Cosas
4. 2. INTERNET DE LAS COSAS (IoT)
El Internet de los Ordenadores
ha pasado a ser el Internet de las
Cosas
Todo puede estar
conectado>>
Proceso: Mejora usabilidad
Logística : Aprovisionamiento optimizado
Clientes : Fidelización
OPENVend
BIG DATA en CLOUD PaaS para Internet de las Cosas
5. 3.- LOS DATOS EN LA PLATAFORMA
MULTIPLE
FORMATOS
Solución : { }
Almacenamiento
+
Procesamiento
BIG DATA en CLOUD PaaS para Internet de las Cosas
Arduino
SLIM Server
Opencart
Explosión
de datos
6. 4.- BIG DATA : ¿Qué es? y ¿Por qué?
BIG DATA es un paradigma que nació para cubrir las necesidades de
almacenamiento y procesamiento de grandes volúmenes de datos y
que no podían ser satisfechas por las tecnologías existentes.
VARIEDAD VELOCIDADVOLUMEN
Las “3 V”
Apache Hadoop es un framework que
permite el procesamiento de grandes
volúmenes de datos a través de clusters,
usando un modelo simple de programación.
Además su diseño permite pasar de pocos
nodos a miles de nodos de forma ágil.
VARIEDAD VELOCIDADVOLUMEN
Las “3 V”
BIG DATA en CLOUD PaaS para Internet de las Cosas
LA TECNOLOGÍA
7. 4.- BIG DATA : ¿Qué es? y ¿Por qué?
BIG DATA es un paradigma que nació para cubrir las necesidades de
almacenamiento y procesamiento de grandes volúmenes de datos y
que no podían ser satisfechas por las tecnologías existentes.
Las tecnologías BIG DATA permiten manejar PENTABYTES de
información con facilidad y soltura ….
BIG DATA en CLOUD PaaS para Internet de las Cosas
La pregunta es … no
estaremos matando
moscas a cañonazos ? VARIEDAD
• Nuevos mercados
• Nuevos segmentos
VOLUMEN
• Mayor certeza del
comportamiento.
VELOCIDAD
• Pulso real del
mercado requiere
“Muestra fresca”.
La respuesta es sencilla, si a las ventajas indicadas arriba
súmanos que la tecnología es gratis y las infraestructuras cada
vez más económicas en cloud…
por favor… denme dos !!!
8. 5.- Desarrollo : UN CASO PRÁCTICO
BIG DATA en CLOUD PaaS para Internet de las Cosas
Ofrecer un servicio de conocimiento al sector
de “vendings” de tal forma que pueda
extraer indicadores del desempeño del
conjunto de las máquinas expendedoras de
sus productos y un método de recolección ,
almacenamiento y procesamiento masivo
de información en el “cloud” para su análisis
y toma de decisión.
9. 5.- Desarrollo : ACTIVIDADES
BIG DATA en CLOUD PaaS para Internet de las Cosas
11. 5.DESARROLLO CU#01 : Integrar Data/PaaS en HADOOP
Usando módulos del ecosistema
transacciones
Registro
Inventario
Operaciones
DATOS
Operaciones
…
…
1
2
3SQOOP
SQOOP
12. 5.DESARROLLO
transacciones
DATOS
PHP :
{ RESTful }
Entorno Hadoop
Entorno Aplicación
(bigdataserver)
Entorno Acceso
(bigdataweb)
PHP :
{ RESTful }
Servicios de Integración
Java
transacciones
1
2
3
45
CU#02 : Integrar Data/PaaS en HADOOP
Usando API desarrollados para una integración nativa B2B
13. INFORMACIÓN
5.DESARROLLO
Agente SQOOP
Generador de medidas
DATOS
Agente SQOOP
Exportador de medidas
INDICADORES
2
CU#03 : Generación de métricas e indicadores
Uso del ecosistema para la generación y aprovisionamiento de información a partir de los datos
1
3
4
17. 5.DESARROLLO CU#04 : SaaS Portal / Dashboard
Ejemplo de métricas
Contador de número de servicios vending activo en la nube.
Contador de número de clientes diferentes que han
comprado desde el inicio del día hasta este instante.
Contador de número de ventas realizadas en el día.
Contador de valor de facturación realizadas en el día.
19. 5.DESARROLLO CU#04 : SaaS Portal / Dashboard
Multidispositivo…
Acceso desde puestos de trabajo, tablets, smartphones …
Vista desde una “Tablet” Vista desde un “Smartphone”
20. • La metodología ágil SCRUM ha sido muy efectiva y
productiva.
• Buenas prestaciones de las tecnologías de hardware y
software libre de bajo coste.
• Hadoop abre la puerta a cualquier tipo de análisis de datos
con alto grado de efectividad en la determinación de
comportamientos.
• Pasar de “Buscar” a “Preguntar” , de “Preguntar” a que nos
“Busquen” gracias a Internet de las Cosas “IoT”.
• Entorno replicable a otros puntos de venta y sectores.
6.- CONCLUSIONES
…
BIG DATA en CLOUD PaaS para Internet de las Cosas
21. • NEGOCIO:
• Integrar y analizar campañas, consumos, rutas
y generar los patrones de comportamiento.
• Integrar y analizar entradas de redes sociales.
• TÉCNICAS:
• Agregar MAHOUT para determinar predicciones
basadas en sistemas de aprendizaje y múltiples
algoritmos (Regresión, Identificar datos similares ,
colaboraciones…).
• Implementar las NOTIFICACIONES.
• Fortificación y securizar el acceso.
7.- LÍNEAS FUTURAS
BIG DATA en CLOUD PaaS para Internet de las Cosas
Extensión del proyecto : BIG DATA en CLOUD PAAS para Internet de las Cosas.
Incorporar tecnologías de análisis de datos con BIG DATA que permitan mejorar la experiencia de compra de los consumidores y que generen eficiencias operacionales, redundando todo ello en incrementos de ventas y reducción de costes.
Objetivo final: convertirse en el repositorio de información del que extraer patrones de conducta y de consumo de cualquier sector de venta.
Yahoo ha anunciado que está utilizando Hunk para analizar 600 petabytes de datos almacenados en Hadoop y además esta indexando 150 terabytes de datos al día con Splunk Enterprise. Estas magnitudes de datos toman aun mas relevancia cuando Yahoo es la propia inventora de Hadoop y tiene uno de los mayores clusters de Hadoop en producción.
business intelligence, se almacenan datos
Nos emocionamos por los seguidores que tenemos en las redes sociales pero nos olvidamos de que a veces no son seguidores nuestros sino de Mark Zuckerberg, quien podría eliminar el servicio cuando quisiera y nuestro conocimiento podría desaparecer si no lo hemos llevado a nuestro terreno
Volumen : cuanto más volumen más certeza en la determinación del comportamiento de una métrica.
La variedad : cuanto más amplia sea la fuentes de información más permite expandirse en el mercado hacia nuevos usuarios y nuevos segmentos
Yahoo ha anunciado que está utilizando Hunk para analizar 600 petabytes de datos almacenados en Hadoop y además esta indexando 150 terabytes de datos al día con Splunk Enterprise. Estas magnitudes de datos toman aun mas relevancia cuando Yahoo es la propia inventora de Hadoop y tiene uno de los mayores clusters de Hadoop en producción.
business intelligence, se almacenan datos
Nos emocionamos por los seguidores que tenemos en las redes sociales pero nos olvidamos de que a veces no son seguidores nuestros sino de Mark Zuckerberg, quien podría eliminar el servicio cuando quisiera y nuestro conocimiento podría desaparecer si no lo hemos llevado a nuestro terreno
Volumen : cuanto más volumen más certeza en la determinación del comportamiento de una métrica.
La variedad : cuanto más amplia sea la fuentes de información más permite expandirse en el mercado hacia nuevos usuarios y nuevos segmentos
Extensión del proyecto : BIG DATA en CLOUD PAAS para Internet de las Cosas.
Incorporar tecnologías de análisis de datos con BIG DATA que permitan mejorar la experiencia de compra de los consumidores y que generen eficiencias operacionales, redundando todo ello en incrementos de ventas y reducción de costes.
Extensión del proyecto : BIG DATA en CLOUD PAAS para Internet de las Cosas.
Incorporar tecnologías de análisis de datos con BIG DATA que permitan mejorar la experiencia de compra de los consumidores y que generen eficiencias operacionales, redundando todo ello en incrementos de ventas y reducción de costes.