SlideShare une entreprise Scribd logo
1  sur  35
una consultora tecnológica
que piensa en colores
para organizaciones vivas
una consultora tecnológica
que piensa en colores
para organizaciones vivas
Big Data Analytics con Hadoop, Spark y Power BI
Adrián del Rincón López
arincon@encamina.com - @adderin
Soy Ingeniero Superior de Telecomunicaciones en la especialidad de Telemática por la
Universidad de Valencia.
Me apasiona la programación, y todo lo relacionado con los ordenadores y la movilidad, y lo
último en tecnología en general.
Analista / programador especializado en .Net y SharePoint. Experiencia desarrollando
aplicaciones ASP.NET y JavaScript (usando el Framework Ext JS), integradas con Sharepoint
durante varios años.
Actualmente trabajo en ENCAMINA con el rol de Arquitecto de software en los distintos
proyectos en los que participo.
Especialidades: .NET, Sharepoint, JavaScript, telemática, programación, informática, redes
Alberto Diaz Martin
alberto.diaz@encamina.com - @adiazcan
Alberto Diaz cuenta con más de 15 años de experiencia en la Industria IT, todos ellos trabajando
con tecnologías Microsoft. Actualmente, es Chief Technology Innovation Officer en ENCAMINA,
liderando el desarrollo de software con tecnología Microsoft, y miembro del equipo de
Dirección.
Para la comunidad, trabaja como organizador y speaker de las conferencias más relevantes del
mundo Microsoft en España, en las cuales es uno de los referentes en SharePoint, Office 365 y
Azure. Autor de diversos libros y artículos en revistas profesionales y blogs, en 2013 empezó a
formar parte del equipo de Dirección de CompartiMOSS, una revista digital sobre tecnologías
Microsoft.
Desde 2011 ha sido nombrado Microsoft MVP, reconocimiento que ha renovado por séptimo
año consecutivo. Se define como un geek, amante de los smartphones y desarrollador.
Fundador de TenerifeDev (www.tenerifedev.com), un grupo de usuarios de .NET en Tenerife, y
coordinador de SUGES (Grupo de Usuarios de SharePoint de España, www.suges.es)
EDURME es la plataforma sobre la que evolucionar como
entidad educativa hacia la verdadera Transformación Digital
(Educational Relationship Management Engine)
• EDURME es un motor de relaciones con
el alumno durante todo su ciclo de
vida:
˗ Solicitud de información
˗ Solicitud de admisión
˗ Alumno
˗ Alumni
• EDURME facilita la interacción entre el
alumno y el colegio, universidad,
academia o escuela de negocio.
Sus cualidades…
Funnel del alumno
Interacción Multicanal
Bots en Facebook, Twitter, Landing Pages, Canales Sociales, E-mail, Teléfono,
Chat online, Skype
Inteligencia de Acompañamiento
BigData de producto + Conversación automatizada, Asesoramiento remoto
humano (Chat online, Skype, teléfono)
Ingesta de Datos
Contacto (nuevo o modificado) o Cliente Potencial, Listas de Marketing
asociadas a campaña o producto
Lead Nurturing
Maduración del Lead, Actualización y Cualificación del lead
Atención y Recualificación de Leads
Gestión de colas de trabajo, Actividades de CRM (llamadas, e-mails, etc),
Cualificación manual del lead
BackOffice
Cualificación del alumno
Motor de Scoring para Educación
RETO:
Dar respuesta de una forma eficiente y adecuada a
estas preguntas:
 ¿Cómo distingo que leads de mi sistema CRM
Educación son de calidad?
 ¿Puede iniciar el equipo comercial con un
seguimiento personalizado del contacto?
SOLUCION:
Diseño de los procesos que permiten determinar el
nivel de interés de los leads en función a su
comportamiento, características propias y tipología
de productos en los que muestra interés. Datos
que, muchas veces, es posible obtener de los
propios sistemas de información con los que se
trabaja.
Dimensiones
 ¿Colegio o universidad?
 Nivel educativo ¿Se trata un grado o es un
postgrado?
 Titulación: ¿Grado en Ingeniería o Medicina?
 Idioma ¿Cuál es el idioma de la titulación?
 ¿Se trata de una titulación oficial o es una
titulación propia?
 Producto complementarios ¿trimestre en el
extranjero?
Model & ServePrep & Train
Databricks
HDInsight
Data Lake Analytics
Custom
apps
Sensors
and devices
Store
Blobs
Data Lake
Ingest
Data Factory
(Data movement, pipelines & orchestration)
Machine
Learning
Cosmos DB
SQL Data
Warehouse
Analysis Services
Event Hub
IoT Hub
SQL Database
Analytical dashboards
Predictive apps
Operational reports
Intelligence
B I G D ATA & A D VA N C E D A N A LY T I C S AT A G L A N C E
Business
apps
10
01
SQLKafka
What is Azure Databricks ?
A fast, easy and collaborative Apache® Spark™ based analytics platform optimized for Azure
Best of Databricks Best of Microsoft
Designed in collaboration with the founders of Apache Spark
One-click set up; streamlined workflows
Interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.
Native integration with Azure services (Power BI, SQL DW, Cosmos DB, Blob Storage, ADF, SQL DB, AAD)
Enterprise-grade Azure security (Active Directory integration, compliance, enterprise -grade SLAs – 99.95%)
Proyectos típicos de Data Science
¿Qué les importa a los científicos de datos?
EXPERIMENTACIÓN
RÁPIDA
VISUALIZACIÓN
DE
DATOS
COLABORACIÓN
ENTRE
EQUIPOS
INTERCAMBIO
FÁCIL DE IDEAS
Desafíos para los científicos
de datos
• Gestión de infraestructuras
• Exploración y visualización de datos a
escala
• Tiempo de valor-desde iteraciones de
modelo a inteligencia
• Integrando con varias herramientas de
ML para implementar una solución
conjunta
• Operacionalización de modelos de ML
para integrarlos en aplicaciones
Motor de Databricks optimizado
DATABRICKS I/O SERVERLESS
Espacio de trabajo colaborativo
Cloud storage
Data warehouses
Hadoop storage
IoT / streaming data
Rest APIs
Machine learning models
BI tools
Data exports
Data warehouses
Azure Databricks
Mejorar la productividad
Implementar trabajos de producción y flujos de trabajo
APACHE SPARK
MULTI-STAGE PIPELINES
DATA ENGINEER
JOB SCHEDULER NOTIFICATION & LOGS
DATA SCIENTIST BUSINESS ANALYST
Construir en cloud segura y de confianza Escala sin límites
A Z U R E D A T A B R I C K S
¿Por qué Azure Databricks
para Data Science?
• Fácil de crear y administrar clústeres
computacionales que escalan
automáticamente
• Desarrollo rápido utilizando el espacio de
trabajo integrado que facilita la
colaboración entre equipos
• Exploración interactiva con cuadernos
• Integración sin fisuras con las
herramientas y bibliotecas de ML
• Soporte de deeplearning con GPU
Introducción a Spark
Un marco de procesamiento de datos unificado, de código abierto y paralelo para grandes análisis de datos
Spark Core Engine
Spark SQL
Interactive
Queries
Spark Structured
Streaming
Stream processing
Spark MLlib
Machine
Learning
Yarn Mesos
Standalone
Scheduler
MLlib
Machine
Learning
Streaming
Stream processing
GraphX
Graph
Computation
INGEST STORE PREP & TRAIN MODEL & SERVE
Advanced analytics
Azure Blob Storage
Logs, files and media
(unstructured)
Azure SQL Data
Warehouse
Azure Data Factory
Azure Analysis
Services
Polybase
Business/custom apps
(Structured)
Power BI
Azure Databricks
(Python, Scala, Spark SQL)
Azure Databricks
(Spark ML, Spark R, SparklyR)
Intelligent Apps
Cosmos DB
Preparar los datos
Complexities in processing
DATOS
COMPLEJOS
Diversos formatos de
datos(json, avro, binary, …)
Los datos pueden estar
sucios,
tarde, fuera de orden
SISTEMAS
COMPLEJOS
Diversos sistemas de
almacenamiento(Kafka,
Azure Storage,Event Hubs,
SQL DW, …)
Fallos del sistema
CARGAS DE
TRABAJO
COMPLEJAS
Combinar con consultas
interactivas
Machine Learning
Transformar datos
Cast binary value to string
Name it column json
Parse json string and expand into nested columns, name it data
val parsedData = rawData
.selectExpr("cast (value as string) as json")
.select(from_json("json", schema).as("data"))
.select("data.*")
json
{ "timestamp": 1486087873, "device":
"devA", …}
{ "timestamp": 1486082418, "device":
"devX", …}
data (nested)
timestamp device …
1486087873 devA …
1486086721 devX …
from_json("json")
as "data"
DEMO
Preparando los datos
Buscando un algoritmo
27
Scenarios
• E-mails – Clasificar correos electrónicos
como spam o no spam (Clasificación)
• Análisis de la rotación de clientes
(Clasificación)
• Predecir las ventas utilizando datos de
ventas históricos (Regresión)
• Recomendación de película
• Detección de anomalías (aprendizaje no
supervisado)
Spark MLlib
Introduced in Spark 0.8
Now (Spark 2.0)
• Contributions from 75+ orgs, ~250
individuals
• Growing coverage of distributed
algorithms
Spark
SparkSQL Streaming MLlib GraphX
¿Por qué usar Azure Databricks
para Machine learning?
• Plataforma completa en una
(recopilación de datos, exploración,
transformación, featurización,
construcción de modelos, afinación
de modelos e incluso servicio de
modelos).
• No hay necesidad de copiar los
datos en nuestro sistema para hacer
ml en él.
• A los DataScientists les gusta su
facilidad de uso.
• Productionization Features built in.
Model Selection
Cross Validation
...
Best Model
Model #1
Training
Model #2
Training
Feature
Extraction
Model #3
Training
DEMO
Buscando un algoritmo
Entrenamiento del modelo
34
Cross Validation and Tuning
Cross Validation
Model
Training
Feature
Extraction
regularization
parameter:
{0.0, 0.1, ...}
DEMO
Entrenamiento del modelo
ML Export
• ML Model Export allows you to export models and full ML
pipelines
• Exported models and pipelines can be imported in (Spark
and non-Spark) platforms to do scoring and make
predictions
• Targeted at low-latency, lightweight ML-powered
applications
DEMO
Publicamos y consumimos un
modelo
Los beneficios de
Azure Databricks
• El major de la clase, Spark - Administrado, Simple,
Rápido
• Se conecta a todos sus datos y servicios existentes –
SQL, Cosmos, Azure Storage, Event Hubs, IOT Hubs,
ADF, Power BI
• Mejoras en el rendimiento – Delta, DBIO Caching
• Escalado automático y optimización de costes
• Construido en tolerancia a fallos
Para estar al loro de nuestros próximos eventos…¡síguenos!
ENCAMINA @ENCAMINA+Encamina Piensa en Colores ENCAMINA
MyENCAMINA
ENCAMINA.TV encamina_piensa_en_colores
Encamina Piensa en Colores

Contenu connexe

Similaire à Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI

PowerBI como eje de la adopción de M365
PowerBI como eje de la adopción de M365PowerBI como eje de la adopción de M365
PowerBI como eje de la adopción de M365Rocío Romero López
 
A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016Analytics10
 
Portal del Cliente D365 FO, D365CE, Power Platform y Dataverse
Portal del Cliente D365 FO, D365CE, Power Platform y DataversePortal del Cliente D365 FO, D365CE, Power Platform y Dataverse
Portal del Cliente D365 FO, D365CE, Power Platform y DataverseDQSconsulting
 
50 claves para conocer PowerBI
50 claves para conocer PowerBI50 claves para conocer PowerBI
50 claves para conocer PowerBIStratebi
 
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....Alberto Diaz Martin
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Ricardo Sada
 
SharePoint Saturday Madrid 2019 - Productivity based on AI
SharePoint Saturday Madrid 2019 - Productivity based on AISharePoint Saturday Madrid 2019 - Productivity based on AI
SharePoint Saturday Madrid 2019 - Productivity based on AIAlberto Diaz Martin
 
Servicios STS
Servicios STSServicios STS
Servicios STScaessars
 
Webinario PowerApps Portals
Webinario PowerApps PortalsWebinario PowerApps Portals
Webinario PowerApps PortalsDQSconsulting
 
Herramientas CASE
Herramientas CASEHerramientas CASE
Herramientas CASEI R
 
Autoservicio BI
Autoservicio BI Autoservicio BI
Autoservicio BI NexTReT
 
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...GIANFRANCOMONTENEGRO2
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Teamnet centro de competencia
Teamnet centro de competenciaTeamnet centro de competencia
Teamnet centro de competenciaTEAMNET
 
Inteligencia de Negocio - Que Planeta es eso?
Inteligencia de Negocio - Que Planeta es eso?Inteligencia de Negocio - Que Planeta es eso?
Inteligencia de Negocio - Que Planeta es eso?Joseph Lopez
 
Sunqu Catálogo Perfiles
Sunqu Catálogo Perfiles Sunqu Catálogo Perfiles
Sunqu Catálogo Perfiles SUNQU
 

Similaire à Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI (20)

PowerBI como eje de la adopción de M365
PowerBI como eje de la adopción de M365PowerBI como eje de la adopción de M365
PowerBI como eje de la adopción de M365
 
A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016
 
Portal del Cliente D365 FO, D365CE, Power Platform y Dataverse
Portal del Cliente D365 FO, D365CE, Power Platform y DataversePortal del Cliente D365 FO, D365CE, Power Platform y Dataverse
Portal del Cliente D365 FO, D365CE, Power Platform y Dataverse
 
50 claves para conocer PowerBI
50 claves para conocer PowerBI50 claves para conocer PowerBI
50 claves para conocer PowerBI
 
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
VLCSofting 2017 - Modernizando las fábricas hacia el concepto de factorías 4....
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1
 
SharePoint Saturday Madrid 2019 - Productivity based on AI
SharePoint Saturday Madrid 2019 - Productivity based on AISharePoint Saturday Madrid 2019 - Productivity based on AI
SharePoint Saturday Madrid 2019 - Productivity based on AI
 
Servicios STS
Servicios STSServicios STS
Servicios STS
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
Webinario PowerApps Portals
Webinario PowerApps PortalsWebinario PowerApps Portals
Webinario PowerApps Portals
 
Hoja de vida
Hoja de vidaHoja de vida
Hoja de vida
 
Herramientas CASE
Herramientas CASEHerramientas CASE
Herramientas CASE
 
Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
Autoservicio BI
Autoservicio BI Autoservicio BI
Autoservicio BI
 
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
Presentacion Expo Work International 2022 - Big Data and Business Intelligenc...
 
Exposicion Base de Datos
Exposicion Base de DatosExposicion Base de Datos
Exposicion Base de Datos
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Teamnet centro de competencia
Teamnet centro de competenciaTeamnet centro de competencia
Teamnet centro de competencia
 
Inteligencia de Negocio - Que Planeta es eso?
Inteligencia de Negocio - Que Planeta es eso?Inteligencia de Negocio - Que Planeta es eso?
Inteligencia de Negocio - Que Planeta es eso?
 
Sunqu Catálogo Perfiles
Sunqu Catálogo Perfiles Sunqu Catálogo Perfiles
Sunqu Catálogo Perfiles
 

Plus de Alberto Diaz Martin

Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search API
Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search APIMicrosoft 365 Virtual 2020 Spain - Microsoft Graph Search API
Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search APIAlberto Diaz Martin
 
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...Alberto Diaz Martin
 
GAB 2019 - Graph as a data store
GAB 2019 - Graph as a data storeGAB 2019 - Graph as a data store
GAB 2019 - Graph as a data storeAlberto Diaz Martin
 
DotNet Conf Madrid 2019 - Whats New in ML.NET
DotNet Conf Madrid 2019 - Whats New in ML.NETDotNet Conf Madrid 2019 - Whats New in ML.NET
DotNet Conf Madrid 2019 - Whats New in ML.NETAlberto Diaz Martin
 
DotNet Conf Madrid 2019 - ASP.NET Core 3
DotNet Conf Madrid 2019 - ASP.NET Core 3DotNet Conf Madrid 2019 - ASP.NET Core 3
DotNet Conf Madrid 2019 - ASP.NET Core 3Alberto Diaz Martin
 
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DB
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DBSQL Saturday Madrid 2019 - Data model with Azure Cosmos DB
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DBAlberto Diaz Martin
 
Dynamics Saturday Madrid 2019 - AI to improve productivity
Dynamics Saturday Madrid 2019 - AI to improve productivityDynamics Saturday Madrid 2019 - AI to improve productivity
Dynamics Saturday Madrid 2019 - AI to improve productivityAlberto Diaz Martin
 
TenerifeDev - NLPs and how to develop for Alexa and Google Assistant
TenerifeDev - NLPs and how to develop for Alexa and Google AssistantTenerifeDev - NLPs and how to develop for Alexa and Google Assistant
TenerifeDev - NLPs and how to develop for Alexa and Google AssistantAlberto Diaz Martin
 
NetCoreConf Barcelona 2019 - DotNet Assistants
NetCoreConf Barcelona 2019 - DotNet AssistantsNetCoreConf Barcelona 2019 - DotNet Assistants
NetCoreConf Barcelona 2019 - DotNet AssistantsAlberto Diaz Martin
 
Global Integration Bootcamp 2018 - Gobierno de APIs
Global Integration Bootcamp 2018 - Gobierno de APIsGlobal Integration Bootcamp 2018 - Gobierno de APIs
Global Integration Bootcamp 2018 - Gobierno de APIsAlberto Diaz Martin
 
Gab 2018 seguridad y escalado en azure service fabric
Gab 2018   seguridad y escalado en azure service fabricGab 2018   seguridad y escalado en azure service fabric
Gab 2018 seguridad y escalado en azure service fabricAlberto Diaz Martin
 
CrossDvlpu - REACT para desarrolladores de ASP.NET
CrossDvlpu - REACT para desarrolladores de ASP.NETCrossDvlpu - REACT para desarrolladores de ASP.NET
CrossDvlpu - REACT para desarrolladores de ASP.NETAlberto Diaz Martin
 
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365Alberto Diaz Martin
 
ENCAMINA - El flash de Inteligencia Artificial
ENCAMINA - El flash de Inteligencia ArtificialENCAMINA - El flash de Inteligencia Artificial
ENCAMINA - El flash de Inteligencia ArtificialAlberto Diaz Martin
 
Ai & Data Analytics 2018 - Azure Databricks for data scientist
Ai & Data Analytics 2018 - Azure Databricks for data scientistAi & Data Analytics 2018 - Azure Databricks for data scientist
Ai & Data Analytics 2018 - Azure Databricks for data scientistAlberto Diaz Martin
 
Global AI Bootcamp Madrid - Azure Databricks
Global AI Bootcamp Madrid - Azure DatabricksGlobal AI Bootcamp Madrid - Azure Databricks
Global AI Bootcamp Madrid - Azure DatabricksAlberto Diaz Martin
 
TenerifeDev - Intro to Microservices
TenerifeDev - Intro to MicroservicesTenerifeDev - Intro to Microservices
TenerifeDev - Intro to MicroservicesAlberto Diaz Martin
 
TenerifeDev - Azure Service Fabric
TenerifeDev - Azure Service FabricTenerifeDev - Azure Service Fabric
TenerifeDev - Azure Service FabricAlberto Diaz Martin
 
Commit Conf 2018 - Extiende al asistente
Commit Conf 2018 - Extiende al asistenteCommit Conf 2018 - Extiende al asistente
Commit Conf 2018 - Extiende al asistenteAlberto Diaz Martin
 
Sps barcelona 2017 serverless para office 365
Sps barcelona 2017   serverless para office 365Sps barcelona 2017   serverless para office 365
Sps barcelona 2017 serverless para office 365Alberto Diaz Martin
 

Plus de Alberto Diaz Martin (20)

Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search API
Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search APIMicrosoft 365 Virtual 2020 Spain - Microsoft Graph Search API
Microsoft 365 Virtual 2020 Spain - Microsoft Graph Search API
 
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...
DotNet Conf Valencia 2019 - Building cloud native apps with .NRT core 3.0 and...
 
GAB 2019 - Graph as a data store
GAB 2019 - Graph as a data storeGAB 2019 - Graph as a data store
GAB 2019 - Graph as a data store
 
DotNet Conf Madrid 2019 - Whats New in ML.NET
DotNet Conf Madrid 2019 - Whats New in ML.NETDotNet Conf Madrid 2019 - Whats New in ML.NET
DotNet Conf Madrid 2019 - Whats New in ML.NET
 
DotNet Conf Madrid 2019 - ASP.NET Core 3
DotNet Conf Madrid 2019 - ASP.NET Core 3DotNet Conf Madrid 2019 - ASP.NET Core 3
DotNet Conf Madrid 2019 - ASP.NET Core 3
 
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DB
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DBSQL Saturday Madrid 2019 - Data model with Azure Cosmos DB
SQL Saturday Madrid 2019 - Data model with Azure Cosmos DB
 
Dynamics Saturday Madrid 2019 - AI to improve productivity
Dynamics Saturday Madrid 2019 - AI to improve productivityDynamics Saturday Madrid 2019 - AI to improve productivity
Dynamics Saturday Madrid 2019 - AI to improve productivity
 
TenerifeDev - NLPs and how to develop for Alexa and Google Assistant
TenerifeDev - NLPs and how to develop for Alexa and Google AssistantTenerifeDev - NLPs and how to develop for Alexa and Google Assistant
TenerifeDev - NLPs and how to develop for Alexa and Google Assistant
 
NetCoreConf Barcelona 2019 - DotNet Assistants
NetCoreConf Barcelona 2019 - DotNet AssistantsNetCoreConf Barcelona 2019 - DotNet Assistants
NetCoreConf Barcelona 2019 - DotNet Assistants
 
Global Integration Bootcamp 2018 - Gobierno de APIs
Global Integration Bootcamp 2018 - Gobierno de APIsGlobal Integration Bootcamp 2018 - Gobierno de APIs
Global Integration Bootcamp 2018 - Gobierno de APIs
 
Gab 2018 seguridad y escalado en azure service fabric
Gab 2018   seguridad y escalado en azure service fabricGab 2018   seguridad y escalado en azure service fabric
Gab 2018 seguridad y escalado en azure service fabric
 
CrossDvlpu - REACT para desarrolladores de ASP.NET
CrossDvlpu - REACT para desarrolladores de ASP.NETCrossDvlpu - REACT para desarrolladores de ASP.NET
CrossDvlpu - REACT para desarrolladores de ASP.NET
 
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365
Dynamics 365 Saturday Madrid 2018 - Otro ALM es posible para Dynamics 365
 
ENCAMINA - El flash de Inteligencia Artificial
ENCAMINA - El flash de Inteligencia ArtificialENCAMINA - El flash de Inteligencia Artificial
ENCAMINA - El flash de Inteligencia Artificial
 
Ai & Data Analytics 2018 - Azure Databricks for data scientist
Ai & Data Analytics 2018 - Azure Databricks for data scientistAi & Data Analytics 2018 - Azure Databricks for data scientist
Ai & Data Analytics 2018 - Azure Databricks for data scientist
 
Global AI Bootcamp Madrid - Azure Databricks
Global AI Bootcamp Madrid - Azure DatabricksGlobal AI Bootcamp Madrid - Azure Databricks
Global AI Bootcamp Madrid - Azure Databricks
 
TenerifeDev - Intro to Microservices
TenerifeDev - Intro to MicroservicesTenerifeDev - Intro to Microservices
TenerifeDev - Intro to Microservices
 
TenerifeDev - Azure Service Fabric
TenerifeDev - Azure Service FabricTenerifeDev - Azure Service Fabric
TenerifeDev - Azure Service Fabric
 
Commit Conf 2018 - Extiende al asistente
Commit Conf 2018 - Extiende al asistenteCommit Conf 2018 - Extiende al asistente
Commit Conf 2018 - Extiende al asistente
 
Sps barcelona 2017 serverless para office 365
Sps barcelona 2017   serverless para office 365Sps barcelona 2017   serverless para office 365
Sps barcelona 2017 serverless para office 365
 

Dernier

Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 

Dernier (10)

Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 

Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI

  • 1. una consultora tecnológica que piensa en colores para organizaciones vivas una consultora tecnológica que piensa en colores para organizaciones vivas Big Data Analytics con Hadoop, Spark y Power BI
  • 2. Adrián del Rincón López arincon@encamina.com - @adderin Soy Ingeniero Superior de Telecomunicaciones en la especialidad de Telemática por la Universidad de Valencia. Me apasiona la programación, y todo lo relacionado con los ordenadores y la movilidad, y lo último en tecnología en general. Analista / programador especializado en .Net y SharePoint. Experiencia desarrollando aplicaciones ASP.NET y JavaScript (usando el Framework Ext JS), integradas con Sharepoint durante varios años. Actualmente trabajo en ENCAMINA con el rol de Arquitecto de software en los distintos proyectos en los que participo. Especialidades: .NET, Sharepoint, JavaScript, telemática, programación, informática, redes
  • 3. Alberto Diaz Martin alberto.diaz@encamina.com - @adiazcan Alberto Diaz cuenta con más de 15 años de experiencia en la Industria IT, todos ellos trabajando con tecnologías Microsoft. Actualmente, es Chief Technology Innovation Officer en ENCAMINA, liderando el desarrollo de software con tecnología Microsoft, y miembro del equipo de Dirección. Para la comunidad, trabaja como organizador y speaker de las conferencias más relevantes del mundo Microsoft en España, en las cuales es uno de los referentes en SharePoint, Office 365 y Azure. Autor de diversos libros y artículos en revistas profesionales y blogs, en 2013 empezó a formar parte del equipo de Dirección de CompartiMOSS, una revista digital sobre tecnologías Microsoft. Desde 2011 ha sido nombrado Microsoft MVP, reconocimiento que ha renovado por séptimo año consecutivo. Se define como un geek, amante de los smartphones y desarrollador. Fundador de TenerifeDev (www.tenerifedev.com), un grupo de usuarios de .NET en Tenerife, y coordinador de SUGES (Grupo de Usuarios de SharePoint de España, www.suges.es)
  • 4. EDURME es la plataforma sobre la que evolucionar como entidad educativa hacia la verdadera Transformación Digital
  • 5. (Educational Relationship Management Engine) • EDURME es un motor de relaciones con el alumno durante todo su ciclo de vida: ˗ Solicitud de información ˗ Solicitud de admisión ˗ Alumno ˗ Alumni • EDURME facilita la interacción entre el alumno y el colegio, universidad, academia o escuela de negocio. Sus cualidades…
  • 6. Funnel del alumno Interacción Multicanal Bots en Facebook, Twitter, Landing Pages, Canales Sociales, E-mail, Teléfono, Chat online, Skype Inteligencia de Acompañamiento BigData de producto + Conversación automatizada, Asesoramiento remoto humano (Chat online, Skype, teléfono) Ingesta de Datos Contacto (nuevo o modificado) o Cliente Potencial, Listas de Marketing asociadas a campaña o producto Lead Nurturing Maduración del Lead, Actualización y Cualificación del lead Atención y Recualificación de Leads Gestión de colas de trabajo, Actividades de CRM (llamadas, e-mails, etc), Cualificación manual del lead BackOffice Cualificación del alumno
  • 7. Motor de Scoring para Educación RETO: Dar respuesta de una forma eficiente y adecuada a estas preguntas:  ¿Cómo distingo que leads de mi sistema CRM Educación son de calidad?  ¿Puede iniciar el equipo comercial con un seguimiento personalizado del contacto? SOLUCION: Diseño de los procesos que permiten determinar el nivel de interés de los leads en función a su comportamiento, características propias y tipología de productos en los que muestra interés. Datos que, muchas veces, es posible obtener de los propios sistemas de información con los que se trabaja.
  • 8. Dimensiones  ¿Colegio o universidad?  Nivel educativo ¿Se trata un grado o es un postgrado?  Titulación: ¿Grado en Ingeniería o Medicina?  Idioma ¿Cuál es el idioma de la titulación?  ¿Se trata de una titulación oficial o es una titulación propia?  Producto complementarios ¿trimestre en el extranjero?
  • 9. Model & ServePrep & Train Databricks HDInsight Data Lake Analytics Custom apps Sensors and devices Store Blobs Data Lake Ingest Data Factory (Data movement, pipelines & orchestration) Machine Learning Cosmos DB SQL Data Warehouse Analysis Services Event Hub IoT Hub SQL Database Analytical dashboards Predictive apps Operational reports Intelligence B I G D ATA & A D VA N C E D A N A LY T I C S AT A G L A N C E Business apps 10 01 SQLKafka
  • 10. What is Azure Databricks ? A fast, easy and collaborative Apache® Spark™ based analytics platform optimized for Azure Best of Databricks Best of Microsoft Designed in collaboration with the founders of Apache Spark One-click set up; streamlined workflows Interactive workspace that enables collaboration between data scientists, data engineers, and business analysts. Native integration with Azure services (Power BI, SQL DW, Cosmos DB, Blob Storage, ADF, SQL DB, AAD) Enterprise-grade Azure security (Active Directory integration, compliance, enterprise -grade SLAs – 99.95%)
  • 11. Proyectos típicos de Data Science
  • 12. ¿Qué les importa a los científicos de datos? EXPERIMENTACIÓN RÁPIDA VISUALIZACIÓN DE DATOS COLABORACIÓN ENTRE EQUIPOS INTERCAMBIO FÁCIL DE IDEAS
  • 13. Desafíos para los científicos de datos • Gestión de infraestructuras • Exploración y visualización de datos a escala • Tiempo de valor-desde iteraciones de modelo a inteligencia • Integrando con varias herramientas de ML para implementar una solución conjunta • Operacionalización de modelos de ML para integrarlos en aplicaciones
  • 14. Motor de Databricks optimizado DATABRICKS I/O SERVERLESS Espacio de trabajo colaborativo Cloud storage Data warehouses Hadoop storage IoT / streaming data Rest APIs Machine learning models BI tools Data exports Data warehouses Azure Databricks Mejorar la productividad Implementar trabajos de producción y flujos de trabajo APACHE SPARK MULTI-STAGE PIPELINES DATA ENGINEER JOB SCHEDULER NOTIFICATION & LOGS DATA SCIENTIST BUSINESS ANALYST Construir en cloud segura y de confianza Escala sin límites A Z U R E D A T A B R I C K S
  • 15. ¿Por qué Azure Databricks para Data Science? • Fácil de crear y administrar clústeres computacionales que escalan automáticamente • Desarrollo rápido utilizando el espacio de trabajo integrado que facilita la colaboración entre equipos • Exploración interactiva con cuadernos • Integración sin fisuras con las herramientas y bibliotecas de ML • Soporte de deeplearning con GPU
  • 16. Introducción a Spark Un marco de procesamiento de datos unificado, de código abierto y paralelo para grandes análisis de datos Spark Core Engine Spark SQL Interactive Queries Spark Structured Streaming Stream processing Spark MLlib Machine Learning Yarn Mesos Standalone Scheduler MLlib Machine Learning Streaming Stream processing GraphX Graph Computation
  • 17. INGEST STORE PREP & TRAIN MODEL & SERVE Advanced analytics Azure Blob Storage Logs, files and media (unstructured) Azure SQL Data Warehouse Azure Data Factory Azure Analysis Services Polybase Business/custom apps (Structured) Power BI Azure Databricks (Python, Scala, Spark SQL) Azure Databricks (Spark ML, Spark R, SparklyR) Intelligent Apps Cosmos DB
  • 19. Complexities in processing DATOS COMPLEJOS Diversos formatos de datos(json, avro, binary, …) Los datos pueden estar sucios, tarde, fuera de orden SISTEMAS COMPLEJOS Diversos sistemas de almacenamiento(Kafka, Azure Storage,Event Hubs, SQL DW, …) Fallos del sistema CARGAS DE TRABAJO COMPLEJAS Combinar con consultas interactivas Machine Learning
  • 20. Transformar datos Cast binary value to string Name it column json Parse json string and expand into nested columns, name it data val parsedData = rawData .selectExpr("cast (value as string) as json") .select(from_json("json", schema).as("data")) .select("data.*") json { "timestamp": 1486087873, "device": "devA", …} { "timestamp": 1486082418, "device": "devX", …} data (nested) timestamp device … 1486087873 devA … 1486086721 devX … from_json("json") as "data"
  • 23. Scenarios • E-mails – Clasificar correos electrónicos como spam o no spam (Clasificación) • Análisis de la rotación de clientes (Clasificación) • Predecir las ventas utilizando datos de ventas históricos (Regresión) • Recomendación de película • Detección de anomalías (aprendizaje no supervisado)
  • 24. Spark MLlib Introduced in Spark 0.8 Now (Spark 2.0) • Contributions from 75+ orgs, ~250 individuals • Growing coverage of distributed algorithms Spark SparkSQL Streaming MLlib GraphX
  • 25. ¿Por qué usar Azure Databricks para Machine learning? • Plataforma completa en una (recopilación de datos, exploración, transformación, featurización, construcción de modelos, afinación de modelos e incluso servicio de modelos). • No hay necesidad de copiar los datos en nuestro sistema para hacer ml en él. • A los DataScientists les gusta su facilidad de uso. • Productionization Features built in.
  • 26. Model Selection Cross Validation ... Best Model Model #1 Training Model #2 Training Feature Extraction Model #3 Training
  • 29. Cross Validation and Tuning Cross Validation Model Training Feature Extraction regularization parameter: {0.0, 0.1, ...}
  • 31. ML Export • ML Model Export allows you to export models and full ML pipelines • Exported models and pipelines can be imported in (Spark and non-Spark) platforms to do scoring and make predictions • Targeted at low-latency, lightweight ML-powered applications
  • 33. Los beneficios de Azure Databricks • El major de la clase, Spark - Administrado, Simple, Rápido • Se conecta a todos sus datos y servicios existentes – SQL, Cosmos, Azure Storage, Event Hubs, IOT Hubs, ADF, Power BI • Mejoras en el rendimiento – Delta, DBIO Caching • Escalado automático y optimización de costes • Construido en tolerancia a fallos
  • 34.
  • 35. Para estar al loro de nuestros próximos eventos…¡síguenos! ENCAMINA @ENCAMINA+Encamina Piensa en Colores ENCAMINA MyENCAMINA ENCAMINA.TV encamina_piensa_en_colores Encamina Piensa en Colores

Notes de l'éditeur

  1. EDURME es un producto que estamos desarrollando internamente en ENCAMINA. Nuestro CEO se le ocurrió Sobre CRM
  2. Contributions estimated from github commit logs, with some effort to de-duplicate entities.
  3. Model training / tuning Regularization: parameter that controls how the linear model does on unseen data There is no single good value for the regularization parameter. One common method to find on is to try out different values. This technique is called CV: you split your training data into 2 sets: one set used to learn some parameters with a given regularization parameter, and another set to evaluate how well we are doing with the given parameter.
  4. Note this is loading into Spark.