SlideShare une entreprise Scribd logo
1  sur  29
Guillermo Bellmann
Cloud architect – Nubimetrics | Microsoft Azure MVP
@gjbellmann
“Big data is like teenage sex: everyone talks
about it, nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it.”
Dan Ariely
¿Qué es Big Data?
El Big Data o Datos masivos es un concepto que hace referencia al
almacenamiento de grandes cantidades de datos y a los
procedimientos usados para encontrar patrones repetitivos dentro
de esos datos.
Wikipedia
Son datos que exceden la capacidad de procesamiento de sistemas
convencionales de Bases de Datos.
• O’Reilly
Características
Volumen
Velocidad
Variedad
¿Dónde nace?
Mucha de la innovación viene de los buscadores web
¿Por qué no podemos construir un buscador con una base de datos SQL?
• El almacenamiento necesita de más de una máquina
• Los datos no son un rectángulo
• Mi pregunta puede no ser relacional
• Necesito hacer esa pregunta en muchas, muchas máquinas
Google
Bing
¿Qué tienen en común?
Almacenamiento
Opera sobre hardware
barato
Asume fallas a escala
Asume muchas lecturas,
algunas escrituras sólo de
append
Grandes archivos
Cómputo
Traer el código a los datos
Asume que la red es difícil
de escalar
Abstraer, y confiar en los
compiladores, y
optimizadores
No especifican un “formato
correcto”
Map/Reduce
Contar palabras en Python
Contar palabras en SQL
Contar palabras en Hadoop
Contar palabras en Spark
Ecosistema Hadoop
Azure Data Lake
Azure Data Lake store
Azure Data Lake analytics
Azure HDInsight
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
HDInsight: clúster como servicio
Oferta de Hadoop en la nube de Microsoft
100% open source Apache Hadoop
Administrado y soportado por Microsoft
Spark, Hive, Pig, Storm, HBase
Listo para usar en minutos
.NET y Java
Integración con Visual Studio
99.9% Enterprise Service Level Agreement
Windows o Linux
YARN
U-SQL
Analytics
Service
HDInsight
HDFS
Store
Azure Data Lake Store
Tamaño de archivo ilimitado
Diseñado para la diversidad de workloads de
analytics
Accesible para todas las aplicaciones de analytics
compatibles con HDFS (Hortonworks, Cloudera,
MapR)
Administrado, monitoreado y soportado por
Microsoft
Seguridad, compliance y administración
Enterprise grade
Microsoft Azure Data Lake
YARN
U-SQL
Analytics Service HDInsight
Store
HDFS
Azure Data Lake Analytics Service
Servicio de analytics distribuido
Escala dinámicamente para adaptarse a las
necesidades del negocio
Productividad desde el día uno con
herramientas de desarrollo líderes (para
novatos y expertos)
Analytics sobre todo tipo de datos (no
estructurados, semi estructurados,
estructurados)
U-SQL: simple y familiar, fácilmente extendible
Hive será soportado pronto
Construido sobre estándares abiertos (YARN)
ADLA: Trabajamos sobre todos los datos
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
El lenguage de de próxima generación para
procesamiento de datos de gran escala combinando
La parte declarativa, optimizable y paralelización de SQL
La extensibilidad, expresividad y familiaridad de C#
ADLA: El origen de U-SQL
Alta performance Escalable Accesible Fácil de programar Seguro
Hive
T-SQL
U-SQL SCOPE
Anatomía de una query en U-SQL
REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DatetTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.txt"
USING WebLogExtractor();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt"
USING Outputter.Tsv();
• Los tipos de U-SQL son los
mismos que en C#
• La estructura (schema) se
impone en el momento de leer/
extraer información del archivo
(schema-on-read)
Los datos de entrada se leen de este
archivo en ADL
Función custom para leer los
datos de entrada
Expresión C#
La salida se guarda en este archivo en ADL
Función built-in que escribe la salida en
formato TSV
Rowset: Conceptualmente es
como una tabla intermedia…
es la forma como pasamos datos
entre sentencias en U-SQL
Leer archivos con formatos custom
Extractores incorporados para leer archivos CSV y TSV,
o creamos extractores custom para otros formatos
Subir y registrar el assembly
2
CREATE ASSEMBLY WebLogExtAsm
FROM @”/WebLogExtAsm.dll"
WITH PERMISSION_SET = RESTRICTED;
CREATE EXTRACTOR WebLogExtractor
EXTERNAL NAME
WebLogExtractor;
Implementar IExtractor
using Microsoft.SCOPE.Interfaces;
public WebLogExtractor:IExtractor
{
public override
IEnumerable<IRow> Extract(…)
{
…
}
…
}
1
REFERENCE ASSEMBLY WebLogExtAsm;
//now just use it like a built-in
extractor
SELECT * FROM
@“swebhdfs://Logs/WebRecords.txt”
USING WebLogExtractor();
Referenciar el Assembly y usarlo
3
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake

Contenu connexe

Tendances

Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016jorge Muchaypiña
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escalaElasticsearch
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nubeMUG Perú
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0Sthefani Villanueva Cigaran
 
Bases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDBBases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDBJulito Avellaneda
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escalaElasticsearch
 
Azure Databricks
Azure DatabricksAzure Databricks
Azure Databricksnnakasone
 
Evento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft AzureEvento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft AzureIgnacio Parladé Osborne
 
Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017dbLearner
 
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosPresentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosImma Valls Bernaus
 

Tendances (20)

Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Html5 Java Script Apis
Html5 Java Script ApisHtml5 Java Script Apis
Html5 Java Script Apis
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
AWS en Español
AWS en EspañolAWS en Español
AWS en Español
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Conceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvcConceptos básicos de Asp.net mvc
Conceptos básicos de Asp.net mvc
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
 
Microsoft Azure
Microsoft AzureMicrosoft Azure
Microsoft Azure
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube2017 04-22 - mst - curso patrones de diseño en nube
2017 04-22 - mst - curso patrones de diseño en nube
 
Azure SQL Databases para DBAs
Azure SQL Databases para DBAsAzure SQL Databases para DBAs
Azure SQL Databases para DBAs
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
Bases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDBBases NoSQL y su implementación con Azure DocumentDB
Bases NoSQL y su implementación con Azure DocumentDB
 
Arquitectura a escala
Arquitectura a escalaArquitectura a escala
Arquitectura a escala
 
Azure Databricks
Azure DatabricksAzure Databricks
Azure Databricks
 
Evento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft AzureEvento MultiTrain nube híbrida con Microsoft Azure
Evento MultiTrain nube híbrida con Microsoft Azure
 
Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017Data Amp 2017 - Whats New in SQL Server 2017
Data Amp 2017 - Whats New in SQL Server 2017
 
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datosPresentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
Presentación de Kibana Lens: Una forma fácil e intuitiva de visualizar los datos
 

En vedette

Intorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft AzureIntorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft AzureKhalid Salama
 
Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)Michael Rys
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azureDavid Giard
 
Dive into Spark Streaming
Dive into Spark StreamingDive into Spark Streaming
Dive into Spark StreamingGerard Maas
 
Microsoft Azure Big Data Analytics
Microsoft Azure Big Data AnalyticsMicrosoft Azure Big Data Analytics
Microsoft Azure Big Data AnalyticsMark Kromer
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016nnakasone
 
From no services to Microservices
From no services to MicroservicesFrom no services to Microservices
From no services to MicroservicesJoão Cavalheiro
 
Apache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise IntegrationApache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise IntegrationAbdellatif BOUCHAMA
 
Overcoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with MicroservicesOvercoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with MicroservicesPerficient, Inc.
 
Azure Big Data Story
Azure Big Data StoryAzure Big Data Story
Azure Big Data StoryLynn Langit
 
Moving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journeyMoving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journeyBoyan Dimitrov
 
Big data on Azure for Architects
Big data on Azure for ArchitectsBig data on Azure for Architects
Big data on Azure for ArchitectsTomasz Kopacz
 
Go Serverless with Azure Functions
Go Serverless with Azure FunctionsGo Serverless with Azure Functions
Go Serverless with Azure FunctionsJim O'Neil
 
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...Mike Martin
 
Big data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on AzureBig data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on AzureWillem Meints
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann
 
Microsoft NYC 14
Microsoft NYC 14Microsoft NYC 14
Microsoft NYC 14SwitchPitch
 

En vedette (20)

Intorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft AzureIntorducing Big Data and Microsoft Azure
Intorducing Big Data and Microsoft Azure
 
Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)Azure Data Lake Intro (SQLBits 2016)
Azure Data Lake Intro (SQLBits 2016)
 
Big Data on azure
Big Data on azureBig Data on azure
Big Data on azure
 
Dive into Spark Streaming
Dive into Spark StreamingDive into Spark Streaming
Dive into Spark Streaming
 
Big Data in Azure
Big Data in AzureBig Data in Azure
Big Data in Azure
 
Microsoft Azure Big Data Analytics
Microsoft Azure Big Data AnalyticsMicrosoft Azure Big Data Analytics
Microsoft Azure Big Data Analytics
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
 
From no services to Microservices
From no services to MicroservicesFrom no services to Microservices
From no services to Microservices
 
Apache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise IntegrationApache Camel & The Art of Entreprise Integration
Apache Camel & The Art of Entreprise Integration
 
Overcoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with MicroservicesOvercoming Obstacles to Success with Microservices
Overcoming Obstacles to Success with Microservices
 
Big data in Azure
Big data in AzureBig data in Azure
Big data in Azure
 
Azure Big Data Story
Azure Big Data StoryAzure Big Data Story
Azure Big Data Story
 
Moving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journeyMoving to microservices – a technology and organisation transformational journey
Moving to microservices – a technology and organisation transformational journey
 
Big data on Azure for Architects
Big data on Azure for ArchitectsBig data on Azure for Architects
Big data on Azure for Architects
 
Azure IOT
Azure IOTAzure IOT
Azure IOT
 
Go Serverless with Azure Functions
Go Serverless with Azure FunctionsGo Serverless with Azure Functions
Go Serverless with Azure Functions
 
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
Belgian Windows Server 2012 Launch windows azure insights for the enterprise ...
 
Big data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on AzureBig data streaming with Apache Spark on Azure
Big data streaming with Apache Spark on Azure
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
Microsoft NYC 14
Microsoft NYC 14Microsoft NYC 14
Microsoft NYC 14
 

Similaire à Big Data en Azure: Azure Data Lake

Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeRodrigo Corral
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)CloudAppi
 
Introducción a la plataforma sql azure
Introducción a la plataforma sql azureIntroducción a la plataforma sql azure
Introducción a la plataforma sql azureJoseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdfTabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdfMIGUELANGELDORADOJAR
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcjhoselt
 
Introduccion a AWS
Introduccion a AWSIntroduccion a AWS
Introduccion a AWSHermann Pais
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open sourceeduardojose55
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...Amazon Web Services
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis CloudAppi
 
Act4 avalos hernandez luz martina
Act4 avalos hernandez luz martinaAct4 avalos hernandez luz martina
Act4 avalos hernandez luz martinaLUZ MARTINA AVALOS
 

Similaire à Big Data en Azure: Azure Data Lake (20)

Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
 
Azure Data Lake
Azure Data LakeAzure Data Lake
Azure Data Lake
 
Azure data lake
Azure data lakeAzure data lake
Azure data lake
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
 
Introducción a la plataforma sql azure
Introducción a la plataforma sql azureIntroducción a la plataforma sql azure
Introducción a la plataforma sql azure
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdfTabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
Tabla de 5 SGBD_Dorado Jarero Miguel Angel_Base de Datos 2.pdf
 
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
[Code Camp 2009] Cloud Computing - Explorando Windows Azure Services (Carlos ...
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltc
 
Introduccion a AWS
Introduccion a AWSIntroduccion a AWS
Introduccion a AWS
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Act4 avalos hernandez luz martina
Act4 avalos hernandez luz martinaAct4 avalos hernandez luz martina
Act4 avalos hernandez luz martina
 
Base de datos
Base de datosBase de datos
Base de datos
 
Taller 2
Taller 2Taller 2
Taller 2
 

Plus de Guillermo Javier Bellmann

Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Guillermo Javier Bellmann
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Guillermo Javier Bellmann
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Guillermo Javier Bellmann
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Guillermo Javier Bellmann
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...Guillermo Javier Bellmann
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service FabricGuillermo Javier Bellmann
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricGuillermo Javier Bellmann
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Guillermo Javier Bellmann
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresGuillermo Javier Bellmann
 

Plus de Guillermo Javier Bellmann (15)

Serverless con .NET y Microsoft Azure
Serverless con .NET y Microsoft AzureServerless con .NET y Microsoft Azure
Serverless con .NET y Microsoft Azure
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CL v...
 
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube: diferentes sabores para todas nuestras necesidades - .NET...
 
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
Cómputo en la nube, diferentes sabores para todas nuestras necesidades - .NET...
 
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
Microservicios en la nube: un paseo por Azure Service Fabric - .NET Conf CO v...
 
Virtual Inspire Latam - Big data
Virtual Inspire Latam - Big dataVirtual Inspire Latam - Big data
Virtual Inspire Latam - Big data
 
Tech night 2017-04-27
Tech night 2017-04-27Tech night 2017-04-27
Tech night 2017-04-27
 
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ....Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
.Net Conf CO v2017- Arquitecturas serverless con Azure Functions, Logic Apps ...
 
.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric.Net Conf UY 2017: Un paseo por Azure Service Fabric
.Net Conf UY 2017: Un paseo por Azure Service Fabric
 
Empezá a trabajar en la nube
Empezá a trabajar en la nubeEmpezá a trabajar en la nube
Empezá a trabajar en la nube
 
Workshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service FabricWorkshop: Microservicios con Azure Service Fabric
Workshop: Microservicios con Azure Service Fabric
 
.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure.NetRAF 2017: Big data en Azure
.NetRAF 2017: Big data en Azure
 
Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016Uniendo las comunidades en la nube - DevDayAR 2016
Uniendo las comunidades en la nube - DevDayAR 2016
 
Introducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos AiresIntroducción a Azure App Service - MUG Buenos Aires
Introducción a Azure App Service - MUG Buenos Aires
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
 

Dernier

2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptxEncomiendasElSherpa
 
Caso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralCaso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralAitana
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Opentix
 
Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfGuillermoBarquero7
 
Trabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaTrabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaKANTUPAULAPORCELYUCR
 
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSBeatrizGonzales19
 

Dernier (6)

2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx
 
Caso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralCaso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business Central
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200
 
Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdf
 
Trabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaTrabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - Ofimática
 
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
 

Big Data en Azure: Azure Data Lake

  • 1. Guillermo Bellmann Cloud architect – Nubimetrics | Microsoft Azure MVP @gjbellmann
  • 2.
  • 3. “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.” Dan Ariely
  • 4. ¿Qué es Big Data? El Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Wikipedia Son datos que exceden la capacidad de procesamiento de sistemas convencionales de Bases de Datos. • O’Reilly
  • 6. ¿Dónde nace? Mucha de la innovación viene de los buscadores web ¿Por qué no podemos construir un buscador con una base de datos SQL? • El almacenamiento necesita de más de una máquina • Los datos no son un rectángulo • Mi pregunta puede no ser relacional • Necesito hacer esa pregunta en muchas, muchas máquinas
  • 9. ¿Qué tienen en común? Almacenamiento Opera sobre hardware barato Asume fallas a escala Asume muchas lecturas, algunas escrituras sólo de append Grandes archivos Cómputo Traer el código a los datos Asume que la red es difícil de escalar Abstraer, y confiar en los compiladores, y optimizadores No especifican un “formato correcto”
  • 15.
  • 17.
  • 18. Azure Data Lake Azure Data Lake store Azure Data Lake analytics Azure HDInsight Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS
  • 19. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS HDInsight: clúster como servicio Oferta de Hadoop en la nube de Microsoft 100% open source Apache Hadoop Administrado y soportado por Microsoft Spark, Hive, Pig, Storm, HBase Listo para usar en minutos .NET y Java Integración con Visual Studio 99.9% Enterprise Service Level Agreement Windows o Linux
  • 20. YARN U-SQL Analytics Service HDInsight HDFS Store Azure Data Lake Store Tamaño de archivo ilimitado Diseñado para la diversidad de workloads de analytics Accesible para todas las aplicaciones de analytics compatibles con HDFS (Hortonworks, Cloudera, MapR) Administrado, monitoreado y soportado por Microsoft Seguridad, compliance y administración Enterprise grade
  • 21. Microsoft Azure Data Lake YARN U-SQL Analytics Service HDInsight Store HDFS Azure Data Lake Analytics Service Servicio de analytics distribuido Escala dinámicamente para adaptarse a las necesidades del negocio Productividad desde el día uno con herramientas de desarrollo líderes (para novatos y expertos) Analytics sobre todo tipo de datos (no estructurados, semi estructurados, estructurados) U-SQL: simple y familiar, fácilmente extendible Hive será soportado pronto Construido sobre estándares abiertos (YARN)
  • 22. ADLA: Trabajamos sobre todos los datos Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 23. El lenguage de de próxima generación para procesamiento de datos de gran escala combinando La parte declarativa, optimizable y paralelización de SQL La extensibilidad, expresividad y familiaridad de C# ADLA: El origen de U-SQL Alta performance Escalable Accesible Fácil de programar Seguro Hive T-SQL U-SQL SCOPE
  • 24. Anatomía de una query en U-SQL REFERENCE ASSEMBLY WebLogExtASM; @rs = EXTRACT UserID string, Start DateTime, End DatetTime, Region string, SitesVisited string, PagesVisited string FROM "swebhdfs://Logs/WebLogRecords.txt" USING WebLogExtractor(); @result = SELECT UserID, (End.Subtract(Start)).TotalSeconds AS Duration FROM @rs ORDER BY Duration DESC FETCH 10; OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt" USING Outputter.Tsv(); • Los tipos de U-SQL son los mismos que en C# • La estructura (schema) se impone en el momento de leer/ extraer información del archivo (schema-on-read) Los datos de entrada se leen de este archivo en ADL Función custom para leer los datos de entrada Expresión C# La salida se guarda en este archivo en ADL Función built-in que escribe la salida en formato TSV Rowset: Conceptualmente es como una tabla intermedia… es la forma como pasamos datos entre sentencias en U-SQL
  • 25. Leer archivos con formatos custom Extractores incorporados para leer archivos CSV y TSV, o creamos extractores custom para otros formatos Subir y registrar el assembly 2 CREATE ASSEMBLY WebLogExtAsm FROM @”/WebLogExtAsm.dll" WITH PERMISSION_SET = RESTRICTED; CREATE EXTRACTOR WebLogExtractor EXTERNAL NAME WebLogExtractor; Implementar IExtractor using Microsoft.SCOPE.Interfaces; public WebLogExtractor:IExtractor { public override IEnumerable<IRow> Extract(…) { … } … } 1 REFERENCE ASSEMBLY WebLogExtAsm; //now just use it like a built-in extractor SELECT * FROM @“swebhdfs://Logs/WebRecords.txt” USING WebLogExtractor(); Referenciar el Assembly y usarlo 3

Notes de l'éditeur

  1. ¿Problemas? Escala, fallas, overflows
  2. ¿Problemas? Escala, fallas, expresividad
  3. ¿Problemas? Demasiada ceremonia. Se complica, rápido.
  4. ADLA allows you to compute on data anywhere and a join data from multiple cloud sources.
  5. Remove SCOPE for external customers?