SlideShare une entreprise Scribd logo
1  sur  40
Télécharger pour lire hors ligne
Cómo de grandes son tus
         datos?




Javier Torrenteras
Director Área BI
jtorrenteras@solidq.com
The Big Data Picture
© SolidQ 2013   3
Agenda
• ¿Por qué Big Data?
• Entonces… Hadoop, ¿Qué es?
  •   Ventajas
  •   Componentes
• Apache Hadoop y Microsoft BI
  • HDInsight
  • Windows Azure HDInsight
• Grandes DW
¿Por qué Big Data?

Una arquitectura rígida impide disponer inmediatamente
nuevas oportunidades de negocio


El reporting retrospectivo no guía las decisiones de negocio.
Datos móviles, sociales o de dispositivos no están disponibles




La agregación destruye determinadas insights valiosos
Las 4 V’s

             Volumen

            Velocidad

             Variedad

            Variabilidad
Ejemplos de Big Data
              12 Tb        21 Pb
                            Hadoop
                 día
                            cluster



               7 Pb
                mes



               1 Tb         7 Tb
              tweets/dia   datos/dia


               75          4 Billion
              Million        Graph
                            edg/day
              scores/day


              14 Tb
               Hadoop
               cluster
Entonces…¿cómo obtengo insights?

                             Datos estructurados
    Datos                       Bases de Datos relacionales
estructurados
                Registros
                                Bases de Datos analíticas
Entonces…¿cómo obtengo insights?

                                  Datos estructurados
    Datos                            Bases de Datos relacionales
estructurados
                     Registros
                                     Bases de Datos analíticas




                BIG DATA
Entonces…¿cómo obtengo insights?

                                           Datos estructurados
    Datos                                     Bases de Datos relacionales
estructurados
                      Registros
                                              Bases de Datos analíticas

                Ficheros log
                                           Datos menos estructurados
                                              Intentar un ETL para
                                               transformarlo en relacional
    Datos         Datos                           Tiempo de desarrollo elevado
   menos         públicos        New              Son datos susceptibles a
  estructura                   Insights            cambios de estructura
                  Device
     dos          outputs
                                              Archivados y Borrados
                                              Acceso caro
                   Texto/
                 Imágenes
Entonces…¿cómo obtengo insights?
            Tipos de datos



              20%



                             Estructurado
                             Menos estructurado
     80%
Insights de datos no estructurados

DEMO
¿Qué es Hadoop?
• Open Source
• Plataforma de almacenamiento de datos y
 análisis para Big Data
• Optimizado para manejar
  • Datos masivos a través de paralelismo
  • Variedad de datos (Estructurados, No-estructurados,
      Menos estructurados)
  •   Uso de hardware económico
• No para OLTP / OLAP
¿Qué es Hadoop?: Ventajas
Escalable
Escala linealmente en capacidad de almacenamiento y
computación

Tolerante a Fallos
Proporcionado por el Sistema de ficheros distribuido y
el framework de lectura

Procesamiento distribuido
Sigue la estrategia de divide y vencerás
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Hadoop Distributed File System (HDFS)

• Sistema de ficheros distribuido diseñado para
 grandes conjuntos de datos
• Fiable y con buen rendimiento
  • Alto rendimiento de acceso: Latencia de disco
  • Alto ancho de banda Almacenamiento Clustered auto-
      reparable
• Divide los datos entre los nodos en un Cluster
  • NameNode: Mantiene el mapeo de bloques de
      ficheros a nodos esclavos
  •   DataNode: Almacena y sirve bloques de datos
Hadoop Distributed File System (HDFS)
  Block Size = 64 Mb

Replication Factor = 3   NameNode               DataNode
                         File   File   File   File   File   File
    File   File
                         File   File   File   File   File   File
    File   File
                         File   File          File




                         File   File   File   File   File   File

                         File   File   File   File   File    File

                         File   File   File   File   File


                           DataNode              DataNode
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Map Reduce Framework
• Motor de planificación parar Procesamiento de carga
 distribuido
  • Pares Clave-Valor
  • Función Map
  • Función Reduce
• Lenguajes de Script : Java, python, Javascript…
• Saca provecho de la distribución de datos de HDFS
  •   JobTracker: Planifica los trabajos entre los TaskTrackers
  •   TaskTracker: unidades de trabajo
Map Reduce Framework

              JobTracker                    TaskTracker
            File   File   File       File    File    File

MapReduce
   Job
            File   File   File   mapFile     File    File

            File   Reduce
                   File              File




                   map           map
            File   File   File        File    File   File

            File   File   File        File    File    File

            File   File   File        File    File


               TaskTracker                  TaskTracker
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Sqoop
• Tecnología que sirve de interfaz entre HDFS y los
 Sistemas de información empresarial
• Orígenes de datos relacionales integrados
  • MySQL, Oracle, SQL Server …
• Importación / Exportación (Bidireccional)
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Pig
• Lenguaje de flujo de datos de alto nivel y
 framework de ejecución
• Lenguaje de consulta: PigLatin
  •   Posibilidad de join de tablas




• Por detrás ejecuta trabajos MapReduce
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Hive
• Infraestructura Data Warehouse desde Hadoop
• Proporciona
  •   Sumarización de Datos
  •   Consultas Ad-hoc
• Lenguaje consulta estilo SQL: HiveQL



• Por detrás ejecuta trabajos MapReduce
¿Qué es Hadoop?: Componentes


     Mahout     Pegasus       Lucene   …

              Pig      Hive
              Map Reduce
                    HDFS      Sqoop
Otros componentes: Hadoop Ecosystem

Mahout
  • Minería de Datos y Machine Learning
Pegasus
  • Page Rank yGraph Mining
  • Social Network Analysis
Lucene
  • Technología de indexación y búsqueda
Algunos otros: Avro, Hbase, Flume, Oozie…
MICROSOFT ON THE HADOOP
HDInsight

• Project Isotope
• Proporciona Apache Hadoop en
  •   Windows Server
  •   Windows Azure
• Active Directory & System Center
Hadoop: Componentes Originales



 Mahout     Pegasus       Lucene   …

          Pig      Hive
          Map Reduce
                HDFS      Sqoop
HDinsight




  Mahout      Pegasus       Lucene   …
                                                Microsoft
            Pig      Hive       Hive ODBC          BI
                                                Platform
            Map Reduce
                  HDFS      Sqoop        JDBC
HDInsight




 Mahout       Pegasus       Lucene   …
                                                Microsoft
            Pig      Hive       Hive ODBC          BI
                                                Platform
            Map Reduce
                  HDFS      Sqoop        JDBC

   Windows Azure & Windows Server
Windows Azure HDInsight
DEMO
Características HDInsight

HDFS
• Basado en Windows
• Compatibilidad con Directorio Activo
• Almacenamiento compatible:
   • HDFS
   • Azure Blob Storage
   • Amazon S3

MapReduce Framework
• Compatibilidad JavaScript
• Hadoop Streaming con compatibilidad F# y C#
Características HDInsight

Hive
• Consolta Interactiva
• Complemento Hive para Excel 2010
• Hive ODBC Driver
• Potentes funciones regex
Pig
• Consola Interactiva
Sqoop
• Driver JDBC para SQL Server y SQL Server PDW
Mezclando los datos

DEMO
Si quieres disfrutar de las mejores sesiones de nuestros
   mentores de España y Latino América, ésta es tu
                      oportunidad.
          http://summit.solidq.com/madrid/
                        Síguenos:
SolidQ Business
             Analytics Day
Eladio Rincón           Javier Torrenteras
Director Área BBDD      Director BI
                        jtorrenteras@solidq.com
erincon@solidq.com

Contenu connexe

En vedette

Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013
Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013
Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013IMI PQ NET Romania
 
Balanço seis meses gestão geraldo júlio
Balanço seis meses gestão geraldo júlioBalanço seis meses gestão geraldo júlio
Balanço seis meses gestão geraldo júlioFolha de Pernambuco
 
Apresentamos o aplicativo Mobsales
Apresentamos o aplicativo MobsalesApresentamos o aplicativo Mobsales
Apresentamos o aplicativo MobsalesHandcomSlideshare
 
áLbum de fotografias carol
áLbum de fotografias caroláLbum de fotografias carol
áLbum de fotografias carolcaroline0663
 
Solidaridad con los líderes indígenas del TIPNIS
Solidaridad con los líderes indígenas del TIPNISSolidaridad con los líderes indígenas del TIPNIS
Solidaridad con los líderes indígenas del TIPNISCrónicas del despojo
 
B carnaval de_peintures_-j1
B carnaval de_peintures_-j1B carnaval de_peintures_-j1
B carnaval de_peintures_-j1jl11100
 
Conceitos geograficos
Conceitos geograficosConceitos geograficos
Conceitos geograficosflaviocosac
 
Pequeña agricultura y gatronomia
Pequeña agricultura y gatronomiaPequeña agricultura y gatronomia
Pequeña agricultura y gatronomiagutmarfern
 
Diário Oficial do Dia - 20/12/2013
Diário Oficial do Dia - 20/12/2013Diário Oficial do Dia - 20/12/2013
Diário Oficial do Dia - 20/12/2013prefeituraguaruja
 
Aeroportodelisboa anos50
Aeroportodelisboa anos50Aeroportodelisboa anos50
Aeroportodelisboa anos50Anabela Sobral
 
Diário Oficial - 19/06/2013
Diário Oficial - 19/06/2013Diário Oficial - 19/06/2013
Diário Oficial - 19/06/2013prefeituraguaruja
 
Preterite stem chgvowelendstems
Preterite stem chgvowelendstemsPreterite stem chgvowelendstems
Preterite stem chgvowelendstemsNick Castaneda
 

En vedette (19)

Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013
Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013
Studiu comparativ Regatul Danemarcei - Anexa 2 - Paula Posea - iunie 2013
 
Balanço seis meses gestão geraldo júlio
Balanço seis meses gestão geraldo júlioBalanço seis meses gestão geraldo júlio
Balanço seis meses gestão geraldo júlio
 
T2 mercês
T2 mercêsT2 mercês
T2 mercês
 
Apresentamos o aplicativo Mobsales
Apresentamos o aplicativo MobsalesApresentamos o aplicativo Mobsales
Apresentamos o aplicativo Mobsales
 
El ordenador pres
El ordenador presEl ordenador pres
El ordenador pres
 
Verde manzada
Verde manzadaVerde manzada
Verde manzada
 
Diário Oficial
Diário OficialDiário Oficial
Diário Oficial
 
Diário Oficial de Guarujá
Diário Oficial de GuarujáDiário Oficial de Guarujá
Diário Oficial de Guarujá
 
áLbum de fotografias carol
áLbum de fotografias caroláLbum de fotografias carol
áLbum de fotografias carol
 
Solidaridad con los líderes indígenas del TIPNIS
Solidaridad con los líderes indígenas del TIPNISSolidaridad con los líderes indígenas del TIPNIS
Solidaridad con los líderes indígenas del TIPNIS
 
B carnaval de_peintures_-j1
B carnaval de_peintures_-j1B carnaval de_peintures_-j1
B carnaval de_peintures_-j1
 
Conceitos geograficos
Conceitos geograficosConceitos geograficos
Conceitos geograficos
 
Pequeña agricultura y gatronomia
Pequeña agricultura y gatronomiaPequeña agricultura y gatronomia
Pequeña agricultura y gatronomia
 
Dfc taiwan on israel עברית
Dfc taiwan on israel עבריתDfc taiwan on israel עברית
Dfc taiwan on israel עברית
 
Diário Oficial 09/04/2013
Diário Oficial 09/04/2013Diário Oficial 09/04/2013
Diário Oficial 09/04/2013
 
Diário Oficial do Dia - 20/12/2013
Diário Oficial do Dia - 20/12/2013Diário Oficial do Dia - 20/12/2013
Diário Oficial do Dia - 20/12/2013
 
Aeroportodelisboa anos50
Aeroportodelisboa anos50Aeroportodelisboa anos50
Aeroportodelisboa anos50
 
Diário Oficial - 19/06/2013
Diário Oficial - 19/06/2013Diário Oficial - 19/06/2013
Diário Oficial - 19/06/2013
 
Preterite stem chgvowelendstems
Preterite stem chgvowelendstemsPreterite stem chgvowelendstems
Preterite stem chgvowelendstems
 

Similaire à SolidQ Business Analytics Day | Como de grandes son tus datos

Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD InsightEduardo Castro
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics Spain
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosJohn Bulla
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGAzure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGFreddy Angarita
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BIdbLearner
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 

Similaire à SolidQ Business Analytics Day | Como de grandes son tus datos (20)

Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con Hadoop
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGAzure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 

Plus de SolidQ

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en LinuxSolidQ
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida realSolidQ
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízateSolidQ
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksSolidQ
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BISolidQ
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesSolidQ
 
R en relacional
R en relacionalR en relacional
R en relacionalSolidQ
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!SolidQ
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en AzureSolidQ
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018SolidQ
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ
 

Plus de SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 

SolidQ Business Analytics Day | Como de grandes son tus datos

  • 1. Cómo de grandes son tus datos? Javier Torrenteras Director Área BI jtorrenteras@solidq.com
  • 2. The Big Data Picture
  • 4. Agenda • ¿Por qué Big Data? • Entonces… Hadoop, ¿Qué es? • Ventajas • Componentes • Apache Hadoop y Microsoft BI • HDInsight • Windows Azure HDInsight • Grandes DW
  • 5. ¿Por qué Big Data? Una arquitectura rígida impide disponer inmediatamente nuevas oportunidades de negocio El reporting retrospectivo no guía las decisiones de negocio. Datos móviles, sociales o de dispositivos no están disponibles La agregación destruye determinadas insights valiosos
  • 6. Las 4 V’s Volumen Velocidad Variedad Variabilidad
  • 7. Ejemplos de Big Data 12 Tb 21 Pb Hadoop día cluster 7 Pb mes 1 Tb 7 Tb tweets/dia datos/dia 75 4 Billion Million Graph edg/day scores/day 14 Tb Hadoop cluster
  • 8. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionales estructurados Registros  Bases de Datos analíticas
  • 9. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionales estructurados Registros  Bases de Datos analíticas BIG DATA
  • 10. Entonces…¿cómo obtengo insights?  Datos estructurados Datos  Bases de Datos relacionales estructurados Registros  Bases de Datos analíticas Ficheros log  Datos menos estructurados  Intentar un ETL para transformarlo en relacional Datos Datos  Tiempo de desarrollo elevado menos públicos New  Son datos susceptibles a estructura Insights cambios de estructura Device dos outputs  Archivados y Borrados  Acceso caro Texto/ Imágenes
  • 11. Entonces…¿cómo obtengo insights? Tipos de datos 20% Estructurado Menos estructurado 80%
  • 12. Insights de datos no estructurados DEMO
  • 13. ¿Qué es Hadoop? • Open Source • Plataforma de almacenamiento de datos y análisis para Big Data • Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (Estructurados, No-estructurados, Menos estructurados) • Uso de hardware económico • No para OLTP / OLAP
  • 14. ¿Qué es Hadoop?: Ventajas Escalable Escala linealmente en capacidad de almacenamiento y computación Tolerante a Fallos Proporcionado por el Sistema de ficheros distribuido y el framework de lectura Procesamiento distribuido Sigue la estrategia de divide y vencerás
  • 15. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 16. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 17. Hadoop Distributed File System (HDFS) • Sistema de ficheros distribuido diseñado para grandes conjuntos de datos • Fiable y con buen rendimiento • Alto rendimiento de acceso: Latencia de disco • Alto ancho de banda Almacenamiento Clustered auto- reparable • Divide los datos entre los nodos en un Cluster • NameNode: Mantiene el mapeo de bloques de ficheros a nodos esclavos • DataNode: Almacena y sirve bloques de datos
  • 18. Hadoop Distributed File System (HDFS) Block Size = 64 Mb Replication Factor = 3 NameNode DataNode File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File DataNode DataNode
  • 19. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 20. Map Reduce Framework • Motor de planificación parar Procesamiento de carga distribuido • Pares Clave-Valor • Función Map • Función Reduce • Lenguajes de Script : Java, python, Javascript… • Saca provecho de la distribución de datos de HDFS • JobTracker: Planifica los trabajos entre los TaskTrackers • TaskTracker: unidades de trabajo
  • 21. Map Reduce Framework JobTracker TaskTracker File File File File File File MapReduce Job File File File mapFile File File File Reduce File File map map File File File File File File File File File File File File File File File File File TaskTracker TaskTracker
  • 22. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 23. Sqoop • Tecnología que sirve de interfaz entre HDFS y los Sistemas de información empresarial • Orígenes de datos relacionales integrados • MySQL, Oracle, SQL Server … • Importación / Exportación (Bidireccional)
  • 24. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 25. Pig • Lenguaje de flujo de datos de alto nivel y framework de ejecución • Lenguaje de consulta: PigLatin • Posibilidad de join de tablas • Por detrás ejecuta trabajos MapReduce
  • 26. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 27. Hive • Infraestructura Data Warehouse desde Hadoop • Proporciona • Sumarización de Datos • Consultas Ad-hoc • Lenguaje consulta estilo SQL: HiveQL • Por detrás ejecuta trabajos MapReduce
  • 28. ¿Qué es Hadoop?: Componentes Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 29. Otros componentes: Hadoop Ecosystem Mahout • Minería de Datos y Machine Learning Pegasus • Page Rank yGraph Mining • Social Network Analysis Lucene • Technología de indexación y búsqueda Algunos otros: Avro, Hbase, Flume, Oozie…
  • 31. HDInsight • Project Isotope • Proporciona Apache Hadoop en • Windows Server • Windows Azure • Active Directory & System Center
  • 32. Hadoop: Componentes Originales Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Sqoop
  • 33. HDinsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC
  • 34. HDInsight Mahout Pegasus Lucene … Microsoft Pig Hive Hive ODBC BI Platform Map Reduce HDFS Sqoop JDBC Windows Azure & Windows Server
  • 36. Características HDInsight HDFS • Basado en Windows • Compatibilidad con Directorio Activo • Almacenamiento compatible: • HDFS • Azure Blob Storage • Amazon S3 MapReduce Framework • Compatibilidad JavaScript • Hadoop Streaming con compatibilidad F# y C#
  • 37. Características HDInsight Hive • Consolta Interactiva • Complemento Hive para Excel 2010 • Hive ODBC Driver • Potentes funciones regex Pig • Consola Interactiva Sqoop • Driver JDBC para SQL Server y SQL Server PDW
  • 39. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com/madrid/ Síguenos:
  • 40. SolidQ Business Analytics Day Eladio Rincón Javier Torrenteras Director Área BBDD Director BI jtorrenteras@solidq.com erincon@solidq.com