SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Ing. Diego Robledo



www.datalytics.com   Big Data – Infraestructura de BI para BI
Un punto de inflexión

           LOS DATOS SE
      40   DUPLICAN CADA 2 AÑOS                                        80%
      35                                                               DE LA INFORMACIÓN ES NO
      30                                                               ESTRUCTURADA
                                                                                               (Gartner, December 2011)
      25
 ZB
      20

      15                                                               LAS EMPRESAS MANEJARÁN
      10                                                               50X MÁS DATOS
       5                                                               EN LA PRÓXIMA DÉCADA
            2005       2010        2015      2020
                                                                                    (IDC Digital Universe Study, June 2011)
       0
           (IDC Digital Universe Study, June 2011)


“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran
a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y
para almacenar, administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Qué es Big Data?
   Big Data es el nombre que se le da a conjuntos de información que crecen de una
    manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
    métodos o técnicas tradicionales del mundo de base de datos relacionales.
   Big Data son tres V’s y una C:
        Velocidad: los datos se generan a un ritmo exponencial.
        Volumen: la irrupción de Big Data dejó en el
         pasado el Terabyte para hablar de Petabytes y
         Zetabytes.
        Variedad: datos estructurados y no estructurados,
         proveniente de la web 2.0, sensores, logs, etc.
        Complejidad: volumen de datos tal que no
         permite procesarlo con técnicas tradicionales
De dónde viene?
   Información transaccional
        Operaciones bancarias
        Servicios financieros, portales de bolsa
        Tiendas virtuales / e-commerce
   La nube
        World Wide Web / Blogs
        Redes sociales: Twitter, Facebook, LinkedIn
   Machine-generated data (MGD)
        Weblogs
        Centrales telefónicas
        Sensores de todo tipo
        Logs de aplicaciones
Dónde invierten las empresas en BI
   Herramientas de Visualización / OLAP
        MicroStrategy
        SAP/Business Objects
        Cognos
        Pentaho
   Herramientas de Integración
        Pentaho Data Integration
        IBM DataStage
        Informática
   Herramientas de Minería de Datos
   Pero… qué hay del motor de base de datos a utilizar como Data Warehouse?
DW: el corazón de toda solución de BI
                                    DW
  VSAM
  MQSeries
  AS/400
                                                                Pentaho,
                                                                Oracle/Hyperion,
                                                                Microstrategy,
  DB2 UDB
                                                                SAS, Etc.
  Informix
  Oracle            Extract
  Microsoft         Transform
  ...               Clean
  Siebel            Load
  PeopleSoft
                                                 DW
                      Datastage       ODS                 Data Mart
  SAP R/3
                      Informatica
  XML                               Oracle
                      Oracle DI
                      Pentaho DI    IBM DB2
                      SAS DIS       SQL Server
  Archivos Planos
                      Etc.          Teradata
  FTP
                                    Sybase IQ
                                    Etc.
                                                      SAS, SPSS,
  Web Logs                                            Rapid Miner
Bases de Datos de Transaccionales
   La mayoría de las empresas utilizan motores de bases datos tradicionales
        IBM DB2, Oracle, MS SQL Server, PostgreSQL, MySQL, etc.
   Todos muy buenos motores, pero todos transaccionales, diseñados y desarrollados para
    soportar transacciones y trabajar con pocos registros por operación.
   Las soluciones de Business Intelligence en cambio involucran cientos de miles (e inclusive
    millones) de registros en una única operación, y deben responder en un tiempo
    adecuado.
   Las bases de datos transaccionales no fueron diseñadas para responder a consultas
    analíticas sobre grandes volúmenes de información.
   La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar
    complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de
    desarrollo y mantenimiento, obteniendo tiempos
Bases de Datos Analíticas
   Pero existen en el mercado una variedad de bases de datos analíticas, diseñadas
    específicamente para ser utilizadas como motores de Data Warehouse:




   Estas bases de datos logran procesar grandes volúmenes de información a velocidades
    asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:
        Almacenamiento en columnas en lugar de filas (registros)
        Massively parallel processing (MPP)
        In-Memory Analytics
   Históricamente estas bases de datos tan especializadas tenían un costo muy elevado,
    pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de
    cada organización.
Presentando a
   Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a
    columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad-
    hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de
    administración, mantenimiento y costo de propiedad.
   Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en
    Boston (USA), Irlanda y Polonia.
   A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en
    modelos matemático, no en hardware.
   Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise
    Edition, IEE) y una versión Open Source (Infobright Enterprise Edition, ICE).
   Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.
   Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
Características de Infobright

                Base de datos columnar orientada al análisis de información
                Excelente performance:
                     Análisis ad-hoc de grandes volúmenes de información
                     Tiempos de carga de 2TB/hour
                     Tasas de compresión de 10:1 a 40:1 (o aún más)
                Fácil administración e implementación:
                     Elimina la necesidad de mantener índices, tablas particionadas,
                      tablas agregadas, etc
                     Auto-tunning: la base va “aprendiendo” de las consultas que recibe
                     Se instala en minutos, y no tiene grandes requisitos de HW
                     Basada en arquitectura MySQL (BD más utilizada en el mundo)
                     Es una base relacional, por lo que dialoga SQL
                Modelo de suscripción Low Cost
Y por qué resulta mejor para BI?

     Base de datos      Potencia basada en    Administración
      orientada a       inteligencia, no en    simplificada
       columnas              Hardware

     Diseñada para                              No existe el
                          Knowledge Grid
    análisis de datos                          tuning manual


                                                 Tareas de
    Excelente tasa de
                          Motor iterativo      administración
       compresión
                                                 mínimas
Almacenamiento en columnas, no filas
 ID       Tarea      Departamento    Ciudad                      1          Envío       Operaciones   Medellín

 #                                                               2       Recepción      Operaciones   Medellín
 #                                                               3       Registración    Finanzas     Bogotá
 #
 #                                                        El almacenamiento en filas sirve si…
 #
 #
                                                           Todas las columnas son necesarias
                                                                Por ejemplo, el detalle de una compra de supermercado
                                                           Ideal para un mundo transaccional donde usualmente
                                                            se necesita todo el detalle de una entidad

                  Almacenamiento
                    en Columnas                           El almacenamiento en columnas sirve si…
                                                           Sólo se requieren algunas columnas para el análisis
      1              Envío       Operaciones   Medellín         Por ejemplo, el total vendido del producto X en cada una
                                                                  de las sucursales en los últimos 3 meses.
      2           Recepción      Operaciones   Medellín
                                                           Información consolidada (sumas, cantidades,
      3           Registración      Finanzas   Bogotá
                                                            promedios, …)
                                                           Ideal para un mundo analítico, donde la información se
                                                            concentra en métrica de distintas entidades
Almacenamiento en filas vs. columnas
                                                           30 columnas
Ejemplo de aplicación:
 50 días con información; 30
  columnas/variables por
  cada registro; un millón de
  registros por cada día
 El acceso a disco es un
  problema
 El almacenamiento en filas    50 millones de registros
  obliga a recuperar la
  información de todas las
  columnas
 Al incrementarse el tamaño
  de la tabla, se incrementan
  los índices
 La velocidad de carga se
  degrada dado que los
  índices deben recrearse al
  incorporarse nuevos datos
Almacenamiento en filas vs. columnas
                                                                              30 columnas
Objetivo: obtener el total de
ventas de una semana del
año.
 La consulta SQL sería algo
  como:
  Select sum(ventas)
  from tabla
  where semana = X              50 millones de registros




                                                           Día de la semana




                                                                                     Venta diaria
Almacenamiento en filas vs. columnas
                                                                                           30 columnas
Utilizando un esquema de
 almacenamiento en filas
 (esquema tradicional)
  Se recorren 7 millones de
   registros (un millón por cada
   día)
  Para acceder a un valor en
                                   50 millones de registros
   particular (el valor de la




                                                                        Día de la semana
   venta) es necesario leer las




                                                                                                  Venta diaria
   30 columnas, aún cuando                                    Información recuperada para el cálculo
   no tengan información                                            (210 millones de variables!)
   relevante.
  Se procesan TODAS las
   columnas (210 millones,
   30 x 7), y se DESCARTAN
   TODAS MENOS una.
  Es decir se procesó un 93%
   más de información.
Almacenamiento en columnas, no filas
Utilizando un esquema de
 almacenamiento en columnas
 (esquema utilizado por
 Infobright)
   Se recorren 7 millones de
      registros (un millón por cada
      día)
                                  50 millones de registros
     Se descartan 28 de las 30




                                                             Día de la semana




                                                                                Venta diaria
      columnas.
     Se procesan sólo las 2
      columnas necesarias: día y
      venta diaria.
     Es decir, sólo se procesa la
      información necesaria.
     La inteligencia está en la                                                               93% menos de información
      forma de almacenamiento y                                                                      recuperada!
      en el algoritmo usado para
      extraer los datos.
Inteligencia, no hardware

  Al momento de cargar los      • Almacena esta información en la Knowledge Grid
   datos, crea información      • La KG está cargada en memoria
   (metadata) de los datos      • Menos del 1% del tamaño de los datos
      automáticamente             comprimidos


  Utiliza esta información al   • Al disminuir los datos que deben accederse,
   procesar consultas para        aumenta la tasa de respuesta
  eliminar/reducir acceso a     • Respuestas por debajo del segundo cuando la
             datos                información está contenida en la KG



                                • No existe la necesidad de particionar los datos,
       Beneficios de la
                                  crear/mantener índices, hacer proyecciones o
        arquitectura              tuning para mejorar la performance.
Paquetes de Datos y Compresión
                    Paquetes de Datos
                     Cada paquete contiene 65,536 valores de datos
64K                  La compresión se realiza a nivel de paquete individual
                     El algoritmo de compresión cambia de acuerdo con el
                      tipo de dato y su distribución.
64K
                                        Compresión
                                         Los resultados dependen de la
64K                                       distribución de datos en los paquetes
                                         La media observada en diferentes
                                          implementaciones es 10:1
64K                                      En algunos casos se han detectado
          Algoritmos de                   compresiones mayores a 40:1
           compresión                    Por ejemplo, con una compresión 10:1,
                                          1TB de datos requeriría solamente
                                          100GB de almacenamiento
Almacenamiento de los datos

  Datos Originales
       1TB                 Datos comprimidos
                                 100 GB
                          Promedio de compresión 10:1

                     =
                                    +
                     Knowledge Grid
                     < 1 GB
                                      < 1% datos comprimidos
Inteligencia, no hardware

                                                                          Respuesta

Consulta
 Cual es el total de
 ventas de los últimos
 3 meses?




1.   Se recibe la consulta.
2.   El motor itera sobre el Knowledge Grid
3.   Cada iteración elimina Data Packs (necesidad de acceso a datos en disco)
4.   Sólo se accede y descomprimen aquellos que son estrictamente necesarios

Aparte de almacenar la información en columnas, se mejora la performance utilizando un
                             acceso inteligente a los datos
Consultas con Knowledge Grid
                           salario edad cargo dpto
                                                             Paquetes
  SELECT count(*)                                           ignorados

  FROM Empleados                                             Paquetes
  WHERE Salario> 100000                                     ignorados

   AND edad < 35
   AND cargo = ‘DBA’
   AND dpto = ‘ANT’;                                         Paquetes
                                                            ignorados



                               Este paquete será
                                descomprimido
                                Irrelevante
                                Candidato
                                Todos los valores cumplen
Benchmarks realizados

   Consulta Analítica                       Mobile Data                    Set de Consultas
                                            (15MM eventos)

 Alternativa                          Alternativa                       Alternativa




 +2 horas con    <10 segundos        43 minutos con   23 segundos     10 seg. – 15 min.    0.43 – 22
   MySQL                              SQL Server                         con Oracle       segundos


                       Reporte de BI                      Carga de datos
                 Alternativa                          Alternativa




                7 hrs en Informix   17 segundos       11 horas con   11 minutos
                                                      MySQL ISAM
Muchas Gracias!

Contenu connexe

Tendances

NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESTinna26
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaEfimatica
 
Actividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosActividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosFco Dee JeSuss Contreras
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Visión general de Inteligencia de Negocios
Visión general de Inteligencia de NegociosVisión general de Inteligencia de Negocios
Visión general de Inteligencia de NegociosMichael Macavilca Mejia
 
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...Fco Dee JeSuss Contreras
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Titiushko Jazz
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Luis Fernando Aguas Bucheli
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosLuis Fernando Aguas Bucheli
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMJulio Pari
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)DANIEL VENTURA
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 

Tendances (20)

NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTES
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Actividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosActividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negocios
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Visión general de Inteligencia de Negocios
Visión general de Inteligencia de NegociosVisión general de Inteligencia de Negocios
Visión general de Inteligencia de Negocios
 
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
 
Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1
 
Bussines Inteligence
Bussines InteligenceBussines Inteligence
Bussines Inteligence
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datos
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Aplicaciones difusas:Introducción a BI
Aplicaciones difusas:Introducción a  BIAplicaciones difusas:Introducción a  BI
Aplicaciones difusas:Introducción a BI
 

En vedette

Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Stratebi
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobrightSoftware Guru
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Ricardo Sada
 
Curso de big data
Curso de big data Curso de big data
Curso de big data Luis Joyanes
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos Luis Joyanes
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
Almacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud ComputingAlmacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud ComputingAlfredo Vela Zancada
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
La Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVALa Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVASilvia Dvorak
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para DummiesStratebi
 

En vedette (20)

Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Infraestructura para big data Telefónica
Infraestructura para big data TelefónicaInfraestructura para big data Telefónica
Infraestructura para big data Telefónica
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Almacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud ComputingAlmacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud Computing
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
La Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVALa Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVA
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 

Similaire à Big Data - Infraestrucutra de BI para soluciones de BI

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTNDatalytics
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxIT-NOVA
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoDatalytics
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...GeneXus
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. IntroduccionRicardo Mendoza
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Denodo
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BIdbLearner
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 

Similaire à Big Data - Infraestrucutra de BI para soluciones de BI (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...
 
Capitulo 2 introducción al business intelligence
Capitulo 2   introducción al business intelligenceCapitulo 2   introducción al business intelligence
Capitulo 2 introducción al business intelligence
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Querona
QueronaQuerona
Querona
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Big data
Big dataBig data
Big data
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 

Dernier

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 

Dernier (20)

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 

Big Data - Infraestrucutra de BI para soluciones de BI

  • 1. Ing. Diego Robledo www.datalytics.com Big Data – Infraestructura de BI para BI
  • 2. Un punto de inflexión LOS DATOS SE 40 DUPLICAN CADA 2 AÑOS 80% 35 DE LA INFORMACIÓN ES NO 30 ESTRUCTURADA (Gartner, December 2011) 25 ZB 20 15 LAS EMPRESAS MANEJARÁN 10 50X MÁS DATOS 5 EN LA PRÓXIMA DÉCADA 2005 2010 2015 2020 (IDC Digital Universe Study, June 2011) 0 (IDC Digital Universe Study, June 2011) “El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
  • 3. Qué es Big Data?  Big Data es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con métodos o técnicas tradicionales del mundo de base de datos relacionales.  Big Data son tres V’s y una C:  Velocidad: los datos se generan a un ritmo exponencial.  Volumen: la irrupción de Big Data dejó en el pasado el Terabyte para hablar de Petabytes y Zetabytes.  Variedad: datos estructurados y no estructurados, proveniente de la web 2.0, sensores, logs, etc.  Complejidad: volumen de datos tal que no permite procesarlo con técnicas tradicionales
  • 4. De dónde viene?  Información transaccional  Operaciones bancarias  Servicios financieros, portales de bolsa  Tiendas virtuales / e-commerce  La nube  World Wide Web / Blogs  Redes sociales: Twitter, Facebook, LinkedIn  Machine-generated data (MGD)  Weblogs  Centrales telefónicas  Sensores de todo tipo  Logs de aplicaciones
  • 5. Dónde invierten las empresas en BI  Herramientas de Visualización / OLAP  MicroStrategy  SAP/Business Objects  Cognos  Pentaho  Herramientas de Integración  Pentaho Data Integration  IBM DataStage  Informática  Herramientas de Minería de Datos  Pero… qué hay del motor de base de datos a utilizar como Data Warehouse?
  • 6. DW: el corazón de toda solución de BI DW VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. SAS, SPSS, Web Logs Rapid Miner
  • 7. Bases de Datos de Transaccionales  La mayoría de las empresas utilizan motores de bases datos tradicionales  IBM DB2, Oracle, MS SQL Server, PostgreSQL, MySQL, etc.  Todos muy buenos motores, pero todos transaccionales, diseñados y desarrollados para soportar transacciones y trabajar con pocos registros por operación.  Las soluciones de Business Intelligence en cambio involucran cientos de miles (e inclusive millones) de registros en una única operación, y deben responder en un tiempo adecuado.  Las bases de datos transaccionales no fueron diseñadas para responder a consultas analíticas sobre grandes volúmenes de información.  La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de desarrollo y mantenimiento, obteniendo tiempos
  • 8. Bases de Datos Analíticas  Pero existen en el mercado una variedad de bases de datos analíticas, diseñadas específicamente para ser utilizadas como motores de Data Warehouse:  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización.
  • 9. Presentando a  Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad- hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de administración, mantenimiento y costo de propiedad.  Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en Boston (USA), Irlanda y Polonia.  A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en modelos matemático, no en hardware.  Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise Edition, IEE) y una versión Open Source (Infobright Enterprise Edition, ICE).  Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.  Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
  • 10. Características de Infobright  Base de datos columnar orientada al análisis de información  Excelente performance:  Análisis ad-hoc de grandes volúmenes de información  Tiempos de carga de 2TB/hour  Tasas de compresión de 10:1 a 40:1 (o aún más)  Fácil administración e implementación:  Elimina la necesidad de mantener índices, tablas particionadas, tablas agregadas, etc  Auto-tunning: la base va “aprendiendo” de las consultas que recibe  Se instala en minutos, y no tiene grandes requisitos de HW  Basada en arquitectura MySQL (BD más utilizada en el mundo)  Es una base relacional, por lo que dialoga SQL  Modelo de suscripción Low Cost
  • 11. Y por qué resulta mejor para BI? Base de datos Potencia basada en Administración orientada a inteligencia, no en simplificada columnas Hardware Diseñada para No existe el Knowledge Grid análisis de datos tuning manual Tareas de Excelente tasa de Motor iterativo administración compresión mínimas
  • 12. Almacenamiento en columnas, no filas ID Tarea Departamento Ciudad 1 Envío Operaciones Medellín # 2 Recepción Operaciones Medellín # 3 Registración Finanzas Bogotá # # El almacenamiento en filas sirve si… # #  Todas las columnas son necesarias  Por ejemplo, el detalle de una compra de supermercado  Ideal para un mundo transaccional donde usualmente se necesita todo el detalle de una entidad Almacenamiento en Columnas El almacenamiento en columnas sirve si…  Sólo se requieren algunas columnas para el análisis 1 Envío Operaciones Medellín  Por ejemplo, el total vendido del producto X en cada una de las sucursales en los últimos 3 meses. 2 Recepción Operaciones Medellín  Información consolidada (sumas, cantidades, 3 Registración Finanzas Bogotá promedios, …)  Ideal para un mundo analítico, donde la información se concentra en métrica de distintas entidades
  • 13. Almacenamiento en filas vs. columnas 30 columnas Ejemplo de aplicación:  50 días con información; 30 columnas/variables por cada registro; un millón de registros por cada día  El acceso a disco es un problema  El almacenamiento en filas 50 millones de registros obliga a recuperar la información de todas las columnas  Al incrementarse el tamaño de la tabla, se incrementan los índices  La velocidad de carga se degrada dado que los índices deben recrearse al incorporarse nuevos datos
  • 14. Almacenamiento en filas vs. columnas 30 columnas Objetivo: obtener el total de ventas de una semana del año.  La consulta SQL sería algo como: Select sum(ventas) from tabla where semana = X 50 millones de registros Día de la semana Venta diaria
  • 15. Almacenamiento en filas vs. columnas 30 columnas Utilizando un esquema de almacenamiento en filas (esquema tradicional)  Se recorren 7 millones de registros (un millón por cada día)  Para acceder a un valor en 50 millones de registros particular (el valor de la Día de la semana venta) es necesario leer las Venta diaria 30 columnas, aún cuando Información recuperada para el cálculo no tengan información (210 millones de variables!) relevante.  Se procesan TODAS las columnas (210 millones, 30 x 7), y se DESCARTAN TODAS MENOS una.  Es decir se procesó un 93% más de información.
  • 16. Almacenamiento en columnas, no filas Utilizando un esquema de almacenamiento en columnas (esquema utilizado por Infobright)  Se recorren 7 millones de registros (un millón por cada día) 50 millones de registros  Se descartan 28 de las 30 Día de la semana Venta diaria columnas.  Se procesan sólo las 2 columnas necesarias: día y venta diaria.  Es decir, sólo se procesa la información necesaria.  La inteligencia está en la 93% menos de información forma de almacenamiento y recuperada! en el algoritmo usado para extraer los datos.
  • 17. Inteligencia, no hardware Al momento de cargar los • Almacena esta información en la Knowledge Grid datos, crea información • La KG está cargada en memoria (metadata) de los datos • Menos del 1% del tamaño de los datos automáticamente comprimidos Utiliza esta información al • Al disminuir los datos que deben accederse, procesar consultas para aumenta la tasa de respuesta eliminar/reducir acceso a • Respuestas por debajo del segundo cuando la datos información está contenida en la KG • No existe la necesidad de particionar los datos, Beneficios de la crear/mantener índices, hacer proyecciones o arquitectura tuning para mejorar la performance.
  • 18. Paquetes de Datos y Compresión Paquetes de Datos  Cada paquete contiene 65,536 valores de datos 64K  La compresión se realiza a nivel de paquete individual  El algoritmo de compresión cambia de acuerdo con el tipo de dato y su distribución. 64K Compresión  Los resultados dependen de la 64K distribución de datos en los paquetes  La media observada en diferentes implementaciones es 10:1 64K  En algunos casos se han detectado Algoritmos de compresiones mayores a 40:1 compresión  Por ejemplo, con una compresión 10:1, 1TB de datos requeriría solamente 100GB de almacenamiento
  • 19. Almacenamiento de los datos Datos Originales 1TB Datos comprimidos 100 GB Promedio de compresión 10:1 = + Knowledge Grid < 1 GB < 1% datos comprimidos
  • 20. Inteligencia, no hardware Respuesta Consulta Cual es el total de ventas de los últimos 3 meses? 1. Se recibe la consulta. 2. El motor itera sobre el Knowledge Grid 3. Cada iteración elimina Data Packs (necesidad de acceso a datos en disco) 4. Sólo se accede y descomprimen aquellos que son estrictamente necesarios Aparte de almacenar la información en columnas, se mejora la performance utilizando un acceso inteligente a los datos
  • 21. Consultas con Knowledge Grid salario edad cargo dpto Paquetes SELECT count(*) ignorados FROM Empleados Paquetes WHERE Salario> 100000 ignorados AND edad < 35 AND cargo = ‘DBA’ AND dpto = ‘ANT’; Paquetes ignorados Este paquete será descomprimido Irrelevante Candidato Todos los valores cumplen
  • 22. Benchmarks realizados Consulta Analítica Mobile Data Set de Consultas (15MM eventos) Alternativa Alternativa Alternativa +2 horas con <10 segundos 43 minutos con 23 segundos 10 seg. – 15 min. 0.43 – 22 MySQL SQL Server con Oracle segundos Reporte de BI Carga de datos Alternativa Alternativa 7 hrs en Informix 17 segundos 11 horas con 11 minutos MySQL ISAM