SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
Inteligencia de Negocios




        Por José Luis Martí
        USM
Problema Inicial




• ¿Cuáles fueron los volúmenes de venta, por región y por categoría de
producto, en el último año?.
• ¿Qué tipos de órdenes se debieran favorecer para maximizar las
ganancias?.
• Un 10% de descuento, ¿incrementará el volumen de ventas de forma
satisfactoria?.
Solución
Solución




 Dashboard
Inteligencia de Negocios
• Alternativa  tecnológica para manejar la
información requerida por una organización para
apoyar la toma de decisiones estratégica.
• Comprende desde la extracción de los datos de
los sistemas existentes hasta la explotación de la
información por herramientas de análisis de datos.
Inteligencia de Negocios

           BDs Ope-
            racional
                                   BD de ERP
                                                  Fuentes                                             Herramientas de
                                                  Internas                                              consultas e
Archivos                                                                                                 informes
 Planos                Respaldos



                                                                                                          Herramientas
                                                                                                           EIS y DSS

                                                                                         Interfaz y
                                                             ETL                 DW     Operadores

                                                                                                          Herramientas
                Fuente de
                 Datos 1                                                                                     OLAP
                   texto
                                     Fuente de
                                      Datos 3
                                                                                                      Herramientas de
                                    HTML                                                              Minería de Datos
                 Fuente de                       Fuentes
                   Datos                         Externas




                                                             Inteligencia de Negocios
Primera Parte: Proceso ETL


           BDs Ope-
            racional
                                   BD de ERP
                                                  Fuentes                             Herramientas de
                                                  Internas                              consultas e
Archivos                                                                                 informes
 Planos                Respaldos



                                                                                          Herramientas
                                                                                           EIS y DSS

                                                                         Interfaz y
                                                             ETL   DW   Operadores

                                                                                          Herramientas
                Fuente de
                 Datos 1                                                                     OLAP
                   texto
                                     Fuente de
                                      Datos 3
                                                                                      Herramientas de
                                    HTML                                              Minería de Datos
                 Fuente de                       Fuentes
                   Datos                         Externas
Primera Parte: Proceso ETL
El encargado del mantenimiento del almacén de
datos es el sistema ETL (Extracción – Transforma-
ción – Carga):
• La construcción del sistema ETL es responsabilidad del
  equipo de desarrollo del DW.
• El sistema ETL es construido específicamente para cada
  DW, aproximadamente, 50% del esfuerzo.
• En la construcción del ETL se pueden utilizar herramien-
  tas del mercado o programas diseñados específicamente.
Primera Parte: Proceso ETL
Extracción: antes de llevarla a cabo, hay que iden-
tificar los cambios, al determinar los datos
operacionales (relevantes) que han sufrido una
modificación desde el último refresh.
   C a r a c t e r ís t ic a               N iv e l            N iv e l T á c t ic o                  N iv e l
              s                      E s t r a t é g ic o                                        O p e r a c io n a l
   D e c is ió n q u e             P la n ific a c ió n        C o n tr o l G e r e n c ia l   C o n tr o l
   apoya                           L a r g o P la z o                                          O p e r a c io n a l
   T ip o d e D e c is ió n        N o E s tr u c tu r a d a   Sem i                           E s tr u c tu r a d a
                                                               E s tr u c t u r a d a
   M o d e lo m á s u s a d o      P r e d ic tiv o            D e s c r ip tiv o              N o r m a tiv o
   C a r a c te r ís tic a s d e
   la I n fo r m a c ió n :
       F u e n te                  M e d io A m b ie n te      R e g is tr o s In te r n o s   O p e r a c ió n In t e r n a
       E x a c titu d              R a z o n a b le            Buena                           E x a c ta
       A m p litu d                R e s u m id a              D e ta lla d a                  M u y D e t a lla d a
       F r e c u e n c ia          A S o lic itu d             P e r ió d ic a                 T ie m p o R e a l
       R ango de                   Años                        Años                            M eses
      T ie m p o                   P r e d ic c ió n           C o n tr o l                    A c c ió n D ia ria
       U so
Primera Parte: Proceso ETL
Transformación:
• Unificar estándares: unidades de medida, unidades de tiempo,
  moneda,...

             cm
                                      cm
           inches

         DD/MM/YY
                                  DD-Mon-YY
         MM/DD/YY

         1,000 GBP
                                    USD 600
          FF 9,990
Primera Parte: Proceso ETL
Carga (transporte):
• Consiste en mover los datos desde las fuentes
  operacionales o el almacenamiento intermedio hasta el
  DW y cargar los datos en las correspondientes
  estructuras de datos.
• La carga puede consumir mucho tiempo.




        Base de datos
         operacional

                           T1    T2    T3
Segunda Parte: Data Warehouse
     (Almacén de Datos)

            BDs Ope-
             racional
                                    BD de ERP
                                                   Fuentes                             Herramientas de
                                                   Internas                              consultas e
 Archivos                                                                                 informes
  Planos                Respaldos



                                                                                           Herramientas
                                                                                            EIS y DSS

                                                                          Interfaz y
                                                              ETL   DW   Operadores

                                                                                           Herramientas
                 Fuente de
                  Datos 1                                                                     OLAP
                    texto
                                      Fuente de
                                       Datos 3
                                                                                       Herramientas de
                                     HTML                                              Minería de Datos
                  Fuente de                       Fuentes
                    Datos                         Externas
Segunda Parte: Data Warehouse
     (Almacén de Datos)
• Data Warehouse: colección de datos orientada a
  temas específicos, integrada, no volátil y variante
  en el tiempo, organizada para apoyar las
  necesidades de la gestión
• Data Mart: corresponde a un pequeño data
  warehouse, específico a un área de negocio o
  departamento de la empresa.
Segunda Parte: Data Warehouse
     (Almacén de Datos)
Su estructura se puede visualizar como un cubo...
Tercera Parte: Análisis de Datos


            BDs Ope-
             racional
                                    BD de ERP
                                                   Fuentes                             Herramientas de
                                                   Internas                              consultas e
 Archivos                                                                                 informes
  Planos                Respaldos



                                                                                           Herramientas
                                                                                            EIS y DSS

                                                                          Interfaz y
                                                              ETL   DW   Operadores

                                                                                           Herramientas
                 Fuente de
                  Datos 1                                                                     OLAP
                    texto
                                      Fuente de
                                       Datos 3
                                                                                       Herramientas de
                                     HTML                                              Minería de Datos
                  Fuente de                       Fuentes
                    Datos                         Externas
Tercera Parte: Análisis de Datos
                Consultas y Reportes

• Corresponde a un análisis dirigido por el analista, y
requiere tanto un conocimiento acabado de los datos como
un trabajo excesivo sobre éstos por parte de dicho analista.
• Este análisis considera la definición de las consultas, el
acceso y recuperación de datos, la manipulación de
cálculos, y la preparación y entrega de los reportes.
Tercera Parte: Análisis de Datos
           Análisis Multidimensional (OLAP)

Análisis asistido por el analista,
consiste en un estudio basado
en las tablas presentes en un
data warehouse.

Se      definen    operaciones
especiales para el manejo de
los datos de un cubo:
• Drill-down: obtención de mayor
detalle de los datos, bajando por
alguna dimensión.
• Roll-up: operación inversa a la
anterior, para tener datos más
agregados.
Tercera Parte: Análisis de Datos
      Análisis Multidimensional (OLAP)
Tercera Parte: Análisis de Datos
                             Minería de Datos

• Análisis dirigido por lo datos, permite moverse a través de
los almacenes de datos para encontrar las tendencias,
patrones y correlaciones que pueden guiar la toma de
decisiones estratégicas.
                   OLAP (Agregación)                             Data M ining (Influencias)
 ¿Cuál es la tasa prom     edio de accidentes entre      ¿Cuáles son los mejores predictores de
 fum  adores y no fumadores?                             accidentes?
 ¿Cuál es la cuenta telefónica prom      edio de mis     ¿Qué atributos están asociados con los
 clientes v/s la de quienes que han cancelado el         clientes que están cerca de cerrar sus
 servicio?                                               servicios?
 ¿Cuál es el m de la com diaria prom entre
               onto          pra            edio         ¿Qué patrones de com están asociados
                                                                               pra
 tarjetas de crédito robadas y aquéllas usadas por sus   con fraudes de crédito?
 dueños?
Tercera Parte: Análisis de Datos
             Minería de Datos: un Breve Ejemplo

Ejemplo Práctico con Clementine (SPSS): Ensayo de
  Medicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html)
• Un número de pacientes hospitalarios que sufren todos
  la misma enfermedad se tratan con un abanico de
  medicamentos.
• Cinco medicamentos diferentes están disponibles y los
  pacientes han respondido de manera distinta a los
  diferentes medicamentos.

• Problema: ¿qué medicamento es apropiado para un
  nuevo paciente.
Tercera Parte: Análisis de Datos
        Minería de Datos: un Breve Ejemplo

Primer Paso: ACCEDIENDO LOS DATOS
• Se leen los datos, por ejemplo de un archivo con
delimitadores.
• Se nombran los campos

        age           edad
        sex           sexo
        BP            presión sanguínea (High, Normal, Low)
        Cholesterol   colesterol (Normal, High)
        Na            concentración de sodio en la sangre.
        K             concentración de potasio en la sangre.
        drug          medicamento al cual el paciente respondió
                      satisfactoriamente.

• Se pueden combinar los datos; por ejemplo añadiendo un
  nuevo atributo llamado Na/K.
Tercera Parte: Análisis de Datos
  Minería de Datos: Técnica de Patrones Secuenciales

Se trata de establecer asociaciones del estilo: “si compra
X en T … ¿comprará Y en T+P?”



Ejemplo:
Tercera Parte: Análisis de Datos
 Minería de Datos: Técnica de Patrones Secuenciales
Tercera Parte: Análisis de Datos
       Minería de Datos: Técnica de Clasificación

a) Árboles de Clasificación: estructura similar a un
diagrama de flujo, donde cada nodo interno denota una
condición sobre un atributo, cada enlace representa una
salida de la misma, y cada nodo hoja representa las clases.




b) Extracción de Reglas.
Tercera Parte: Análisis de Datos
    Minería de Datos: Técnica de Regresión Lineal

Predicción: mediante regresión lineal, los datos son
modelados usando una recta.


que considera conceptos como variable de respuesta,
variable predictora, coeficientes de regresión, método de
mínimos cuadrados.
Aplicaciones
Área: Gobierno y Seguridad Nacional.
A principios del mes de julio de 2002, el director del Federal Bureau of
Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia
comenzó a introducirse en la vasta cantidad de datos comerciales referentes a
los hábitos y preferencias de compra de los consumidores, con el fin de
descubrir potenciales terroristas antes de que ejecuten una acción. Algunos
expertos aseguran que, con esta información, el FBI unirá todas las bases de
datos probablemente mediante el número de la Seguridad Social y permitirá
saber si una persona fuma, qué talla y tipo de ropa usa, su registro de
arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus
contribuciones a la Iglesia, grupos políticos u organizaciones no
gubernamentales, sus enfermedades crónicas (como diabetes o asma), los
libros que lee, los productos de supermercado que compra, si tomó clases de
vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial
ronda los setenta millones de dólares estadounidenses para consolidar los
almacenes de datos, desarrollar redes de seguridad para compartir
información e implementar nuevo software analítico y de visualización.
Aplicaciones
Área: Investigación Espacial.
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)
coleccionó tres terabytes de imágenes que contenían aproximadamente dos
millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una
resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El
objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(clustering) y árboles de decisión para poder clasificar los objetos en estrellas,
planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros,
1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis
nuevos quásars. Estos quásars son difíciles de encontrar y permiten saber más
acerca de los orígenes del universo.
Aplicaciones
Área: Club Deportivo.
En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica de
clasificación) para prevenir lesiones y optimizar el acondicionamiento de cada
atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar
al médico del equipo de una posible lesión. El sistema, creado por Computer
Associates International, es alimentado por datos de cada jugador,
relacionados con su rendimiento, alimentación y respuesta a estímulos
externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo
determinadas actividades que son monitoreadas por veinticuatro sensores
conectados al cuerpo y que transmiten señales de radio que posteriormente
son almacenadas en una base de datos. Actualmente el sistema dispone de
5.000 casos registrados que permiten predecir alguna posible lesión. Con ello,
el club intenta ahorrar dinero evitando comprar jugadores que presenten una
alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por
otra parte, el sistema pretende encontrar las diferencias entre las lesiones de
atletas de ambos sexos, así como saber si una determinada lesión se relaciona
con el estilo de juego de un país concreto donde se practica el fútbol.
Fuente: www.olapreport.com

Análisis del Mercado
Fuente: www.olapreport.com

Análisis del Mercado

Contenu connexe

Tendances

Business intelligence-
Business intelligence-Business intelligence-
Business intelligence-cassram
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosSebastian Rodriguez Robotham
 
Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Sebass Osorio
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datosen mi casa
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Climanfef
 
NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESTinna26
 
INTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSINTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSluiy90
 
Unidad 3. tecnología de software metodologias de desarrollo de software
Unidad 3. tecnología de software metodologias de desarrollo de softwareUnidad 3. tecnología de software metodologias de desarrollo de software
Unidad 3. tecnología de software metodologias de desarrollo de softwareROSA IMELDA GARCIA CHI
 
Inteligencia de negocios 5
Inteligencia de negocios 5 Inteligencia de negocios 5
Inteligencia de negocios 5 thearcangelboss
 
Inteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreInteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreSantiago Zarate
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business IntelligenceCarlos Escobar
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Dataminingdannoblack
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Velmuz Buzz
 

Tendances (18)

Business intelligence-
Business intelligence-Business intelligence-
Business intelligence-
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de Negocios
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)Bi (Negocios Inteligentes)
Bi (Negocios Inteligentes)
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3
 
NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTES
 
INTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOSINTELIGENCIA DE NEGOCIOS
INTELIGENCIA DE NEGOCIOS
 
Unidad 3. tecnología de software metodologias de desarrollo de software
Unidad 3. tecnología de software metodologias de desarrollo de softwareUnidad 3. tecnología de software metodologias de desarrollo de software
Unidad 3. tecnología de software metodologias de desarrollo de software
 
Inteligencia de negocios 5
Inteligencia de negocios 5 Inteligencia de negocios 5
Inteligencia de negocios 5
 
Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
Inteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreInteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software Libre
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Datamining
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Olap vs oltp bases datos 2
Olap vs oltp bases datos 2Olap vs oltp bases datos 2
Olap vs oltp bases datos 2
 
Sisinformaciom
SisinformaciomSisinformaciom
Sisinformaciom
 

Similaire à Inteligencia de Negocios: Análisis de Ventas y Ganancias

Elicitacion de requerimientos
Elicitacion de requerimientosElicitacion de requerimientos
Elicitacion de requerimientosTensor
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentesStratebi
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoT.I.C
 
Diseño Solución Tecnológica Unidad II
Diseño Solución Tecnológica Unidad IIDiseño Solución Tecnológica Unidad II
Diseño Solución Tecnológica Unidad IIYaneira Reyes Cordero
 
Intelingencia de negocios def
Intelingencia de negocios defIntelingencia de negocios def
Intelingencia de negocios defCarlos Seijas
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourceStratebi
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 

Similaire à Inteligencia de Negocios: Análisis de Ventas y Ganancias (20)

Elicitacion de requerimientos
Elicitacion de requerimientosElicitacion de requerimientos
Elicitacion de requerimientos
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma Pentaho
 
Actividad 2.4
Actividad 2.4Actividad 2.4
Actividad 2.4
 
Actividad 2.4
Actividad 2.4Actividad 2.4
Actividad 2.4
 
BI - Componentes de BI.pptx
BI - Componentes de BI.pptxBI - Componentes de BI.pptx
BI - Componentes de BI.pptx
 
377
377377
377
 
Presentaciã³n1 (1) jovanni reyes
Presentaciã³n1 (1) jovanni reyesPresentaciã³n1 (1) jovanni reyes
Presentaciã³n1 (1) jovanni reyes
 
Trabajo práctico nnticx
Trabajo  práctico nnticxTrabajo  práctico nnticx
Trabajo práctico nnticx
 
gestion de operaciones TI.pptx
gestion de operaciones TI.pptxgestion de operaciones TI.pptx
gestion de operaciones TI.pptx
 
Diseño Solución Tecnológica Unidad II
Diseño Solución Tecnológica Unidad IIDiseño Solución Tecnológica Unidad II
Diseño Solución Tecnológica Unidad II
 
Intelingencia de negocios def
Intelingencia de negocios defIntelingencia de negocios def
Intelingencia de negocios def
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
 
P.E.S.I..
P.E.S.I..P.E.S.I..
P.E.S.I..
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
ERP
ERPERP
ERP
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 

Inteligencia de Negocios: Análisis de Ventas y Ganancias

  • 1. Inteligencia de Negocios Por José Luis Martí USM
  • 2. Problema Inicial • ¿Cuáles fueron los volúmenes de venta, por región y por categoría de producto, en el último año?. • ¿Qué tipos de órdenes se debieran favorecer para maximizar las ganancias?. • Un 10% de descuento, ¿incrementará el volumen de ventas de forma satisfactoria?.
  • 5. Inteligencia de Negocios • Alternativa tecnológica para manejar la información requerida por una organización para apoyar la toma de decisiones estratégica. • Comprende desde la extracción de los datos de los sistemas existentes hasta la explotación de la información por herramientas de análisis de datos.
  • 6. Inteligencia de Negocios BDs Ope- racional BD de ERP Fuentes Herramientas de Internas consultas e Archivos informes Planos Respaldos Herramientas EIS y DSS Interfaz y ETL DW Operadores Herramientas Fuente de Datos 1 OLAP texto Fuente de Datos 3 Herramientas de HTML Minería de Datos Fuente de Fuentes Datos Externas Inteligencia de Negocios
  • 7. Primera Parte: Proceso ETL BDs Ope- racional BD de ERP Fuentes Herramientas de Internas consultas e Archivos informes Planos Respaldos Herramientas EIS y DSS Interfaz y ETL DW Operadores Herramientas Fuente de Datos 1 OLAP texto Fuente de Datos 3 Herramientas de HTML Minería de Datos Fuente de Fuentes Datos Externas
  • 8. Primera Parte: Proceso ETL El encargado del mantenimiento del almacén de datos es el sistema ETL (Extracción – Transforma- ción – Carga): • La construcción del sistema ETL es responsabilidad del equipo de desarrollo del DW. • El sistema ETL es construido específicamente para cada DW, aproximadamente, 50% del esfuerzo. • En la construcción del ETL se pueden utilizar herramien- tas del mercado o programas diseñados específicamente.
  • 9. Primera Parte: Proceso ETL Extracción: antes de llevarla a cabo, hay que iden- tificar los cambios, al determinar los datos operacionales (relevantes) que han sufrido una modificación desde el último refresh. C a r a c t e r ís t ic a N iv e l N iv e l T á c t ic o N iv e l s E s t r a t é g ic o O p e r a c io n a l D e c is ió n q u e P la n ific a c ió n C o n tr o l G e r e n c ia l C o n tr o l apoya L a r g o P la z o O p e r a c io n a l T ip o d e D e c is ió n N o E s tr u c tu r a d a Sem i E s tr u c tu r a d a E s tr u c t u r a d a M o d e lo m á s u s a d o P r e d ic tiv o D e s c r ip tiv o N o r m a tiv o C a r a c te r ís tic a s d e la I n fo r m a c ió n : F u e n te M e d io A m b ie n te R e g is tr o s In te r n o s O p e r a c ió n In t e r n a E x a c titu d R a z o n a b le Buena E x a c ta A m p litu d R e s u m id a D e ta lla d a M u y D e t a lla d a F r e c u e n c ia A S o lic itu d P e r ió d ic a T ie m p o R e a l R ango de Años Años M eses T ie m p o P r e d ic c ió n C o n tr o l A c c ió n D ia ria U so
  • 10. Primera Parte: Proceso ETL Transformación: • Unificar estándares: unidades de medida, unidades de tiempo, moneda,... cm cm inches DD/MM/YY DD-Mon-YY MM/DD/YY 1,000 GBP USD 600 FF 9,990
  • 11. Primera Parte: Proceso ETL Carga (transporte): • Consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el DW y cargar los datos en las correspondientes estructuras de datos. • La carga puede consumir mucho tiempo. Base de datos operacional T1 T2 T3
  • 12. Segunda Parte: Data Warehouse (Almacén de Datos) BDs Ope- racional BD de ERP Fuentes Herramientas de Internas consultas e Archivos informes Planos Respaldos Herramientas EIS y DSS Interfaz y ETL DW Operadores Herramientas Fuente de Datos 1 OLAP texto Fuente de Datos 3 Herramientas de HTML Minería de Datos Fuente de Fuentes Datos Externas
  • 13. Segunda Parte: Data Warehouse (Almacén de Datos) • Data Warehouse: colección de datos orientada a temas específicos, integrada, no volátil y variante en el tiempo, organizada para apoyar las necesidades de la gestión • Data Mart: corresponde a un pequeño data warehouse, específico a un área de negocio o departamento de la empresa.
  • 14. Segunda Parte: Data Warehouse (Almacén de Datos) Su estructura se puede visualizar como un cubo...
  • 15. Tercera Parte: Análisis de Datos BDs Ope- racional BD de ERP Fuentes Herramientas de Internas consultas e Archivos informes Planos Respaldos Herramientas EIS y DSS Interfaz y ETL DW Operadores Herramientas Fuente de Datos 1 OLAP texto Fuente de Datos 3 Herramientas de HTML Minería de Datos Fuente de Fuentes Datos Externas
  • 16. Tercera Parte: Análisis de Datos Consultas y Reportes • Corresponde a un análisis dirigido por el analista, y requiere tanto un conocimiento acabado de los datos como un trabajo excesivo sobre éstos por parte de dicho analista. • Este análisis considera la definición de las consultas, el acceso y recuperación de datos, la manipulación de cálculos, y la preparación y entrega de los reportes.
  • 17. Tercera Parte: Análisis de Datos Análisis Multidimensional (OLAP) Análisis asistido por el analista, consiste en un estudio basado en las tablas presentes en un data warehouse. Se definen operaciones especiales para el manejo de los datos de un cubo: • Drill-down: obtención de mayor detalle de los datos, bajando por alguna dimensión. • Roll-up: operación inversa a la anterior, para tener datos más agregados.
  • 18. Tercera Parte: Análisis de Datos Análisis Multidimensional (OLAP)
  • 19. Tercera Parte: Análisis de Datos Minería de Datos • Análisis dirigido por lo datos, permite moverse a través de los almacenes de datos para encontrar las tendencias, patrones y correlaciones que pueden guiar la toma de decisiones estratégicas. OLAP (Agregación) Data M ining (Influencias) ¿Cuál es la tasa prom edio de accidentes entre ¿Cuáles son los mejores predictores de fum adores y no fumadores? accidentes? ¿Cuál es la cuenta telefónica prom edio de mis ¿Qué atributos están asociados con los clientes v/s la de quienes que han cancelado el clientes que están cerca de cerrar sus servicio? servicios? ¿Cuál es el m de la com diaria prom entre onto pra edio ¿Qué patrones de com están asociados pra tarjetas de crédito robadas y aquéllas usadas por sus con fraudes de crédito? dueños?
  • 20. Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Ejemplo Práctico con Clementine (SPSS): Ensayo de Medicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html) • Un número de pacientes hospitalarios que sufren todos la misma enfermedad se tratan con un abanico de medicamentos. • Cinco medicamentos diferentes están disponibles y los pacientes han respondido de manera distinta a los diferentes medicamentos. • Problema: ¿qué medicamento es apropiado para un nuevo paciente.
  • 21. Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Primer Paso: ACCEDIENDO LOS DATOS • Se leen los datos, por ejemplo de un archivo con delimitadores. • Se nombran los campos age edad sex sexo BP presión sanguínea (High, Normal, Low) Cholesterol colesterol (Normal, High) Na concentración de sodio en la sangre. K concentración de potasio en la sangre. drug medicamento al cual el paciente respondió satisfactoriamente. • Se pueden combinar los datos; por ejemplo añadiendo un nuevo atributo llamado Na/K.
  • 22.
  • 23. Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales Se trata de establecer asociaciones del estilo: “si compra X en T … ¿comprará Y en T+P?” Ejemplo:
  • 24. Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales
  • 25. Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Clasificación a) Árboles de Clasificación: estructura similar a un diagrama de flujo, donde cada nodo interno denota una condición sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases. b) Extracción de Reglas.
  • 26. Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Regresión Lineal Predicción: mediante regresión lineal, los datos son modelados usando una recta. que considera conceptos como variable de respuesta, variable predictora, coeficientes de regresión, método de mínimos cuadrados.
  • 27. Aplicaciones Área: Gobierno y Seguridad Nacional. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzó a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.
  • 28. Aplicaciones Área: Investigación Espacial. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.
  • 29. Aplicaciones Área: Club Deportivo. En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica de clasificación) para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol.