2. Problema Inicial
• ¿Cuáles fueron los volúmenes de venta, por región y por categoría de
producto, en el último año?.
• ¿Qué tipos de órdenes se debieran favorecer para maximizar las
ganancias?.
• Un 10% de descuento, ¿incrementará el volumen de ventas de forma
satisfactoria?.
5. Inteligencia de Negocios
• Alternativa tecnológica para manejar la
información requerida por una organización para
apoyar la toma de decisiones estratégica.
• Comprende desde la extracción de los datos de
los sistemas existentes hasta la explotación de la
información por herramientas de análisis de datos.
6. Inteligencia de Negocios
BDs Ope-
racional
BD de ERP
Fuentes Herramientas de
Internas consultas e
Archivos informes
Planos Respaldos
Herramientas
EIS y DSS
Interfaz y
ETL DW Operadores
Herramientas
Fuente de
Datos 1 OLAP
texto
Fuente de
Datos 3
Herramientas de
HTML Minería de Datos
Fuente de Fuentes
Datos Externas
Inteligencia de Negocios
7. Primera Parte: Proceso ETL
BDs Ope-
racional
BD de ERP
Fuentes Herramientas de
Internas consultas e
Archivos informes
Planos Respaldos
Herramientas
EIS y DSS
Interfaz y
ETL DW Operadores
Herramientas
Fuente de
Datos 1 OLAP
texto
Fuente de
Datos 3
Herramientas de
HTML Minería de Datos
Fuente de Fuentes
Datos Externas
8. Primera Parte: Proceso ETL
El encargado del mantenimiento del almacén de
datos es el sistema ETL (Extracción – Transforma-
ción – Carga):
• La construcción del sistema ETL es responsabilidad del
equipo de desarrollo del DW.
• El sistema ETL es construido específicamente para cada
DW, aproximadamente, 50% del esfuerzo.
• En la construcción del ETL se pueden utilizar herramien-
tas del mercado o programas diseñados específicamente.
9. Primera Parte: Proceso ETL
Extracción: antes de llevarla a cabo, hay que iden-
tificar los cambios, al determinar los datos
operacionales (relevantes) que han sufrido una
modificación desde el último refresh.
C a r a c t e r ís t ic a N iv e l N iv e l T á c t ic o N iv e l
s E s t r a t é g ic o O p e r a c io n a l
D e c is ió n q u e P la n ific a c ió n C o n tr o l G e r e n c ia l C o n tr o l
apoya L a r g o P la z o O p e r a c io n a l
T ip o d e D e c is ió n N o E s tr u c tu r a d a Sem i E s tr u c tu r a d a
E s tr u c t u r a d a
M o d e lo m á s u s a d o P r e d ic tiv o D e s c r ip tiv o N o r m a tiv o
C a r a c te r ís tic a s d e
la I n fo r m a c ió n :
F u e n te M e d io A m b ie n te R e g is tr o s In te r n o s O p e r a c ió n In t e r n a
E x a c titu d R a z o n a b le Buena E x a c ta
A m p litu d R e s u m id a D e ta lla d a M u y D e t a lla d a
F r e c u e n c ia A S o lic itu d P e r ió d ic a T ie m p o R e a l
R ango de Años Años M eses
T ie m p o P r e d ic c ió n C o n tr o l A c c ió n D ia ria
U so
10. Primera Parte: Proceso ETL
Transformación:
• Unificar estándares: unidades de medida, unidades de tiempo,
moneda,...
cm
cm
inches
DD/MM/YY
DD-Mon-YY
MM/DD/YY
1,000 GBP
USD 600
FF 9,990
11. Primera Parte: Proceso ETL
Carga (transporte):
• Consiste en mover los datos desde las fuentes
operacionales o el almacenamiento intermedio hasta el
DW y cargar los datos en las correspondientes
estructuras de datos.
• La carga puede consumir mucho tiempo.
Base de datos
operacional
T1 T2 T3
12. Segunda Parte: Data Warehouse
(Almacén de Datos)
BDs Ope-
racional
BD de ERP
Fuentes Herramientas de
Internas consultas e
Archivos informes
Planos Respaldos
Herramientas
EIS y DSS
Interfaz y
ETL DW Operadores
Herramientas
Fuente de
Datos 1 OLAP
texto
Fuente de
Datos 3
Herramientas de
HTML Minería de Datos
Fuente de Fuentes
Datos Externas
13. Segunda Parte: Data Warehouse
(Almacén de Datos)
• Data Warehouse: colección de datos orientada a
temas específicos, integrada, no volátil y variante
en el tiempo, organizada para apoyar las
necesidades de la gestión
• Data Mart: corresponde a un pequeño data
warehouse, específico a un área de negocio o
departamento de la empresa.
14. Segunda Parte: Data Warehouse
(Almacén de Datos)
Su estructura se puede visualizar como un cubo...
15. Tercera Parte: Análisis de Datos
BDs Ope-
racional
BD de ERP
Fuentes Herramientas de
Internas consultas e
Archivos informes
Planos Respaldos
Herramientas
EIS y DSS
Interfaz y
ETL DW Operadores
Herramientas
Fuente de
Datos 1 OLAP
texto
Fuente de
Datos 3
Herramientas de
HTML Minería de Datos
Fuente de Fuentes
Datos Externas
16. Tercera Parte: Análisis de Datos
Consultas y Reportes
• Corresponde a un análisis dirigido por el analista, y
requiere tanto un conocimiento acabado de los datos como
un trabajo excesivo sobre éstos por parte de dicho analista.
• Este análisis considera la definición de las consultas, el
acceso y recuperación de datos, la manipulación de
cálculos, y la preparación y entrega de los reportes.
17. Tercera Parte: Análisis de Datos
Análisis Multidimensional (OLAP)
Análisis asistido por el analista,
consiste en un estudio basado
en las tablas presentes en un
data warehouse.
Se definen operaciones
especiales para el manejo de
los datos de un cubo:
• Drill-down: obtención de mayor
detalle de los datos, bajando por
alguna dimensión.
• Roll-up: operación inversa a la
anterior, para tener datos más
agregados.
19. Tercera Parte: Análisis de Datos
Minería de Datos
• Análisis dirigido por lo datos, permite moverse a través de
los almacenes de datos para encontrar las tendencias,
patrones y correlaciones que pueden guiar la toma de
decisiones estratégicas.
OLAP (Agregación) Data M ining (Influencias)
¿Cuál es la tasa prom edio de accidentes entre ¿Cuáles son los mejores predictores de
fum adores y no fumadores? accidentes?
¿Cuál es la cuenta telefónica prom edio de mis ¿Qué atributos están asociados con los
clientes v/s la de quienes que han cancelado el clientes que están cerca de cerrar sus
servicio? servicios?
¿Cuál es el m de la com diaria prom entre
onto pra edio ¿Qué patrones de com están asociados
pra
tarjetas de crédito robadas y aquéllas usadas por sus con fraudes de crédito?
dueños?
20. Tercera Parte: Análisis de Datos
Minería de Datos: un Breve Ejemplo
Ejemplo Práctico con Clementine (SPSS): Ensayo de
Medicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html)
• Un número de pacientes hospitalarios que sufren todos
la misma enfermedad se tratan con un abanico de
medicamentos.
• Cinco medicamentos diferentes están disponibles y los
pacientes han respondido de manera distinta a los
diferentes medicamentos.
• Problema: ¿qué medicamento es apropiado para un
nuevo paciente.
21. Tercera Parte: Análisis de Datos
Minería de Datos: un Breve Ejemplo
Primer Paso: ACCEDIENDO LOS DATOS
• Se leen los datos, por ejemplo de un archivo con
delimitadores.
• Se nombran los campos
age edad
sex sexo
BP presión sanguínea (High, Normal, Low)
Cholesterol colesterol (Normal, High)
Na concentración de sodio en la sangre.
K concentración de potasio en la sangre.
drug medicamento al cual el paciente respondió
satisfactoriamente.
• Se pueden combinar los datos; por ejemplo añadiendo un
nuevo atributo llamado Na/K.
22.
23. Tercera Parte: Análisis de Datos
Minería de Datos: Técnica de Patrones Secuenciales
Se trata de establecer asociaciones del estilo: “si compra
X en T … ¿comprará Y en T+P?”
Ejemplo:
25. Tercera Parte: Análisis de Datos
Minería de Datos: Técnica de Clasificación
a) Árboles de Clasificación: estructura similar a un
diagrama de flujo, donde cada nodo interno denota una
condición sobre un atributo, cada enlace representa una
salida de la misma, y cada nodo hoja representa las clases.
b) Extracción de Reglas.
26. Tercera Parte: Análisis de Datos
Minería de Datos: Técnica de Regresión Lineal
Predicción: mediante regresión lineal, los datos son
modelados usando una recta.
que considera conceptos como variable de respuesta,
variable predictora, coeficientes de regresión, método de
mínimos cuadrados.
27. Aplicaciones
Área: Gobierno y Seguridad Nacional.
A principios del mes de julio de 2002, el director del Federal Bureau of
Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia
comenzó a introducirse en la vasta cantidad de datos comerciales referentes a
los hábitos y preferencias de compra de los consumidores, con el fin de
descubrir potenciales terroristas antes de que ejecuten una acción. Algunos
expertos aseguran que, con esta información, el FBI unirá todas las bases de
datos probablemente mediante el número de la Seguridad Social y permitirá
saber si una persona fuma, qué talla y tipo de ropa usa, su registro de
arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus
contribuciones a la Iglesia, grupos políticos u organizaciones no
gubernamentales, sus enfermedades crónicas (como diabetes o asma), los
libros que lee, los productos de supermercado que compra, si tomó clases de
vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial
ronda los setenta millones de dólares estadounidenses para consolidar los
almacenes de datos, desarrollar redes de seguridad para compartir
información e implementar nuevo software analítico y de visualización.
28. Aplicaciones
Área: Investigación Espacial.
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)
coleccionó tres terabytes de imágenes que contenían aproximadamente dos
millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una
resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El
objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(clustering) y árboles de decisión para poder clasificar los objetos en estrellas,
planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros,
1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis
nuevos quásars. Estos quásars son difíciles de encontrar y permiten saber más
acerca de los orígenes del universo.
29. Aplicaciones
Área: Club Deportivo.
En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica de
clasificación) para prevenir lesiones y optimizar el acondicionamiento de cada
atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar
al médico del equipo de una posible lesión. El sistema, creado por Computer
Associates International, es alimentado por datos de cada jugador,
relacionados con su rendimiento, alimentación y respuesta a estímulos
externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo
determinadas actividades que son monitoreadas por veinticuatro sensores
conectados al cuerpo y que transmiten señales de radio que posteriormente
son almacenadas en una base de datos. Actualmente el sistema dispone de
5.000 casos registrados que permiten predecir alguna posible lesión. Con ello,
el club intenta ahorrar dinero evitando comprar jugadores que presenten una
alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por
otra parte, el sistema pretende encontrar las diferencias entre las lesiones de
atletas de ambos sexos, así como saber si una determinada lesión se relaciona
con el estilo de juego de un país concreto donde se practica el fútbol.