SlideShare une entreprise Scribd logo
1  sur  275
Fundamentos de Data 
Warehouse 
HHeerrmmeess RRoommeerroo 
DDAATTAABBAASSEE TTEEAAMM
Contenidos 
 Introducción 
 Arquitectura del data warehouse 
 Estructura de un Data warehouse 
 Data marts 
 Granularidad 
 Exploración y minería de datos 
 Diseño del data warehouse 
 Visualización del modelo dimensional Aplicaciones OLAP (bases de datos dimensionales) 
 Carga de datos en el data warehouse 
 Ciclo de vida del data warehouse
Introducción 
 Data Warehouse es una solución no un producto o grupo de 
 Un DWH puede ayudarnos a obtener respuestas para tomar 
 Antes de construir un DWH debemos responder a las siguientes 
preguntas 
o ¿De donde vienen los datos del DWH? 
o ¿cómo se cargarán los datos en el DWH? 
o ¿cómo se mantendrán? 
o ¿cómo se estructuran los datos en el DWH? 
o ¿qué podemos encontrar en un momento del tiempo en el DWH? 
© 2004 Database Team S.L 
© Hermes Romero 
productos. 
decisiones de manera más acertada. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Data Warehousing : diseño e implementación de procesos, y 
herramientas para gestionar y proveer información completa, en 
tiempo, fiel y comprensible para la toma de decisiones. Incluye 
todas las actividades que hacen posible a una organización la 
creación, gestión y mantenimiento del DWH o del datamart. 
o La definición aceptada de DWH se atribuye a Bill Inmon en 1992*: 
• DWH es una base de datos que sigue cuatro características: 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
 Definición de DWH 
o Subject oriented 
o Nonvolatile 
o Integrated 
o Time variant 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Introducción 
 La necesidad del DWH surge a partir de la necesidad de 
obtener acceso fácil a una serie de datos estructurados con la 
calidad suficiente para ser usados en la toma de decisiones. 
 Es sabido por todo el mundo que la información es un potente 
activo del que se pueden obtener importantes beneficios y 
ventajas competitivas para cualquier organización. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Introducción 
 En las décadas de los 80 y 90 las compañías se han 
preocupado principalmente por la adecuación de los sistemas 
operacionales, es decir por la obtención de los datos, la 
disponibilidad de las aplicaciones, el almacenamiento de los 
datos, etc... En nuestros días ha legado el momento de sacar 
partido de esa información, el problema es que los sistemas 
operacionales no permiten en la mayoría de los casos la 
obtención de información de manera rápida y precisa para la 
toma de decisiones, por diversas causas. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Introducción 
 Debido principalmente a tres fenómenos que han 
ocurrido durante la pasada década los tamaños de las 
bases de datos se han visto incrementados 
significativamente: 
o Los costes de almacenamiento se han vuelto insignificantes 
en comparación con el valor de la información almacenada. 
o Las empresas valoran la información (datos) como un activo 
o Muchas de las empresas multinacionales comparten su 
información a través de toda la organización a nivel 
mundial. 
© 2004 Database Team S.L 
© Hermes Romero 
de negocio crítico. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• Diferentes estructuras de datos 
• Diferentes motores de datos 
• Diferentes almacenamientos físicos de información (ficheros) 
• Diferentes plataformas 
o Por ejemplo un sistema calcula la edad a través de la fecha de nacimiento, 
otro lo escribe en un campo, uno llama edad al atributo, otro le llama AGE... 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
o Existen diferentes aplicaciones en la organización 
o Mainframes 
o Sistemas medios multiprocesador 
o Proveedores externos de servicios 
o Estaciones de trabajo en red e independientes. 
• Información distribuida 
• Multiplicidad de tipos de datos 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Este tipo de organizaciones tendrán que desarrollar y mantener 
diferentes aplicaciones para extraer, preparar y consolidar la 
información en informes y analíticas. 
o Es normal también que los responsables de la toma de decisión, a 
la hora de efectuar un hallazgo quieran profundizar más en los 
datos que han llevado a ese hallazgo. 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Los procesos de acceso a datos heterogéneos, limpios, filtrados y 
o El almacenamiento de datos en estructuras fáciles de acceder, 
 Los datos en el DWH son usados para consultar, analizar y 
 El tipo de acceso, uso, tecnología y rendimiento son 
completamente diferentes de los sistemas transaccionales 
operacionales OLPT. 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
 Los sistemas DWH implementan : 
transformados 
fáciles de usar y comprensibles. 
realizar informes. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
considerablemente altos, particularmente si existen análisis 
basados en históricos. 
o Debido a este tipo de volumen de datos y el análisis que se realiza 
sobre ellos se desaconseja hacer este tipo de operaciones 
directamente sobre los sistemas transaccionales ya que estos 
pueden verse impactados de manera negativa en su rendimiento 
debido a las operaciones masivas que requiere el análisis. Existe 
por tanto un requerimiento de separación de los dos entornos 
DWH-OLPT para minimizar lso posibles conflictos y degradación de 
rendimiento en el sistema operacional. 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
 Los volúmenes de datos en el DWH pueden ser 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Introducción 
 Los sistemas DWH no son considerados ahora como meras 
fotos-fijas (snapshots) de de los datos operacionales. Los 
sistemas DWH deben ser considerados como nuevas fuentes 
de información concebidas para el uso de toda la organización. 
La simple reingeniería de los modelos operacionales no 
satisfacen los requerimientos para el DWHing. El desarrollo de 
DWH requiere mucho más análisis aplicado a las técnicas de 
modelado y una relación mucho mas cercana con el propio 
negocio de la organización. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Introducción 
 La acumulación de información histórica en el DWH, junto 
a su análisis puede dar lugar a informaciones o 
revelaciones nunca antes conocidas acerca de clientes, 
competidores, etc..., por lo que el DWH aunque es un 
sistema de solo-lectura (read-only) también puede 
aportar información. 
 El DWH también ayuda al descubrimiento de cosas que 
© 2004 Database Team S.L 
© Hermes Romero 
diferencian a la organización. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 PARA LOGAR ESTOS RESULTADOS NO BASTA CON LA 
SIMPLE REINGENIERIA DE LOS MODELOS DE DATOS 
OPERACIONALES. 
© 2004 Database Team S.L 
© Hermes Romero 
Introducción 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Consistencia de los datos (Data consistency architecture) 
o La consistencia de los datos se basa en la elección de los distintos 
orígenes de datos, dimensiones, Reglas de negocio, métrica y 
semántica, que una organización selecciona para un uso común. 
o Este es de lejos el aspecto más difícil de implementar en la 
arquitectura del data warehouse debido a que incluye y está 
condicionada por las políticas y la organización de la compañía. 
o Las decisiones acerca de esta arquitectura deben de conducir a todas 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
las otras decisiones. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Arquitectura del almacén de datos para informes y del área 
de almacenamiento temporal (Reporting data store and 
stagin data store architecture) 
o Las principales razones por las que se almacenan datos en un data 
o Realización de informes que hacen uso de ellos (Reported against) 
o Limpieza y organización de los datos (Cleaned up) 
o Transporte a otro almacén de datos donde pueden ser utilizados para 
realización de informes o para su limpieza y organización. 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
warehouse son: 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Arquitectura del modelado de datos (Data modeling 
Architecture) 
o Consiste en la elección acerca de si se usarán modelos de datos, 
normalizados, denormalizados, orientados a objetos, propietarios, 
multidimensionales, etc... 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Arquitectura de herramientas (Tool architecture) 
o La elección de herramientas que serán usadas para reporting. 
 Arquitectura de procesado (Processing tiers architecture) 
o Elección de las plataformas físicas para el procesamiento concurrente 
o Puede ir desde una simple arquitectura como la basada en un único 
servidor de informes hasta uno cientos de servidores distribuidos. 
 Arquitectura de Seguridad (Security Architecture) 
o Aunque la seguridad no presenta ninguna dificultad técnica a la hora 
de ser aplicada si presenta complejas dificultades desde el punto de 
vista político. 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
que tiene lugar en el data warehouse. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Un sistema DWH debe resolver necesidades propias de 
negocio y es por ello que será “sponsorizado” por las 
personas del negocio que harán uso de el. 
 Un DWH también sigue determinadas especificaciones de 
diseño, un DWH no es un DWH simplemente por que 
alguien dice que lo es. 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Funcionalidad (¿Para que sirve?) 
o Número de Consultas “ad-hoc” (personalizadas) de los 
o Número de consultas personalizadas por día y por usuario-día 
o Número de usuarios de informes standard 
o Numero de usuarios, usuarios-día de informes standard 
o Número de informes standard 
o Volumen del historico a almacenar en meses, trimestres o 
o Volumen de datos típico para almacenar (diario,semanal o 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
 Como detectar un DWH 
usuarios 
años. 
mensual) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Dependiendo de las respuestas a las preguntas descritas 
anteriormente se pueden establecer cuatro categorias: 
o OLPT – sistema transaccional de operaciones 
o ODS operational data store 
o OLAP online analytical processing 
o DM / DW Data mart / data warehouse 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
OLPT ODS OLAP DM/DW 
Funcionalidad Operacional Operacional/Decisional Decisional Decisional/Estrategica 
Herramientas de usuario final Cliente Servidor/WEB C/S-WEB C/S C/S-WEB 
tecnologia BBDD Relacional Relacional Cubica Relacional 
Nº de transacciones Alto Medio Bajo Bajo 
Tamaño de la transacción Bajo Medio Medio Alto 
tiempo de tranascción Corto Medio Medio Alto 
Tamaño BBDD en GB 1 OLPT * 2 - OLPT *10 OLPT * 2 - OLPT *10 OLPT*2-OLPT*100 
Modelado de datos Entidad Relación Entidad Relación N/A Dimensional 
Normalización 3-5 NF 3 NF N/A 0 NF 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Otra de las mejores formulas para distinguir un DWH de 
uno que no lo es consiste en recabar la siguiente 
información: 
o Número de tablas 
o El número de registros de la tabla mayor 
o El tamaño en GB de la tabla mayor 
o La media de registros de las mayores tablas 
o El tamaño medio en GB de las mayores tablas 
o La mayor transacción (rollback) en GB. (Oracle) 
o El mayor segmento temporal necesitado en GB. (Oracle) 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Los sistemas DWH por lo general tienen menos tablas y 
mas grandes, mientras que los operacionales tienen mas 
tablas y mas pequeñas. 
 En el caso de Oracle y otras BBDD que utilicen 
mecanismos de recuperación de transacciones (rollback), 
así como segmentos o áreas temporales de ordenación 
de resultados, los sistemas DWH necesitarán que estas 
áreas sean al menos tan grandes como el objeto mas 
grande de la base de datos, mientras que los sistemas 
operacionales tan sólo necesitan que el espacio sea 
suficiente para dar cabida a la transacción mas 
voluminosa del sistema. 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
OLPT ODS OLAP DM/DW 
Nº de tablas 1-miles 1-miles OLPT/10 OLPT/10 
Media de Registros por tabla miles -millones miles - millones millones millones 
Media de tamaño por tabla (GB) 1 a 99 1 a 99 1 a 99 1 a 999 
Nº de registros de la tabla mas grande miles - millones miles - millones miles - millones miles - cientos de millones 
Tamaño de la Tabla mas grande (GB) 1 a 99 1 a 99 1 a 99 1 a 999 
Tamaño de los segmentos de Rollback 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb 
Tamaño de los segmentos temporales 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Debe hacer la información de la compañía accesible de 
manera sencilla a usuarios ofimáticos no avanzados 
o Debe presentar la información de la compañía de manera 
o Debe adaptarse al cambio en el entorno y adaptable a las 
o Debe ser lo suficientemente seguro para proteger el activo 
mas importante de la compañía ... La información. 
o Debe servir a la funcionalidad ultima de mejora de la toma 
o Los usuarios deben de aceptar el sistema si se pretende que 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
 El sistema DWH debe: 
consistente y estructurada 
necesidades puntuales del usuario 
de decisión. 
su implementación y uso se haga con éxito. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 ¿cómo puede responder un sistema a la pregunta? 
o ¿por qué no se han alcanzado los resultados de ventas 
 Hasta el momento no existe ningún sistema informático 
que pueda dar respuesta a una pregunta de este tipo, 
imaginemos una sentencia SQL que pudiese dar 
respuesta a esta pregunta. 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
previstos? 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Para que esta pregunta tenga respuesta a través del 
sistema es necesario realizar diversas consultas 
sistemáticas: 
o Así la primera pregunta sería: 
• ¿Para cada producto, cuales son las ventas acumuladas del año? 
• El sistema nos devolvería una lista de los productos con sus 
cifras de venta correspondientes 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Si quisiera que me mostrase tan sólo aquellos productos que 
su cifra de ventas es menor que la cifra de ventas objetivo 
• ¿cuáles son las ventas acumuladas para cada uno de los 
productos en las que las ventas actuales son menores que los 
objetivos? 
o Después de descubrir cuales son los productos que no 
alcanzan la cifra objetivo, analizará cada caso para ver cual 
es la posición del producto con respecto al mercado, etc... 
 El mismo análisis podría hacerse para localizar áreas de 
venta donde no se están alcanzando los objetivos, 
vendedores que no están alcanzando la cifra, etc... 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Un director de ventas se preguntará probablemente: 
o ¿qué productos son los que mas se venden y cuales los que 
o ¿cuál es el periodo medio de compra de mis clientes? 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
menos? 
o ¿cuáles son los clientes mas importantes? 
• Por cifra de negocio (facturación) 
• Por rentabilidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o ¿qué clientes han reducido su periodo medio de compra? 
o ¿qué clientes han reducido su importe medio de compra? 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
o ¿cómo clasificaría a mis clientes? 
• A,B,C – Pareto 
o Basado en cifra de negocio 
o Basado en rentabilidad 
o Basado en periodo medio de compra 
• Otros... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o ¿qué clientes no han comprado nada en los últimos 3 
o ¿por qué no se están cumpliendo los objetivos de ventas? 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
meses? 
• A nivel local 
• A nivel provincial 
• A nivel regional 
• A nivel nacional 
• ... 
o ... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Una de las mayores obligaciones de un sistema de 
soporte a la toma de decisiones (DSS) es la disponibilidad 
de la información. 
o Tener acceso a los datos correctos en el momento correcto y 
© 2004 Database Team S.L 
© Hermes Romero 
Arquitectura del DWH 
con un tiempo de respuesta aceptable. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Un data warehouse es un sistema orientado a 
determinados “asuntos” o áreas del negocio, es 
también un sistema integrado, no volátil y 
cambiante en el tiempo, que da soporte para la 
toma de decisiones de los niveles ejecutivos y 
gerenciales de una empresa. 
o Como es evidente cada tipo de negocio posee su propio conjunto de 
“asuntos” o áreas. Es decir una empresa dedicada a la distribución 
probablemente posea una serie de áreas comunes de análisis con el 
resto de empresas que se dediquen también a la distribución. 
o El data warehouse contiene datos corporativos estructurados de 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
manera granular. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Esta es la característica más importante 
o Los datos llegan de diferentes orígenes y son cargados en el data 
o Los datos en su camino hacia el data warehouse pueden sufrir 
transformaciones fruto de cálculos realizados sobre los mismos. 
• Conversión de datos 
• Reformateado (Reformatted) 
• Cambio de secuencia (Resequenced) 
• Sumarizados (Summarized) 
• Etc... 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
 Está integrado 
warehouse. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Como resultado de las transformaciones y 
cargas los datos una vez que residen en el data 
warehouse poseen una única imagen física. 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Históricamente las distintas aplicaciones de una compañía 
manejaban la información de diferente manera, con 
diferentes tipos de datos. 
o No existía por tanto un consistencia a la hora de la 
codificación, nombres de entidades y atributos, tipo de 
datos, etc.., ...lo que hacía más difícil su integración en un 
único sistema de explotación de la información generada. 
o Es por tanto tarea del sistema data warehouse especificar 
un único repositorio que integre las diferentes peculiaridades 
de los distintos orígenes de datos. (Una única estructura de 
datos para distintos orígenes de datos con estructuras 
diferentes) 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Al contrario que en los sistemas transaccionales OLPT, los 
datos en el data warehouse no son accedidos de manera 
regular de registro en registro. 
o Los data warehouse son cargados (generalmente en masa) y 
accedidos sólo para su consulta no para su actualización. 
o Cuando el data warehouse se carga genera una foto fija en 
o Cuando se producen nuevas cargas fruto de cambios en los 
sistemas OLPT una nueva foto fija de los datos nuevos se 
generará de manera que los datos ya cargados junto con los 
nuevos pasarán a formar parte del histórico del data 
warehouse. 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
 No es volátil (nonvolatile) 
el tiempo de los datos (snapshot). 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Que el data warehouse sea variable en el tiempo implica que 
cada dato incluido en el data warehouse ha sido obtenido en 
un momento en el tiempo. 
• En algunos casos el registro tiene un campo de fecha. 
• En otros casos esa fecha se corresponde con la fecha en la que 
• En cualquier caso un registro siempre está sometido a una 
variable de tiempo. 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
 Variable en el tiempo 
se valido la transacción que lo contenía. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El horizonte temporal de un sistema data warehouse es 
o El data warehouse debe contener más datos históricos que 
© 2004 Database Team S.L 
© Hermes Romero 
Estructura de un DWH 
mayor al de un sistema operacional. 
• Operacional 60-90 días. 
• DWH 5 a 10 años. 
cualquier otro sistema. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Pequeños data warehouses que pueden trabajar 
 El data mart depende de la arquitectura seleccionada 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
independientemente o interconectados. 
para el data warehouse. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Siempre ha existido una discusión acerca de si la 
arquitectura del DWH debía estar basada en Data Marts, 
o bien completamente centralizado. 
 Los data warehouses centrales (“enterprise wide data 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
warehouses”) 
o Proyectos mas arriesgados 
o Altos costes 
o Tiempos altos de desarrollo. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Se pueden implementar de manera rápida y sencilla 
o Son proyectos de bajo riesgo. 
o presentan los datos desde la perspectiva de un proceso 
 La cantidad de datos históricos contenidos en un data 
mart deben ser dictados por los requerimientos del 
negocio. 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
 Los data marts 
simple de negocio (subject). 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• Albergan subconjuntos de datos del repositorio central. 
o Los data marts también son conocidos como data 
warehouses departamentales (departamental data 
warehouses). 
• No debe ser estrictamente departamental ya que es relativo a 
un proceso de negocio no a un departamento. 
• facturación, llamadas del call center, movimientos de almacén, 
procurement, etc... 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
 Arquitectura en Bus 
o Los Data marts en bus 
o seleccionados 
o preparados 
o Son usados por parte de un grupo de usuarios. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Algunas veces los diseños de arquitecturas data warehouse 
basados en data marts caen en el error de diseñar 
estructuras de tela de araña donde múltiples extracciones de 
un mismo origen de datos se cargan en diferentes data 
marts. Con esto diseños se debe tener en cuenta el mayor 
coste así como la posibilidad de inconsistencias de los datos 
en los diferentes data marts. 
o Las arquitecturas basadas en estructuras de tela de araña 
no tienen en cuenta que el diseño de los distintos data 
marts debe estar basado en el proceso de negocio y no en la 
organización departamental de la compañía. En los sistemas 
centrados en el proceso (process-centric) los dato son 
extraídos una sola vez y almacenados en un único lugar. 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
 ...arquitectura en bus 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Un analista que quiera obtener datos accederá de esta 
o Un repositorio de metadatos provee la información acerca de 
los diferentes data marts (directorio de data mart) 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
 ...arquitectura en bus 
manera al data mart relevante. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Usuarios Finales 
Usuarios Finales 
Usuarios Finales 
© 2004 Database Team S.L 
© Hermes Romero 
Data Marts 
BBDD 
Sistema 
Operacional 
Datos 
Historicos 
Repositorio 
Centralizado de 
Datos 
ODS 
(Operational Data 
Store) 
Otros datos Metadatos 
Data Marts 
DataMart 
DataMart 
DataMart 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El experto en sistemas de “Business Intelligence” Drury 
Jenkins define la relación de soporte directo entre los 
sistemas business intelligence y los data warehouse 
haciendo un especial énfasis en el modelado de los datos 
y el análisis de los mismos. 
© 2004 Database Team S.L 
© Hermes Romero 
DWH y Business Intelligence 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Business Intelligence (BI) es la habilidad de tomar mejores 
o Un entorno de BI enfocado al cliente provee de la 
infraestructura necesaria para proveer la información 
necesaria para maximizar la base de clientes. 
o Esta infraestructura combina datos, canales y técnicas 
analíticas para mejorar las satisfacción del cliente y el 
beneficio a través de mayores puntos de contacto. 
o Para los especialistas en Marketing esto es la habilidad de 
contactar al cliente correcto en el momento correcto, en el 
lugar correcto y con el producto correcto. 
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
decisiones de manera más rápida. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Los canales de contacto incluyen los tradicionales así como 
los basados en intercambio electrónico (email, web). 
o Las técnicas analíticas incluyen análisis de perfiles, modelos 
predictivos, análisis de series de tiempo, y otras técnicas. 
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El aspecto clave de proveer de la información necesaria es la 
creación de una vista global para cada cliente individual y 
sus necesidades. 
o La integración de los datos de los clientes debe proveer de 
una vista única y uniforme de los clientes a lo largo de la 
organización. 
o El objetivo último es alcanzar una foto completa de la 
interacción de un cliente con la organización entera, sólo se 
puede lograr mediante la obtención y almacenamiento de 
los datos apropiados. 
o Además de los datos suplidos de demografía y otros datos 
externos, son necesarios numerosos datos internos de la 
organización. 
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Demasiado habitualmente, los datos obtenibles están 
fragmentados y repartidos sobre muchos lugares y sistemas, 
escondidos en numerosas bases de datos de transacciones, 
o herramientas de productividad personal como hojas de 
calculo o “micro-bases de datos”. 
o Esta dispersión de los datos, ha sido debido en gran manera 
por el crecimiento de los sistemas de aplicaciones 
cliente/servidor en la pasada década .... 
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
© 2004 Database Team S.L 
© Hermes Romero 
DWH y BI 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Ante todo conocer al cliente 
o Cual es el valor del cliente para la compañía 
o Cuales son los clientes más importantes para la compañía 
o Cuales son los prospectos potenciales 
o Cuales son los clientes / productos más rentables 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
 Que persigue el CRM... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Cual es el resultado de mis campañas publicitarias 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
 ...Que persigue el CRM... 
• Nº de impactos 
• Nº de clientes nuevos 
• Incremento de ventas 
• CrossSelling 
o Optimizar la interacción con el cliente 
o Trato personalizado 
o Ofertas personalizadas 
o Etc... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El término CRM es confuso desde el punto de vista técnico 
• Se produce un paralelismo entre CRM y herramientas CRM 
o El CRM es una filosofía/estrategia de compañía que se lleva 
a cabo por medio de herramientas especializadas en los 
distintos ámbitos del tratamiento de la información referida 
al cliente. 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
 Ámbito tecnológico del CRM 
o Hoy por Hoy todo es CRM... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
BI 
Análisis 
Data mining 
© 2004 Database Team S.L 
© Hermes Romero 
CRM 
BBDD 
Transacciones 
ERP Negocio 
BBDD 
Relaciones 
Con clientes 
Herramientas CRM 
Contact-Center 
ETL 
Data 
Warehouse 
DATABASE TECHNOLOGIES & SERVICES Reporting 
www.hermesromero.com
 La granularidad es el concepto mas importante en el 
diseño de un DWH. Por que es directamente proporcional 
al volumen de datos que almacenará el DWH. 
 La granularidad se refiere al nivel de detalle o resumen 
 A mayor detalle mayor nivel de granularidad. 
 A menor detalle menor nivel de granularidad. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad 
de los datos contenidos en el DWH. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Podemos tomar por ejemplo un registro de datos 
correspondiente a una venta, el registro individualmente 
se correspondería con el mayor nivel de granularidad, 
mientras que una consulta acerca del total de ventas del 
mes se correspondería con un nivel de granularidad 
menor. 
 Evidentemente a mayor nivel de granularidad mayor será 
el volumen de información , mientras que al contrario, a 
menor granularidad menor volumen de datos. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Los datos de origen en los sistemas operacionales se 
encuentran en su mayor grado de granularidad, es por 
tanto durante la fase de extracción de los datos de los 
sistemas operacionales hasta el DWH cuando se produce 
la transformación de los mismos para adecuar su 
granularidad a la definida en el diseño del DWH de 
destino. 
 A través del nivel de granularidad se puede predecir el 
crecimiento en número de registros del DWH, así como 
los requerimientos de espacio para el mismo. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 La granularidad también afectará como es evidente al 
tiempo de respuesta de las consultas al DWH. A mayor 
nivel de granularidad menor rendimiento y mayor tiempo 
de respuesta. A menor nivel de granularidad del sistema, 
menores recursos son utilizados(procesador, 
memoria,almacenamiento,etc.). 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El nivel de granularidad de un DWH es la clave de que 
esos datos puedan ser usados por diferentes tipos de 
usuarios en diferentes ocasiones y de diferente manera a 
lo largo de la compañía. 
© 2004 Database Team S.L 
© Hermes Romero 
Los beneficios de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Por ejemplo los datos de facturación de una compañía pueden 
ser usados por usuarios de Marketing, Ventas, Operaciones y 
Financiero. Todos estos departamentos hacen uso de los 
mismos datos. Para el departamento de Marketing será 
interesante conocer las ventas por áreas geográficas por meses, 
para el departamento de ventas será necesario ver los datos 
desde la perspectiva de las ventas por vendedor o delegación 
comercial semanalmente. Para el departamento de operaciones 
será conveniente ver los datos desde la perspectiva de ventas 
por línea de producto con carácter mensual para de esa manera 
poder prever el nivel óptimo de stock en los almacenes. 
Finalmente para el departamento financiero lo importante será 
ver los datos desde la perspectiva de la rentabilidad de las 
ventas por línea de producto. 
© 2004 Database Team S.L 
© Hermes Romero 
Los beneficios de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Ventas por mes 
Ventas por semana 
Ventas por área geografica 
(52) 
Ventas por vendedor 
(52) 
Ventas por producto 
(20) 
Ventas por nivel de 
rentabilidad 
(5) 
1081600 registros al mes 
21632000 bytes/mes 
© 2004 Database Team S.L 
© Hermes Romero 
Los beneficios de la granularidad 
Ventas por mes 
Marketing 
Ventas 
Ventas por mes 
Ventas por área geografica 
(52) 
Operaciones 
Financiero 
Ventas por mes 
Ventas por semana 
Ventas por área geografica 
(52) 
Ventas por vendedor 
(52) 
Ventas por mes 
Ventas por semana 
Ventas por área geografica 
(52) 
Ventas por vendedor 
(52) 
Ventas por producto 
(20) 
10816 registros al mes 
216320 bytes/mes 
Mayor Granularidad 
1 registro al mes 
20 bytes/mes 
52 registros al mes 
1040 bytes/mes 
216320 registros al mes 
4326400 bytes/mes 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Otro de los beneficios de la granularidad es la flexibilidad. 
o A mayor nivel de granularidad mayor flexibilidad. Esto 
significa que los requerimientos futuros de obtención de 
datos podrán ser acomodados con el diseño actual del DWH. 
Los cambios son inevitables, por esto nuestro DWH debe 
estar preparado para los distintos requerimientos de datos 
que sobrellevan los cambios del entorno del negocio. 
 Otro de los beneficios de la granularidad es que a mayor 
granularidad mayor contenido histórico de actividades y 
eventos de la compañía. 
© 2004 Database Team S.L 
© Hermes Romero 
Beneficios de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o A través del ejemplo anterior veamos el siguiente supuesto: 
• ¿Cuantas unidades ha vendido Paco del producto limpia-hogar 
Malvarossa la semana del 3 al 10 de Diciembre del año pasado.? 
o En el nivel 1 de granularidad nuestra pregunta no tendría 
o En el nivel 2 de granularidad tampoco 
o Ni en el nivel 3. 
o En el nivel 4 de granularidad nuestra respuesta si podría ser 
o En el nivel 5 de granularidad también podría ser contestada. 
© 2004 Database Team S.L 
© Hermes Romero 
Beneficios de la granularidad 
respuesta. 
contestada. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o La principal diferencia entre los distintos niveles de 
granularidad se centra en el volumen de recursos del que 
hace uso cada nivel. (a mayor nivel mayores recursos). 
© 2004 Database Team S.L 
© Hermes Romero 
Beneficios de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Es posible en determinados sistemas DWH definir dos o 
más niveles diferentes de granularidad para dar solución 
de manera más eficiente a diferentes peticiones de datos. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad múltiple 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 En nuestro ejemplo mientras el departamento de 
Operaciones y Financiero requiere un alto nivel de 
granularidad, los departamentos de ventas y Marketing 
requieren niveles de granularidad menor, para facilitar la 
labor de estos últimos´, diseñaremos por tanto dos 
repositorios de datos con distinta granularidad el primero 
de ellos tendrá un nivel 3 de granularidad y será el usado 
por el departamento de marketing y el departamento de 
Ventas, mientras que el segundo repositorio contendrá 
una granularidad de nivel 5 y dará respuesta a las 
necesidades de los departamentos de operaciones y 
financiero. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad múltiple 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Los beneficios de la granularidad multiple se centran en 
un mayor rendimiento en tiempo y recursos para aquellas 
peticiones dirigidas contra el repositorio de mayor 
granularidad. El reparto de peticiones entre los diferentes 
repositorios por granularidad afectará de manera 
positiva ya que también el número de peticiones sobre 
cada uno de los repositorios bajará. 
 Evidentemente la puesta en marcha de diferentes grados 
de granularidad afecta al espacio de almacenamiento. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad múltiple 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Gracias a su bajo coste (básicamente almacenamiento), 
eficiencia, facilidad de acceso y habilidad para responder 
cualquier consulta, la granularidad múltiple generalmente 
a dos niveles, es la mejor elección posible en 
arquitecturas donde el nivel de detalle del DWH es muy 
alto y el volumen de datos es también muy alto. 
 Un único nivel de granularidad muy detallada está solo 
indicada en casos en los que el volumen de datos es 
relativamente pequeño. 
© 2004 Database Team S.L 
© Hermes Romero 
Granularidad múltiple 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El principal condicionante en la elección del nivel de 
granularidad de nuestro sistema DWH se centra en el 
número de registros o volumen de datos que contendrá 
la base de datos, evidentemente este volumen tan sólo 
podrá ser predictivo por estimación. Es importante 
también efectuar en esta fase un ejercicio para estimar el 
crecimiento del propio DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la Granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El primer paso para calcular el espacio que ocupará el DWH 
es la identificación de las tablas que serán construidas. 
o 2º estimar el tamaño de un registro en cada una de las 
tablas. Evidentemente el tamaño exacto nunca se conocerá 
ya que una filas consumirán mas espacio y otras menos, por 
lo que nosotros tomaremos como cifra una estimación 
basada en la cantidad mínima de espacio y por otro lado la 
cantidad máxima de espacio necesario para una fila. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o 3º estimar en el horizonte de un año el máximo y mínimo 
numero de registros que contendrá cada una de las tablas. 
Si la información contenida se refiere a clientes o ventas es 
necesario usar las estimaciones de ventas del negocio 
recogidas en el plan de negocio para conocer el crecimiento 
de las tablas asociadas a las ventas. Si no existe un plan de 
negocio, será necesario utilizar otras variables predictivas 
como puede ser la situación economica, la cuota de mercado 
y el crecimiento en cuota de mercado, las previsiones de la 
comptencia, etc... 
o 4ª una vez que se han hecho las previsiones es necesario 
repetir el proceso pero esta vez con un horizonte de 5 años. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o 5º Establecer el número y tamaño de los índices necesarios 
para las distintas tablas del DWH, es conveniente crear 
índices en cada una de las variables condicionantes que 
formarán parte de las consultas (campos que estarán en las 
cláusulas WHERE de las sentencias SQL). 
• (Máximo número de filas posible en un año X tamaño máximo 
pro registro) + espacio de índices 
• (Mínimo número de filas posible en un año X tamaño mínimo 
por registro) + espacio de índices 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
o 6º Realizar la operación 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Repetir esta operación por cada una de las tablas del DWH 
o Por lo general las estimaciones siempre se quedan pequeñas 
debido al crecimiento del DWH, por lo que es aconsejable 
sumar un espacio extra de al menos un 30% sobre la 
estimación. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Una vez obtenidos los resultados de las predicciones es 
necesario aplicar la siguiente tabla para revisar si el nivel 
de granularidad es correcto: 
100.000.000 1.000.000.000 Existen datos no usados por lo que se 
debe de replantar niveles inferiores de 
granularidad 
10.000.000 100.000.000 Posiblemente existan datos no usados 
por lo que se recomienda replantearse 
el nivel de granularidad en el diseño del 
1.000.000 10.000.000 DNiWveHl de granularidad Aceptable 
100.000 1.000.000 Nivel de granularidad Adecuado 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
número de registros a 1 año vista Número de resgristros a 5 años vista 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Un importante componente de los sistemas DWH es el 
concepto de “Overflow storage” almacenamiento 
desbordado 
o El almacenamiento desbordado se produce cuando son 
almacenados datos que no son usados de manera frecuente. 
o Relación directa con la granularidad del diseño. 
• A mayor nivel de granularidad mayor es la probabilidad de que 
se produzca el desbordamiento. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Con el transcurso del tiempo mayor desbordamiento. 
o Almacenar los datos poco consultados en dispositivos 
o El uso del almacenamiento externo tiene implicaciones de 
rendimiento. 
• Seleccionar cuidadosamente que datos . 
• Un reparto inteligente de los datos entre los dispositivos 
externos e internos del sistema permitirá un mejor rendimiento a 
menor coste. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
externos CD-ROM - DVD 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Por ello a la hora de diseñar el almacenamiento de los datos 
es necesario discernir entre que datos son necesarios con 
frecuencia y cuales no. 
 El uso de sistemas sobredimensionados, asumiendo su 
coste, nos permitiría aplicar el mayor nivel de 
granularidad deseado. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 La granularidad viene determinada a través de la 
funcionalidad del usuario, si el usuario ve los datos y el 
nivel de detalle es correcto para ellos entonces el nivel de 
granularidad es el apropiado. 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El nivel de granularidad debe tener en cuenta las 
necesidades futuras y la evolución del propio negocio. 
o Un nivel mayor de granularidad significará estar mas 
© 2004 Database Team S.L 
© Hermes Romero 
Estimación de la granularidad 
preparado para el futuro. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Caminos para establecer la granularidad 
 Realizando consultas sobre los orígenes de datos con los 
 Realizando las operaciones de agregación, que serán 
realizadas desde el origen de los datos en su camino 
hacia el data warehouse. 
 Realizando las operaciones estadísticas como medias, 
etc.. que serán realizadas desde el origen de datos en su 
camino hacia el data warehouse. 
© 2004 Database Team S.L 
© Hermes Romero 
distintos niveles de granularidad posible. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Caminos para establecer la granularidad 
 Identificando los mayores y menores valores en el 
 Identificando tan sólo los datos que son estrictamente 
 Realizando pruebas de muestreo de datos utilizando 
conjuntos representativos de datos mediante 
condicionantes. 
© 2004 Database Team S.L 
© Hermes Romero 
destino. 
necesarios en el destino. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Podemos definir particionamiento de los datos a nivel 
lógico y a nivel físico, para una mejor compresión, 
mantenimiento y navegación a través del DWH 
 El particionamiento físico se define a través de la propia 
 En el particionamiento de datos lógico el criterio común 
mas usado es el áreas temáticas (subject areas). 
o Podemos definir un área temática como una porción del 
DWH que es clasificada desde una perspectiva consistente. 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
implementación física del diseño. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Acceso más flexible a los datos 
o Una gestión de los datos mas sencilla y eficiente 
o Asegura la escalabilidad del DWH 
o Habilita la posibilidad de que los elementos del DWH sean 
portables y compartidos con otros DWH o archivados en 
distintos dispositivos de almacenamiento externo. 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
 Para el DWH el particionamiento aporta: 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Habitualmente se realizan particiones de grandes 
volúmenes de datos dividiéndolos en piezas mas 
pequeñas. Al hacer esto determinadas operaciones con 
los datos serán más fáciles de realizar: 
o Reestructuración de datos 
o Indexación 
o Escaneado Secuencial (Full Scans) 
o Reorganización 
o Recuperaciones 
o Monitoreado 
o Auditoría 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Los criterios de particionamiento de los datos son 
variados pero quizás los mas representativos sean: 
o Periodo de tiempo (Fecha, mes , trimestre, semestre, año) 
o Por áreas geográficas 
o Por producto o línea de negocio 
o Por unidad organizativa 
o ... 
o Por combinaciones de lo anterior 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 La elección de un criterio de particionamiento está 
basado e los requerimientos del propio negocio y las 
características físicas de la propia base de datos. 
 Cada herramienta de gestión de bases de datos (DBMS) 
tiene su propia manera de implementar el 
particionamiento a nivel físico, y pueden ser bastante 
diferentes entre ellas. 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Se puede realizar un particionamiento controlado por la 
propia aplicación. 
o Añadirá la posibilidad de portar los datos entre distintos 
© 2004 Database Team S.L 
© Hermes Romero 
Particionamiento 
DWH. 
 El particionamiento depende de: 
o El modelo de datos multidimensional 
o La granularidad de los datos 
o Las capacidades del motor de base de datos 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Un DWH está siempre orientado a áreas temáticas 
 Área temática = área de interés para el negocio 
 El DWH está siempre orientado a áreas especificas de la 
© 2004 Database Team S.L 
© Hermes Romero 
Áreas temáticas (subject areas) 
(subject areas). 
organización como pueden ser: 
o Clientes 
o Productos 
o Beneficios 
o Ventas 
o ... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Esta orientación tiene su base en la forma en la que se 
plantean las consultas a un DWH, en un sistema 
operacional se formulan preguntas del tipo: 
o ¿Se puede pagar la factura del cliente XXXX? 
 Mientras que en el DWH las preguntas son más del tipo: 
o ¿qué productos se estan vendiendo mejor? 
o ¿cuáles son las oficinas que venden menos? 
o ¿cuáles son los vendedores menos rentables?... 
© 2004 Database Team S.L 
© Hermes Romero 
Áreas temáticas 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Las áreas temáticas son la forma más común de 
 Para extraer una lista de los candidatos a áreas 
© 2004 Database Team S.L 
© Hermes Romero 
Áreas temáticas 
particionamiento lógico en el DWH. 
temáticas, debemos hacernos la pregunta: 
o ¿cuáles son los intereses del negocio? 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Para la localización de las áreas temáticas se utiliza el 
método 5W1H que consiste en preguntarse acerca de: 
cuando, donde, quien, que, por que y como (When, 
where, who, what, why, how) acerca del negocio. 
o Si se hace la pregunta en quien está interesado el negocio 
(who) podrá aparecer: 
• Clientes, empleados, gerentes, proveedores, competidores, etc... 
• Este año, trimestralmente, mensualmente, anualmente, 
semanalmente, etc... 
© 2004 Database Team S.L 
© Hermes Romero 
Áreas temáticas 
o Sobre la pregunta cuando (when) 
o Donde (where) 
• Provincias, ciudades, países, etc... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Una vez extraída la lista de candidatos a áreas temáticas, 
habrá que seleccionarlas, descomponerlas y redefinirlas 
mas claramente. 
 Como resultado podremos finalmente obtener una lista 
de áreas temáticas que representen claramente a nuestra 
organización. 
 El rol principal del área temática es la determinación de la 
unidad para un análisis efectivo, modelado e 
implementación del DWH, lo cual pude servir también 
como medida para discernir las áreas de interés de 
nuestro DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
Áreas temáticas 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Exploración y data mining (minería de datos) 
 Los sistemas de Data mining o minería de datos se han 
hecho populares durante la pasada década. 
o para obtener mayor información 
o para obtener una mejor comprensión del negocio 
o para encontrar nuevos caminos e ideas para ganar potencial 
© 2004 Database Team S.L 
© Hermes Romero 
en otros mercados. 
o Para controlar gastos y costes 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Es una practica extendida en nuestros días la integración 
de los sistemas de data mining en las aplicaciones 
transaccionales de negocio. 
o Por ejemplo call centers donde al recibirse una llamada el 
sistema localiza el cliente del cual proviene y le adjudica un 
operador de acuerdo a su perfil como cliente. 
o Sistemas que generan listados de receptores de publicidad 
directa con ofertas adecuadas a su perfil de cliente. 
o Sistemas que alertan sobre el riesgo de perdida de un 
cliente o, de la modificación de sus hábitos de compra. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data mining 
o Etc... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Esta integración en los sistemas operacionales de la 
compañía requiere: 
o Integración de los sistemas de Data mining con las bases de 
o Integración de los sistemas de Data Mining con los sistemas 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data mining 
datos de producción 
DWH. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El principal caldo de cultivo de los sistemas de data 
mining son los sistemas DWH, ya que: 
o Permiten el análisis de los datos sobre granularidades 
o No influyen en el rendimiento del sistema operacional. 
o Buscan patrones de comportamiento a lo largo de todos los 
sistemas de la compañía y para ello es fundamental la 
integración y estandarización del DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
significativas para el sistema 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
Definición 
DATA WAREHOUSE 
Preparación de los datos 
Minería de datos 
Interpretación de resultados 
Implementación de 
resultados 
DATA MINING 
FUNCIONES 
DE SCORING 
DE 
RESULTADOS 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• Permite responder a determinadas preguntas , obteniendo la 
información relevante desde el DWH, transformándola para el 
contexto apropiado y mostrándola de manera legible. En esta 
técnica las consultas realizadas están basadas en dos 
dimensiones. 
• Los usuarios finales están especialmente interesados en: 
o Procesado de valores numéricos...totales de ventas, cantidades 
o Cálculo o investigación de medidas de calidad como satisfacción de 
o Predicciones de análisis de transacciones de negocio, análisis de 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
 Consultas e Informes 
vendidas. 
clientes, retrasos en procesos de negocio, etc.. 
tendencias, etc... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Preparación del informe 
Entrega del informe 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
Definición de la consulta 
Acceso y obtención del dato 
Manipulación del dato 
y cálculo 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• El análisis multidimensional es una manera de extender las 
capacidades de las consultas e informes que como vimos se 
basan en dos únicas dimensiones.. 
• Básicamente sustituye a la necesidad de realizar múltiples 
consultas, para ello los datos son estructurados de manera que 
se habilita un acceso rápido y fácil a las respuestas de las 
preguntas que típicamente se realizan. 
• Por ejemplo: 
o ¿Cuantas unidades del producto X se han vendido en el mes de Enero, 
por un determinado vendedor, in una provincia en particular? 
• Cada una de las partes de la pregunta es lo que se llama una 
dimensión. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
o Análisis multidimensional 
Enero Vendedor provincia 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• Mediante el mecanismo de precálculo integrado en las 
herramientas de procesamiento multidimensional, todas las 
respuestas a las distintas consultas (dimensiones) se obtienen en 
la misma orden. 
o los datos no son recalculados sino que simplemente son accedidos y 
• El análisis multidimensional permite a los usuarios tener a su 
alcance un gran número de factores interdependientes asociados 
a un escenario del negocio. 
• Los usuarios pueden acceder a la información explorando los 
datos en diferentes niveles de detalle. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
mostrados. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Totales de Ventas en Enero Totales de Ventas en Febrero Totales de Ventas en Marzo 
Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 
Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
Totales de Ventas en el primer trimestre 
Drill Down 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com 
Roll Up
o Es una técnica relativamente nueva es muy diferente de las 
técnicas de consultas e informes y del análisis 
multidimensional, su principal diferencia se basa en lo que 
se llama técnica de descubrimiento. 
o La técnica de descubrimiento (discovery technique) no 
consiste en realizar una consulta especifica a los datos, en 
cambio esta técnica utiliza algoritmos que analizan los datos 
y devuelven los resultados descubiertos. A diferencia de las 
dos técnicas anteriores el data mining busca respuesta a 
consultas que no han sido previamente realizadas. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data mining 
 Data Mining 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Los descubrimientos pueden tomar la forma de encontrar 
significado a determinadas relaciones o patrones de datos. 
o Después de realizar un descubrimiento, este puede 
convertirse en una regla que sea utilizada para hacer 
predicciones basadas en esa regla. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Las técnicas de data mining se utilizan habitualmente para 
análisis estadístico de los datos y para descubrir el 
conocimiento (knowledge discovery) 
• El análisis estadístico descubre patrones no habituales en los 
datos aplicando técnicas matemáticas y estadísticas para la 
explicación de los patrones. 
• Una vez descubierto el patrón este se utilizará entonces para 
hacer previsiones y presupuestos. 
• Algunas de las técnicas estadísticas incluyen: 
• “knowledge discovery” extrae información no conocida de 
manera implícita de los datos. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
o análisis linear y no lineal 
o análisis de regresión 
o Análisis multivarianza 
o Y análisis de series en tiempo. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El soporte de las técnicas de análisis de data mining está 
soportado por los propios datos del negocio . Existe en el 
DWH un alto nivel de complejidad en los datos almacenados 
y en sus interrelaciones que es difícil de descubrir sin el uso 
de técnicas de data mining. 
o La minería de datos ofrece nuevos revelaciones acerca del 
negocio dando respuesta a preguntas que nunca se nos 
hubiese ocurrido preguntar. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Gestionado por 
los datos 
Multidimensional Data Mining 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data mining 
Gestionado por 
el 
Analista 
Asistido por el 
Analista 
Consultas 
e 
informes 
Análisis 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o OLAP data mart (OnLine Analitical Processing)  análisis 
multidimensional 
• Están diseñados para soportar análisis multidimensional usando 
• El data mart en este caso se diseña utilizando las técnicas de 
esquema en estrella o tecnologías propietarias de cada 
herramienta basadas en el concepto de “hipercubo” (Hypercube). 
• El esquema en estrella o sistema de gestión de base de datos 
multidimensional (multidimensional database management 
system MD DBMS) es el indicado en data marts de los que se 
conocen perfectamente los requerimientos, estos son estables y 
las consultas a los mismos son fácilmente predecibles con 
tiempos de respuesta razonables e informes mas o menos 
recurrentes. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y data mining 
herramientas de software OLAP. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Almacenes de exploración (Exploration warehouse) 
• Los almacenes de exploración están diseñados para dar soporte 
real a la exploración o navegación puramente customizable por 
el usuario “ad-hoc”. 
• Después de un descubrimiento a través de la exploración, este 
puede dar lugar a la creación de un nuevo data mart , para que 
otros usuario se beneficien del hallazgo a partir de es momento. 
o Almacenes estadísticos (Data mining or statistical 
warehouses) 
• Es un data mart especializado diseñado para dar soporte a los 
o Aplicaciones analíticas customizables (Customizable 
analytical applications) 
• Permite la customización efectiva de aplicaciones genéricas. 
© 2004 Database Team S.L 
© Hermes Romero 
Exploración y Data Mining 
analistas e investigadores. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Asumamos las siguientes aserciones como ciertas antes 
• En el DWH podremos encontrar datos de todas las unidades de 
negocio y departamentos de la compañía. 
o Se asume también que los datos contenidos en el DWH no 
violan ninguna de las reglas de negocio establecidas para la 
compañía. 
• El DWH en todo momento debe mostrar su adherencia a las 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
de continuar: 
o El DWH debe tener un enfoque corporativo 
reglas de negocio de la compañía. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El DWH debe ser cargado con datos lo más rápida y 
o El DWH debe configurarse y diseñarse para soportar 
múltiples tecnologías de BI, tanto presentes como futuras. 
o El DWH debe acomodarse fácilmente a cambios tanto en las 
estructuras de datos como en los datos propiamente dichos. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
eficientemente posible. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El tipo de análisis que será realizado con el DWH o Data 
mart puede determinar el tipo de modelado de datos y 
los contenidos del mismo. 
 Como los análisis basados en consultas e informes y los 
análisis multidimensionales requieren metadatos 
explícitos y sumarizaciones especificas, es importante 
que el modelo de datos que de soporte al análisis 
contenga estos elementos. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El análisis multidimensional también permite las operaciones 
o La minería de datos habitualmente trabaja mejor con el 
mayor nivel de detalle disponible (granularidad alta). 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
 Debemos tener en cuenta también que: 
“drill down” y “roll up”. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Desde principios de los años 90 uno de los gurus del 
DWH , Ralph Kimball, propuso nuevas técnicas de diseño 
basadas en las tradicionales bases de datos relacionales 
para lograr que los DWH fueran comprensibles y rápidos. 
 Estas técnicas de diseño que actualmente se conoce 
como modelado de datos dimensional (dimensional 
modeling) hacen que los sistemas DWH sean más rápidos 
a través de la limitación del número de enlaces (joins) 
entre las distintas tablas que forman parte del sistema. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Las características ideales que debe seguir el modelo de 
• Debemos por todos los medios a nuestro alcance evitar la 
redundancia de los datos en nuestro DWH. La redundancia de 
datos añade trabajo extra a las operaciones de extracción 
transformación y carga (ETL), así como a los diseñadores que 
tendrán que preocuparse de que todos los elementos 
redundantes tengan el valor correcto en el momento correcto. 
• A mayor redundancia mayor complejidad en la carga de los 
datos. 
• Evidentemente cierto grado de redundancia a veces es inevitable 
e incluso aconsejable, a este tipo de redundancia la llamaremos 
redundancia controlada. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
datos en el sistema DWH son: 
o No redundante. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• Hemos repetido en varias ocasiones que nuestro DWH deba 
acomodarse a los cambios con facilidad y estabilidad, esto se 
logra mediante la independencia de nuestro DWH a los cambios 
en procesos, aplicaciones y tecnología que por otra parte son los 
cambios que ocurren mas frecuentemente en una organización. 
Por otra parte nuestro DWH debe estar preparado para añadir 
nuevas entidades o atributos cuando se añaden nuevas 
capacidades de análisis BI o se incorporan nuevos data marts. 
• Es importante por tanto que el diseñador de nuestro DWH use 
técnicas de modelado que permitan la incorporación de cambios 
en el modelo sin que sea necesario la redefinición de las 
entidades y atributos ya implementados. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
o Estable 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• La consistencia de los datos contenidos en el DWH es sin duda la 
característica esencial. Los modelos de datos creados para el 
DWH deben reconciliar las discrepancias de concepto y físicas 
entre los distintos orígenes de datos, tanto a nivel estructural 
como a nivel de tipo de dato. Evidentemente este esfuerzo inicial 
es previo a cualquier tipo de carga de datos. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
o Consistente 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El modelo de datos resultante para el DWH, se 
trasladará a un diseño de base de datos que sea: 
o Fiable 
• No contendrá contradicciones en la forma de nombrar entidades 
o atributos, en referencias de unos a tros, así como en la 
documentación 
• El DWH resultante de la implementación de este modelo de datos 
podrá ser accedido por múltiples procesos y usuarios desde 
cualquier parte de la compañía. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
o Compartido 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
• La base de datos resultante no condicionará en una dirección u 
otra el entorno BI creado. Todas las oportunidades tecnológicas 
que se presenten permanecerán disponibles para la compañía. 
• LA base de datos resultante podrá acomodar nuevas entidades y 
atributos, manteniendo al integridad de los elementos 
implementados. 
• El modelo de datos proveerá una representación de cómo y que 
clase de información es usada en la compañía- 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
o Flexible y adaptable al cambio 
o Correcto 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Como cualquier proyecto de sistemas, un proyecto de 
DWH debe seguir las distintas fases del ciclo de vida de 
desarrollo de sistemas, es por tanto lógico además de 
aconsejable no comenzar realizando un diseño de los 
modelos de datos que soportarán nuestro DWH antes de 
haber recabado todos los requerimientos por parte de los 
usuarios y de la dirección de la compañía. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 En la mayoría de proyectos de DWH se abre un debate 
entre los integrantes tecnologicos del equipo acerca de si 
los modelos deben estar basados en diseños en estrella, 
normalizados o de-normalizados o simplemente planos. 
Por razones varias muchos de los analistas prefieren 
aplicar a todos los diseños su “particular” técnica de 
diseño (quizás por que se sienten comodos con una 
tecnica en particular, o sencillamente por que desconocen 
el resto) y por esta rázón forzan a los ditintos data marts 
a tener un solo tipo de diseño. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Lo mas recomendable en el diseño de data marts es que 
los esquemas de base de datos que los soportan deben 
estar diseñados de acuerdo al uso que se va ha hacer de 
ellos y del tipo de información que se solicitará al data 
mart. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Probablemente basándome en mi experiencia el mejor 
diseño para los distintos tipos de data marts será el que 
no preestablezca o predetermine las relaciones entre los 
datos, ya que de esta manera condicionará el uso del 
mismo, y el fin último para el que debemos dirigir 
nuestro diseño es que este soporte todas y cada una de 
las posibilidades de análisis de datos. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Para determinar cual es el mejor diseño de base de datos 
posible para el data mart es aconsejable construir una 
matriz como la de la figura que compare el grado de 
volatilidad de los datos con respecto al tipo de diseño 
seleccionado así como con respecto a la frecuencia o tipo 
de consulta a realizar sobre el data mart. 
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
© 2004 Database Team S.L 
© Hermes Romero 
Diseño del DWH 
latencia 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com 
Repetitivas Customizables Algoritmicas 
volatilidad 
Esquema en estrella 
De-normalizadas 
Normalizadas 
Planas
Diseño del DWH – Estructura de los datos 
 Para DWH podemos distinguir tres tipos básicos de datos: 
 Se puede configurar el DWH basándose en estos tres 
tipos, con la consideración adecuada a las características 
particulares de cada implementación. 
© 2004 Database Team S.L 
© Hermes Romero 
o Datos en tiempo real (real-time data) 
o Datos derivados (Derived data) 
o Datos reconciliados (Reconciled Data) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
 Dependiendo de la naturaleza de los sistemas 
operacionales, el tipo de negocio, y el número de 
usuarios que pueden acceder al DWH, debemos combinar 
los tres tipos de datos para crear el mas adecuado 
modelo de datos para el DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Los datos en tiempo real representan el estado actual del 
negocio. Por supuesto, estos son los datos que utilizan los 
sistemas operacionales. 
o Los datos en tiempo real muestran la realidad cambiante del 
o Los datos en tiempo real muestran por otra parte el mayor 
nivel de detalle lo que se representa como el mayor nivel de 
granularidad. 
o Habitualmente estos son accedidos en modo lectura-escritura 
por las transacciones operacionales. 
© 2004 Database Team S.L 
© Hermes Romero 
 Datos en tiempo real (Real-Time data) 
negocio transacción a transacción. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Estos datos no tienen por que ser patrimonio exclusivo de 
los sistemas operaciones ya que es practica habitual la 
realización de transacciones distribuidas que reparten los 
datos entre sistemas operacionales y DWH en tiempo real. 
o De igual manera los datos en tiempo real pueden ser 
almacenados también en Almacenes de datos operacionales 
(ODS Operational Data Stores) para su posterior análisis y 
carga en sistemas DWH sin afectar al rendimiento de los 
sistemas operacionales. 
o El uso de datos en tiempo real en el DWH, implica que estos 
datos deben ser debidamente tratados para asegurar la 
adecuada calidad del dato, probablemente sumarizados y 
transformados a un formato mucho más fácilmente 
comprensible y manipulable por los analistas de negocio. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Evidentemente, también en el caso de que los datos en 
tiempo real provengan de distintos orígenes y sistemas, 
deberán ser reconciliados antes de ser cargados en el DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Los datos derivados son datos que han sido creados 
probablemente a raíz de operaciones como sumas, medias, 
o agregaciones de operaciones en tiempo real a través de un 
proceso intermedio de transformación previo a la carga. 
o Los datos derivados pueden ser detallados o resumidos 
dependiendo de las especificaciones de requerimientos del 
DWH. 
o Pueden representar una vista del negocio en un momento 
determinado del tiempo o pueden ser datos históricos 
referidos a un periodo de tiempo. 
© 2004 Database Team S.L 
© Hermes Romero 
 Datos Derivados (Derived Data) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Los datos derivados son tradicionalmente usados para la 
o La sumarización de los datos en nuevos registros derivados 
requiere grandes volúmenes de datos a analizar y por 
consecuencia necesitará de grandes recursos para su 
procesamiento. 
o La eficiencia de los procesos de creación de datos derivados 
en tiempo y manera es vital y una de las tareas mas 
importantes que los analistas han de resolver. 
© 2004 Database Team S.L 
© Hermes Romero 
toma de decisiones y el análisis del negocio. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
o Los datos reconciliados son datos en tiempo real que han sido 
tratados para ajustarse a los niveles de integración y calidad que se 
requieren para ser usados en análisis de datos. 
o La consistencia es uno de los requerimiento de calidad inexcusables. 
o Durante el proceso de reconciliación de datos es posible crear y 
mantener datos históricos , por lo que los datos reconciliados 
podrían ser un tipo especial de datos derivados. 
o En algunas ocasiones los datos reconciliados son almacenados en 
estructuras físicas temporales requeridas para transformar de 
manera consistente los datos operacionales. 
© 2004 Database Team S.L 
© Hermes Romero 
 Datos Reconciliados (Reconciled Data) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Diseño del DWH – Estructura de los datos 
 El concepto de EDM – Enterprise Data Model 
o Un EDM es una definición consistente de todos los 
elementos de datos comunes al negocio. Desde una 
perspectiva mas abstracta a la mas concreta. 
o El EDM incluye a su vez vínculos a los diseños de datos de 
o A través del EDM se puede intuir una visión y comprensión 
© 2004 Database Team S.L 
© Hermes Romero 
cada una de las aplicaciones operacionales. 
de los requerimientos del negocio. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El modelador de datos debe responder a la premisa de 
diseñar las bases de datos del DWH para soportar de la 
mejor manera las necesidades de los usuarios del DWH. 
 En el DWH existen dos técnicas básicas de modelado de 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
datos : 
o Modelado entidad-relación ER 
o Modelado dimensional 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 En la mayoría de los modelos de datos de los sistemas 
operacionales actuales los modelos de datos se soportan 
sobre estructuras de modelado ER. 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Con la llegada del DWH la necesidad de técnicas de 
modelado orientadas hacia el análisis se han visto 
incrementadas y con ello ha crecido el interés por estas 
técnicas. Con el modelado dimensional, se nos ofrece la 
capacidad mejorada de visualizar cuestiones abstractas 
que surgen del negocio y los usuarios finales. Mediante el 
uso de los modelos dimensionales los usuarios pueden 
fácilmente explorar y explotar los datos de manera 
comprensible. 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 El modelo de datos es una abstracción organizada de los 
datos que representan las actividades, recursos y 
resultados de la organización. 
 Sin un modelo de datos la organización de la estructura y 
 El objetivo de los modelos de datos es conseguir la 
independencia lógico / física 
o Como se muestran los datos es completamente 
independiente de cómo se almacenarán a nivel físico 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
del contenido del DWH sería muy difícil. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
 Por lo que a nivel lógico se refiere, se referirá a los 
aspectos de identificación de la entidad o entidades, su 
descripción y su organización. 
 En el nivel físico se tratarán aspectos como la 
organización, acceso y almacenamiento de los datos a 
nivel físico 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Los modelos ER producen un modelo de datos de una 
especifica área de interes usando para ello dos conceptos 
básicos: Entidades y las relaciones entre esas entidades. Los 
modelos ER contienen también Atributos, que son las 
propiedades inherentes a las entidades y/o relaciones. 
o El modelo ER es una percepción del mundo compuesta por 
objetos llamados entidades y las relaciones entre ellos. Las 
entidades se diferencian unas de otras a través de sus 
atributos. 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
 Modelos entidad-relación 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o El modelado ER se representa mediante un diagrama que 
usa tres tipos de graficos para conceptualizar los datos: 
Entidad, relación y Atributo. 
• Entidad 
o Una entidad se define como una persona, lugar cosa o evento de 
o Una entidad representa una clase de objeto, que puede ser observado 
y clasificado por sus propiedades y caracteristicas. 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
interes para el negocio o la organización. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
o Una relación se representa mediante lineas que unen a dos entidades. 
Una relación se designa de manera gramatical por medio de un verbo, 
como pertenece a, tiene. Tla relación entre dos entidades puede ser 
definida mediante su cardinalidad. La cardinalidad es el máximo 
número de instancias de una entidad que que se relacionan con una 
instancia de la otra entidad. Las cardinalidades posibles son: 
• Uno a uno 1:1 
• Uno a muchos 1:M 
• Muchos a muchos M:M (no son válidas en un modelo normalizado) 
o Los atributos describen las caracteristicas o propiedades de las 
entidades. Un nombre de atributo debe se único en una entidad. 
© 2004 Database Team S.L 
© Hermes Romero 
Modelado de datos para el DWH 
• Relación 
• Atributos 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
 El modelado de datos dimensional usa tres conceptos 
 En algunos casos el modelado dimensional es más 
sencillo, más expresivo y fácil de comprender que el 
modelado relacional. 
 Es relativamente nuevo por lo que no está firmemente 
definido, especialmente comparado con las técnicas de 
modelado relacional. 
© 2004 Database Team S.L 
© Hermes Romero 
básicos: 
o Medidas (measures) 
o Hechos (facts) 
o Dimensiones (dimensions) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
 El modelado dimensional es un conjunto de medidas 
(measures) que son descritas por aspectos comunes del 
negocio. 
 Es especialmente útil para sumarizar datos y presentarlos 
en vistas para ayudar al análisis de los datos. 
 El modelado dimensional se centra en los datos 
numéricos, como valores, cuentas (count), pesos, 
balances y ocurrencias. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Es una colección de items de datos relacionados. 
o Cada hecho generalmente representa un item del negocio, 
una transacción del negocio, o un evento que puede ser 
utilizado para analizar el negocio o un proceso del negocio. 
o En un Data warehouse los hechos (facts) se almacenan 
donde los datos numéricos son almacenados. 
© 2004 Database Team S.L 
© Hermes Romero 
 Hechos (facts) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Es una colección de miembros o unidades del mismo tipo. 
o Las dimensiones determinan el contexto de fondo para los 
o Las dimensiones son los parámetros sobre los que queremos 
realizar el análisis OLAP (online analitical processing). 
© 2004 Database Team S.L 
© Hermes Romero 
 Dimensiones (dimensions) 
hechos. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Si consideramos una base de datos de análisis de ventas, 
encontraremos entre otras las siguientes dimensiones. 
• Tiempo 
• Localización / Provincia 
• Clientes 
• Vendedor 
o Miembros de la dimensión (dimension members) 
• Una dimensión puede a su vez contener n miembros. 
• Por ejemplo, los meses : enero, febrero, marzo,...,trimestres, 
cuatrimestres son miembros de la dimensión tiempo. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Jerarquías de la dimensión (dimension hierarchies) 
• Las dimensiones pueden a su vez ser divididas en diferentes 
jerarquías, cada jerarquía puede tener a su vez distintos niveles 
jerárquicos. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
Semana 
día ... 
© 2004 Database Team S.L 
© Hermes Romero 
 Jerarquias de la dimensión 
Jerarquía 1 año 
Jerarquía 2 
semestre semestre 
trimestre trimestre 
mes 
día 
... 
... 
... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 Jerarquias de la dimensión 
o Drill down 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Una medida se determina por la combinación de miembros 
de las dimensiones y está situada en los hechos (facts) 
© 2004 Database Team S.L 
© Hermes Romero 
 Medidas (measures) 
o Es un atributo numérico de un hecho. 
o Por ejemplo las medidas de ventas serían 
• El importe de las ventas 
• El volumen de ventas 
• Las unidades vendidas 
• El importe de la materia prima 
• ... 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 dimesion1 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Es la tabla central en el modelo de datos dimensional, en 
esta table es donde se almacenan los valores numéricos de 
las medidas. Se utiliza el termino hecho (fact) para 
representar una medida del negocio. 
o Una fila de la tabla de hechos representa una medida 
(measure). Por lo que una medida es una fila en la tabla de 
hechos. Todas las medidas de una tabla de hechos deben 
tener la misma granularidad. 
o Los hechos mas habituales son los numéricos y aditivos, 
© 2004 Database Team S.L 
© Hermes Romero 
 Tablas de hechos (facts) 
como euros o total de ventas. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o La capacidad de adición es crucial ya que raramente los 
valores de las tablas de hechos son recuperados de fila en 
fila, lo usual es recuperarlos mediante la suma de una o mas 
de sus columnas o mediante la cuenta del número de filas, 
medias, etc... 
o Es importante tener en cuenta que no es aconsejable la 
introducción de filas en las tablas de hechos que no 
representen nada como por ejemplo (12/12/2003 , 0) en 
representación de que el día 12/12/2003 no se realizó 
ninguna venta, en estos casos es mejor no incluir el 
registro, de esta manera el espacio ocupado por la tabla de 
hechos será util al 100% 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de hechos representan el 90% o más del espacio 
ocupado en un DWH, generalmente las tablas de hechos 
tienen la tendencia de ser voluminosas en cuanto a número 
de registros pero también a tener pocas columnas 
(atributos). 
o Las tablas de hechos se pueden además clasificar en tres 
grupos atendiendo a su nivel de granularidad. 
• Transacciones 
• Fotos-fijas periódicas (periodic snapshots) 
• Fotos-fijas acumulativas (accumulating snapshots) 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de hechos de tipo transaccional son las más 
o Las tablas de hechos poseen dos o mas “foreign keys” (FK) 
que conectan las tablas de hechos con las tablas de 
dimensiones. 
o La tabla de hechos por otra parte por lo general posee una 
clave primaria formada por el conjunto o un subconjunto de 
las claves externas FK que posee (clave primaria 
compuesta). Cada tabla de hechos en un modelo 
dimensional tiene una clave compuesta, por lo que también 
podemos afirmar que cada tabla en un modelo dimensional 
que posee una clave compuesta es una tabla de hechos. 
© 2004 Database Team S.L 
© Hermes Romero 
 ...Tablas de hechos (facts) 
habituales con diferencia. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Las relaciones entre las tablas de hechos y las tablas de 
dimensiones son siempre relaciones de tipo muchos a 
muchos M:M. Por lo que las tablas que presenten este 
comportamiento relacional en un modelo dimensional serán 
tablas de hechos mientras que el resto serán tablas de 
dimensiones. 
o La composición de la clave primaria en la tabla de hechos no 
tiene por que relaizarse con todas las claves externas ya que 
probablemente la agrupación de unas pocas de ellas 
garantice la unicidad del registro. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o En la mayoría de los casos no tiene ninguna utilidad la 
introducción de una clave primaria no compuesta para 
identificar unívocamente a cada registro de la tabla de 
hechos. Al contrario de nuevo podemos ocupar un espacio 
extra para añadir esto cuando realmente no es necesario, 
con las consecuencias implícitas de almacenamiento y 
rendimiento. Aunque si la naturaleza del negocio requiere la 
inclusión de varias filas con los mismos valores entonces si 
debemos plantearnos la creación de una clave primaria, 
siempre que sea necesario hacer una distinción clara entre 
las filas con el mismo contenido. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Mucho del éxito de nuestro DWH dependerá de cómo se 
© 2004 Database Team S.L 
© Hermes Romero 
 Tablas de hechos (facts) 
implementen las tablas de hechos. 
ventas diarias 
clave de fecha FK 
clave de tienda FK 
clave de producto FK 
cantidad 
valor 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Hemos de tener en cuenta que las tablas de hechos pueden 
o No es posible el mantenimiento de índices en un corto espacio de 
o Las tablas de hechos también pueden estar implementadas 
© 2004 Database Team S.L 
© Hermes Romero 
 Tablas de hechos (facts) 
encontrarse en tres estados: 
• Están siendo Consultadas 
• Están siendo cargadas 
• Están siendo gestionadas 
tiempo 
de diferentes maneras: 
• Sin particionamiento – Sin índices 
• Particionadas – Sin índices 
• Sin particionamiento – Con índices 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de dimensiones contienen los descriptores 
o En un modelo bien diseñado las tablas de dimensiones 
tienen por lo general muchos atributos que describen la fila 
en la tabla de dimensión. 
o Las tablas de dimensiones deben contener tantos atributos 
como sean necesarios para hacer su contenido lo más 
comprensible posible. No es extraño encontrar tablas de 
dimensiones que contengan entre 50 y 100 atributos. 
© 2004 Database Team S.L 
© Hermes Romero 
 Tablas de dimensiones (dimensions) 
textuales del negocio. 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Por otra parte las tablas de dimensiones por lo general son 
tablas que presentan pocos registros en comparación con las 
tablas de hechos, por lo general no mas de 1 millón de 
registros. 
o Cada dimensión se define a través de una clave primaria no 
compuesta (única) PK que será utilizada para guardar la 
integridad referencial con cualquier tabla de hechos con la 
que esté relacionada. 
o Cada uno de los atributos de las tablas de dimensiones 
serán utilizados para realizar las consultas como 
condicionantes, agrupaciones, etc... 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o En una consulta los atributos de una dimensión son 
identificables por que siempre van precedidos de la palabra 
“por” (by). Quiero saber las ventas por region, Quiero saber 
las ventas por mes, Quiero saber las ventas por 
producto, ...por vendedor, etc. 
o Los atributos de las tablas de dimensiones juegan un papel 
vital en los modelos de datos dimensionales ya que ellos son 
el origen de las condicionantes en las consultas y de los 
resultados de las mismas. Los atributos de las tablas de 
dimensiones son la clave para hacer el DWH usable y 
comprensible. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Un DWH será tan bueno como atributos de las tablas de 
dimensiones posea. El poder del DWH es directamente 
proporcional a la calidad y profundidad de los atributos de 
sus dimensiones. 
o Cuanto mas tiempo pasemos definiendo atributos con 
sentido para el negocio mejor será nuestro DWH. 
o Cuanto mas tiempo pasemos poblando nuestras tablas de 
dimensiones con valores para los distintos atributos mejor 
será nuestro DWH. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
 ...tablas de dimensiones (dimensions) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
• Los atributos deben ser palabras reales en lugar de 
abreviaciones. Esto nos ayudará en la implementación del DWH 
con respecto a los usuarios del mismo, ya que contribuye a su 
facilidad de uso y compresibilidad por parte de los usuarios. Los 
atributos típicos para una dimensión de producto por ejemplo 
incluirían una descripción corta de 10 a 15 caracteres, una 
descripción larga de 30 a 50 caracteres, nombre de la marca, 
categoría o familia de producto, tipo de empaquetado, tamaño , 
peso y otras características. Aunque se definan atributos 
numéricos dentro de las dimensiones, conservarán su carácter 
de dimensión siempre que se tomen como descripciones 
textuales, por ejemplo, el atributo código postal está 
representado por un número aunque su uso es textual no vamos 
a realizar operaciones con este valor, mas que para definir un 
área geográfica concreta. 
© 2004 Database Team S.L 
© Hermes Romero 
o Atributos en las dimensiones 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
• Las tablas de dimensiones frecuentemente representan 
estructuras jerarquicas entre distintas entidades, por ejemplo la 
dimensión producto, incluye un atributo marca que puede 
permitir a su vez la agrupación de los productos por marca, lo 
mismo ocurre con la familia de productos. Para cada fila en la 
dimension de producto se almacenará el nombre de la marca y el 
nombre de la familia a la que pertenece, aunque de esta forma 
estamos almacenando información redundante, pero esta 
operación se realiza para evitar nuevas relaciones (joins) en las 
consultas que se traducirian en decrementos del rendimiento del 
sistema. 
© 2004 Database Team S.L 
© Hermes Romero 
 ...tablas de dimensiones (dimensions) 
o Jerarquia de las dimensiones 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
• Debemos resistir nuestro impulso de almacenar tan solo el 
código de la marca y crear una vista separada para todas las 
marcas. Esto es lo que se conoce como diseño de copo de nieve 
(snowflake). Por lo general las tablas de dimensiones presentan 
un alto grado de de-normalización. 
• Si con la creación de diseños en copo de nieve pretendemos por 
ello ahorrar espacio de almacenamiento, hemos de tener en 
cuenta que las tablas de dimensiones, raramente representan 
mas del 10 % del total de almacenamiento del DWH, por lo que 
el ahorro no tendrá un impacto significativo, sin embargo si 
impactará en el rendimiento y, en la sencillez y comprensibilidad 
del modelo por parte de los usuarios. 
© 2004 Database Team S.L 
© Hermes Romero 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
© 2004 Database Team S.L 
© Hermes Romero 
tabla de marcas 
clave de marca 
nombre de la marca 
tabla de familias 
clave de familia 
nombre de la familia 
Tabla de productos 
clave de producto 
descripcion del producto 
clave de marca (FK) 
modelo 
clave de familia (FK) 
tipo de empaquetado 
tamaño empaquetado 
peso 
precio del producto 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Las tablas de dimensiones son los puntos de 
entrada a las tablas de hechos. La definición 
de unos robustos atributos, nos traerá 
capacidades robustas para realizar 
operaciones de tipo “slice” y “dice”. Las 
dimensiones implementan el interfaz de 
usuario al DHW. 
© 2004 Database Team S.L 
© Hermes Romero 
 ...tablas de dimensiones 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
dimensión 
tabla de tiendas 
clave de tienda 
provincia 
© 2004 Database Team S.L 
© Hermes Romero 
 Diseño en estrella (star join schema) 
dimensión 
tabla de fechas 
clave de fecha 
fecha 
mes 
dia 
año 
dimensión 
tabla de hechos 
ventas diarias 
clave de fecha (FK) 
clave de tienda (FK) 
clave de producto (FK) 
cantidad 
valor 
Tabla de productos 
clave de producto 
descripcion del producto 
modelo 
marca 
familia 
tipo de empaquetado 
tamaño empaquetado 
peso 
precio del producto 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Modelado de datos para el DWH – Modelado 
dimensional 
o Al relacionar las tablas de hechos con las tablas de 
dimensiones nos da la impresión de que se dibuja una 
especie de estrella, donde el punto central es la tabla de 
hechos donde convergen todas las tablas de dimensiones. 
o Debido a esto este diseño es conocido como diseño en 
estrella o “star”, aunque este termino se acuño en los 
primeros días de los diseños relacionales. 
© 2004 Database Team S.L 
© Hermes Romero 
 Diseño en estrella (star join schema) 
DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW
Fundamentos DW

Contenu connexe

Tendances

Data Marketplace and the Role of Data Virtualization
Data Marketplace and the Role of Data VirtualizationData Marketplace and the Role of Data Virtualization
Data Marketplace and the Role of Data VirtualizationDenodo
 
Data Warehouse Basics
Data Warehouse BasicsData Warehouse Basics
Data Warehouse BasicsRam Kedem
 
Basic oracle-database-administration
Basic oracle-database-administrationBasic oracle-database-administration
Basic oracle-database-administrationsreehari orienit
 
Data warehouse
Data warehouseData warehouse
Data warehouseMR Z
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data ManagementZahra Mansoori
 
Introduction to data warehousing
Introduction to data warehousing   Introduction to data warehousing
Introduction to data warehousing Girish Dhareshwar
 
DATA MART APPROCHES TO ARCHITECTURE
DATA MART APPROCHES TO ARCHITECTUREDATA MART APPROCHES TO ARCHITECTURE
DATA MART APPROCHES TO ARCHITECTURESachin Batham
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouseJames Serra
 
Reference master data management
Reference master data managementReference master data management
Reference master data managementDr. Hamdan Al-Sabri
 
MS Sql Server: Introduction To Database Concepts
MS Sql Server: Introduction To Database ConceptsMS Sql Server: Introduction To Database Concepts
MS Sql Server: Introduction To Database ConceptsDataminingTools Inc
 
DATA Warehousing & Data Mining
DATA Warehousing & Data MiningDATA Warehousing & Data Mining
DATA Warehousing & Data Miningcpjcollege
 
Master Data Management methodology
Master Data Management methodologyMaster Data Management methodology
Master Data Management methodologyDatabase Architechs
 
Gartner: Master Data Management Functionality
Gartner: Master Data Management FunctionalityGartner: Master Data Management Functionality
Gartner: Master Data Management FunctionalityGartner
 

Tendances (20)

Data Marketplace and the Role of Data Virtualization
Data Marketplace and the Role of Data VirtualizationData Marketplace and the Role of Data Virtualization
Data Marketplace and the Role of Data Virtualization
 
Data Warehouse Basics
Data Warehouse BasicsData Warehouse Basics
Data Warehouse Basics
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Basic oracle-database-administration
Basic oracle-database-administrationBasic oracle-database-administration
Basic oracle-database-administration
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
Mdm: why, when, how
Mdm: why, when, howMdm: why, when, how
Mdm: why, when, how
 
Solution architecture for big data projects
Solution architecture for big data projectsSolution architecture for big data projects
Solution architecture for big data projects
 
Dimensional Modelling
Dimensional ModellingDimensional Modelling
Dimensional Modelling
 
ETL Technologies.pptx
ETL Technologies.pptxETL Technologies.pptx
ETL Technologies.pptx
 
Introduction to data warehousing
Introduction to data warehousing   Introduction to data warehousing
Introduction to data warehousing
 
DMBOK and Data Governance
DMBOK and Data GovernanceDMBOK and Data Governance
DMBOK and Data Governance
 
DATA MART APPROCHES TO ARCHITECTURE
DATA MART APPROCHES TO ARCHITECTUREDATA MART APPROCHES TO ARCHITECTURE
DATA MART APPROCHES TO ARCHITECTURE
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouse
 
Reference master data management
Reference master data managementReference master data management
Reference master data management
 
MS Sql Server: Introduction To Database Concepts
MS Sql Server: Introduction To Database ConceptsMS Sql Server: Introduction To Database Concepts
MS Sql Server: Introduction To Database Concepts
 
DATA Warehousing & Data Mining
DATA Warehousing & Data MiningDATA Warehousing & Data Mining
DATA Warehousing & Data Mining
 
Master Data Management methodology
Master Data Management methodologyMaster Data Management methodology
Master Data Management methodology
 
Data Vault Overview
Data Vault OverviewData Vault Overview
Data Vault Overview
 
Gartner: Master Data Management Functionality
Gartner: Master Data Management FunctionalityGartner: Master Data Management Functionality
Gartner: Master Data Management Functionality
 

En vedette

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseFundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. IntroduccionRicardo Mendoza
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETLJorge Bustillos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Pfc itziar angoitia_espinosa
Pfc itziar angoitia_espinosaPfc itziar angoitia_espinosa
Pfc itziar angoitia_espinosaCesar Crespo
 
Introducción a Business objects
Introducción a Business objectsIntroducción a Business objects
Introducción a Business objectsHermes Romero
 
Recetas Curso de cocina mayo 2016
Recetas Curso de cocina mayo 2016Recetas Curso de cocina mayo 2016
Recetas Curso de cocina mayo 2016BioAlai
 
4 4 Bases De Datos
4 4 Bases De Datos4 4 Bases De Datos
4 4 Bases De DatosUVM
 
Inteligancia de negocios
Inteligancia de negociosInteligancia de negocios
Inteligancia de negociosEdgar Barrios
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioMiguel Orquera
 
BI Geoposicionando
BI GeoposicionandoBI Geoposicionando
BI GeoposicionandoSolidQ
 
Sap bi conceptos
Sap bi conceptosSap bi conceptos
Sap bi conceptosHector Leal
 

En vedette (20)

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouseFundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Datawarehouse2
Datawarehouse2Datawarehouse2
Datawarehouse2
 
Base de datos multidimensional
Base de datos multidimensionalBase de datos multidimensional
Base de datos multidimensional
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Pfc itziar angoitia_espinosa
Pfc itziar angoitia_espinosaPfc itziar angoitia_espinosa
Pfc itziar angoitia_espinosa
 
Introducción a Business objects
Introducción a Business objectsIntroducción a Business objects
Introducción a Business objects
 
D wh.introj
D wh.introjD wh.introj
D wh.introj
 
Recetas Curso de cocina mayo 2016
Recetas Curso de cocina mayo 2016Recetas Curso de cocina mayo 2016
Recetas Curso de cocina mayo 2016
 
4 4 Bases De Datos
4 4 Bases De Datos4 4 Bases De Datos
4 4 Bases De Datos
 
Inteligancia de negocios
Inteligancia de negociosInteligancia de negocios
Inteligancia de negocios
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocio
 
BI Geoposicionando
BI GeoposicionandoBI Geoposicionando
BI Geoposicionando
 
Modelo gestion conocimiento e innovacion abierta
Modelo gestion conocimiento e innovacion abiertaModelo gestion conocimiento e innovacion abierta
Modelo gestion conocimiento e innovacion abierta
 
Sap bi conceptos
Sap bi conceptosSap bi conceptos
Sap bi conceptos
 

Similaire à Fundamentos DW

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datosen mi casa
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Luis Fernando Aguas Bucheli
 
rueda-tecnologica-datamart
rueda-tecnologica-datamartrueda-tecnologica-datamart
rueda-tecnologica-datamartFelix Luque
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceIrene Lorza
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouseguest10616d
 
Cap I - Componentes de Business Intelligence.pptx
Cap I - Componentes de Business Intelligence.pptxCap I - Componentes de Business Intelligence.pptx
Cap I - Componentes de Business Intelligence.pptxpaul638936
 
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Karina Lucio
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdfYair Ambrocio
 

Similaire à Fundamentos DW (20)

Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
ADMINISTRACION DE BASE DE DATOS UNIDAD 1
ADMINISTRACION DE BASE DE DATOS UNIDAD 1ADMINISTRACION DE BASE DE DATOS UNIDAD 1
ADMINISTRACION DE BASE DE DATOS UNIDAD 1
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Datewarehouse.ppt
Datewarehouse.pptDatewarehouse.ppt
Datewarehouse.ppt
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
rueda-tecnologica-datamart
rueda-tecnologica-datamartrueda-tecnologica-datamart
rueda-tecnologica-datamart
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Que Es Un Datawarehouse
Que Es Un DatawarehouseQue Es Un Datawarehouse
Que Es Un Datawarehouse
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
 
Cap I - Componentes de Business Intelligence.pptx
Cap I - Componentes de Business Intelligence.pptxCap I - Componentes de Business Intelligence.pptx
Cap I - Componentes de Business Intelligence.pptx
 
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
Fundamentos de Sistemas de Base de Datos (Capítulo 29 y 30)
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdf
 

Plus de Hermes Romero

UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdf
UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdfUNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdf
UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdfHermes Romero
 
Gestión del talento en la hostelería
Gestión del talento en la hosteleríaGestión del talento en la hostelería
Gestión del talento en la hosteleríaHermes Romero
 
Intalligent - Sistema de gestión del talento ágil
Intalligent - Sistema de gestión del talento ágilIntalligent - Sistema de gestión del talento ágil
Intalligent - Sistema de gestión del talento ágilHermes Romero
 
Agile talent management
Agile talent managementAgile talent management
Agile talent managementHermes Romero
 
Metodología de gestión del talento ágil
Metodología de gestión del talento ágilMetodología de gestión del talento ágil
Metodología de gestión del talento ágilHermes Romero
 
Intalligent, Agile Talent Management
Intalligent, Agile Talent ManagementIntalligent, Agile Talent Management
Intalligent, Agile Talent ManagementHermes Romero
 
Introducción a Microstrategy
Introducción a MicrostrategyIntroducción a Microstrategy
Introducción a MicrostrategyHermes Romero
 
Introduction to Mobile Marketing - The complete tutorial
Introduction to Mobile Marketing - The complete tutorialIntroduction to Mobile Marketing - The complete tutorial
Introduction to Mobile Marketing - The complete tutorialHermes Romero
 
Still using marketing from the stone age??
Still using marketing from the stone age??Still using marketing from the stone age??
Still using marketing from the stone age??Hermes Romero
 
Metodologias de desarrollo
Metodologias de desarrolloMetodologias de desarrollo
Metodologias de desarrolloHermes Romero
 
Desarrollo de sistemas
Desarrollo de sistemasDesarrollo de sistemas
Desarrollo de sistemasHermes Romero
 

Plus de Hermes Romero (16)

UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdf
UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdfUNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdf
UNLEASHING INNOVATION Exploring Generative AI in the Enterprise.pdf
 
Gestión del talento en la hostelería
Gestión del talento en la hosteleríaGestión del talento en la hostelería
Gestión del talento en la hostelería
 
Intalligent - Sistema de gestión del talento ágil
Intalligent - Sistema de gestión del talento ágilIntalligent - Sistema de gestión del talento ágil
Intalligent - Sistema de gestión del talento ágil
 
Agile talent management
Agile talent managementAgile talent management
Agile talent management
 
Metodología de gestión del talento ágil
Metodología de gestión del talento ágilMetodología de gestión del talento ágil
Metodología de gestión del talento ágil
 
Intalligent, Agile Talent Management
Intalligent, Agile Talent ManagementIntalligent, Agile Talent Management
Intalligent, Agile Talent Management
 
Introducción a Microstrategy
Introducción a MicrostrategyIntroducción a Microstrategy
Introducción a Microstrategy
 
Introduction to Mobile Marketing - The complete tutorial
Introduction to Mobile Marketing - The complete tutorialIntroduction to Mobile Marketing - The complete tutorial
Introduction to Mobile Marketing - The complete tutorial
 
Still using marketing from the stone age??
Still using marketing from the stone age??Still using marketing from the stone age??
Still using marketing from the stone age??
 
Manual XML
Manual XMLManual XML
Manual XML
 
Oracle xmldb
Oracle xmldbOracle xmldb
Oracle xmldb
 
Introducción a UML
Introducción a UMLIntroducción a UML
Introducción a UML
 
Metodologias de desarrollo
Metodologias de desarrolloMetodologias de desarrollo
Metodologias de desarrollo
 
Desarrollo de sistemas
Desarrollo de sistemasDesarrollo de sistemas
Desarrollo de sistemas
 
Calidad de software
Calidad de softwareCalidad de software
Calidad de software
 
Proyectos software
Proyectos softwareProyectos software
Proyectos software
 

Fundamentos DW

  • 1. Fundamentos de Data Warehouse HHeerrmmeess RRoommeerroo DDAATTAABBAASSEE TTEEAAMM
  • 2. Contenidos  Introducción  Arquitectura del data warehouse  Estructura de un Data warehouse  Data marts  Granularidad  Exploración y minería de datos  Diseño del data warehouse  Visualización del modelo dimensional Aplicaciones OLAP (bases de datos dimensionales)  Carga de datos en el data warehouse  Ciclo de vida del data warehouse
  • 3. Introducción  Data Warehouse es una solución no un producto o grupo de  Un DWH puede ayudarnos a obtener respuestas para tomar  Antes de construir un DWH debemos responder a las siguientes preguntas o ¿De donde vienen los datos del DWH? o ¿cómo se cargarán los datos en el DWH? o ¿cómo se mantendrán? o ¿cómo se estructuran los datos en el DWH? o ¿qué podemos encontrar en un momento del tiempo en el DWH? © 2004 Database Team S.L © Hermes Romero productos. decisiones de manera más acertada. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 4. o Data Warehousing : diseño e implementación de procesos, y herramientas para gestionar y proveer información completa, en tiempo, fiel y comprensible para la toma de decisiones. Incluye todas las actividades que hacen posible a una organización la creación, gestión y mantenimiento del DWH o del datamart. o La definición aceptada de DWH se atribuye a Bill Inmon en 1992*: • DWH es una base de datos que sigue cuatro características: © 2004 Database Team S.L © Hermes Romero Introducción  Definición de DWH o Subject oriented o Nonvolatile o Integrated o Time variant DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 5. Introducción  La necesidad del DWH surge a partir de la necesidad de obtener acceso fácil a una serie de datos estructurados con la calidad suficiente para ser usados en la toma de decisiones.  Es sabido por todo el mundo que la información es un potente activo del que se pueden obtener importantes beneficios y ventajas competitivas para cualquier organización. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 6. Introducción  En las décadas de los 80 y 90 las compañías se han preocupado principalmente por la adecuación de los sistemas operacionales, es decir por la obtención de los datos, la disponibilidad de las aplicaciones, el almacenamiento de los datos, etc... En nuestros días ha legado el momento de sacar partido de esa información, el problema es que los sistemas operacionales no permiten en la mayoría de los casos la obtención de información de manera rápida y precisa para la toma de decisiones, por diversas causas. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 7. Introducción  Debido principalmente a tres fenómenos que han ocurrido durante la pasada década los tamaños de las bases de datos se han visto incrementados significativamente: o Los costes de almacenamiento se han vuelto insignificantes en comparación con el valor de la información almacenada. o Las empresas valoran la información (datos) como un activo o Muchas de las empresas multinacionales comparten su información a través de toda la organización a nivel mundial. © 2004 Database Team S.L © Hermes Romero de negocio crítico. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 8. • Diferentes estructuras de datos • Diferentes motores de datos • Diferentes almacenamientos físicos de información (ficheros) • Diferentes plataformas o Por ejemplo un sistema calcula la edad a través de la fecha de nacimiento, otro lo escribe en un campo, uno llama edad al atributo, otro le llama AGE... © 2004 Database Team S.L © Hermes Romero Introducción o Existen diferentes aplicaciones en la organización o Mainframes o Sistemas medios multiprocesador o Proveedores externos de servicios o Estaciones de trabajo en red e independientes. • Información distribuida • Multiplicidad de tipos de datos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 9. o Este tipo de organizaciones tendrán que desarrollar y mantener diferentes aplicaciones para extraer, preparar y consolidar la información en informes y analíticas. o Es normal también que los responsables de la toma de decisión, a la hora de efectuar un hallazgo quieran profundizar más en los datos que han llevado a ese hallazgo. © 2004 Database Team S.L © Hermes Romero Introducción DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 10. o Los procesos de acceso a datos heterogéneos, limpios, filtrados y o El almacenamiento de datos en estructuras fáciles de acceder,  Los datos en el DWH son usados para consultar, analizar y  El tipo de acceso, uso, tecnología y rendimiento son completamente diferentes de los sistemas transaccionales operacionales OLPT. © 2004 Database Team S.L © Hermes Romero Introducción  Los sistemas DWH implementan : transformados fáciles de usar y comprensibles. realizar informes. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 11. considerablemente altos, particularmente si existen análisis basados en históricos. o Debido a este tipo de volumen de datos y el análisis que se realiza sobre ellos se desaconseja hacer este tipo de operaciones directamente sobre los sistemas transaccionales ya que estos pueden verse impactados de manera negativa en su rendimiento debido a las operaciones masivas que requiere el análisis. Existe por tanto un requerimiento de separación de los dos entornos DWH-OLPT para minimizar lso posibles conflictos y degradación de rendimiento en el sistema operacional. © 2004 Database Team S.L © Hermes Romero Introducción  Los volúmenes de datos en el DWH pueden ser DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 12. Introducción  Los sistemas DWH no son considerados ahora como meras fotos-fijas (snapshots) de de los datos operacionales. Los sistemas DWH deben ser considerados como nuevas fuentes de información concebidas para el uso de toda la organización. La simple reingeniería de los modelos operacionales no satisfacen los requerimientos para el DWHing. El desarrollo de DWH requiere mucho más análisis aplicado a las técnicas de modelado y una relación mucho mas cercana con el propio negocio de la organización. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 13. Introducción  La acumulación de información histórica en el DWH, junto a su análisis puede dar lugar a informaciones o revelaciones nunca antes conocidas acerca de clientes, competidores, etc..., por lo que el DWH aunque es un sistema de solo-lectura (read-only) también puede aportar información.  El DWH también ayuda al descubrimiento de cosas que © 2004 Database Team S.L © Hermes Romero diferencian a la organización. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 14.  PARA LOGAR ESTOS RESULTADOS NO BASTA CON LA SIMPLE REINGENIERIA DE LOS MODELOS DE DATOS OPERACIONALES. © 2004 Database Team S.L © Hermes Romero Introducción DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 15.  Consistencia de los datos (Data consistency architecture) o La consistencia de los datos se basa en la elección de los distintos orígenes de datos, dimensiones, Reglas de negocio, métrica y semántica, que una organización selecciona para un uso común. o Este es de lejos el aspecto más difícil de implementar en la arquitectura del data warehouse debido a que incluye y está condicionada por las políticas y la organización de la compañía. o Las decisiones acerca de esta arquitectura deben de conducir a todas © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH las otras decisiones. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 16.  Arquitectura del almacén de datos para informes y del área de almacenamiento temporal (Reporting data store and stagin data store architecture) o Las principales razones por las que se almacenan datos en un data o Realización de informes que hacen uso de ellos (Reported against) o Limpieza y organización de los datos (Cleaned up) o Transporte a otro almacén de datos donde pueden ser utilizados para realización de informes o para su limpieza y organización. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH warehouse son: DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 17.  Arquitectura del modelado de datos (Data modeling Architecture) o Consiste en la elección acerca de si se usarán modelos de datos, normalizados, denormalizados, orientados a objetos, propietarios, multidimensionales, etc... © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 18.  Arquitectura de herramientas (Tool architecture) o La elección de herramientas que serán usadas para reporting.  Arquitectura de procesado (Processing tiers architecture) o Elección de las plataformas físicas para el procesamiento concurrente o Puede ir desde una simple arquitectura como la basada en un único servidor de informes hasta uno cientos de servidores distribuidos.  Arquitectura de Seguridad (Security Architecture) o Aunque la seguridad no presenta ninguna dificultad técnica a la hora de ser aplicada si presenta complejas dificultades desde el punto de vista político. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH que tiene lugar en el data warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 19.  Un sistema DWH debe resolver necesidades propias de negocio y es por ello que será “sponsorizado” por las personas del negocio que harán uso de el.  Un DWH también sigue determinadas especificaciones de diseño, un DWH no es un DWH simplemente por que alguien dice que lo es. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 20. o Funcionalidad (¿Para que sirve?) o Número de Consultas “ad-hoc” (personalizadas) de los o Número de consultas personalizadas por día y por usuario-día o Número de usuarios de informes standard o Numero de usuarios, usuarios-día de informes standard o Número de informes standard o Volumen del historico a almacenar en meses, trimestres o o Volumen de datos típico para almacenar (diario,semanal o © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH  Como detectar un DWH usuarios años. mensual) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 21.  Dependiendo de las respuestas a las preguntas descritas anteriormente se pueden establecer cuatro categorias: o OLPT – sistema transaccional de operaciones o ODS operational data store o OLAP online analytical processing o DM / DW Data mart / data warehouse © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 22. OLPT ODS OLAP DM/DW Funcionalidad Operacional Operacional/Decisional Decisional Decisional/Estrategica Herramientas de usuario final Cliente Servidor/WEB C/S-WEB C/S C/S-WEB tecnologia BBDD Relacional Relacional Cubica Relacional Nº de transacciones Alto Medio Bajo Bajo Tamaño de la transacción Bajo Medio Medio Alto tiempo de tranascción Corto Medio Medio Alto Tamaño BBDD en GB 1 OLPT * 2 - OLPT *10 OLPT * 2 - OLPT *10 OLPT*2-OLPT*100 Modelado de datos Entidad Relación Entidad Relación N/A Dimensional Normalización 3-5 NF 3 NF N/A 0 NF © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 23.  Otra de las mejores formulas para distinguir un DWH de uno que no lo es consiste en recabar la siguiente información: o Número de tablas o El número de registros de la tabla mayor o El tamaño en GB de la tabla mayor o La media de registros de las mayores tablas o El tamaño medio en GB de las mayores tablas o La mayor transacción (rollback) en GB. (Oracle) o El mayor segmento temporal necesitado en GB. (Oracle) © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 24.  Los sistemas DWH por lo general tienen menos tablas y mas grandes, mientras que los operacionales tienen mas tablas y mas pequeñas.  En el caso de Oracle y otras BBDD que utilicen mecanismos de recuperación de transacciones (rollback), así como segmentos o áreas temporales de ordenación de resultados, los sistemas DWH necesitarán que estas áreas sean al menos tan grandes como el objeto mas grande de la base de datos, mientras que los sistemas operacionales tan sólo necesitan que el espacio sea suficiente para dar cabida a la transacción mas voluminosa del sistema. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 25. OLPT ODS OLAP DM/DW Nº de tablas 1-miles 1-miles OLPT/10 OLPT/10 Media de Registros por tabla miles -millones miles - millones millones millones Media de tamaño por tabla (GB) 1 a 99 1 a 99 1 a 99 1 a 999 Nº de registros de la tabla mas grande miles - millones miles - millones miles - millones miles - cientos de millones Tamaño de la Tabla mas grande (GB) 1 a 99 1 a 99 1 a 99 1 a 999 Tamaño de los segmentos de Rollback 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb Tamaño de los segmentos temporales 1 a 100 Mb 1 a 100 Mb N/A 1 a 999 Gb © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 26. o Debe hacer la información de la compañía accesible de manera sencilla a usuarios ofimáticos no avanzados o Debe presentar la información de la compañía de manera o Debe adaptarse al cambio en el entorno y adaptable a las o Debe ser lo suficientemente seguro para proteger el activo mas importante de la compañía ... La información. o Debe servir a la funcionalidad ultima de mejora de la toma o Los usuarios deben de aceptar el sistema si se pretende que © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH  El sistema DWH debe: consistente y estructurada necesidades puntuales del usuario de decisión. su implementación y uso se haga con éxito. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 27.  ¿cómo puede responder un sistema a la pregunta? o ¿por qué no se han alcanzado los resultados de ventas  Hasta el momento no existe ningún sistema informático que pueda dar respuesta a una pregunta de este tipo, imaginemos una sentencia SQL que pudiese dar respuesta a esta pregunta. © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH previstos? DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 28.  Para que esta pregunta tenga respuesta a través del sistema es necesario realizar diversas consultas sistemáticas: o Así la primera pregunta sería: • ¿Para cada producto, cuales son las ventas acumuladas del año? • El sistema nos devolvería una lista de los productos con sus cifras de venta correspondientes © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 29. o Si quisiera que me mostrase tan sólo aquellos productos que su cifra de ventas es menor que la cifra de ventas objetivo • ¿cuáles son las ventas acumuladas para cada uno de los productos en las que las ventas actuales son menores que los objetivos? o Después de descubrir cuales son los productos que no alcanzan la cifra objetivo, analizará cada caso para ver cual es la posición del producto con respecto al mercado, etc...  El mismo análisis podría hacerse para localizar áreas de venta donde no se están alcanzando los objetivos, vendedores que no están alcanzando la cifra, etc... © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 30.  Un director de ventas se preguntará probablemente: o ¿qué productos son los que mas se venden y cuales los que o ¿cuál es el periodo medio de compra de mis clientes? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH menos? o ¿cuáles son los clientes mas importantes? • Por cifra de negocio (facturación) • Por rentabilidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 31. o ¿qué clientes han reducido su periodo medio de compra? o ¿qué clientes han reducido su importe medio de compra? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH o ¿cómo clasificaría a mis clientes? • A,B,C – Pareto o Basado en cifra de negocio o Basado en rentabilidad o Basado en periodo medio de compra • Otros... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 32. o ¿qué clientes no han comprado nada en los últimos 3 o ¿por qué no se están cumpliendo los objetivos de ventas? © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH meses? • A nivel local • A nivel provincial • A nivel regional • A nivel nacional • ... o ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 33.  Una de las mayores obligaciones de un sistema de soporte a la toma de decisiones (DSS) es la disponibilidad de la información. o Tener acceso a los datos correctos en el momento correcto y © 2004 Database Team S.L © Hermes Romero Arquitectura del DWH con un tiempo de respuesta aceptable. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 34.  Un data warehouse es un sistema orientado a determinados “asuntos” o áreas del negocio, es también un sistema integrado, no volátil y cambiante en el tiempo, que da soporte para la toma de decisiones de los niveles ejecutivos y gerenciales de una empresa. o Como es evidente cada tipo de negocio posee su propio conjunto de “asuntos” o áreas. Es decir una empresa dedicada a la distribución probablemente posea una serie de áreas comunes de análisis con el resto de empresas que se dediquen también a la distribución. o El data warehouse contiene datos corporativos estructurados de © 2004 Database Team S.L © Hermes Romero Estructura de un DWH manera granular. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 35. o Esta es la característica más importante o Los datos llegan de diferentes orígenes y son cargados en el data o Los datos en su camino hacia el data warehouse pueden sufrir transformaciones fruto de cálculos realizados sobre los mismos. • Conversión de datos • Reformateado (Reformatted) • Cambio de secuencia (Resequenced) • Sumarizados (Summarized) • Etc... © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  Está integrado warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 36.  Como resultado de las transformaciones y cargas los datos una vez que residen en el data warehouse poseen una única imagen física. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 37.  Históricamente las distintas aplicaciones de una compañía manejaban la información de diferente manera, con diferentes tipos de datos. o No existía por tanto un consistencia a la hora de la codificación, nombres de entidades y atributos, tipo de datos, etc.., ...lo que hacía más difícil su integración en un único sistema de explotación de la información generada. o Es por tanto tarea del sistema data warehouse especificar un único repositorio que integre las diferentes peculiaridades de los distintos orígenes de datos. (Una única estructura de datos para distintos orígenes de datos con estructuras diferentes) © 2004 Database Team S.L © Hermes Romero Estructura de un DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 38. o Al contrario que en los sistemas transaccionales OLPT, los datos en el data warehouse no son accedidos de manera regular de registro en registro. o Los data warehouse son cargados (generalmente en masa) y accedidos sólo para su consulta no para su actualización. o Cuando el data warehouse se carga genera una foto fija en o Cuando se producen nuevas cargas fruto de cambios en los sistemas OLPT una nueva foto fija de los datos nuevos se generará de manera que los datos ya cargados junto con los nuevos pasarán a formar parte del histórico del data warehouse. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  No es volátil (nonvolatile) el tiempo de los datos (snapshot). DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 39. o Que el data warehouse sea variable en el tiempo implica que cada dato incluido en el data warehouse ha sido obtenido en un momento en el tiempo. • En algunos casos el registro tiene un campo de fecha. • En otros casos esa fecha se corresponde con la fecha en la que • En cualquier caso un registro siempre está sometido a una variable de tiempo. © 2004 Database Team S.L © Hermes Romero Estructura de un DWH  Variable en el tiempo se valido la transacción que lo contenía. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 40. o El horizonte temporal de un sistema data warehouse es o El data warehouse debe contener más datos históricos que © 2004 Database Team S.L © Hermes Romero Estructura de un DWH mayor al de un sistema operacional. • Operacional 60-90 días. • DWH 5 a 10 años. cualquier otro sistema. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 41.  Pequeños data warehouses que pueden trabajar  El data mart depende de la arquitectura seleccionada © 2004 Database Team S.L © Hermes Romero Data Marts independientemente o interconectados. para el data warehouse. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 42.  Siempre ha existido una discusión acerca de si la arquitectura del DWH debía estar basada en Data Marts, o bien completamente centralizado.  Los data warehouses centrales (“enterprise wide data © 2004 Database Team S.L © Hermes Romero Data Marts warehouses”) o Proyectos mas arriesgados o Altos costes o Tiempos altos de desarrollo. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 43. o Se pueden implementar de manera rápida y sencilla o Son proyectos de bajo riesgo. o presentan los datos desde la perspectiva de un proceso  La cantidad de datos históricos contenidos en un data mart deben ser dictados por los requerimientos del negocio. © 2004 Database Team S.L © Hermes Romero Data Marts  Los data marts simple de negocio (subject). DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 44. • Albergan subconjuntos de datos del repositorio central. o Los data marts también son conocidos como data warehouses departamentales (departamental data warehouses). • No debe ser estrictamente departamental ya que es relativo a un proceso de negocio no a un departamento. • facturación, llamadas del call center, movimientos de almacén, procurement, etc... © 2004 Database Team S.L © Hermes Romero Data Marts  Arquitectura en Bus o Los Data marts en bus o seleccionados o preparados o Son usados por parte de un grupo de usuarios. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 45. o Algunas veces los diseños de arquitecturas data warehouse basados en data marts caen en el error de diseñar estructuras de tela de araña donde múltiples extracciones de un mismo origen de datos se cargan en diferentes data marts. Con esto diseños se debe tener en cuenta el mayor coste así como la posibilidad de inconsistencias de los datos en los diferentes data marts. o Las arquitecturas basadas en estructuras de tela de araña no tienen en cuenta que el diseño de los distintos data marts debe estar basado en el proceso de negocio y no en la organización departamental de la compañía. En los sistemas centrados en el proceso (process-centric) los dato son extraídos una sola vez y almacenados en un único lugar. © 2004 Database Team S.L © Hermes Romero Data Marts  ...arquitectura en bus DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 46. o Un analista que quiera obtener datos accederá de esta o Un repositorio de metadatos provee la información acerca de los diferentes data marts (directorio de data mart) © 2004 Database Team S.L © Hermes Romero Data Marts  ...arquitectura en bus manera al data mart relevante. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 47. Usuarios Finales Usuarios Finales Usuarios Finales © 2004 Database Team S.L © Hermes Romero Data Marts BBDD Sistema Operacional Datos Historicos Repositorio Centralizado de Datos ODS (Operational Data Store) Otros datos Metadatos Data Marts DataMart DataMart DataMart DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 48.  El experto en sistemas de “Business Intelligence” Drury Jenkins define la relación de soporte directo entre los sistemas business intelligence y los data warehouse haciendo un especial énfasis en el modelado de los datos y el análisis de los mismos. © 2004 Database Team S.L © Hermes Romero DWH y Business Intelligence DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 49. o Business Intelligence (BI) es la habilidad de tomar mejores o Un entorno de BI enfocado al cliente provee de la infraestructura necesaria para proveer la información necesaria para maximizar la base de clientes. o Esta infraestructura combina datos, canales y técnicas analíticas para mejorar las satisfacción del cliente y el beneficio a través de mayores puntos de contacto. o Para los especialistas en Marketing esto es la habilidad de contactar al cliente correcto en el momento correcto, en el lugar correcto y con el producto correcto. © 2004 Database Team S.L © Hermes Romero DWH y BI decisiones de manera más rápida. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 50. o Los canales de contacto incluyen los tradicionales así como los basados en intercambio electrónico (email, web). o Las técnicas analíticas incluyen análisis de perfiles, modelos predictivos, análisis de series de tiempo, y otras técnicas. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 51. o El aspecto clave de proveer de la información necesaria es la creación de una vista global para cada cliente individual y sus necesidades. o La integración de los datos de los clientes debe proveer de una vista única y uniforme de los clientes a lo largo de la organización. o El objetivo último es alcanzar una foto completa de la interacción de un cliente con la organización entera, sólo se puede lograr mediante la obtención y almacenamiento de los datos apropiados. o Además de los datos suplidos de demografía y otros datos externos, son necesarios numerosos datos internos de la organización. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 52. o Demasiado habitualmente, los datos obtenibles están fragmentados y repartidos sobre muchos lugares y sistemas, escondidos en numerosas bases de datos de transacciones, o herramientas de productividad personal como hojas de calculo o “micro-bases de datos”. o Esta dispersión de los datos, ha sido debido en gran manera por el crecimiento de los sistemas de aplicaciones cliente/servidor en la pasada década .... © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 53. © 2004 Database Team S.L © Hermes Romero DWH y BI DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 54. o Ante todo conocer al cliente o Cual es el valor del cliente para la compañía o Cuales son los clientes más importantes para la compañía o Cuales son los prospectos potenciales o Cuales son los clientes / productos más rentables © 2004 Database Team S.L © Hermes Romero CRM  Que persigue el CRM... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 55. o Cual es el resultado de mis campañas publicitarias © 2004 Database Team S.L © Hermes Romero CRM  ...Que persigue el CRM... • Nº de impactos • Nº de clientes nuevos • Incremento de ventas • CrossSelling o Optimizar la interacción con el cliente o Trato personalizado o Ofertas personalizadas o Etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 56. o El término CRM es confuso desde el punto de vista técnico • Se produce un paralelismo entre CRM y herramientas CRM o El CRM es una filosofía/estrategia de compañía que se lleva a cabo por medio de herramientas especializadas en los distintos ámbitos del tratamiento de la información referida al cliente. © 2004 Database Team S.L © Hermes Romero CRM  Ámbito tecnológico del CRM o Hoy por Hoy todo es CRM... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 57. BI Análisis Data mining © 2004 Database Team S.L © Hermes Romero CRM BBDD Transacciones ERP Negocio BBDD Relaciones Con clientes Herramientas CRM Contact-Center ETL Data Warehouse DATABASE TECHNOLOGIES & SERVICES Reporting www.hermesromero.com
  • 58.  La granularidad es el concepto mas importante en el diseño de un DWH. Por que es directamente proporcional al volumen de datos que almacenará el DWH.  La granularidad se refiere al nivel de detalle o resumen  A mayor detalle mayor nivel de granularidad.  A menor detalle menor nivel de granularidad. © 2004 Database Team S.L © Hermes Romero Granularidad de los datos contenidos en el DWH. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 59.  Podemos tomar por ejemplo un registro de datos correspondiente a una venta, el registro individualmente se correspondería con el mayor nivel de granularidad, mientras que una consulta acerca del total de ventas del mes se correspondería con un nivel de granularidad menor.  Evidentemente a mayor nivel de granularidad mayor será el volumen de información , mientras que al contrario, a menor granularidad menor volumen de datos. © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 60.  Los datos de origen en los sistemas operacionales se encuentran en su mayor grado de granularidad, es por tanto durante la fase de extracción de los datos de los sistemas operacionales hasta el DWH cuando se produce la transformación de los mismos para adecuar su granularidad a la definida en el diseño del DWH de destino.  A través del nivel de granularidad se puede predecir el crecimiento en número de registros del DWH, así como los requerimientos de espacio para el mismo. © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 61.  La granularidad también afectará como es evidente al tiempo de respuesta de las consultas al DWH. A mayor nivel de granularidad menor rendimiento y mayor tiempo de respuesta. A menor nivel de granularidad del sistema, menores recursos son utilizados(procesador, memoria,almacenamiento,etc.). © 2004 Database Team S.L © Hermes Romero Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 62.  El nivel de granularidad de un DWH es la clave de que esos datos puedan ser usados por diferentes tipos de usuarios en diferentes ocasiones y de diferente manera a lo largo de la compañía. © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 63.  Por ejemplo los datos de facturación de una compañía pueden ser usados por usuarios de Marketing, Ventas, Operaciones y Financiero. Todos estos departamentos hacen uso de los mismos datos. Para el departamento de Marketing será interesante conocer las ventas por áreas geográficas por meses, para el departamento de ventas será necesario ver los datos desde la perspectiva de las ventas por vendedor o delegación comercial semanalmente. Para el departamento de operaciones será conveniente ver los datos desde la perspectiva de ventas por línea de producto con carácter mensual para de esa manera poder prever el nivel óptimo de stock en los almacenes. Finalmente para el departamento financiero lo importante será ver los datos desde la perspectiva de la rentabilidad de las ventas por línea de producto. © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 64. Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por producto (20) Ventas por nivel de rentabilidad (5) 1081600 registros al mes 21632000 bytes/mes © 2004 Database Team S.L © Hermes Romero Los beneficios de la granularidad Ventas por mes Marketing Ventas Ventas por mes Ventas por área geografica (52) Operaciones Financiero Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por mes Ventas por semana Ventas por área geografica (52) Ventas por vendedor (52) Ventas por producto (20) 10816 registros al mes 216320 bytes/mes Mayor Granularidad 1 registro al mes 20 bytes/mes 52 registros al mes 1040 bytes/mes 216320 registros al mes 4326400 bytes/mes DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 65.  Otro de los beneficios de la granularidad es la flexibilidad. o A mayor nivel de granularidad mayor flexibilidad. Esto significa que los requerimientos futuros de obtención de datos podrán ser acomodados con el diseño actual del DWH. Los cambios son inevitables, por esto nuestro DWH debe estar preparado para los distintos requerimientos de datos que sobrellevan los cambios del entorno del negocio.  Otro de los beneficios de la granularidad es que a mayor granularidad mayor contenido histórico de actividades y eventos de la compañía. © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 66. o A través del ejemplo anterior veamos el siguiente supuesto: • ¿Cuantas unidades ha vendido Paco del producto limpia-hogar Malvarossa la semana del 3 al 10 de Diciembre del año pasado.? o En el nivel 1 de granularidad nuestra pregunta no tendría o En el nivel 2 de granularidad tampoco o Ni en el nivel 3. o En el nivel 4 de granularidad nuestra respuesta si podría ser o En el nivel 5 de granularidad también podría ser contestada. © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad respuesta. contestada. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 67. o La principal diferencia entre los distintos niveles de granularidad se centra en el volumen de recursos del que hace uso cada nivel. (a mayor nivel mayores recursos). © 2004 Database Team S.L © Hermes Romero Beneficios de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 68.  Es posible en determinados sistemas DWH definir dos o más niveles diferentes de granularidad para dar solución de manera más eficiente a diferentes peticiones de datos. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 69.  En nuestro ejemplo mientras el departamento de Operaciones y Financiero requiere un alto nivel de granularidad, los departamentos de ventas y Marketing requieren niveles de granularidad menor, para facilitar la labor de estos últimos´, diseñaremos por tanto dos repositorios de datos con distinta granularidad el primero de ellos tendrá un nivel 3 de granularidad y será el usado por el departamento de marketing y el departamento de Ventas, mientras que el segundo repositorio contendrá una granularidad de nivel 5 y dará respuesta a las necesidades de los departamentos de operaciones y financiero. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 70.  Los beneficios de la granularidad multiple se centran en un mayor rendimiento en tiempo y recursos para aquellas peticiones dirigidas contra el repositorio de mayor granularidad. El reparto de peticiones entre los diferentes repositorios por granularidad afectará de manera positiva ya que también el número de peticiones sobre cada uno de los repositorios bajará.  Evidentemente la puesta en marcha de diferentes grados de granularidad afecta al espacio de almacenamiento. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 71.  Gracias a su bajo coste (básicamente almacenamiento), eficiencia, facilidad de acceso y habilidad para responder cualquier consulta, la granularidad múltiple generalmente a dos niveles, es la mejor elección posible en arquitecturas donde el nivel de detalle del DWH es muy alto y el volumen de datos es también muy alto.  Un único nivel de granularidad muy detallada está solo indicada en casos en los que el volumen de datos es relativamente pequeño. © 2004 Database Team S.L © Hermes Romero Granularidad múltiple DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 72.  El principal condicionante en la elección del nivel de granularidad de nuestro sistema DWH se centra en el número de registros o volumen de datos que contendrá la base de datos, evidentemente este volumen tan sólo podrá ser predictivo por estimación. Es importante también efectuar en esta fase un ejercicio para estimar el crecimiento del propio DWH. © 2004 Database Team S.L © Hermes Romero Estimación de la Granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 73. o El primer paso para calcular el espacio que ocupará el DWH es la identificación de las tablas que serán construidas. o 2º estimar el tamaño de un registro en cada una de las tablas. Evidentemente el tamaño exacto nunca se conocerá ya que una filas consumirán mas espacio y otras menos, por lo que nosotros tomaremos como cifra una estimación basada en la cantidad mínima de espacio y por otro lado la cantidad máxima de espacio necesario para una fila. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 74. o 3º estimar en el horizonte de un año el máximo y mínimo numero de registros que contendrá cada una de las tablas. Si la información contenida se refiere a clientes o ventas es necesario usar las estimaciones de ventas del negocio recogidas en el plan de negocio para conocer el crecimiento de las tablas asociadas a las ventas. Si no existe un plan de negocio, será necesario utilizar otras variables predictivas como puede ser la situación economica, la cuota de mercado y el crecimiento en cuota de mercado, las previsiones de la comptencia, etc... o 4ª una vez que se han hecho las previsiones es necesario repetir el proceso pero esta vez con un horizonte de 5 años. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 75. o 5º Establecer el número y tamaño de los índices necesarios para las distintas tablas del DWH, es conveniente crear índices en cada una de las variables condicionantes que formarán parte de las consultas (campos que estarán en las cláusulas WHERE de las sentencias SQL). • (Máximo número de filas posible en un año X tamaño máximo pro registro) + espacio de índices • (Mínimo número de filas posible en un año X tamaño mínimo por registro) + espacio de índices © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad o 6º Realizar la operación DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 76. o Repetir esta operación por cada una de las tablas del DWH o Por lo general las estimaciones siempre se quedan pequeñas debido al crecimiento del DWH, por lo que es aconsejable sumar un espacio extra de al menos un 30% sobre la estimación. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 77.  Una vez obtenidos los resultados de las predicciones es necesario aplicar la siguiente tabla para revisar si el nivel de granularidad es correcto: 100.000.000 1.000.000.000 Existen datos no usados por lo que se debe de replantar niveles inferiores de granularidad 10.000.000 100.000.000 Posiblemente existan datos no usados por lo que se recomienda replantearse el nivel de granularidad en el diseño del 1.000.000 10.000.000 DNiWveHl de granularidad Aceptable 100.000 1.000.000 Nivel de granularidad Adecuado © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad número de registros a 1 año vista Número de resgristros a 5 años vista DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 78.  Un importante componente de los sistemas DWH es el concepto de “Overflow storage” almacenamiento desbordado o El almacenamiento desbordado se produce cuando son almacenados datos que no son usados de manera frecuente. o Relación directa con la granularidad del diseño. • A mayor nivel de granularidad mayor es la probabilidad de que se produzca el desbordamiento. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 79.  Con el transcurso del tiempo mayor desbordamiento. o Almacenar los datos poco consultados en dispositivos o El uso del almacenamiento externo tiene implicaciones de rendimiento. • Seleccionar cuidadosamente que datos . • Un reparto inteligente de los datos entre los dispositivos externos e internos del sistema permitirá un mejor rendimiento a menor coste. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad externos CD-ROM - DVD DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 80. o Por ello a la hora de diseñar el almacenamiento de los datos es necesario discernir entre que datos son necesarios con frecuencia y cuales no.  El uso de sistemas sobredimensionados, asumiendo su coste, nos permitiría aplicar el mayor nivel de granularidad deseado. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 81.  La granularidad viene determinada a través de la funcionalidad del usuario, si el usuario ve los datos y el nivel de detalle es correcto para ellos entonces el nivel de granularidad es el apropiado. © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 82.  El nivel de granularidad debe tener en cuenta las necesidades futuras y la evolución del propio negocio. o Un nivel mayor de granularidad significará estar mas © 2004 Database Team S.L © Hermes Romero Estimación de la granularidad preparado para el futuro. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 83. Caminos para establecer la granularidad  Realizando consultas sobre los orígenes de datos con los  Realizando las operaciones de agregación, que serán realizadas desde el origen de los datos en su camino hacia el data warehouse.  Realizando las operaciones estadísticas como medias, etc.. que serán realizadas desde el origen de datos en su camino hacia el data warehouse. © 2004 Database Team S.L © Hermes Romero distintos niveles de granularidad posible. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 84. Caminos para establecer la granularidad  Identificando los mayores y menores valores en el  Identificando tan sólo los datos que son estrictamente  Realizando pruebas de muestreo de datos utilizando conjuntos representativos de datos mediante condicionantes. © 2004 Database Team S.L © Hermes Romero destino. necesarios en el destino. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 85.  Podemos definir particionamiento de los datos a nivel lógico y a nivel físico, para una mejor compresión, mantenimiento y navegación a través del DWH  El particionamiento físico se define a través de la propia  En el particionamiento de datos lógico el criterio común mas usado es el áreas temáticas (subject areas). o Podemos definir un área temática como una porción del DWH que es clasificada desde una perspectiva consistente. © 2004 Database Team S.L © Hermes Romero Particionamiento implementación física del diseño. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 86. o Acceso más flexible a los datos o Una gestión de los datos mas sencilla y eficiente o Asegura la escalabilidad del DWH o Habilita la posibilidad de que los elementos del DWH sean portables y compartidos con otros DWH o archivados en distintos dispositivos de almacenamiento externo. © 2004 Database Team S.L © Hermes Romero Particionamiento  Para el DWH el particionamiento aporta: DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 87.  Habitualmente se realizan particiones de grandes volúmenes de datos dividiéndolos en piezas mas pequeñas. Al hacer esto determinadas operaciones con los datos serán más fáciles de realizar: o Reestructuración de datos o Indexación o Escaneado Secuencial (Full Scans) o Reorganización o Recuperaciones o Monitoreado o Auditoría © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 88.  Los criterios de particionamiento de los datos son variados pero quizás los mas representativos sean: o Periodo de tiempo (Fecha, mes , trimestre, semestre, año) o Por áreas geográficas o Por producto o línea de negocio o Por unidad organizativa o ... o Por combinaciones de lo anterior © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 89.  La elección de un criterio de particionamiento está basado e los requerimientos del propio negocio y las características físicas de la propia base de datos.  Cada herramienta de gestión de bases de datos (DBMS) tiene su propia manera de implementar el particionamiento a nivel físico, y pueden ser bastante diferentes entre ellas. © 2004 Database Team S.L © Hermes Romero Particionamiento DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 90.  Se puede realizar un particionamiento controlado por la propia aplicación. o Añadirá la posibilidad de portar los datos entre distintos © 2004 Database Team S.L © Hermes Romero Particionamiento DWH.  El particionamiento depende de: o El modelo de datos multidimensional o La granularidad de los datos o Las capacidades del motor de base de datos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 91.  Un DWH está siempre orientado a áreas temáticas  Área temática = área de interés para el negocio  El DWH está siempre orientado a áreas especificas de la © 2004 Database Team S.L © Hermes Romero Áreas temáticas (subject areas) (subject areas). organización como pueden ser: o Clientes o Productos o Beneficios o Ventas o ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 92.  Esta orientación tiene su base en la forma en la que se plantean las consultas a un DWH, en un sistema operacional se formulan preguntas del tipo: o ¿Se puede pagar la factura del cliente XXXX?  Mientras que en el DWH las preguntas son más del tipo: o ¿qué productos se estan vendiendo mejor? o ¿cuáles son las oficinas que venden menos? o ¿cuáles son los vendedores menos rentables?... © 2004 Database Team S.L © Hermes Romero Áreas temáticas DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 93.  Las áreas temáticas son la forma más común de  Para extraer una lista de los candidatos a áreas © 2004 Database Team S.L © Hermes Romero Áreas temáticas particionamiento lógico en el DWH. temáticas, debemos hacernos la pregunta: o ¿cuáles son los intereses del negocio? DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 94.  Para la localización de las áreas temáticas se utiliza el método 5W1H que consiste en preguntarse acerca de: cuando, donde, quien, que, por que y como (When, where, who, what, why, how) acerca del negocio. o Si se hace la pregunta en quien está interesado el negocio (who) podrá aparecer: • Clientes, empleados, gerentes, proveedores, competidores, etc... • Este año, trimestralmente, mensualmente, anualmente, semanalmente, etc... © 2004 Database Team S.L © Hermes Romero Áreas temáticas o Sobre la pregunta cuando (when) o Donde (where) • Provincias, ciudades, países, etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 95.  Una vez extraída la lista de candidatos a áreas temáticas, habrá que seleccionarlas, descomponerlas y redefinirlas mas claramente.  Como resultado podremos finalmente obtener una lista de áreas temáticas que representen claramente a nuestra organización.  El rol principal del área temática es la determinación de la unidad para un análisis efectivo, modelado e implementación del DWH, lo cual pude servir también como medida para discernir las áreas de interés de nuestro DWH. © 2004 Database Team S.L © Hermes Romero Áreas temáticas DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 96. Exploración y data mining (minería de datos)  Los sistemas de Data mining o minería de datos se han hecho populares durante la pasada década. o para obtener mayor información o para obtener una mejor comprensión del negocio o para encontrar nuevos caminos e ideas para ganar potencial © 2004 Database Team S.L © Hermes Romero en otros mercados. o Para controlar gastos y costes DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 97.  Es una practica extendida en nuestros días la integración de los sistemas de data mining en las aplicaciones transaccionales de negocio. o Por ejemplo call centers donde al recibirse una llamada el sistema localiza el cliente del cual proviene y le adjudica un operador de acuerdo a su perfil como cliente. o Sistemas que generan listados de receptores de publicidad directa con ofertas adecuadas a su perfil de cliente. o Sistemas que alertan sobre el riesgo de perdida de un cliente o, de la modificación de sus hábitos de compra. © 2004 Database Team S.L © Hermes Romero Exploración y Data mining o Etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 98.  Esta integración en los sistemas operacionales de la compañía requiere: o Integración de los sistemas de Data mining con las bases de o Integración de los sistemas de Data Mining con los sistemas © 2004 Database Team S.L © Hermes Romero Exploración y Data mining datos de producción DWH. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 99.  El principal caldo de cultivo de los sistemas de data mining son los sistemas DWH, ya que: o Permiten el análisis de los datos sobre granularidades o No influyen en el rendimiento del sistema operacional. o Buscan patrones de comportamiento a lo largo de todos los sistemas de la compañía y para ello es fundamental la integración y estandarización del DWH. © 2004 Database Team S.L © Hermes Romero Exploración y data mining significativas para el sistema DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 100. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining Definición DATA WAREHOUSE Preparación de los datos Minería de datos Interpretación de resultados Implementación de resultados DATA MINING FUNCIONES DE SCORING DE RESULTADOS DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 101. • Permite responder a determinadas preguntas , obteniendo la información relevante desde el DWH, transformándola para el contexto apropiado y mostrándola de manera legible. En esta técnica las consultas realizadas están basadas en dos dimensiones. • Los usuarios finales están especialmente interesados en: o Procesado de valores numéricos...totales de ventas, cantidades o Cálculo o investigación de medidas de calidad como satisfacción de o Predicciones de análisis de transacciones de negocio, análisis de © 2004 Database Team S.L © Hermes Romero Exploración y data mining  Consultas e Informes vendidas. clientes, retrasos en procesos de negocio, etc.. tendencias, etc... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 102. Preparación del informe Entrega del informe © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining Definición de la consulta Acceso y obtención del dato Manipulación del dato y cálculo DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 103. • El análisis multidimensional es una manera de extender las capacidades de las consultas e informes que como vimos se basan en dos únicas dimensiones.. • Básicamente sustituye a la necesidad de realizar múltiples consultas, para ello los datos son estructurados de manera que se habilita un acceso rápido y fácil a las respuestas de las preguntas que típicamente se realizan. • Por ejemplo: o ¿Cuantas unidades del producto X se han vendido en el mes de Enero, por un determinado vendedor, in una provincia en particular? • Cada una de las partes de la pregunta es lo que se llama una dimensión. © 2004 Database Team S.L © Hermes Romero Exploración y data mining o Análisis multidimensional Enero Vendedor provincia DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 104. • Mediante el mecanismo de precálculo integrado en las herramientas de procesamiento multidimensional, todas las respuestas a las distintas consultas (dimensiones) se obtienen en la misma orden. o los datos no son recalculados sino que simplemente son accedidos y • El análisis multidimensional permite a los usuarios tener a su alcance un gran número de factores interdependientes asociados a un escenario del negocio. • Los usuarios pueden acceder a la información explorando los datos en diferentes niveles de detalle. © 2004 Database Team S.L © Hermes Romero Exploración y data mining mostrados. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 105. Totales de Ventas en Enero Totales de Ventas en Febrero Totales de Ventas en Marzo Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 Vendedor 1 Vendedor 2 Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev Mad Sev © 2004 Database Team S.L © Hermes Romero Exploración y data mining Totales de Ventas en el primer trimestre Drill Down DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com Roll Up
  • 106. o Es una técnica relativamente nueva es muy diferente de las técnicas de consultas e informes y del análisis multidimensional, su principal diferencia se basa en lo que se llama técnica de descubrimiento. o La técnica de descubrimiento (discovery technique) no consiste en realizar una consulta especifica a los datos, en cambio esta técnica utiliza algoritmos que analizan los datos y devuelven los resultados descubiertos. A diferencia de las dos técnicas anteriores el data mining busca respuesta a consultas que no han sido previamente realizadas. © 2004 Database Team S.L © Hermes Romero Exploración y Data mining  Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 107. o Los descubrimientos pueden tomar la forma de encontrar significado a determinadas relaciones o patrones de datos. o Después de realizar un descubrimiento, este puede convertirse en una regla que sea utilizada para hacer predicciones basadas en esa regla. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 108. o Las técnicas de data mining se utilizan habitualmente para análisis estadístico de los datos y para descubrir el conocimiento (knowledge discovery) • El análisis estadístico descubre patrones no habituales en los datos aplicando técnicas matemáticas y estadísticas para la explicación de los patrones. • Una vez descubierto el patrón este se utilizará entonces para hacer previsiones y presupuestos. • Algunas de las técnicas estadísticas incluyen: • “knowledge discovery” extrae información no conocida de manera implícita de los datos. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining o análisis linear y no lineal o análisis de regresión o Análisis multivarianza o Y análisis de series en tiempo. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 109. o El soporte de las técnicas de análisis de data mining está soportado por los propios datos del negocio . Existe en el DWH un alto nivel de complejidad en los datos almacenados y en sus interrelaciones que es difícil de descubrir sin el uso de técnicas de data mining. o La minería de datos ofrece nuevos revelaciones acerca del negocio dando respuesta a preguntas que nunca se nos hubiese ocurrido preguntar. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 110. Gestionado por los datos Multidimensional Data Mining © 2004 Database Team S.L © Hermes Romero Exploración y Data mining Gestionado por el Analista Asistido por el Analista Consultas e informes Análisis DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 111. o OLAP data mart (OnLine Analitical Processing)  análisis multidimensional • Están diseñados para soportar análisis multidimensional usando • El data mart en este caso se diseña utilizando las técnicas de esquema en estrella o tecnologías propietarias de cada herramienta basadas en el concepto de “hipercubo” (Hypercube). • El esquema en estrella o sistema de gestión de base de datos multidimensional (multidimensional database management system MD DBMS) es el indicado en data marts de los que se conocen perfectamente los requerimientos, estos son estables y las consultas a los mismos son fácilmente predecibles con tiempos de respuesta razonables e informes mas o menos recurrentes. © 2004 Database Team S.L © Hermes Romero Exploración y data mining herramientas de software OLAP. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 112. o Almacenes de exploración (Exploration warehouse) • Los almacenes de exploración están diseñados para dar soporte real a la exploración o navegación puramente customizable por el usuario “ad-hoc”. • Después de un descubrimiento a través de la exploración, este puede dar lugar a la creación de un nuevo data mart , para que otros usuario se beneficien del hallazgo a partir de es momento. o Almacenes estadísticos (Data mining or statistical warehouses) • Es un data mart especializado diseñado para dar soporte a los o Aplicaciones analíticas customizables (Customizable analytical applications) • Permite la customización efectiva de aplicaciones genéricas. © 2004 Database Team S.L © Hermes Romero Exploración y Data Mining analistas e investigadores. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 113.  Asumamos las siguientes aserciones como ciertas antes • En el DWH podremos encontrar datos de todas las unidades de negocio y departamentos de la compañía. o Se asume también que los datos contenidos en el DWH no violan ninguna de las reglas de negocio establecidas para la compañía. • El DWH en todo momento debe mostrar su adherencia a las © 2004 Database Team S.L © Hermes Romero Diseño del DWH de continuar: o El DWH debe tener un enfoque corporativo reglas de negocio de la compañía. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 114. o El DWH debe ser cargado con datos lo más rápida y o El DWH debe configurarse y diseñarse para soportar múltiples tecnologías de BI, tanto presentes como futuras. o El DWH debe acomodarse fácilmente a cambios tanto en las estructuras de datos como en los datos propiamente dichos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH eficientemente posible. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 115.  El tipo de análisis que será realizado con el DWH o Data mart puede determinar el tipo de modelado de datos y los contenidos del mismo.  Como los análisis basados en consultas e informes y los análisis multidimensionales requieren metadatos explícitos y sumarizaciones especificas, es importante que el modelo de datos que de soporte al análisis contenga estos elementos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 116. o El análisis multidimensional también permite las operaciones o La minería de datos habitualmente trabaja mejor con el mayor nivel de detalle disponible (granularidad alta). © 2004 Database Team S.L © Hermes Romero Diseño del DWH  Debemos tener en cuenta también que: “drill down” y “roll up”. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 117.  Desde principios de los años 90 uno de los gurus del DWH , Ralph Kimball, propuso nuevas técnicas de diseño basadas en las tradicionales bases de datos relacionales para lograr que los DWH fueran comprensibles y rápidos.  Estas técnicas de diseño que actualmente se conoce como modelado de datos dimensional (dimensional modeling) hacen que los sistemas DWH sean más rápidos a través de la limitación del número de enlaces (joins) entre las distintas tablas que forman parte del sistema. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 118.  Las características ideales que debe seguir el modelo de • Debemos por todos los medios a nuestro alcance evitar la redundancia de los datos en nuestro DWH. La redundancia de datos añade trabajo extra a las operaciones de extracción transformación y carga (ETL), así como a los diseñadores que tendrán que preocuparse de que todos los elementos redundantes tengan el valor correcto en el momento correcto. • A mayor redundancia mayor complejidad en la carga de los datos. • Evidentemente cierto grado de redundancia a veces es inevitable e incluso aconsejable, a este tipo de redundancia la llamaremos redundancia controlada. © 2004 Database Team S.L © Hermes Romero Diseño del DWH datos en el sistema DWH son: o No redundante. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 119. • Hemos repetido en varias ocasiones que nuestro DWH deba acomodarse a los cambios con facilidad y estabilidad, esto se logra mediante la independencia de nuestro DWH a los cambios en procesos, aplicaciones y tecnología que por otra parte son los cambios que ocurren mas frecuentemente en una organización. Por otra parte nuestro DWH debe estar preparado para añadir nuevas entidades o atributos cuando se añaden nuevas capacidades de análisis BI o se incorporan nuevos data marts. • Es importante por tanto que el diseñador de nuestro DWH use técnicas de modelado que permitan la incorporación de cambios en el modelo sin que sea necesario la redefinición de las entidades y atributos ya implementados. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Estable DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 120. • La consistencia de los datos contenidos en el DWH es sin duda la característica esencial. Los modelos de datos creados para el DWH deben reconciliar las discrepancias de concepto y físicas entre los distintos orígenes de datos, tanto a nivel estructural como a nivel de tipo de dato. Evidentemente este esfuerzo inicial es previo a cualquier tipo de carga de datos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Consistente DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 121.  El modelo de datos resultante para el DWH, se trasladará a un diseño de base de datos que sea: o Fiable • No contendrá contradicciones en la forma de nombrar entidades o atributos, en referencias de unos a tros, así como en la documentación • El DWH resultante de la implementación de este modelo de datos podrá ser accedido por múltiples procesos y usuarios desde cualquier parte de la compañía. © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Compartido DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 122. • La base de datos resultante no condicionará en una dirección u otra el entorno BI creado. Todas las oportunidades tecnológicas que se presenten permanecerán disponibles para la compañía. • LA base de datos resultante podrá acomodar nuevas entidades y atributos, manteniendo al integridad de los elementos implementados. • El modelo de datos proveerá una representación de cómo y que clase de información es usada en la compañía- © 2004 Database Team S.L © Hermes Romero Diseño del DWH o Flexible y adaptable al cambio o Correcto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 123.  Como cualquier proyecto de sistemas, un proyecto de DWH debe seguir las distintas fases del ciclo de vida de desarrollo de sistemas, es por tanto lógico además de aconsejable no comenzar realizando un diseño de los modelos de datos que soportarán nuestro DWH antes de haber recabado todos los requerimientos por parte de los usuarios y de la dirección de la compañía. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 124.  En la mayoría de proyectos de DWH se abre un debate entre los integrantes tecnologicos del equipo acerca de si los modelos deben estar basados en diseños en estrella, normalizados o de-normalizados o simplemente planos. Por razones varias muchos de los analistas prefieren aplicar a todos los diseños su “particular” técnica de diseño (quizás por que se sienten comodos con una tecnica en particular, o sencillamente por que desconocen el resto) y por esta rázón forzan a los ditintos data marts a tener un solo tipo de diseño. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 125.  Lo mas recomendable en el diseño de data marts es que los esquemas de base de datos que los soportan deben estar diseñados de acuerdo al uso que se va ha hacer de ellos y del tipo de información que se solicitará al data mart. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 126.  Probablemente basándome en mi experiencia el mejor diseño para los distintos tipos de data marts será el que no preestablezca o predetermine las relaciones entre los datos, ya que de esta manera condicionará el uso del mismo, y el fin último para el que debemos dirigir nuestro diseño es que este soporte todas y cada una de las posibilidades de análisis de datos. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 127.  Para determinar cual es el mejor diseño de base de datos posible para el data mart es aconsejable construir una matriz como la de la figura que compare el grado de volatilidad de los datos con respecto al tipo de diseño seleccionado así como con respecto a la frecuencia o tipo de consulta a realizar sobre el data mart. © 2004 Database Team S.L © Hermes Romero Diseño del DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 128. © 2004 Database Team S.L © Hermes Romero Diseño del DWH latencia DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com Repetitivas Customizables Algoritmicas volatilidad Esquema en estrella De-normalizadas Normalizadas Planas
  • 129. Diseño del DWH – Estructura de los datos  Para DWH podemos distinguir tres tipos básicos de datos:  Se puede configurar el DWH basándose en estos tres tipos, con la consideración adecuada a las características particulares de cada implementación. © 2004 Database Team S.L © Hermes Romero o Datos en tiempo real (real-time data) o Datos derivados (Derived data) o Datos reconciliados (Reconciled Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 130. Diseño del DWH – Estructura de los datos  Dependiendo de la naturaleza de los sistemas operacionales, el tipo de negocio, y el número de usuarios que pueden acceder al DWH, debemos combinar los tres tipos de datos para crear el mas adecuado modelo de datos para el DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 131. Diseño del DWH – Estructura de los datos o Los datos en tiempo real representan el estado actual del negocio. Por supuesto, estos son los datos que utilizan los sistemas operacionales. o Los datos en tiempo real muestran la realidad cambiante del o Los datos en tiempo real muestran por otra parte el mayor nivel de detalle lo que se representa como el mayor nivel de granularidad. o Habitualmente estos son accedidos en modo lectura-escritura por las transacciones operacionales. © 2004 Database Team S.L © Hermes Romero  Datos en tiempo real (Real-Time data) negocio transacción a transacción. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 132. Diseño del DWH – Estructura de los datos o Estos datos no tienen por que ser patrimonio exclusivo de los sistemas operaciones ya que es practica habitual la realización de transacciones distribuidas que reparten los datos entre sistemas operacionales y DWH en tiempo real. o De igual manera los datos en tiempo real pueden ser almacenados también en Almacenes de datos operacionales (ODS Operational Data Stores) para su posterior análisis y carga en sistemas DWH sin afectar al rendimiento de los sistemas operacionales. o El uso de datos en tiempo real en el DWH, implica que estos datos deben ser debidamente tratados para asegurar la adecuada calidad del dato, probablemente sumarizados y transformados a un formato mucho más fácilmente comprensible y manipulable por los analistas de negocio. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 133. Diseño del DWH – Estructura de los datos o Evidentemente, también en el caso de que los datos en tiempo real provengan de distintos orígenes y sistemas, deberán ser reconciliados antes de ser cargados en el DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 134. Diseño del DWH – Estructura de los datos o Los datos derivados son datos que han sido creados probablemente a raíz de operaciones como sumas, medias, o agregaciones de operaciones en tiempo real a través de un proceso intermedio de transformación previo a la carga. o Los datos derivados pueden ser detallados o resumidos dependiendo de las especificaciones de requerimientos del DWH. o Pueden representar una vista del negocio en un momento determinado del tiempo o pueden ser datos históricos referidos a un periodo de tiempo. © 2004 Database Team S.L © Hermes Romero  Datos Derivados (Derived Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 135. Diseño del DWH – Estructura de los datos o Los datos derivados son tradicionalmente usados para la o La sumarización de los datos en nuevos registros derivados requiere grandes volúmenes de datos a analizar y por consecuencia necesitará de grandes recursos para su procesamiento. o La eficiencia de los procesos de creación de datos derivados en tiempo y manera es vital y una de las tareas mas importantes que los analistas han de resolver. © 2004 Database Team S.L © Hermes Romero toma de decisiones y el análisis del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 136. Diseño del DWH – Estructura de los datos o Los datos reconciliados son datos en tiempo real que han sido tratados para ajustarse a los niveles de integración y calidad que se requieren para ser usados en análisis de datos. o La consistencia es uno de los requerimiento de calidad inexcusables. o Durante el proceso de reconciliación de datos es posible crear y mantener datos históricos , por lo que los datos reconciliados podrían ser un tipo especial de datos derivados. o En algunas ocasiones los datos reconciliados son almacenados en estructuras físicas temporales requeridas para transformar de manera consistente los datos operacionales. © 2004 Database Team S.L © Hermes Romero  Datos Reconciliados (Reconciled Data) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 137. Diseño del DWH – Estructura de los datos  El concepto de EDM – Enterprise Data Model o Un EDM es una definición consistente de todos los elementos de datos comunes al negocio. Desde una perspectiva mas abstracta a la mas concreta. o El EDM incluye a su vez vínculos a los diseños de datos de o A través del EDM se puede intuir una visión y comprensión © 2004 Database Team S.L © Hermes Romero cada una de las aplicaciones operacionales. de los requerimientos del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 138.  El modelador de datos debe responder a la premisa de diseñar las bases de datos del DWH para soportar de la mejor manera las necesidades de los usuarios del DWH.  En el DWH existen dos técnicas básicas de modelado de © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH datos : o Modelado entidad-relación ER o Modelado dimensional DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 139.  En la mayoría de los modelos de datos de los sistemas operacionales actuales los modelos de datos se soportan sobre estructuras de modelado ER. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 140.  Con la llegada del DWH la necesidad de técnicas de modelado orientadas hacia el análisis se han visto incrementadas y con ello ha crecido el interés por estas técnicas. Con el modelado dimensional, se nos ofrece la capacidad mejorada de visualizar cuestiones abstractas que surgen del negocio y los usuarios finales. Mediante el uso de los modelos dimensionales los usuarios pueden fácilmente explorar y explotar los datos de manera comprensible. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 141.  El modelo de datos es una abstracción organizada de los datos que representan las actividades, recursos y resultados de la organización.  Sin un modelo de datos la organización de la estructura y  El objetivo de los modelos de datos es conseguir la independencia lógico / física o Como se muestran los datos es completamente independiente de cómo se almacenarán a nivel físico © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH del contenido del DWH sería muy difícil. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 142.  Por lo que a nivel lógico se refiere, se referirá a los aspectos de identificación de la entidad o entidades, su descripción y su organización.  En el nivel físico se tratarán aspectos como la organización, acceso y almacenamiento de los datos a nivel físico © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 143. o Los modelos ER producen un modelo de datos de una especifica área de interes usando para ello dos conceptos básicos: Entidades y las relaciones entre esas entidades. Los modelos ER contienen también Atributos, que son las propiedades inherentes a las entidades y/o relaciones. o El modelo ER es una percepción del mundo compuesta por objetos llamados entidades y las relaciones entre ellos. Las entidades se diferencian unas de otras a través de sus atributos. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH  Modelos entidad-relación DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 144. o El modelado ER se representa mediante un diagrama que usa tres tipos de graficos para conceptualizar los datos: Entidad, relación y Atributo. • Entidad o Una entidad se define como una persona, lugar cosa o evento de o Una entidad representa una clase de objeto, que puede ser observado y clasificado por sus propiedades y caracteristicas. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH interes para el negocio o la organización. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 145. o Una relación se representa mediante lineas que unen a dos entidades. Una relación se designa de manera gramatical por medio de un verbo, como pertenece a, tiene. Tla relación entre dos entidades puede ser definida mediante su cardinalidad. La cardinalidad es el máximo número de instancias de una entidad que que se relacionan con una instancia de la otra entidad. Las cardinalidades posibles son: • Uno a uno 1:1 • Uno a muchos 1:M • Muchos a muchos M:M (no son válidas en un modelo normalizado) o Los atributos describen las caracteristicas o propiedades de las entidades. Un nombre de atributo debe se único en una entidad. © 2004 Database Team S.L © Hermes Romero Modelado de datos para el DWH • Relación • Atributos DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 146. Modelado de datos para el DWH – Modelado dimensional  El modelado de datos dimensional usa tres conceptos  En algunos casos el modelado dimensional es más sencillo, más expresivo y fácil de comprender que el modelado relacional.  Es relativamente nuevo por lo que no está firmemente definido, especialmente comparado con las técnicas de modelado relacional. © 2004 Database Team S.L © Hermes Romero básicos: o Medidas (measures) o Hechos (facts) o Dimensiones (dimensions) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 147. Modelado de datos para el DWH – Modelado dimensional  El modelado dimensional es un conjunto de medidas (measures) que son descritas por aspectos comunes del negocio.  Es especialmente útil para sumarizar datos y presentarlos en vistas para ayudar al análisis de los datos.  El modelado dimensional se centra en los datos numéricos, como valores, cuentas (count), pesos, balances y ocurrencias. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 148. Modelado de datos para el DWH – Modelado dimensional o Es una colección de items de datos relacionados. o Cada hecho generalmente representa un item del negocio, una transacción del negocio, o un evento que puede ser utilizado para analizar el negocio o un proceso del negocio. o En un Data warehouse los hechos (facts) se almacenan donde los datos numéricos son almacenados. © 2004 Database Team S.L © Hermes Romero  Hechos (facts) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 149. Modelado de datos para el DWH – Modelado dimensional o Es una colección de miembros o unidades del mismo tipo. o Las dimensiones determinan el contexto de fondo para los o Las dimensiones son los parámetros sobre los que queremos realizar el análisis OLAP (online analitical processing). © 2004 Database Team S.L © Hermes Romero  Dimensiones (dimensions) hechos. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 150. Modelado de datos para el DWH – Modelado dimensional o Si consideramos una base de datos de análisis de ventas, encontraremos entre otras las siguientes dimensiones. • Tiempo • Localización / Provincia • Clientes • Vendedor o Miembros de la dimensión (dimension members) • Una dimensión puede a su vez contener n miembros. • Por ejemplo, los meses : enero, febrero, marzo,...,trimestres, cuatrimestres son miembros de la dimensión tiempo. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 151. Modelado de datos para el DWH – Modelado dimensional o Jerarquías de la dimensión (dimension hierarchies) • Las dimensiones pueden a su vez ser divididas en diferentes jerarquías, cada jerarquía puede tener a su vez distintos niveles jerárquicos. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 152. Modelado de datos para el DWH – Modelado dimensional Semana día ... © 2004 Database Team S.L © Hermes Romero  Jerarquias de la dimensión Jerarquía 1 año Jerarquía 2 semestre semestre trimestre trimestre mes día ... ... ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 153. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  Jerarquias de la dimensión o Drill down DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 154. Modelado de datos para el DWH – Modelado dimensional o Una medida se determina por la combinación de miembros de las dimensiones y está situada en los hechos (facts) © 2004 Database Team S.L © Hermes Romero  Medidas (measures) o Es un atributo numérico de un hecho. o Por ejemplo las medidas de ventas serían • El importe de las ventas • El volumen de ventas • Las unidades vendidas • El importe de la materia prima • ... DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 155. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  dimesion1 DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 156. Modelado de datos para el DWH – Modelado dimensional o Es la tabla central en el modelo de datos dimensional, en esta table es donde se almacenan los valores numéricos de las medidas. Se utiliza el termino hecho (fact) para representar una medida del negocio. o Una fila de la tabla de hechos representa una medida (measure). Por lo que una medida es una fila en la tabla de hechos. Todas las medidas de una tabla de hechos deben tener la misma granularidad. o Los hechos mas habituales son los numéricos y aditivos, © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) como euros o total de ventas. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 157. Modelado de datos para el DWH – Modelado dimensional o La capacidad de adición es crucial ya que raramente los valores de las tablas de hechos son recuperados de fila en fila, lo usual es recuperarlos mediante la suma de una o mas de sus columnas o mediante la cuenta del número de filas, medias, etc... o Es importante tener en cuenta que no es aconsejable la introducción de filas en las tablas de hechos que no representen nada como por ejemplo (12/12/2003 , 0) en representación de que el día 12/12/2003 no se realizó ninguna venta, en estos casos es mejor no incluir el registro, de esta manera el espacio ocupado por la tabla de hechos será util al 100% © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 158. Modelado de datos para el DWH – Modelado dimensional o Las tablas de hechos representan el 90% o más del espacio ocupado en un DWH, generalmente las tablas de hechos tienen la tendencia de ser voluminosas en cuanto a número de registros pero también a tener pocas columnas (atributos). o Las tablas de hechos se pueden además clasificar en tres grupos atendiendo a su nivel de granularidad. • Transacciones • Fotos-fijas periódicas (periodic snapshots) • Fotos-fijas acumulativas (accumulating snapshots) © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 159. Modelado de datos para el DWH – Modelado dimensional o Las tablas de hechos de tipo transaccional son las más o Las tablas de hechos poseen dos o mas “foreign keys” (FK) que conectan las tablas de hechos con las tablas de dimensiones. o La tabla de hechos por otra parte por lo general posee una clave primaria formada por el conjunto o un subconjunto de las claves externas FK que posee (clave primaria compuesta). Cada tabla de hechos en un modelo dimensional tiene una clave compuesta, por lo que también podemos afirmar que cada tabla en un modelo dimensional que posee una clave compuesta es una tabla de hechos. © 2004 Database Team S.L © Hermes Romero  ...Tablas de hechos (facts) habituales con diferencia. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 160. Modelado de datos para el DWH – Modelado dimensional o Las relaciones entre las tablas de hechos y las tablas de dimensiones son siempre relaciones de tipo muchos a muchos M:M. Por lo que las tablas que presenten este comportamiento relacional en un modelo dimensional serán tablas de hechos mientras que el resto serán tablas de dimensiones. o La composición de la clave primaria en la tabla de hechos no tiene por que relaizarse con todas las claves externas ya que probablemente la agrupación de unas pocas de ellas garantice la unicidad del registro. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 161. Modelado de datos para el DWH – Modelado dimensional o En la mayoría de los casos no tiene ninguna utilidad la introducción de una clave primaria no compuesta para identificar unívocamente a cada registro de la tabla de hechos. Al contrario de nuevo podemos ocupar un espacio extra para añadir esto cuando realmente no es necesario, con las consecuencias implícitas de almacenamiento y rendimiento. Aunque si la naturaleza del negocio requiere la inclusión de varias filas con los mismos valores entonces si debemos plantearnos la creación de una clave primaria, siempre que sea necesario hacer una distinción clara entre las filas con el mismo contenido. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 162. Modelado de datos para el DWH – Modelado dimensional o Mucho del éxito de nuestro DWH dependerá de cómo se © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) implementen las tablas de hechos. ventas diarias clave de fecha FK clave de tienda FK clave de producto FK cantidad valor DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 163. Modelado de datos para el DWH – Modelado dimensional o Hemos de tener en cuenta que las tablas de hechos pueden o No es posible el mantenimiento de índices en un corto espacio de o Las tablas de hechos también pueden estar implementadas © 2004 Database Team S.L © Hermes Romero  Tablas de hechos (facts) encontrarse en tres estados: • Están siendo Consultadas • Están siendo cargadas • Están siendo gestionadas tiempo de diferentes maneras: • Sin particionamiento – Sin índices • Particionadas – Sin índices • Sin particionamiento – Con índices DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 164. Modelado de datos para el DWH – Modelado dimensional o Las tablas de dimensiones contienen los descriptores o En un modelo bien diseñado las tablas de dimensiones tienen por lo general muchos atributos que describen la fila en la tabla de dimensión. o Las tablas de dimensiones deben contener tantos atributos como sean necesarios para hacer su contenido lo más comprensible posible. No es extraño encontrar tablas de dimensiones que contengan entre 50 y 100 atributos. © 2004 Database Team S.L © Hermes Romero  Tablas de dimensiones (dimensions) textuales del negocio. DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 165. Modelado de datos para el DWH – Modelado dimensional o Por otra parte las tablas de dimensiones por lo general son tablas que presentan pocos registros en comparación con las tablas de hechos, por lo general no mas de 1 millón de registros. o Cada dimensión se define a través de una clave primaria no compuesta (única) PK que será utilizada para guardar la integridad referencial con cualquier tabla de hechos con la que esté relacionada. o Cada uno de los atributos de las tablas de dimensiones serán utilizados para realizar las consultas como condicionantes, agrupaciones, etc... © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 166. Modelado de datos para el DWH – Modelado dimensional o En una consulta los atributos de una dimensión son identificables por que siempre van precedidos de la palabra “por” (by). Quiero saber las ventas por region, Quiero saber las ventas por mes, Quiero saber las ventas por producto, ...por vendedor, etc. o Los atributos de las tablas de dimensiones juegan un papel vital en los modelos de datos dimensionales ya que ellos son el origen de las condicionantes en las consultas y de los resultados de las mismas. Los atributos de las tablas de dimensiones son la clave para hacer el DWH usable y comprensible. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 167. Modelado de datos para el DWH – Modelado dimensional o Un DWH será tan bueno como atributos de las tablas de dimensiones posea. El poder del DWH es directamente proporcional a la calidad y profundidad de los atributos de sus dimensiones. o Cuanto mas tiempo pasemos definiendo atributos con sentido para el negocio mejor será nuestro DWH. o Cuanto mas tiempo pasemos poblando nuestras tablas de dimensiones con valores para los distintos atributos mejor será nuestro DWH. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 168. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones (dimensions) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 169. Modelado de datos para el DWH – Modelado dimensional • Los atributos deben ser palabras reales en lugar de abreviaciones. Esto nos ayudará en la implementación del DWH con respecto a los usuarios del mismo, ya que contribuye a su facilidad de uso y compresibilidad por parte de los usuarios. Los atributos típicos para una dimensión de producto por ejemplo incluirían una descripción corta de 10 a 15 caracteres, una descripción larga de 30 a 50 caracteres, nombre de la marca, categoría o familia de producto, tipo de empaquetado, tamaño , peso y otras características. Aunque se definan atributos numéricos dentro de las dimensiones, conservarán su carácter de dimensión siempre que se tomen como descripciones textuales, por ejemplo, el atributo código postal está representado por un número aunque su uso es textual no vamos a realizar operaciones con este valor, mas que para definir un área geográfica concreta. © 2004 Database Team S.L © Hermes Romero o Atributos en las dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 170. Modelado de datos para el DWH – Modelado dimensional • Las tablas de dimensiones frecuentemente representan estructuras jerarquicas entre distintas entidades, por ejemplo la dimensión producto, incluye un atributo marca que puede permitir a su vez la agrupación de los productos por marca, lo mismo ocurre con la familia de productos. Para cada fila en la dimension de producto se almacenará el nombre de la marca y el nombre de la familia a la que pertenece, aunque de esta forma estamos almacenando información redundante, pero esta operación se realiza para evitar nuevas relaciones (joins) en las consultas que se traducirian en decrementos del rendimiento del sistema. © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones (dimensions) o Jerarquia de las dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 171. Modelado de datos para el DWH – Modelado dimensional • Debemos resistir nuestro impulso de almacenar tan solo el código de la marca y crear una vista separada para todas las marcas. Esto es lo que se conoce como diseño de copo de nieve (snowflake). Por lo general las tablas de dimensiones presentan un alto grado de de-normalización. • Si con la creación de diseños en copo de nieve pretendemos por ello ahorrar espacio de almacenamiento, hemos de tener en cuenta que las tablas de dimensiones, raramente representan mas del 10 % del total de almacenamiento del DWH, por lo que el ahorro no tendrá un impacto significativo, sin embargo si impactará en el rendimiento y, en la sencillez y comprensibilidad del modelo por parte de los usuarios. © 2004 Database Team S.L © Hermes Romero DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 172. Modelado de datos para el DWH – Modelado dimensional © 2004 Database Team S.L © Hermes Romero tabla de marcas clave de marca nombre de la marca tabla de familias clave de familia nombre de la familia Tabla de productos clave de producto descripcion del producto clave de marca (FK) modelo clave de familia (FK) tipo de empaquetado tamaño empaquetado peso precio del producto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 173. Modelado de datos para el DWH – Modelado dimensional o Las tablas de dimensiones son los puntos de entrada a las tablas de hechos. La definición de unos robustos atributos, nos traerá capacidades robustas para realizar operaciones de tipo “slice” y “dice”. Las dimensiones implementan el interfaz de usuario al DHW. © 2004 Database Team S.L © Hermes Romero  ...tablas de dimensiones DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 174. Modelado de datos para el DWH – Modelado dimensional dimensión tabla de tiendas clave de tienda provincia © 2004 Database Team S.L © Hermes Romero  Diseño en estrella (star join schema) dimensión tabla de fechas clave de fecha fecha mes dia año dimensión tabla de hechos ventas diarias clave de fecha (FK) clave de tienda (FK) clave de producto (FK) cantidad valor Tabla de productos clave de producto descripcion del producto modelo marca familia tipo de empaquetado tamaño empaquetado peso precio del producto DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com
  • 175. Modelado de datos para el DWH – Modelado dimensional o Al relacionar las tablas de hechos con las tablas de dimensiones nos da la impresión de que se dibuja una especie de estrella, donde el punto central es la tabla de hechos donde convergen todas las tablas de dimensiones. o Debido a esto este diseño es conocido como diseño en estrella o “star”, aunque este termino se acuño en los primeros días de los diseños relacionales. © 2004 Database Team S.L © Hermes Romero  Diseño en estrella (star join schema) DATABASE TECHNOLOGIES & SERVICES www.hermesromero.com