Buscando a Nemo | SolidQ Summit 2014

Buscando a Nemo (patrones avanzados de
búsqueda en SSIS)
Miguel Egea
Ruben pertusa

Ruben
Pertusa
Miguel
Egea
BUSCANDO A DEMO : PATRONES DE BÚSQUEDA CON LOOKUP

Agenda
Introducción
Lookup 101
Patrones

Esta sesión
Búsqueda
(Lookup)
Patrones
SSIS

Patrones
Solución general reutilizable a
algún problema dentro de un
contexto dado de diseño de
software

Cache Mode: Full Cache
Una consulta a la BD
Conjunto entero de datos en memoria
Tiempo adicional al principio
Lookups muy rápidos

Cache Mode: No Cache
Una consulta por cada fila en el flujo.
Solamente una fila en memoria
Sin tiempo adicional de inicio.
Latencia y respuesta de la BD,
determinan el desempeño

Cache Mode: Partial Cache
Inicia cache vacío
Si la llave NO existe en cache
consulta a la BD
Múltiples filas en memoria
Sin tiempo adicional de inicio

Incremental
en la fuente
Incremental
en el ETL

Incremental en la fuente
Completa Incremental
✔

✔
• Identificar y segregar cambios en las
fuentes y solo LEER datos nuevos o
cambiados.
Intención
• Aumentar el desempeño del ETL,
disminuir la carga de trabajo para la
fuente y para ETL.
Motivación
• Carga de datos, abundantes pero poco
volátiles o de carga muy frecuente.
Aplicabilidad
Búsqueda
con Hash

✔
Búsqueda
con Hash
Consulta a la llave
natural y HashBytes
Consulta a la dimensión
por valores ya cargados
Descarta filas existen
Lee atributos de filas
nuevas o cambiadas

Nemo: Búsqueda
con Hash en BD

Incremental en el ETL
✔
• Identificar y segregar cambios en el ETL
y solo cargar datos nuevos o cambiados.
Intención
• Aumentar el desempeño del ETL,
disminuir la carga de trabajo para la
fuente y para ETL.
Motivación
• Carga de datos, abundantes pero poco
volátiles o de carga muy frecuente.
Aplicabilidad
Búsqueda
con Hash

Incremental en el ETL
✔
Búsqueda
con Hash
Consulta COMPLETA
a la fuente
Calcula valor HASH
Lee Llave Primaria y
Hash del DW y descarta
los que existen.

Nemo: Búsqueda
con Hash en ETL

Integración
de datos
Limpieza
de datos

Integración de datos
• Combinar múltiples fuentes de
información (BD) y proveer una
vista unificada de los datos.
Intención
• Hacer la integración en MEMORIA
y sin necesidad de ordenamientos.
Motivación
• Fuentes relacionales (SQL, Oracle,
DB2, etc.) heterogéneas.
Aplicabilidad

Integración de datos
Consulta COMPLETA
a la fuente primaria
Busca (JOIN) los datos
de la fuente secundaria
Maneja posible valores
no encontrados

Limpieza de Datos
• Validar y combinar datos de fuentes
usando atributos de texto no
precisos.
Intención
• Usar coincidencia aproximadas de
texto y grados de similitud.
Motivación
• Integrar fuentes externas o fuentes
relacionales sin llaves primarias
comunes.
Aplicabilidad

Limpieza de Datos
Consulta COMPLETA
a la fuente primaria
de forma aproximada
Maneja diferentes
niveles de confianza y
similitud

Dimensiones
Hechos
Actuales
Hechos
Históricos

• Reemplazar las “llaves primarias naturales”
por llaves subrogadas” de datos actuales
Intención
• Obtener llaves subrogadas de dimensiones
basados en la ultima versión de la fila
Motivación
• En Dimensiones copo de nieve, leer la llave
de las tablas superiores. En tablas de
hechos, obtener las llaves de la dimensión
Aplicabilidad
Carga Dimensiones y Hechos

Consulta a nivel granular
de la dimensión
con el DW, usando llave
primaria
no encontrados

Consulta a hechos y
llaves naturales
“Reemplaza” llaves
primarias por llaves
subrogadas de
Dimensiones
no encontrados

• Reemplazar las “llaves primarias
naturales” por llaves subrogadas” en
datos históricos con Dimensiones tipo 2.
Intención
• Obtener llaves subrogadas de
dimensiones basados en la versión
histórica de la fila
Motivación
• En tablas de hechos, obtener las llaves
de la dimensión apropiadas.
Aplicabilidad
Hechos Históricos

Hechos Históricos
Consulta a hechos, llaves
naturales y fechas
“Reemplaza” llaves
primarias por llaves
subrogadas de
Dimensiones

Hechos Históricos
Procesamiento
sincrónico por Fila
Llenado de Cache con
conexión ADO.NET
Estructura de Datos
IComparable, en Listas
con Búsqueda Binaria

Conclusiones
Introducción
Lookup 101
Patrones

Power BI para usuarios de negocio
45
Curso online
Clases virtuales presenciales
14, 15, 16, 21, 22 y 23 de Julio
De 16 a 20 h
Máster en BI 4ª Edición (Inicio Octubre 2014)
- Clases presenciales virtuales
- 450 horas (60 ECTS)
- SolidQ – UPM
- Clases + trabajo práctico + proyecto
- Beca de hasta 1.300 € para los primeros inscritos.
Máster en Big Data &Analytics
1ª Edición (Inicio Octubre 2014)
- Clases presenciales virtuales
- 1 año (60 ECTS) UMA
- Clases + trabajo práctico + proyecto
Información e inscripción:
http://university.solidq.com / ibinfo@solidq.com

Buscando a Nemo | SolidQ Summit 2014

Recommandé

Recommandé

Contenu connexe

Similaire à Buscando a Nemo | SolidQ Summit 2014

Similaire à Buscando a Nemo | SolidQ Summit 2014 (20)

Plus de SolidQ

Plus de SolidQ (20)

Dernier

Dernier (10)

Buscando a Nemo | SolidQ Summit 2014

Notes de l'éditeur