http://www.solidq.com
A lo largo de la sesión se destacarán aspectos importantes acerca de la gestión de la calidad de los datos en entornos empresariales y qué características aporta el servicio Data Quality Services implementado SQL Server 2012 para facilitarnos dicha gestión. La calidad del dato es fundamental en cualquier proceso de negocio: Listas de proveedores mal tecleadas, productos inexistentes porque no coinciden con su nombre oficial o reglas de negocio definidas por los desarrolladores ante la poca consistencia de los datos son escenarios comunes en nuestro trabajo. Comprobaremos como DQS nos ayuda a resolver estas situaciones.
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Trabajando con Data Quality Services | SolidQ Summit 2012
1. BI – 300003
Trabajando con Data Quality Services
Pau Sempere Sánchez
DPS – BI Division
MAP 2012
psempere@solidq.com
2. Objetivos
Conocer Data Quality Services
Posicionar el producto Data Quality Services en el ciclo de
Data Quality Management
Reflejar el conocimiento sobre calidad de datos en bases
de conocimiento e integrarlo en nuestros procesos.
3. Agenda
La importancia de la calidad de datos
Data Quality Services
Bases de conocimiento
Dominios
Reglas
Valoressasasasasasas
6. Etapas en la madurez de los datos
Conocimiento Soporte decisiones
de negocio
Información
Datos Soporte operativa
de negocio
Otros
ERP CRM
sistemas…
7. Los datos y las personas
Un software sano no puede funcionar
sin datos sanos
8. Los problemas de salud de los datos
Enfermedad Descripción Síntoma
Estandarización Datos incoherentes Código Género = H, M, U
en un sistema y Código
Género= 0, 1, 2 en otro
Completitud Nos faltan datos para Códigos postales vacíos
representar la realidad en el 50% de nuestro
callejero
Precisión Tenemos datos que no Tenemos proveedores
representan la realidad marcados como activos
del negocio que están muertos hace 6
años
9. Los problemas de salud de los datos
Enfermedad Descripción Síntoma
Validez Datos rebeldes que no Los sueldos deben estar
cumplen nuestras reglas entre 60.000€ y 120.000€
al año
Unicidad La entidad del modelo Javier Torrenteras y Javi
de datos aparece más Torrenteras son el mismo
de una vez empleado
10. El extraño caso de los hombres embarazados y
otros fenómenos británicos
Entre 2009 y 2010, unos 20.000 hombres en Reino Unido
requirieron servicios de matrona, según el Sistema
Nacional de Salud británico (NHS)
Más de 8.000 hombres llegaron a ver a un ginecólogo
Casi 3.000 menores de edad accedieron a servicios de
geriatría.
11. Los costes de los datos de mala calidad
Recursos adicionales para corregir los problemas de los
datos
Difícil mantenimiento de los mecanismos de corrección de
datos.
Pérdida de oportunidades negocio.
14. ¿Qué es Data Quality Services?
Data Quality Services (DQS) es
una solución basada en el
conocimiento de la calidad de
datos que permite a los
administradores de datos y
profesionales de IT la mejora de
la calidad de sus datos fácilmente
15. Al aplicar Data Quality Services…
Conocimiento
• Centralización del conocimiento de la calidad de datos del
negocio
Limpieza
• Corrección de datos con proyectos de cleansing
Consolidación
• Consolidación y de-duplicación con proyectos de
matching
Aporte de valor
• Gestión sencilla del conocimiento sobre la calidad de los
datos por parte de los usuarios de negocio
16. ¿Dónde encaja Data Quality Services?
Sistemas
de origen
Data
Quality
Services
Integración
de datos en
otros
sistemas
19. Bases de conocimiento
Referencias
externas Reglas de
matching
Dominio
Bases de
conocimiento
Reglas y
Valores relaciones Dominios
Dominios
compuestos
20. Bases de conocimiento
Entidad Data Quality Services
Jugador DQKB Jugador
• Nombre 4 dígitos
Salarios dentro de
• Equipo un rango
• Año de debut
• Posición Lista de
Equipos valores y
• Salario correciones
Atributos Dominios
21. Combinando dominios
DQKB Jugador
Nombre
Equipo
Regla:
Si Nombre = Pau Gasol
Entonces Equipo = Los Angeles Lakers
Dominio compuesto
24. Proyectos de Matching
Creación de Matching Exportación
regla(s) • Lógica difusa • ¿Quién se queda en el
• Política de • Agrega metadatos. modelo?
comportamiento del • SQL Server, Excel y CSV
motor DQS
26. Proyectos de Cleansing
Limpieza de datos partiendo de una base de
conocimiento
Información extra sobre las decisiones que toma.
Consumir bases de conocimiento en la nube.
27. Integración con SSIS
Nuevo componente: Data Cleansing Component
Data Cleansing Project en un paquete SSIS.
Añade la potencia de SSIS para tratar la información
obtenida.
29. ¿Qué hemos visto?
La importancia de la calidad de los datos
Desarrollo de bases de conocimiento y dominios
Reglas y proyectos de matching.
Data Cleansing Projects
Integración con SSIS – Data Cleansing Component
30. Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
ésta es tu oportunidad.
http://summit.solidq.com/madrid/
Síguenos: