4. Calidad de Datos
• Los datos son ACTIVOS de las empresas, pero
no se administran con el mismo rigor que los
activos tradicionales.
• Lograr y mantener un adecuado nivel de
Calidad de Datos requiere un esfuerzo planeado
y permanente que cuesta tiempo, dedicación y
dinero.
• Los datos, en la mayoría de las
organizaciones, son deficientes en
calidad.
5. Calidad de Datos
• Los problemas de Calidad de Datos son
universales – existen en toda organización.
• Por lo general estos problemas ocurren, no por
una mala administración, sino por la ejecución
normal de los procesos de negocio en las
organizaciones.
• Un pequeño error en algún sistema
transaccional se puede convertir en un
problema grave para la toma de decisiones.
6. Calidad de Datos
• Factores que afectan a la calidad de datos
Procesos Externos
• Migración
• Consolidación
• Entrada Manual
• Cargas Masivas
• Interfaces
Procesos Internos
• Procesamiento
• Limpieza
• Depuración
Deterioro Natural
• Nuevo uso de los datos
• Cambios no registrados
• Actualización de Sistemas
• Pérdida de conocimientos
• Automatización de los procesos
BASES DE
DATOS
7. Calidad de Datos
• Beneficios del manejo adecuado de la Calidad
de Datos
– Mayor confianza en los sistemas de toma de
decisiones (76%).
– Mejor tiempo para cuadres de información (70%).
– Única visión de la verdad (69%).
– Satisfacción del cliente (57%).
– Reducción de costos (56%).
– Aumento en los ingresos (30%).
Fuente: The Data Warehousing Institute (TDWI)
8. Calidad de Datos
• Datos propensos a problemas de Calidad de
datos
• Los datos de los clientes 74%.
• Datos de los productos 43%.
• Los datos financieros 36%.
• Datos de contacto de ventas 27%.
• Datos de los sistemas ERP 25%.
Fuente: The Data Warehousing Institute (TDWI)
9. Calidad de Datos
• Procesos de Calidad de Datos
Perfilamiento
de Datos
Limpieza de
Datos
Monitoreo de
Calidad de
Datos
10. Calidad de Datos
• Perfilamiento de datos (Data Profiling)
- Proceso de reconstruir el conjunto de rasgos
particulares que caracterizan los datos.
- Consiste en la aplicación de técnicas analíticas a
los datos para determinar:
* Contenido
* Estructura
* Calidad
11. Calidad de Datos
• Perfilamiento de datos (Data Profiling)
- Se utilizan dos métodos:
* Descubrimiento: Se revelas las características de
los datos a partir de los mismos.
* Pruebas asertivas: Se formulan condiciones
verdaderas (Reglas) y se prueban sobre los
datos.
12. Calidad de Datos
• Pasos para el análisis de los datos
Análisis de las propiedades
de las columnas
Análisis de la estructura
Análisis de reglas de datos
simples
Análisis de reglas de datos
compuestas
Análisis estadístico de los
valores
Valores no validos
Combinaciones
válidas de
valores no
validos
Resultados
ilógicos
D
A
T
O
S
I
N
E
X
A
C
T
O
S No detectables
con técnicas
analíticas
13. Calidad de Datos
• ¿Cuándo hacer un Perfilamiento de Datos?
– Proyectos de evaluación o mejoramiento de
calidad de datos.
– Proyectos de TI que trasladan datos a otras
estructuras, migran o consolidan datos.
– Las bases de datos importantes de la
organización se deben “Perfilar”
periódicamente.
14. Calidad de Datos
• Limpieza de datos (Data Cleansing)
– Implementación de una metodología confiable de
calidad de datos que soluciona desde problemas
técnicos a esquemas complejos de negocios.
• Normalización.
• Desduplicación.
• Parsing y estandarización.
• Enriquecimiento de los
datos.
16. ¿Por qué INFORMATICA?
• Liderazgo tecnológico comprobado.
• Amplia trayectoria de innovación continua.
• El socio confiable más neutral.
• Larga historia de éxitos de clientes.
date, we’ve seen a return on our investment from
this program over 2,000 percent”.
“… complete, accurate and timely data is a
fundamental requirement for optimal performance”
Enfoque singular en la Integración de
Datos.
17. • Plataforma de Integración
de datos líder según
Gartner (Octubre 2012).
¿Por qué INFORMATICA?
18. • Plataforma de Calidad de
datos líder según Gartner
(Agosto 2012).
¿Por qué INFORMATICA?
19. • Plataforma de ETL
Empresarial líder según
Forrester (Q1, 2012).
¿Por qué INFORMATICA?
20. • Plataforma de Calidad
de datos líder según
Forrester (Q1, 2012).
¿Por qué INFORMATICA?
21. Entrega información oportuna a la empresa
- Dar soporte durante todo el ciclo de vida de integración de los datos
- Permite el desarrollo de cualquier proyecto de integración de datos
- Entrega de información en cualquier latencia
Maximiza la productividad
- Colaboración basada en roles y perfiles
- Servicios compartidos
- Interfaces uniformes
Agnóstica en integración con aplicaciones heterogéneas
- Acceso a datos desde cualquier fuente
- Mitiga los riesgos de trabajar con tecnologías actuales y de futuro
Enfoque económico de Integración de Datos
- Reduce el costo total de propiedad (TCO), Hacer más con menos.
- Rápido retorno de la inversión (ROI)
Integral
Unificada
Económica
Abierta
¿Por qué INFORMATICA?
22. Data Quality
Assessment
Data
Loader
Data
Synchronization
Data
Replication Cloud EditionGlobal Address
Verification
Cloud Edition
Data
Transformation
Data Exchange
Standard Edition
Data Archive
Data Subset
Data Privacy
RulePoint
RuleCast
Real-Time
Alert Manager
Real-time Edition
Advanced Edition
PowerExchange
Data Explorer
Data Quality
Identity
Resolution
AddressDoctor
Business Director
Multi-domain Hub
Latency Buster
Messaging (LBM)
Ultra Messaging
(UME)
La Plataforma de Informatica
23. Análisis y perfilado
de los datos
Parsing
y
Standardization
Validación de
direcciones
Matching y
desduplicación
Monitoreo
&
Reporting
Data Quality
24. Data Quality
• Seis Dimensiones de Data Quality
Completitud Qué datos se pierden o son inservibles?
Conformidad Qué datos se almacenan en un formato no estandar?
Consistencia Qué valores de datos dan información inconsistente?
Precisión Qué datos son incorrectos o fuera de fecha?
Duplicidad Qué datos o atributos están repetidos?
Integridad Qué datos se pierden o no son referenciados?
25. Análisis de Datos
Datos
extraídos
Entrada de
Archivo
de datos
Análisis
Depuración de los datos
Alta calidad
de datos
Quality
reports
Evaluar la integridad de los
datos, su conformidad y
consistencia
Matching
Evaluar la duplicación de
datos, integridad, y
exactitud
Estandarización Mejoramiento de la
integridad de los datos,
conformidad y
consistencia
Consolidación
Eliminar datos duplicados
Mejorar la integridad
Reemplazar los datos
inexactos
d
Análisis de salida
Informatica Data Quality enfoca los datos del ciclo de vida a través de cuatro
módulos flexibles:
Baja calidad
de datos Salida de
Archivo de datos
Data Quality
• Enfoque Modular
26. Data
Quality
1. Perfilar
2. Establecer
métricas y
objetivos
3. Definir reglas de
negocio
4. Implementar
servicios de DQ
6. Monitoreo de
las metricas
5. Revisar
Excepciones
Usuario de
Negocio
Usuario
TI
Analista
De
Datos
Scorecards
Browser-based tool
Data Quality para TI y el negocio
Data Quality
27. Data Quality
• Descubrir - Perfilar: Comprensión Sencilla de los Datos
Incremento productividad y eficiencia al habilitar al negocio a tomar
responsabilidad de la calidad de los datos de manera proactiva y así
reducir su dependencia de IT.
• Rápido análisis de datos en
múltiples orígenes.
• Catálogo de los detalles de
cada dato en repositorio.
• Tablas, columnas, dominios,
estructura de datos (Inferido
y Documentado).
• Redundancia y completitud de
Datos.
• Estado y incidentes de DQ a
alto nivel.
• Marcar datos y documentar
instrucciones para desarrollos
de procesos.
28. Aplicar reglas
dentro del
perfilamiento
desde el origen
de datos.
Seleccionar
reglas pre-
definidas o
crear propias.
Informatica
Delivered
Rules
Custom
Developer
Created
Rules
Data Quality
• Descubrir - Perfilar: Aplicación de Reglas de Negocio
29. Aplicar las
reglas en el
perfilado.
Ejecutar el
perfilado para
ver los
resultados.
Opcionalmente
ejecutar solo
una regla y no
todo el
perfilado.
Data Quality
• Descubrir - Perfilar: Aplicación de Reglas de Negocio
30. • Creación de Métricas
de seguimiento para
todos los datos
• Ver la calidad de los
datos y poder
moverse entre ellos
• Monitorear
tendencias
• Compartir cuadros
de mando con el
resto de usuarios
Todos los usuarios de negocio tienen una vista única y compartida
de la calidad de los datos, así participan en su governance
Data Quality
• Usuario de negocio: Herramienta web sencilla
31. Data Quality
• Análisis de Join
Condiciones de Join
Resultados
Drill Down de los datos
Exportar
32. Data Quality
• Matching y consolidación
Selección de
campos
Consolidación
Previsualización
de resultados
34. Funcion de Cluster
y Master
Auditoria
Manejo de filtros
para la vista
Flag de acción:
“Cluster” records
o“Extract” records de
un cluster para crear
uno nuevo
Observaciones o
comentarios
Edición de
valores
Data Quality
• Revisión de duplicados
35. Creación de grupos por
reglas
e.g. Completeness,
Conformity...Conformity,
Consistency
Data Quality
• Monitoreo y reporting
40. LATINOAMÉRICA insidesales@powerdata.pe
Chile
Av. Presidente Errázuriz Nº 2999 - Oficina 202
Las Condes, Santiago CP 7550357
Tel: (+56) 2 892 0362
Colombia
Calle 100 No. 8A-55 Torre C. Of. 718
Bogotá
Tel: (+57 1) 616 77 96
México
Insurgentes Sur Nº 600 Of. 301 y 302,
Col. del Valle, Benito Juarez
Distrito Federal, México, 03100
Tel: (+52 55) 1107-0812
Perú
Calle Los Zorzales Nº 160, piso 9
San Isidro, Lima
Tel: (+51) 1634 4901
Argentina
Avenida Leandro N Alem 530, Piso 4
CD C100 1AAN Ciudad Autónoma de Buenos Aires
Tel: (+54) 11 4314 1370
www.powerdataam.com
Barcelona
C/ Frederic Mompou, 4B 1º, 3º
08960 Sant Just Desvern
T (+34) 934 45 60 01
Valencia
Edificio Europa - 5º I Avda, Aragón, 30
46021 Valencia
T (+34) 960 91 60 25
Madrid
C/ Miguel Yuste, 17, 4º C
28037 Madrid
T (+34) 911 29 72 97
info@powerdata.es www.powerdata.esESPAÑA
Notes de l'éditeur
In order to truly cleanse your enterprise data, you will need a breadth of capabilities. Some frequent requirements includeDetermining the existing state of data by doing Data Analysis and Discovery.Formating data according to the desired standards by doing parsing and standardizationFormating, validating, and enriching addresses across geographiesFinding and removing duplicates (people, product, locations…)Providing reports and dashboards that measure the quality according to the metrics you setAnd lastly, the ability to perform these functions across all data types.
The graphical intuitive web interface lets a user handle multiple spectrums of analysis including cataloging source systems, data completeness, data patterns and structures. Discovery allows for an increase in useful information by creating preliminary steps or checkpoints for the business user to create.