SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
BI – 300003

Trabajando con Data Quality Services


Pau Sempere Sánchez
DPS – BI Division
MAP 2012
psempere@solidq.com
Objetivos

Conocer Data Quality Services

Posicionar el producto Data Quality Services en el ciclo de
 Data Quality Management

Reflejar el conocimiento sobre calidad de datos en bases
 de conocimiento e integrarlo en nuestros procesos.
Agenda

La importancia de la calidad de datos

Data Quality Services

Bases de conocimiento
  Dominios
  Reglas
  Valoressasasasasasas
Agenda

Proyectos DQS:
  Matching
  Cleansing

Data Quality Services en Integration Services
LA IMPORTANCIA DE LA CALIDAD DE DATOS
Etapas en la madurez de los datos


          Conocimiento               Soporte decisiones
                                     de negocio


           Información



             Datos                       Soporte operativa
                                         de negocio

                            Otros
  ERP         CRM
                         sistemas…
Los datos y las personas




  Un software sano no puede funcionar
            sin datos sanos
Los problemas de salud de los datos

Enfermedad        Descripción               Síntoma
Estandarización   Datos incoherentes        Código Género = H, M, U
                                            en un sistema y Código
                                            Género= 0, 1, 2 en otro

Completitud       Nos faltan datos para     Códigos postales vacíos
                  representar la realidad   en el 50% de nuestro
                                            callejero
Precisión         Tenemos datos que no      Tenemos proveedores
                  representan la realidad   marcados como activos
                  del negocio               que están muertos hace 6
                                            años
Los problemas de salud de los datos

Enfermedad     Descripción               Síntoma
Validez        Datos rebeldes que no     Los sueldos deben estar
               cumplen nuestras reglas   entre 60.000€ y 120.000€
                                         al año
Unicidad       La entidad del modelo     Javier Torrenteras y Javi
               de datos aparece más      Torrenteras son el mismo
               de una vez                empleado
El extraño caso de los hombres embarazados y
otros fenómenos británicos
Entre 2009 y 2010, unos 20.000 hombres en Reino Unido
 requirieron servicios de matrona, según el Sistema
 Nacional de Salud británico (NHS)

Más de 8.000 hombres llegaron a ver a un ginecólogo

Casi 3.000 menores de edad accedieron a servicios de
 geriatría.
Los costes de los datos de mala calidad

Recursos adicionales para corregir los problemas de los
 datos

Difícil mantenimiento de los mecanismos de corrección de
 datos.

Pérdida de oportunidades negocio.
DEMO
Visualizando datos de mala calidad
DATA QUALITY SERVICES
¿Qué es Data Quality Services?


    Data Quality Services (DQS) es
      una solución basada en el
   conocimiento de la calidad de
        datos que permite a los
      administradores de datos y
   profesionales de IT la mejora de
  la calidad de sus datos fácilmente
Al aplicar Data Quality Services…

             Conocimiento
             • Centralización del conocimiento de la calidad de datos del
               negocio


             Limpieza
             • Corrección de datos con proyectos de cleansing



             Consolidación
             • Consolidación y de-duplicación con proyectos de
               matching


             Aporte de valor
             • Gestión sencilla del conocimiento sobre la calidad de los
               datos por parte de los usuarios de negocio
¿Dónde encaja Data Quality Services?


                    Sistemas
                    de origen


                Data
               Quality
               Services


                     Integración
                     de datos en
                         otros
                       sistemas
Arquitectura básica DQS


      Data Quality         DQS_MAIN
     Services Client

                          DQS_PROJECTS
       Componente
   Integration Services
                          DQS_STAGING
BASES DE CONOCIMIENTO
Bases de conocimiento

          Referencias
           externas                              Reglas de
                                                 matching




          Dominio
                                                  Bases de
                                                conocimiento
                         Reglas y
Valores                 relaciones                              Dominios
                                     Dominios
                                                               compuestos
Bases de conocimiento
      Entidad           Data Quality Services

Jugador                    DQKB Jugador


•   Nombre                                4 dígitos
                         Salarios         dentro de
•   Equipo                                un rango

•   Año de debut
•   Posición                                Lista de
                         Equipos           valores y
•   Salario                               correciones

       Atributos             Dominios
Combinando dominios

                  DQKB Jugador


                Nombre

                Equipo

              Regla:
              Si Nombre = Pau Gasol
              Entonces Equipo = Los Angeles Lakers

             Dominio compuesto
DEMO
Construyendo una base de conocimiento
PROYECTOS DE DATA QUALITY SERVICES
Proyectos de Matching




 Creación de            Matching              Exportación
 regla(s)               • Lógica difusa       • ¿Quién se queda en el
 • Política de          • Agrega metadatos.     modelo?
   comportamiento del                         • SQL Server, Excel y CSV
   motor DQS
DEMO
Reglas y proyectos de matching
Proyectos de Cleansing

Limpieza de datos partiendo de una base de
 conocimiento

Información extra sobre las decisiones que toma.

Consumir bases de conocimiento en la nube.
Integración con SSIS

Nuevo componente: Data Cleansing Component

Data Cleansing Project en un paquete SSIS.

Añade la potencia de SSIS para tratar la información
 obtenida.
DEMO
Limpiando datos con SSIS
¿Qué hemos visto?

La importancia de la calidad de los datos

Desarrollo de bases de conocimiento y dominios

Reglas y proyectos de matching.

Data Cleansing Projects

Integración con SSIS – Data Cleansing Component
Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
             ésta es tu oportunidad.
      http://summit.solidq.com/madrid/
                    Síguenos:

Más contenido relacionado

Más de SolidQ

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en LinuxSolidQ
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida realSolidQ
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízateSolidQ
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksSolidQ
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BISolidQ
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesSolidQ
 
R en relacional
R en relacionalR en relacional
R en relacionalSolidQ
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!SolidQ
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en AzureSolidQ
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018SolidQ
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ
 
Novedades de SSAS 2017
Novedades de SSAS 2017Novedades de SSAS 2017
Novedades de SSAS 2017SolidQ
 
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...SolidQ
 

Más de SolidQ (20)

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 
Novedades de SSAS 2017
Novedades de SSAS 2017Novedades de SSAS 2017
Novedades de SSAS 2017
 
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
 

Último

Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 

Último (20)

Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 

Trabajando con Data Quality Services | SolidQ Summit 2012

  • 1. BI – 300003 Trabajando con Data Quality Services Pau Sempere Sánchez DPS – BI Division MAP 2012 psempere@solidq.com
  • 2. Objetivos Conocer Data Quality Services Posicionar el producto Data Quality Services en el ciclo de Data Quality Management Reflejar el conocimiento sobre calidad de datos en bases de conocimiento e integrarlo en nuestros procesos.
  • 3. Agenda La importancia de la calidad de datos Data Quality Services Bases de conocimiento  Dominios  Reglas  Valoressasasasasasas
  • 4. Agenda Proyectos DQS:  Matching  Cleansing Data Quality Services en Integration Services
  • 5. LA IMPORTANCIA DE LA CALIDAD DE DATOS
  • 6. Etapas en la madurez de los datos Conocimiento Soporte decisiones de negocio Información Datos Soporte operativa de negocio Otros ERP CRM sistemas…
  • 7. Los datos y las personas Un software sano no puede funcionar sin datos sanos
  • 8. Los problemas de salud de los datos Enfermedad Descripción Síntoma Estandarización Datos incoherentes Código Género = H, M, U en un sistema y Código Género= 0, 1, 2 en otro Completitud Nos faltan datos para Códigos postales vacíos representar la realidad en el 50% de nuestro callejero Precisión Tenemos datos que no Tenemos proveedores representan la realidad marcados como activos del negocio que están muertos hace 6 años
  • 9. Los problemas de salud de los datos Enfermedad Descripción Síntoma Validez Datos rebeldes que no Los sueldos deben estar cumplen nuestras reglas entre 60.000€ y 120.000€ al año Unicidad La entidad del modelo Javier Torrenteras y Javi de datos aparece más Torrenteras son el mismo de una vez empleado
  • 10. El extraño caso de los hombres embarazados y otros fenómenos británicos Entre 2009 y 2010, unos 20.000 hombres en Reino Unido requirieron servicios de matrona, según el Sistema Nacional de Salud británico (NHS) Más de 8.000 hombres llegaron a ver a un ginecólogo Casi 3.000 menores de edad accedieron a servicios de geriatría.
  • 11. Los costes de los datos de mala calidad Recursos adicionales para corregir los problemas de los datos Difícil mantenimiento de los mecanismos de corrección de datos. Pérdida de oportunidades negocio.
  • 14. ¿Qué es Data Quality Services? Data Quality Services (DQS) es una solución basada en el conocimiento de la calidad de datos que permite a los administradores de datos y profesionales de IT la mejora de la calidad de sus datos fácilmente
  • 15. Al aplicar Data Quality Services… Conocimiento • Centralización del conocimiento de la calidad de datos del negocio Limpieza • Corrección de datos con proyectos de cleansing Consolidación • Consolidación y de-duplicación con proyectos de matching Aporte de valor • Gestión sencilla del conocimiento sobre la calidad de los datos por parte de los usuarios de negocio
  • 16. ¿Dónde encaja Data Quality Services? Sistemas de origen Data Quality Services Integración de datos en otros sistemas
  • 17. Arquitectura básica DQS Data Quality DQS_MAIN Services Client DQS_PROJECTS Componente Integration Services DQS_STAGING
  • 19. Bases de conocimiento Referencias externas Reglas de matching Dominio Bases de conocimiento Reglas y Valores relaciones Dominios Dominios compuestos
  • 20. Bases de conocimiento Entidad Data Quality Services Jugador DQKB Jugador • Nombre 4 dígitos Salarios dentro de • Equipo un rango • Año de debut • Posición Lista de Equipos valores y • Salario correciones Atributos Dominios
  • 21. Combinando dominios DQKB Jugador Nombre Equipo Regla: Si Nombre = Pau Gasol Entonces Equipo = Los Angeles Lakers Dominio compuesto
  • 22. DEMO Construyendo una base de conocimiento
  • 23. PROYECTOS DE DATA QUALITY SERVICES
  • 24. Proyectos de Matching Creación de Matching Exportación regla(s) • Lógica difusa • ¿Quién se queda en el • Política de • Agrega metadatos. modelo? comportamiento del • SQL Server, Excel y CSV motor DQS
  • 25. DEMO Reglas y proyectos de matching
  • 26. Proyectos de Cleansing Limpieza de datos partiendo de una base de conocimiento Información extra sobre las decisiones que toma. Consumir bases de conocimiento en la nube.
  • 27. Integración con SSIS Nuevo componente: Data Cleansing Component Data Cleansing Project en un paquete SSIS. Añade la potencia de SSIS para tratar la información obtenida.
  • 29. ¿Qué hemos visto? La importancia de la calidad de los datos Desarrollo de bases de conocimiento y dominios Reglas y proyectos de matching. Data Cleansing Projects Integración con SSIS – Data Cleansing Component
  • 30. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com/madrid/ Síguenos: