SlideShare une entreprise Scribd logo
1  sur  6
Ensayo del ETL: extracción, transformación y carga de datos
Integrantes:
Ibarra Milton
UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ
CAMPUS EL CARMEN
Faculta:
Ciencias Informática
El Carmen, Ecuador
2015
*Patricio Quiroz
Introducción
El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer,
transformar y cargar).
ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar
datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en
otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema
operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar
para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas.
El principal propósito de ETL es transportar la información de la empresa desde las
aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este
proceso consta de tres etapas:
 Extracción de datos
 Transformación de datos
 Carga de datos
La primera etapa esencialmente extrae los datos desde los sistemas de origen.
La segunda etapa de transformación aplica una serie de funciones o reglas de negocio
sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión
existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación
de los datos.
La etapa de carga se refiere al momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. Dependiendo de los requisitos de
la empresa, este proceso puede contener una extensa diversidad de acciones. En
algunas bases de datos se sobrescribe la información anterior con nuevos datos.
Los Data Warehose es un repositorio de datos que mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos y disponer de
un rastro de toda la historia de un valor a lo largo del tiempo.
Desarrollo
ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema
Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas
origen, asegura la calidad y consistencia de los datos, homogeniza los datos de
sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando
y transformando la información si es necesario) y finalmente genera los datos en el
formato apropiado para que puedan ser utilizados por las herramientas de análisis.
La extracción, transformación y carga (el proceso ETL) es necesario para acceder a
los datos de las fuentes de información al datawarehouse. (Cano, 2007)
Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:
 Extracción
 Limpieza
 Transformación
 Integración
 Actualización
Extracción
La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas
de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros
sistemas.
Cada sistema separado puede usar una organización diferente de los datos o formatos
distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u
otras estructuras diferentes. La extracción convierte los datos a un formato preparado
para iniciar el proceso de transformación. (Espinosa, s.f.)
La extracción de los datos se puede realizar bien de forma manual o bien utilizando
herramientas de ETL. De forma manual significa programar rutinas utilizando
lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las
fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar
la base de datos que tienen los motores de bases de datos. La alternativa más
rentable es la que provee las herramientas especializadas de ETL, ya que han sido
diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y
detectar los errores durante el proceso o durante la carga. Cada vez más los
motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007)
El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas
transaccionales que son necesarios y prepararlos para el resto de los subprocesos de
ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor
calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger
aquellas que sean mejores.
Limpieza
La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la
tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin
valor, falta de atributos interesantes para el contexto o el valor del atributo.
Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen
herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos
es clave: los nombres y las direcciones de los clientes siempre necesitan ser
limpiados, eliminar duplicados, etc. (Cano, 2007)
Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a
describir a continuación:
Depurar los valores: Este proceso localiza e identifica los elementos individuales de
información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo:
separar el nombre completo en nombre, primer apellido, segundo apellido, o la
dirección en: calle, numero, piso, etcétera.
Corregir: Este proceso corrige los valores individuales de los atributos usando
algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una
dirección y el código postal correspondiente.
Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en
formatos definidos y consistentes aplicando procedimientos de estandarización y
definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo
los diminutivos de nombres por los nombres correspondientes.
Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos
y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por
ejemplo: identificando nombres y direcciones similares.
Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados
y los junta en una sola representación.
Transformación
Los datos originarios de repositorios digitales diferentes no suelen coincidir en
formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones
de transformación. El objetivo no es otro que evitar duplicidades innecesarias e
impedir la generación de islas de datos inconexas. Las transformaciones aplican una
serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en
datos destino.
Las reglas de negocios describe las políticas, normas, operaciones, definiciones y
restricciones presentes en una organización y que son de vital importancia para
alcanzar los objetivos.
La transformación de los datos se hace partiendo de los datos una vez “limpios”.
Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
han sido establecidos. La transformación incluye: cambios de formato, sustitución de
códigos, valores derivados y agregados. (Cano, 2007)
Integración
El proceso de integración o carga es el momento en el cual los datos de la fase de
transformación se cargan en el sistema de destino. La etapa de carga interactúa en
forma directa con la base de datos de destino. Es fundamental comprobar que se ha
desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones
erróneas a los usuarios.
Actualización
Este proceso determina la periodicidad con el que haremos nuevas cargas de datos
al datawarehouse.
HERRAMIENTAS ETL
La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación,
que puede ser la ubicación original, una computadora nueva, una nueva base de
datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL
que le proporcionan todo lo necesario para extraer, transformar y cargar datos
Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos
desde múltiples sistemas fuentes a destinos heterogéneos.
SAS Warehouse Administrator: Solución de extracción, transformación, carga y
limpieza de datos que facilita la definición visual de los procesos corporativos y su
documentación.
Teradata Warehouse Builder: Herramienta de carga y descarga que permite al
usuario generar un job o secuencia de comandos para acceder a datos heterogéneos,
comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de
control para el relanzamiento del proceso en caso de caída del sistema.
CONCLUSIÓN
Como conclusión podemos decir que los ETL son proceso que organizan los flujos
datos entre distintos sistemas en una organización y aporta los métodos y
herramientas necesarias para movilizar los datos desde múltiples fuentes a un
almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos.
ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos”
(Data Management).
Bibliografía
Cano, J. L. (2007). Business intelligence: competir con información.
Espinosa, R. (s.f.). dataprix. Obtenido de
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-
que-valen-productos-mas-conocidos-etl-s-open-sour
Etl extracción transformación y carga de datos

Contenu connexe

Tendances

Sistema de Procesamiento de Transacciones
Sistema de Procesamiento de TransaccionesSistema de Procesamiento de Transacciones
Sistema de Procesamiento de TransaccionesSEEG
 
Protocolos, estandares y tipos de modem
Protocolos, estandares y tipos de modemProtocolos, estandares y tipos de modem
Protocolos, estandares y tipos de modemMirna L. Torres Garcia
 
Fundamentos de inteligencia de negocios
Fundamentos de inteligencia de negociosFundamentos de inteligencia de negocios
Fundamentos de inteligencia de negociosMel Maldonado
 
Los sistemas-de-informacion
Los sistemas-de-informacionLos sistemas-de-informacion
Los sistemas-de-informacionYesenia Gomez
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentesmaximo coconi torres
 
Sistema de Información, Organización y Estrategias
Sistema de Información, Organización y EstrategiasSistema de Información, Organización y Estrategias
Sistema de Información, Organización y EstrategiasLesly Villalta
 
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.PaolanmGongor
 
Sistema de procesamiento de transacciones
Sistema de procesamiento de transaccionesSistema de procesamiento de transacciones
Sistema de procesamiento de transaccionesJavierMartinez702
 
Aspectos éticos y sociales en los sistemas de información
Aspectos éticos y sociales en los sistemas de informaciónAspectos éticos y sociales en los sistemas de información
Aspectos éticos y sociales en los sistemas de informaciónMaria Garcia
 
Qué es la contabilidad administrativa
Qué es la contabilidad administrativaQué es la contabilidad administrativa
Qué es la contabilidad administrativaPilar Dolores
 
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)Sandrita Rafael Estela
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)Ronald Rivas
 
Uso de las tecnologías emergentes en la administración
Uso de las tecnologías emergentes en la administraciónUso de las tecnologías emergentes en la administración
Uso de las tecnologías emergentes en la administraciónRobinson Colmenares
 
evolucion de los sistemas de informacion
evolucion de los sistemas de informacionevolucion de los sistemas de informacion
evolucion de los sistemas de informacionmguelvegasarango
 
Sistemas de informacion en los negocios globales contemporaneos
Sistemas de informacion en los  negocios globales contemporaneosSistemas de informacion en los  negocios globales contemporaneos
Sistemas de informacion en los negocios globales contemporaneosArgentina Marquez
 
GESTIÓN DEL CONOCIMIENTO
GESTIÓN DEL CONOCIMIENTOGESTIÓN DEL CONOCIMIENTO
GESTIÓN DEL CONOCIMIENTOnestor
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacionMonica Naranjo
 

Tendances (20)

Sistema de Procesamiento de Transacciones
Sistema de Procesamiento de TransaccionesSistema de Procesamiento de Transacciones
Sistema de Procesamiento de Transacciones
 
Protocolos, estandares y tipos de modem
Protocolos, estandares y tipos de modemProtocolos, estandares y tipos de modem
Protocolos, estandares y tipos de modem
 
Fundamentos de inteligencia de negocios
Fundamentos de inteligencia de negociosFundamentos de inteligencia de negocios
Fundamentos de inteligencia de negocios
 
Los sistemas-de-informacion
Los sistemas-de-informacionLos sistemas-de-informacion
Los sistemas-de-informacion
 
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs EmergentesTendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
Tendencias De Las Plataformas De Hardware Y TecnologíAs Emergentes
 
Sistema de Información, Organización y Estrategias
Sistema de Información, Organización y EstrategiasSistema de Información, Organización y Estrategias
Sistema de Información, Organización y Estrategias
 
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.
3.3 Ambientes de servicios: negocios, Industria, comercio electrónico.
 
Sistema de procesamiento de transacciones
Sistema de procesamiento de transaccionesSistema de procesamiento de transacciones
Sistema de procesamiento de transacciones
 
Aspectos éticos y sociales en los sistemas de información
Aspectos éticos y sociales en los sistemas de informaciónAspectos éticos y sociales en los sistemas de información
Aspectos éticos y sociales en los sistemas de información
 
Qué es la contabilidad administrativa
Qué es la contabilidad administrativaQué es la contabilidad administrativa
Qué es la contabilidad administrativa
 
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)
 
Uso de las tecnologías emergentes en la administración
Uso de las tecnologías emergentes en la administraciónUso de las tecnologías emergentes en la administración
Uso de las tecnologías emergentes en la administración
 
evolucion de los sistemas de informacion
evolucion de los sistemas de informacionevolucion de los sistemas de informacion
evolucion de los sistemas de informacion
 
Gestión del Conocimiento y de la Tecnología
Gestión del Conocimiento y de la TecnologíaGestión del Conocimiento y de la Tecnología
Gestión del Conocimiento y de la Tecnología
 
Sistemas de informacion en los negocios globales contemporaneos
Sistemas de informacion en los  negocios globales contemporaneosSistemas de informacion en los  negocios globales contemporaneos
Sistemas de informacion en los negocios globales contemporaneos
 
GESTIÓN DEL CONOCIMIENTO
GESTIÓN DEL CONOCIMIENTOGESTIÓN DEL CONOCIMIENTO
GESTIÓN DEL CONOCIMIENTO
 
Caso alimex
Caso alimexCaso alimex
Caso alimex
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacion
 
Sistemas de comunicación
Sistemas de comunicaciónSistemas de comunicación
Sistemas de comunicación
 

Similaire à Etl extracción transformación y carga de datos

Similaire à Etl extracción transformación y carga de datos (20)

ETL
ETLETL
ETL
 
Etl
EtlEtl
Etl
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
Etl
EtlEtl
Etl
 
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
 
ETL
ETLETL
ETL
 
ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)ETL (Extracción, Transformación y Cargar)
ETL (Extracción, Transformación y Cargar)
 
R105044
R105044R105044
R105044
 
Arquitectura de datos empresariales ta. informe
Arquitectura de datos empresariales   ta. informeArquitectura de datos empresariales   ta. informe
Arquitectura de datos empresariales ta. informe
 
Conceptos de terminos bi
Conceptos de terminos biConceptos de terminos bi
Conceptos de terminos bi
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Data Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdfData Warehouse en las empresas y negocios.pdf
Data Warehouse en las empresas y negocios.pdf
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
SQL Server Integration Services
SQL Server Integration ServicesSQL Server Integration Services
SQL Server Integration Services
 
Bi conceptos
Bi conceptosBi conceptos
Bi conceptos
 

Plus de Leonel Ibarra

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgosLeonel Ibarra
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalenteLeonel Ibarra
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datosLeonel Ibarra
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)Leonel Ibarra
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
ExpocicionoperacionesLeonel Ibarra
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informaticaLeonel Ibarra
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligenceLeonel Ibarra
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeñoLeonel Ibarra
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líderLeonel Ibarra
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoLeonel Ibarra
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la AdministraciónLeonel Ibarra
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Leonel Ibarra
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Leonel Ibarra
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoLeonel Ibarra
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Leonel Ibarra
 

Plus de Leonel Ibarra (20)

Valoración de riesgos
Valoración de riesgosValoración de riesgos
Valoración de riesgos
 
Valor anual equivalente
Valor anual equivalenteValor anual equivalente
Valor anual equivalente
 
Amenaza a las bases de datos
Amenaza a las bases de datosAmenaza a las bases de datos
Amenaza a las bases de datos
 
Famila de protocolo
Famila de protocoloFamila de protocolo
Famila de protocolo
 
Informe de optativa
Informe de optativaInforme de optativa
Informe de optativa
 
Norma calidadsva
Norma calidadsvaNorma calidadsva
Norma calidadsva
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
 
Expocicionoperaciones
ExpocicionoperacionesExpocicionoperaciones
Expocicionoperaciones
 
4 pvs4c
4 pvs4c4 pvs4c
4 pvs4c
 
Informe auditoria informatica
Informe auditoria informaticaInforme auditoria informatica
Informe auditoria informatica
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Administracion del desempeño
Administracion del desempeñoAdministracion del desempeño
Administracion del desempeño
 
Relaciones humanas
Relaciones humanasRelaciones humanas
Relaciones humanas
 
Como llegar a ser un buen líder
Como llegar a ser un buen líderComo llegar a ser un buen líder
Como llegar a ser un buen líder
 
Desarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajoDesarrollo de las Habilidades Interpersonales en el trabajo
Desarrollo de las Habilidades Interpersonales en el trabajo
 
Introducción a la Administración
Introducción a la AdministraciónIntroducción a la Administración
Introducción a la Administración
 
Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02Simulacionpromodelv2 140604171737-phpapp02
Simulacionpromodelv2 140604171737-phpapp02
 
Ibarra milton tarea#2.2
Ibarra milton tarea#2.2Ibarra milton tarea#2.2
Ibarra milton tarea#2.2
 
Requsitosdeentrevistadetrabajo
RequsitosdeentrevistadetrabajoRequsitosdeentrevistadetrabajo
Requsitosdeentrevistadetrabajo
 
Ibarra milton tarea#2.3
Ibarra milton tarea#2.3Ibarra milton tarea#2.3
Ibarra milton tarea#2.3
 

Dernier

Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...JAVIER SOLIS NOYOLA
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfcarolinamartinezsev
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCCarlosEduardoSosa2
 
Posición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptxPosición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptxBeatrizQuijano2
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...JoseMartinMalpartida1
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuelabeltranponce75
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfMercedes Gonzalez
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxFernando Solis
 

Dernier (20)

Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
Posición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptxPosición astronómica y geográfica de Europa.pptx
Posición astronómica y geográfica de Europa.pptx
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
Lecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigosLecciones 06 Esc. Sabática. Los dos testigos
Lecciones 06 Esc. Sabática. Los dos testigos
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 

Etl extracción transformación y carga de datos

  • 1. Ensayo del ETL: extracción, transformación y carga de datos Integrantes: Ibarra Milton UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ CAMPUS EL CARMEN Faculta: Ciencias Informática El Carmen, Ecuador 2015 *Patricio Quiroz
  • 2. Introducción El presente ensayo se expone los contenidos sobre los procesos ETL (Extraer, transformar y cargar). ETL, esencialmente, es el proceso que permite a las empresas manejar y movilizar datos desde distintos tipos de fuentes, para transformarlos, limpiarlos y cargarlos en otra base de datos, Data Mart, o Data Warehose para analizarlos, o en otro sistema operativo para apoyar un proceso de negocio. Asimismo el ETL se lo puede utilizar para integrar sistemas heredados a los nuevos sistemas emergentes en las empresas. El principal propósito de ETL es transportar la información de la empresa desde las aplicaciones de producción a los sistemas de Inteligencia de Negocio (BI), este proceso consta de tres etapas:  Extracción de datos  Transformación de datos  Carga de datos La primera etapa esencialmente extrae los datos desde los sistemas de origen. La segunda etapa de transformación aplica una serie de funciones o reglas de negocio sobre los datos extraídos para convertirlos en datos que serán cargados. En ocasión existe la posibilidad de que algunas fuentes de datos requieran alguna manipulación de los datos. La etapa de carga se refiere al momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. Dependiendo de los requisitos de la empresa, este proceso puede contener una extensa diversidad de acciones. En algunas bases de datos se sobrescribe la información anterior con nuevos datos. Los Data Warehose es un repositorio de datos que mantienen un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
  • 3. Desarrollo ETL (Extact-Transform-Load) son la base de la construcción de cualquier sistema Data Warehouse.Un sistema bien diseñado extrae la información de los sistemas origen, asegura la calidad y consistencia de los datos, homogeniza los datos de sistemas opuestos para que puedan ser utilizados de una forma conjunta (procesando y transformando la información si es necesario) y finalmente genera los datos en el formato apropiado para que puedan ser utilizados por las herramientas de análisis. La extracción, transformación y carga (el proceso ETL) es necesario para acceder a los datos de las fuentes de información al datawarehouse. (Cano, 2007) Según (Cano, 2007) El proceso ETL se divide en 5 subprocesos:  Extracción  Limpieza  Transformación  Integración  Actualización Extracción La primera fase del proceso ETL radica en extraer los datos iniciando en los sistemas de origen. Es común que se utilice un ETL para fusionar datos provenientes de otros sistemas. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. (Espinosa, s.f.) La extracción de los datos se puede realizar bien de forma manual o bien utilizando herramientas de ETL. De forma manual significa programar rutinas utilizando lenguajes de programación (por ejemplo: COBOL) que extraigan los datos de las fuentes de datos origen, aunque en otros casos se opta por las utilidades de replicar la base de datos que tienen los motores de bases de datos. La alternativa más rentable es la que provee las herramientas especializadas de ETL, ya que han sido diseñadas para llevar a cabo esta función y nos permiten visualizar el proceso y detectar los errores durante el proceso o durante la carga. Cada vez más los motores de bases de datos tienen mejores funcionalidades de ETL. (Cano, 2007) El principal objetivo de la extracción es extraer tan sólo aquellos datos de los sistemas transaccionales que son necesarios y prepararlos para el resto de los subprocesos de ETL. Para ello se deben determinar las mejores fuentes de información, las de mejor calidad. Con tal finalidad, deberemos analizar las fuentes disponibles y escoger aquellas que sean mejores.
  • 4. Limpieza La limpieza se realiza, si es posible, en cada fuente de datos de origen. Si no en la tarea de transformación. La limpieza se efectúa en los datos incompletos, atributos sin valor, falta de atributos interesantes para el contexto o el valor del atributo. Las herramientas ETL tienen funcionalidades de limpieza de datos, aunque existen herramientas especializadas para ello. En proyectos de CRM, la limpieza de los datos es clave: los nombres y las direcciones de los clientes siempre necesitan ser limpiados, eliminar duplicados, etc. (Cano, 2007) Según (Cano, 2007) La limpieza de datos se divide en distintas etapas, que vamos a describir a continuación: Depurar los valores: Este proceso localiza e identifica los elementos individuales de información en las fuentes de datos y los aísla en los ficheros destino. Por ejemplo: separar el nombre completo en nombre, primer apellido, segundo apellido, o la dirección en: calle, numero, piso, etcétera. Corregir: Este proceso corrige los valores individuales de los atributos usando algoritmos de corrección y fuentes de datos externas. Por ejemplo: comprueba una dirección y el código postal correspondiente. Estandarizar: Este proceso aplica rutinas de conversión para transformar valores en formatos definidos y consistentes aplicando procedimientos de estandarización y definidos por las reglas del negocio. Por ejemplo: trato de Sr., Sra., etc. o sustituyendo los diminutivos de nombres por los nombres correspondientes. Relacionar: Este proceso busca y relaciona los valores de los registros, corrigiéndolos y estandarizándolos, basándose en reglas de negocio para eliminar duplicados. Por ejemplo: identificando nombres y direcciones similares. Consolidar: Este proceso analiza e identifica relaciones entre registros relacionados y los junta en una sola representación. Transformación Los datos originarios de repositorios digitales diferentes no suelen coincidir en formato. Por tanto, para lograr integrarlos resulta indispensable realizar operaciones de transformación. El objetivo no es otro que evitar duplicidades innecesarias e impedir la generación de islas de datos inconexas. Las transformaciones aplican una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos destino. Las reglas de negocios describe las políticas, normas, operaciones, definiciones y restricciones presentes en una organización y que son de vital importancia para alcanzar los objetivos. La transformación de los datos se hace partiendo de los datos una vez “limpios”. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que
  • 5. han sido establecidos. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados. (Cano, 2007) Integración El proceso de integración o carga es el momento en el cual los datos de la fase de transformación se cargan en el sistema de destino. La etapa de carga interactúa en forma directa con la base de datos de destino. Es fundamental comprobar que se ha desarrollado correctamente, ya que en caso contrario pueden llevar a decisiones erróneas a los usuarios. Actualización Este proceso determina la periodicidad con el que haremos nuevas cargas de datos al datawarehouse. HERRAMIENTAS ETL La herramienta de ETL se utiliza para transferir los archivos a una nueva ubicación, que puede ser la ubicación original, una computadora nueva, una nueva base de datos, o un nuevo servidor. Los siguientes programas son exitosos herramientas ETL que le proporcionan todo lo necesario para extraer, transformar y cargar datos Oracle Data Integrator (ODI): Es una herramienta de carga y trasformación de datos desde múltiples sistemas fuentes a destinos heterogéneos. SAS Warehouse Administrator: Solución de extracción, transformación, carga y limpieza de datos que facilita la definición visual de los procesos corporativos y su documentación. Teradata Warehouse Builder: Herramienta de carga y descarga que permite al usuario generar un job o secuencia de comandos para acceder a datos heterogéneos, comprobar la integridad de los mismos o fusionarlos con otros. Incorpora puntos de control para el relanzamiento del proceso en caso de caída del sistema. CONCLUSIÓN Como conclusión podemos decir que los ETL son proceso que organizan los flujos datos entre distintos sistemas en una organización y aporta los métodos y herramientas necesarias para movilizar los datos desde múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos y cargarlos en otra base de datos. ETL es parte de la Inteligencia de Negocios, también llamado “Gestión de los Datos” (Data Management). Bibliografía Cano, J. L. (2007). Business intelligence: competir con información. Espinosa, R. (s.f.). dataprix. Obtenido de http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para- que-valen-productos-mas-conocidos-etl-s-open-sour