Este documento presenta una introducción a la ciencia de datos, incluyendo una definición, los perfiles de los científicos de datos, el proceso de ciencia de datos, la importancia de la calidad de los datos, y herramientas para la adquisición, procesamiento y visualización de datos. También discute el contexto actual de la ciencia de datos y opciones para prepararse en este campo.
Herramientas y recursos tecnológicos para el Data Science
1. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
2. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• Introducción – ¿qué es la ciencia de datos?
• Perfiles de un científico de datos – roles, skills-set
• El proceso del Data Science
• La importancia de la calidad de los datos
• Herramientas para adquisición, procesamiento y
visualización de datos
• Herramientas para web scraping, dataviz e integración
• El contexto actual de la Ciencia de Datos
• ¿Cómo prepararnos en Ciencia de Datos?
Agenda
3. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning
¿Qué es la Ciencia de Datos?
De forma reciente el término de ciencia de datos se ha vuelto muy trendy
y despierta el interés por conocer de estos temas.
4. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
.
¿Qué es la Ciencia de Datos?
La ciencia de datos se trata de procesar datos! Data science is about data!
La ciencia de datos es un campo multidisciplinario enfocado en extraer información
para ayudar a una organización a tomar mejores decisiones.
5. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
La ciencia de datos (data-science), el aprendizaje artificial o inteligente
(ML - machine learning) y la minería de datos (data mining) son términos
que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018),
Se puede simplificar la definición de estos conceptos (Robinson, 2018):
• la ciencia de datos nos brinda el entendimiento (insights),
• el aprendizaje automático produce predicciones y
• la inteligencia artificial produce acciones
La ciencia de datos se distingue porque su objetivo es
especialmente humano (obtener información y comprensión de lo que
significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad.
Entra en escena un profesional, el científico de datos (data scientist), quien hará la
interpretación de los hallazgos para obtener las conclusiones.
¿Qué es la Ciencia de Datos?
6. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
Con la analogía de
los LEGOs se puede
interpretar muy bien
las tareas que se
realizan en la Ciencia
de Datos.
https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
7. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Perfil de un científico de datos
Entonces un profesional del área debe
tener una cierta preparación para
llevar a cabo las actividades propias del
proceso del data science
La ciencia de datos se trata de procesar datos! Data science is about data!
8. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Los conocimientos y habilidades de un científico
de datos (skills) comprenden diversas áreas
Perfil de un científico de datos
9. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Se puede conformar un equipo de trabajo con
la integración de varios profesionales del Data
Science con diferentes niveles de especialización
• Data Business Person
• Data Creative
• Data Developer
• Data Researcher
• Data Enginner
Perfil de un científico de datos
13. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392
Proceso del DS: diversidad de tipos y fuentes de datos
14. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• incompletos:
carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos
agregados Ejem: ocupación=“”
• ruidosos (noisy):
contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y
tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma
libre), etc
Ejem., salario = “-10.00”
• inconsistentes:
contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo,
tienen abreviaturas, truncamiento e iniciales)
Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997”
rating “1,2,3”, rating “A, B, C”
Los Datos en el mundo real están sucios (dirty-data)*
* Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004))
Proceso del DS: importancia de la calidad de los datos
15. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values
Proceso del DS: Tareas de limpieza de datos
16. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso de DS: Adquisisición e integración de datos
https://datafloq.com/read/what-is-etl/6948
ETL - ELT: Procesos de adquisición, transformación y carga de datos
Con el Big Data ha cambiado significativamente el orden de
los procesos.
Ahora se transforman "sobre la marcha" cuando lo necesitan los
científicos de datos.
Incluso se pueden combinar para sacar las ventajas de ambos
métodos. ELT para ingestas rápidas de datos no estructurados y ETL
para flexibilidad y seguridad.
A este enfoque se le conoce como:
ETLT (Extract, Transform, Load, Transform).
https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
17. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS : La fase de adquisición de datos
Los datos pueden venir de diferentes fuentes (internas, externas )
Y puede ser que seamos los propietarios o que tengamos que
“adquirirlos” de alguna manera, mediante acceso vía:
• Bases de datos estructuradas
• Web scraping
• APIs (Interfaces definidas para intercambio estructurado de datos)
Énfasis en la etapa de recuperación / adquisición / recolección de Datos
18. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Adquisición de datos con Web scraping
https://www.edureka.co/blog/web-scraping-with-python/
Para extraer datos usando web scraping
solo necesitamos seguir los siguientes pasos:
1. Localizar la URL que queremos escrapear
2. Analizar el código de la página
3. Identificar los datos de interés dentro del código de
la página
4. Escribir un programa que separe los datos del
código de la página
5. Ejecutar el código y extraer los datos
6. Almacenar los datos en el formato apropiado
7. Repetir el proceso por cada URL o fuente de datos
19. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Ejemplo de scraping de los libros Best-Sellers en Amazon
-- extracción de dataset de libros más vendidos
Proceso del DS: Adquisición de datos con Web scraping
20. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Librerías para hacer Web scraping
https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html
https://oak-tree.tech/blog/python-web-scraping-selenium
Con Python se tienen varias posibilidades para
levar a cabo proyectos de Web scraping
• Request
• BeautifulSoup
• Selenium (RPA*)
• Pandas
• Scrapy
*RPA – Robotic Process Automation
21. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer Web scraping
También existen una gran variedad
de Plataformas y Herramientas
comerciales para realizar tareas de
scraping
• ScrapeHero.com
• Simplescraper.io
• parsehub.com
• webscraper.io
• webhose.io
• scraperAPI.com
• APIfy.com
22. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
El DataViz
El principal objetivo de la visualización de datos
es facilitar el acceso a grandes para analizar y
comprender grandes volúmenes de datos.
Gracias a la información recopilada, analizada y
visualizada, es posible identificar tendencias,
comparaciones y recomendaciones.
Tableau es una plataforma de análisis visual que
transforma la forma en que usamos los datos
para resolver problemas, lo que permite que las
personas y las organizaciones aprovechen al
máximo sus datos para la toma de decisiones.
• tableau.com
23. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
PowerBI es la plataforma de Microsoft líder en el
segmento de plataformas de análisis y business
intelligence.
Permite encontrar rápidamente valiosa
información con una alta integración de la
tecnología Microsoft en sus datos para ayudar a
tomar mejores decisiones empresariales.
• PowerBI.com
24. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para Ciencia de Datos – End to End
KNIME
Plataforma integradora,
especializada para crear y
producir ciencia de datos
utilizando un entorno fácil
e intuitivo, permitiendo
que todas las partes
interesadas en el proceso
de ciencia de datos se
concentren en lo que
mejor hacen…
• Knime.com
25. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Contexto actual de la Ciencia de Datos
¿Quiénes están aplicando el DS en el mundo? en México?
¿cómo es el mercado laboral? existe demanda por
profesionales de estas áreas?
La cultura del Data Driven – Empresas Data Driven
¿Dónde buscar información?
• StackOverflow 2021 Developer Survey
• Robert Half - Technology Salary Guide
• empleosti.com.mx
• Indeed.com
• Linked-In
Empleos y demanda de empleos para DS
26. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Para conocer más sobre Ciencia de Datos
También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en
estas áreas son los foros de discusión, blogs y portales especializados.
A continuación, una breve lista de sitios recomendados:
• Towards Data Science https://towardsdatascience.com/
• Kaggle https://www.kaggle.com/
• Hackernoon.com https://hackernoon.com/
• Medium https://medium.com/
• Open Data Science https://odsc.com/
• Data Science Central https://www.datasciencecentral.com/
• Harvard Data Science Review https://hdsr.mitpress.mit.edu/
Finalmente, algunos perfiles interesantes para seguir también en twitter son:
• @IDC - IDC.com
• @kaggle - Kaggle.com
• @kdnuggets - KDNuggets
• @DataScienceCtrl - DataScience Central
• @TDataScience - Towards Data Science
27. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
• Gran oferta de especialidades, cursos, diplomados, bootcamps en DS
• ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas.
• Costos, modalidad, duración
• ¿Qué perfil tendrá el egresado?
• Data Businessperson
• Data Creative
• Data Developer
• Data Researcher
28. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
Facultad de Telemática
• Maestría en Tecnologías de Internet
área de cómputo cognitivo
29. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Preguntas - comentarios
Muchas gracias!
J. Román Herrera Morales
Email: rherrera@ucol.mx