Este documento describe la relación entre las matemáticas y la ciencia de datos. Explica que la ciencia de datos implica el uso de métodos matemáticos y estadísticos para analizar grandes cantidades de datos y extraer conocimiento. También describe el proceso de ciencia de datos, que incluye establecer objetivos, recopilar datos, preparar datos, explorar datos, modelar datos y presentar resultados. Además, explica conceptos como minería de datos, aprendizaje automático y sus diferentes enfoques.
1. MATEMÁTICA Y DATA SCIENCE
Preparado como parte de las Actividades por el LI Aniversario de la Carrera
de Matemática
M.Sc. Aldo Ramiro Valdez Alvarado
Marzo de 2018
2. La Revolución de los Datos
Y llega el Big Data
Data Science: Una definición…
De la Minería de Datos al Machine Learning
El Proceso de Data Science
Herramientas más importantes
Índice
1
2
3
4
5
6
8. En 2007 solo el 7% de la
información estaba en
medios analógicos
(libros, revistas, fotografías
en papel, etc.)
9. En 2012 la información
digital alcanzó a nivel
mundial 2.837 exabytes
(miles de millones de
gigabytes). Puestos en
DVDs, la torre sería de
400.000 Kms, más que la
distancia de la Tierra a la
Luna.
10. Google procesa más de 24
Petabytes/día, información
equivalente a varios miles
de veces la biblioteca del
congreso de USA
12. En el 2001, el analista Doug Laney de META Group (ahora
Gartner) utilizaba y definía el término Big Data como:
“el conjunto de técnicas y tecnologías para el tratamiento
de datos, en entornos de gran volumen, variedad de
orígenes y en los que la velocidad de respuesta es crítica”.
17. • La ciencia de datos (Data Science) implica el uso de
métodos para analizar cantidades masivas de datos y
extraer el conocimiento que se contienen en estas.
• La ciencia de datos representa la optimización de
procesos y recursos.
• La ciencia de datos produce información valiosa:
conclusiones o predicciones procesables, basadas en
datos, que usted puede usar para comprender y mejorar
su negocio, sus inversiones, su salud e incluso su estilo de
vida y su vida social. (Cielen, 2016)
18.
19. • La ciencia de datos (Data Science) es la ciencia
computacional de la extracción de conocimientos
significativos a partir de datos brutos y luego la
comunicación efectiva de esos conocimientos para
generar valor. (Pierson, 2017)
• En un mundo dirigido por los datos, la ciencia de datos
(Data Science) se puede definir como algo que los
cientistas de datos hacen. (Haider, 2016)
20. Un Científico de Datos (Data
Scientist) es una persona con
habilidades matemáticas,
estadísticas, computacionales
(que sabe programar) y de
visualización de datos que lo
llevan a encontrar los
patrones que le servirán a la
empresa o institución para
capitalizar la información
recogida. (Valdés, 2015)
Data Scientist
21.
22. La ciencia de los datos se basa en gran medida en las
habilidades matemáticas y estadísticas de un
profesional, precisamente porque estas son las
habilidades necesarias para comprender sus datos y
su importancia. Estas habilidades pueden usarse para
llevar a cabo modelos predictivos, modelos de
decisiones y pruebas de hipótesis.
23. La matemática usa métodos determinísticos para
formar una descripción cuantitativa (o numérica) del
mundo; la estadística es una ciencia que se deriva de
las matemáticas, pero se centra en el uso de un
enfoque estocástico (probabilidades) y métodos
inferenciales para formar una descripción
cuantitativa del mundo.
24. Los científicos usan los métodos matemáticos para
construir modelos de decisión, generar
aproximaciones y hacer predicciones sobre el
futuro.
28. La minería de datos trata de resolver problemas
mediante el análisis de datos, mismos que ya están
presentes en las bases de datos.
Minería de datos
29. La minería de datos se define como el proceso de
descubrir patrones en los datos. El proceso debe ser
automático o semiautomático. Los patrones
descubiertos deben ser significativos ya que
conducen a alguna ventaja, generalmente una ventaja
económica. Los datos están invariablemente
presentes en cantidades sustanciales.
30. La minería de datos trata de técnicas para encontrar y
describir patrones estructurales en los datos. La
mayoría de las técnicas que se tienen se han
desarrollado dentro de un campo, conocido como
aprendizaje automático (Machine Learning).
32. El Aprendizaje Automático es un campo en la
Inteligencia Artificial, donde las máquinas pueden
"aprender" de sí mismas, sin ser explícitamente
programadas por los seres humanos. Analizando datos
pasados llamados "datos de entrenamiento", el modelo
de Aprendizaje Automático forma patrones y usa estos
patrones para aprender y hacer predicciones futuras.
33. El aprendizaje automático o Machine Learning es un método
científico que nos permite usar los ordenadores y otros dispositivos
con capacidad computacional para que aprendan a extraer los
patrones y relaciones que hay en nuestros datos por sí solos. Esos
patrones se pueden usar luego para predecir comportamientos y
en la toma de decisiones.
34. Aprendizaje
Supervisado
• Modelos Predictivos.
• La máquina aprende
explícitamente.
• Predice el futuro a
partir de datos
históricos.
• Resuelve problemas
de clasificación y
regresión.
Aprendizaje No
Supervisado
• Modelos
Descriptivos.
• La máquina entiende
los datos.
• La evaluación es
cualitativa o
indirecta.
• No realiza
predicciones,
encuentra algo
específico.
Aprendizaje
Reforzado
• Un enfoque de la IA
• Aprendizaje basado
en los hallazgos.
• La máquina aprende
a como actuar en un
determinado
entorno.
• Maximiza los
hallazgos.
36. 1. Establecer el objetivo de la investigación
2. Recuperar datos
3. Preparar datos
4. Explorar datos
5. Modelar datos
6. Presentar y automatizar
37. • Definir el objetivo de la investigación.
• Crear el cronograma del proyecto.
1. Establecer
Objetivo
• Para los datos internes, se determina
quién es el dueño y se los recupera.
• De igual forma para los datos externos.
2. Recuperar
Datos
• Limpiar los datos, de posibles errores en
la entrada de datos, de valores
físicamente imposibles, valores faltantes…
3. Preparar
Datos
38. • Transformar los datos, agregando o
extrapolando datos, reduciendo el número
de variables.
• Combinar los datos, mezclando conjuntos
de datos, creando vistas…
3.
Preparar
Datos
• A través de simples gráficas, gráficas
combinadas, o de otras técnicas que no
sean gráficas.
4.
Explorar
Datos
39. • Seleccionar las variables y el modelo.
• Ejecutar el modelo.
• Realizar el diagnóstico y la
comparación.
5. Modelar
Datos
• Presentar los datos.
• Automatizar el análisis de datos.
6. Presentar
y
Automatizar
48. Aldo Ramiro Valdez Alvarado
Licenciado en Informática
Master en Dirección Estrategica en Tecnologías de la Información
Máster en Business Intelligence y Big Data
Docente Titular de Pregrado en la UMSA
Docente de Postgrado en la UMSA y otras Universidades
Ex - Coordinador del Postgrado en Informática UMSA
Conferencista Nacional e Internacional
http://aldovaldezalvarado.blogspot.com/
https://www.linkedin.com/in/msc-aldo-valdez-alvarado-17464820
aldo_valdez@hotmail.com