SlideShare una empresa de Scribd logo
1 de 31
Descargar para leer sin conexión
Las batallas del
Data Scientist:
aprendiendo desde
las trincheras
Soy Jesús Montes
Data Scientist y profesor universitario
¡Hola!
@IcantExplain0
¿De qué vamos a hablar?
1. Un poco de contexto...
2. Lo básico: Ciencia de datos y otras yerbas
3. Batallitas: Cosas que uno aprende haciendo Data
Science
4. Mención especial: Big Data
5. Despedida y cierre
DISCLAIMER:
La mayoría de lo que viene a
continuación son sólo opiniones,
y ya se sabe que las opiniones...
Un poco de
contexto...
para ubicarse
1
¿Por qué hablamos de ciencia
de datos en un meetup de IA?
◉ Una de las disciplinas más importantes dentro de
la inteligencia artificial es el aprendizaje automático
(machine learning).
◉ El aprendizaje automático es, a su
vez, una de las herramientas más
utilizadas por los científicos de
datos. DS
AI
Machine
learning
“Ningún Plan, por bueno que
sea, resiste su primer contacto
con el enemigo.”
- Moltke
“
Lo básico
Ciencia de datos y otras yerbas
2
¿Qué es un proyecto de
ciencia de datos?
Aplicamos el método científico al
estudio de un conjunto de datos:
◉ Observar
◉ Hacerse preguntas
◉ Formular hipótesis
◉ Realizar experimentos
◉ Comprobar resultados
(1637)
¿Qué buscamos en un proceso
de ciencia de datos?
Normalmente se busca:
◉ Conocer mejor los datos de nuestro
problema/negocio.
◉ Explicar eventos o situaciones interesantes.
◉ Crear modelos que nos permitan estimar/predecir
eventos o comportamientos futuros.
¿Cuáles son las fases de un
proyecto de ciencia de datos?
? Definición de
un problema
Preparación
de datos
Fuentes de
datos
Estudio de
los datos
Creación
del modelo
Validación y
pruebas
¡Se empieza
por aquí!
¿Cuál es la fase más
importante de todas?
? Definición de
un problema
Preparación
de datos
Validación y
pruebas
Creación
del modelo
Estudio de
los datos
Traducir el problema de
negocio.
Caracterizarlo
(clasificación, regresión,
clustering…).
Identificar fuentes de
datos.
Seleccionar la
técnica de
aprendizaje
automático.
Entrenar del modelo.
Analizar las variables
para entender su
comportamiento, y
las relaciones entre
ellas.
Limpieza, selección,
transformación...
Seleccionar datos
útiles.
Extraer los datos de
sus fuentes y
combinarlos.
Limpiar los datos.
Realizar validación
cruzada y ajustar
parámetros,
Evaluar el modelo.
¿Qué necesito saber para
hacer ciencia de datos?
1. Estadística y aprendizaje
automático
2. Nociones claras sobre
cómo se organizan y
procesan datos
○ PRO TIP: Júntate con alguien
que sea buen data engineer.
3. Programar
○ Algoritmos y estructuras de datos
Place your screenshot here
¡Hay que saber hablar
bien con la máquina!
¡También
importan!
Batallitas
Cosas que uno aprende haciendo Data Science
3
Definición del problema:
¿Cómo deberían ser las cosas?
◉ Debemos tener muy claro el problema que
queremos resolver.
○ ¿Cuál es nuestro objetivo principal?
○ ¿Por qué es relevante para el negocio/proyecto?
◉ Debemos poder caracterizar claramente el
problema.
○ Si es un problema supervisado, deberíamos saber
claramente cuál es la variable objetivo.
○ Si es no supervisado, deberíamos saber exáctamente
para qué se van a usar los resultados.
Definición del problema:
Principales peligros
◉ Definiciones ambiguas y/o problemas demasiado
amplios
“Vamos a estudiar los datos de nuestros clientes, a ver
si encontramos algún patrón interesante”
“Creemos que la información del customer journey nos
puede ayudar a mejorar nuestro negocio”
True Story
◉ Fuentes de datos no claras
“Seguro que cruzando A y B sacamos lo que nos falta”
Preparación de los datos:
Combinando varias fuentes
RealityExpectation
Preparación de los datos:
Calidad de los datos
◉ En BBDD suficientemente grandes,
se dan todas las combinaciones
imaginables:
○ Valores imposibles
○ Claves incorrectas
○ Formatos de fecha extraños
○ Caracteres raros
○ Incoherencias temporales
○ ...
“Si el sistema lo permite, está”.
Estudio de los datos:
Entender la información
◉ Comprender cómo se comportan las variables es
fundamental para construir un buen modelo:
“Si no entendemos los datos, el modelo no funcionará”
(y si es clustering, ya ni hablamos)
◉ Debemos dedicar tiempo a analizar y entender las
variables:
○ Estadística descriptiva
○ Análisis univariante y multivariante (correlación, PCA...)
◉ Evitar infromación redundante
“¡Fíjate! Quitando estas variables mi modelo mejora.”
Estudio de los datos:
Identificar lo relevante
◉ Vigilar valores extraños/atípicos
“No entiendo por qué mi modelo es tan sensible a cambios en esta variable...”
Algunas cosas que “suelen funcionar”...
◉ Filtrar por correlación
◉ Eliminar valores atípicos
◉ Normalizar
◉ Discretizar variables
continuas
◉ Seleccionar variables
No. This is
not optional.Usar sólo datos que aporten algo:
Creación del modelo:
¿Qué algoritmo uso?
No es necesario sacar siempre la
“artillería pesada”*
Depende mucho del problema:
◉ Supervisado/no supervisado
◉ Volumen de datos
◉ Número de variables
◉ Tipo de variable objetivo
◉ ...
El estudio previo nos da muchas pistas.
*: “Dicen” que el 80% de los modelos que se usan en la vida real son regresiones logísticas.
Creación del modelo:
La pregunta clave
“¿Tengo que entender lo que hace el algoritmo?”
¡Sí!
◉ Entender su funcionamiento es clave para poder utilizarlo correctamente.
◉ “¿Y detalles concretos de la implementación?” Pues depende.
Creación del modelo:
¿Y los hiper-parámetros?
◉ Hay que elegir muy bien los
hiper-parámetros.
○ Y es especialmente
importante en técnicas
complejas, cómo GBMs o
ANNs.
◉ Cuidado con el grid search.
Otras opciones:
○ ¿Random search?
○ ¿Optimización?
h1
h2
Óptimo
Validación y pruebas:
Escoger la métrica adecuada
◉ La métrica de evaluación
de un modelo debe
depender siempre de
nuestro objetivo final.
◉ Normalmente, el accuracy
es demasiado simple.
○ No tiene en cuenta falsos
positivos/negativos.
○ Es muy peligroso con clases
muy desbalanceadas.
“¿Qué puedo usar?”
◉ Clasificación: accuracy, matriz
de confusión, logloss, F1, ROC,
lift…
◉ Regresión: MAE, MSE, R², AIC…
◉ Clustering: Rand index...
Validación y pruebas:
Training-validation-test
◉ Tenemos que tener muy claro
para qué se usa cada
conjunto:
○ Training: Para entrenar.
○ Validation/development: Para
comparar alternativas y
optimizar hiper-parámetros.
○ Test: Para dar una medición
final.
◉ “¿Cómo hacemos la
división?”
Depende de los datos y el
problema.
○ Busquemos proporciones que
den estabilidad a los
resultados.
○ El muestreo aleatorio puede
no ser lo mejor.
“He probado varios modelos y éste es el que mejor resultado me da en test”
“No necesito conjunto de test porque estoy haciendo 10-fold cross-validation”
Big Data
Total War
4
Ciencia de datos y Big Data
◉ Big Data no es solo “muchos datos”.
○ Recordemos las tres Vs (o cuatro, o cinco…)
◉ El Big Data es un contexto distinto en el
que hacer ciencia de datos.
◉ Desde el punto de vista de un data
scientist, es fundamentalmente un reto
tecnológico.
○ Aprender nuevas técnicas.
○ Adaptarse al contexto.
Big Data como reto
tecnológico
◉ Tecnologías como Spark o (“antiguamente”)
MapReduce permiten enfrentarse a problemas
muy complejos, pero hay que entender cómo
funcionan para aprovecharlas.
◉ La separación entre data engineer y data scientist
se vuelve difusa.
Data scientistData engineer
Despedida y cierre5
Reflexiones finales
◉ Data science no es solo
hacer modelos.
◉ La máquina aprende, pero
tenemos que guiarla
durante todo el proceso.
◉ Si no entendemos lo que
estamos haciendo, no
llegaremos a buen puerto.
...y recordad que todo ésto son sólo opiniones
¿Preguntas?
¡Gracias!
@IcantExplain0
Plantilla de slides creada por SlidesCarnival (CC BY 4.0)

Más contenido relacionado

La actualidad más candente (10)

El proceso de la investigación
El proceso de la investigaciónEl proceso de la investigación
El proceso de la investigación
 
Guia
GuiaGuia
Guia
 
02 etapas proyecto_simulacion
02 etapas proyecto_simulacion02 etapas proyecto_simulacion
02 etapas proyecto_simulacion
 
Fases de diseño uft y ucml
Fases de diseño uft y ucmlFases de diseño uft y ucml
Fases de diseño uft y ucml
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de Datos
 
Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)
 
1 1
1 11 1
1 1
 
Preparación de los datos
Preparación de los datosPreparación de los datos
Preparación de los datos
 
Metodología unidad 2
Metodología unidad 2Metodología unidad 2
Metodología unidad 2
 
Wilmer rodriguez
Wilmer rodriguezWilmer rodriguez
Wilmer rodriguez
 

Similar a Las batallas del data scientist

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
elianatorales
 

Similar a Las batallas del data scientist (20)

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
 
Investigación de Mercados
Investigación de MercadosInvestigación de Mercados
Investigación de Mercados
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datos
 
Introducción al ML
Introducción al MLIntroducción al ML
Introducción al ML
 
aplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operacionesaplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operaciones
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Introduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptxIntroduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptx
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015
 
Introducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLIntroducción al Machine Learning con BigML
Introducción al Machine Learning con BigML
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Profesiones de la ciencia de datos
Profesiones de la ciencia de datosProfesiones de la ciencia de datos
Profesiones de la ciencia de datos
 
Diseño de la investigación fase iii
Diseño de la investigación fase iiiDiseño de la investigación fase iii
Diseño de la investigación fase iii
 
Matemática y Data Science
Matemática y Data ScienceMatemática y Data Science
Matemática y Data Science
 
Un dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datosUn dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datos
 
Aprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine LearningAprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine Learning
 
El aprendizaje automático es divertido
El aprendizaje automático es divertidoEl aprendizaje automático es divertido
El aprendizaje automático es divertido
 
investigacion-de-operaciones-1
investigacion-de-operaciones-1investigacion-de-operaciones-1
investigacion-de-operaciones-1
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 

Último

metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
MedicinaInternaresid1
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 

Último (20)

02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf02 protocolo en caso de robo o asalto.pdf
02 protocolo en caso de robo o asalto.pdf
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineria
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptxPRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
PRESENTACIÓN DR. ÓSCAR CABRERA - Visión Económica de El Salvador.pptx
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 

Las batallas del data scientist

  • 1. Las batallas del Data Scientist: aprendiendo desde las trincheras
  • 2. Soy Jesús Montes Data Scientist y profesor universitario ¡Hola! @IcantExplain0
  • 3. ¿De qué vamos a hablar? 1. Un poco de contexto... 2. Lo básico: Ciencia de datos y otras yerbas 3. Batallitas: Cosas que uno aprende haciendo Data Science 4. Mención especial: Big Data 5. Despedida y cierre
  • 4. DISCLAIMER: La mayoría de lo que viene a continuación son sólo opiniones, y ya se sabe que las opiniones...
  • 6. ¿Por qué hablamos de ciencia de datos en un meetup de IA? ◉ Una de las disciplinas más importantes dentro de la inteligencia artificial es el aprendizaje automático (machine learning). ◉ El aprendizaje automático es, a su vez, una de las herramientas más utilizadas por los científicos de datos. DS AI Machine learning
  • 7. “Ningún Plan, por bueno que sea, resiste su primer contacto con el enemigo.” - Moltke “
  • 8. Lo básico Ciencia de datos y otras yerbas 2
  • 9. ¿Qué es un proyecto de ciencia de datos? Aplicamos el método científico al estudio de un conjunto de datos: ◉ Observar ◉ Hacerse preguntas ◉ Formular hipótesis ◉ Realizar experimentos ◉ Comprobar resultados (1637)
  • 10. ¿Qué buscamos en un proceso de ciencia de datos? Normalmente se busca: ◉ Conocer mejor los datos de nuestro problema/negocio. ◉ Explicar eventos o situaciones interesantes. ◉ Crear modelos que nos permitan estimar/predecir eventos o comportamientos futuros.
  • 11. ¿Cuáles son las fases de un proyecto de ciencia de datos? ? Definición de un problema Preparación de datos Fuentes de datos Estudio de los datos Creación del modelo Validación y pruebas ¡Se empieza por aquí!
  • 12. ¿Cuál es la fase más importante de todas? ? Definición de un problema Preparación de datos Validación y pruebas Creación del modelo Estudio de los datos Traducir el problema de negocio. Caracterizarlo (clasificación, regresión, clustering…). Identificar fuentes de datos. Seleccionar la técnica de aprendizaje automático. Entrenar del modelo. Analizar las variables para entender su comportamiento, y las relaciones entre ellas. Limpieza, selección, transformación... Seleccionar datos útiles. Extraer los datos de sus fuentes y combinarlos. Limpiar los datos. Realizar validación cruzada y ajustar parámetros, Evaluar el modelo.
  • 13. ¿Qué necesito saber para hacer ciencia de datos? 1. Estadística y aprendizaje automático 2. Nociones claras sobre cómo se organizan y procesan datos ○ PRO TIP: Júntate con alguien que sea buen data engineer. 3. Programar ○ Algoritmos y estructuras de datos Place your screenshot here ¡Hay que saber hablar bien con la máquina! ¡También importan!
  • 14. Batallitas Cosas que uno aprende haciendo Data Science 3
  • 15. Definición del problema: ¿Cómo deberían ser las cosas? ◉ Debemos tener muy claro el problema que queremos resolver. ○ ¿Cuál es nuestro objetivo principal? ○ ¿Por qué es relevante para el negocio/proyecto? ◉ Debemos poder caracterizar claramente el problema. ○ Si es un problema supervisado, deberíamos saber claramente cuál es la variable objetivo. ○ Si es no supervisado, deberíamos saber exáctamente para qué se van a usar los resultados.
  • 16. Definición del problema: Principales peligros ◉ Definiciones ambiguas y/o problemas demasiado amplios “Vamos a estudiar los datos de nuestros clientes, a ver si encontramos algún patrón interesante” “Creemos que la información del customer journey nos puede ayudar a mejorar nuestro negocio” True Story ◉ Fuentes de datos no claras “Seguro que cruzando A y B sacamos lo que nos falta”
  • 17. Preparación de los datos: Combinando varias fuentes RealityExpectation
  • 18. Preparación de los datos: Calidad de los datos ◉ En BBDD suficientemente grandes, se dan todas las combinaciones imaginables: ○ Valores imposibles ○ Claves incorrectas ○ Formatos de fecha extraños ○ Caracteres raros ○ Incoherencias temporales ○ ... “Si el sistema lo permite, está”.
  • 19. Estudio de los datos: Entender la información ◉ Comprender cómo se comportan las variables es fundamental para construir un buen modelo: “Si no entendemos los datos, el modelo no funcionará” (y si es clustering, ya ni hablamos) ◉ Debemos dedicar tiempo a analizar y entender las variables: ○ Estadística descriptiva ○ Análisis univariante y multivariante (correlación, PCA...)
  • 20. ◉ Evitar infromación redundante “¡Fíjate! Quitando estas variables mi modelo mejora.” Estudio de los datos: Identificar lo relevante ◉ Vigilar valores extraños/atípicos “No entiendo por qué mi modelo es tan sensible a cambios en esta variable...” Algunas cosas que “suelen funcionar”... ◉ Filtrar por correlación ◉ Eliminar valores atípicos ◉ Normalizar ◉ Discretizar variables continuas ◉ Seleccionar variables No. This is not optional.Usar sólo datos que aporten algo:
  • 21. Creación del modelo: ¿Qué algoritmo uso? No es necesario sacar siempre la “artillería pesada”* Depende mucho del problema: ◉ Supervisado/no supervisado ◉ Volumen de datos ◉ Número de variables ◉ Tipo de variable objetivo ◉ ... El estudio previo nos da muchas pistas. *: “Dicen” que el 80% de los modelos que se usan en la vida real son regresiones logísticas.
  • 22. Creación del modelo: La pregunta clave “¿Tengo que entender lo que hace el algoritmo?” ¡Sí! ◉ Entender su funcionamiento es clave para poder utilizarlo correctamente. ◉ “¿Y detalles concretos de la implementación?” Pues depende.
  • 23. Creación del modelo: ¿Y los hiper-parámetros? ◉ Hay que elegir muy bien los hiper-parámetros. ○ Y es especialmente importante en técnicas complejas, cómo GBMs o ANNs. ◉ Cuidado con el grid search. Otras opciones: ○ ¿Random search? ○ ¿Optimización? h1 h2 Óptimo
  • 24. Validación y pruebas: Escoger la métrica adecuada ◉ La métrica de evaluación de un modelo debe depender siempre de nuestro objetivo final. ◉ Normalmente, el accuracy es demasiado simple. ○ No tiene en cuenta falsos positivos/negativos. ○ Es muy peligroso con clases muy desbalanceadas. “¿Qué puedo usar?” ◉ Clasificación: accuracy, matriz de confusión, logloss, F1, ROC, lift… ◉ Regresión: MAE, MSE, R², AIC… ◉ Clustering: Rand index...
  • 25. Validación y pruebas: Training-validation-test ◉ Tenemos que tener muy claro para qué se usa cada conjunto: ○ Training: Para entrenar. ○ Validation/development: Para comparar alternativas y optimizar hiper-parámetros. ○ Test: Para dar una medición final. ◉ “¿Cómo hacemos la división?” Depende de los datos y el problema. ○ Busquemos proporciones que den estabilidad a los resultados. ○ El muestreo aleatorio puede no ser lo mejor. “He probado varios modelos y éste es el que mejor resultado me da en test” “No necesito conjunto de test porque estoy haciendo 10-fold cross-validation”
  • 27. Ciencia de datos y Big Data ◉ Big Data no es solo “muchos datos”. ○ Recordemos las tres Vs (o cuatro, o cinco…) ◉ El Big Data es un contexto distinto en el que hacer ciencia de datos. ◉ Desde el punto de vista de un data scientist, es fundamentalmente un reto tecnológico. ○ Aprender nuevas técnicas. ○ Adaptarse al contexto.
  • 28. Big Data como reto tecnológico ◉ Tecnologías como Spark o (“antiguamente”) MapReduce permiten enfrentarse a problemas muy complejos, pero hay que entender cómo funcionan para aprovecharlas. ◉ La separación entre data engineer y data scientist se vuelve difusa. Data scientistData engineer
  • 30. Reflexiones finales ◉ Data science no es solo hacer modelos. ◉ La máquina aprende, pero tenemos que guiarla durante todo el proceso. ◉ Si no entendemos lo que estamos haciendo, no llegaremos a buen puerto. ...y recordad que todo ésto son sólo opiniones
  • 31. ¿Preguntas? ¡Gracias! @IcantExplain0 Plantilla de slides creada por SlidesCarnival (CC BY 4.0)