SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
Selección de variables en
modelización
David Hervás
Unidad de Bioestadística IIS La Fe
@ddhervas
REUNIÓN GRUPO DE USUARIOS R VALENCIA 09/03/2016
@ValenciaRUsers https://valenciarusers.wordpress.com/
David Hervás Marín - Unidad de Bioestadística, IIS La Fe
Multidimensionalidad
Bases de datos con un número creciente de variables:
Experimentos
controlados
Estudios
observacionales
Datos ómicos
1-20
50-500
300-900000
Cuantas más variables más ruido
Estrategias equivocadas
Screening de variables:
- No contempla factores de confusión
- No contempla interacciones
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento mediocre
Estrategias equivocadas
Screening de variables:
- No contempla factores de confusión
- No contempla interacciones
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento mediocre
Es una de las estrategias más utilizadas
Aumento del error de tipo I:
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑
𝑛
1000 𝑡𝑒𝑠𝑡
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1
En 1000 test esperamos unos 50 falsos positivos
Estrategias equivocadas
Aumento del error de tipo I:
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑
𝑛
1000 𝑡𝑒𝑠𝑡
𝛼 𝑡𝑜𝑡𝑎𝑙 = 1
En 1000 test esperamos unos 50 falsos positivos
Aumento del error de tipo II:
𝑁 ~
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝐸𝑓𝑒𝑐𝑡𝑜 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼
Penalización de los p-valores (Bonferroni, FDR, etc.)
Estrategias equivocadas
Algoritmos stepwise:
- Sobreestimación de los coeficientes
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento muy pobre
Estrategias equivocadas
- Infraestimación de los p - valores
Algoritmos stepwise:
- Sobreestimación de los coeficientes
- Tasa elevada de falsos positivos y falsos negativos
- Genera modelos de rendimiento muy pobre
Es otra de las estrategias más utilizadas
Estrategias equivocadas
- Infraestimación de los p - valores
#Generación de ruido (50 observaciones x 40 predictores)
X <- matrix(rnorm(2000), ncol=40)
buena<-rnorm(50) #Generación de una variable que sí tendrá relación con Y
Y <- 1.2*buena + rnorm(50)
prueba <- data.frame(X, buena, Y)
#Modelo lineal con selección stepwise
lm1 <- lm(Y ~., data=prueba)
lm1.1 <- step(lm1)
summary(lm1.1)
Estrategias equivocadas
Ejemplo:
Se seleccionan más de la mitad de las variables
Un problema adicional
Si tenemos más variables que observaciones no existen suficientes
grados de libertad para poder estimar todos los parámetros del
modelo
y = 𝛽0 + 𝛽1 𝑥 + 𝜀
Un problema adicional
Si tenemos más variables que observaciones no existen suficientes
grados de libertad para poder estimar todos los parámetros del
modelo
y = 𝛽0 + 𝛽1 𝑥 + 𝜀
∆𝑥
∆𝑦
𝛽0
𝛽1
¿ 𝜀?
𝛽0
𝛽1
∆𝑥
∆𝑦
𝜀
No se puede realizar inferencia mediante un modelo clásico.
- Métodos de proyección o de reducción de dimensión
 PCR, PLS, sPLS
- Métodos de regresión con penalización
 Regresión ridge, lasso, elastic net
- Métodos basados en árboles
 Random forest, boosting
Enfoques adecuados
Métodos de proyección
Los métodos de proyección consisten en reducir el problema a
estimar M coeficientes en vez de I, con M < I
• Las nuevas variables son una proyección de las originales en un
espacio dimensional inferior
Tres variables: x, y, z Dos variables: x, y
Métodos de proyección
library(mixOmics)
pls.fit <- pls(prueba[,-42], prueba$Y, ncomp=2) #Ajuste del modelo
pls.sel <- vip(pls.fit) #Importancia de variables
dotplot(pls.sel)
Seguimos con el mismo ejemplo:
Métodos de penalización
Error en la
muestra
Error en la
población
Errorenlaspredicciones
Complejidad del modelo
Sesgo elevado
Varianza baja
Sesgo bajo
Varianza elevada
Modelo original
Al trabajar con muchas variables los modelos serán siempre demasiado
complejos (sobreajuste)
Métodos de penalización
Error en la
muestra
Error en la
población
Errorenlaspredicciones
Complejidad del modelo
Sesgo elevado
Varianza baja
Sesgo bajo
Varianza elevada
Modelo original
Al trabajar con muchas variables los modelos serán siempre demasiado
complejos (sobreajuste)
Modelo penalizado
Introducir un sesgo en el modelo reducirá la varianza (y el error)
Métodos de penalización
Penalización L1 (LASSO):
y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀
Restricción: ෍
𝑗=1
𝑝
𝛽𝑗 ≤ 𝑠 𝑠
La restricción es capaz de forzar que la estimación de muchos de los
coeficientes sea cero, por lo que se realiza una selección de variables al mismo
tiempo que se ajusta el modelo.
Esta característica de penalizar hacia cero simplifica mucho los modelos
Métodos de penalización
Penalización L1 (LASSO):
y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀
Restricción: ෍
𝑗=1
𝑝
𝛽𝑗 ≤ 𝑠 𝑠
La restricción es capaz de forzar que la estimación de muchos de los
coeficientes sea cero, por lo que se realiza una selección de variables al mismo
tiempo que se ajusta el modelo.
Esta característica de penalizar hacia cero simplifica mucho los modelos
library(glmnet)
cv <- cv.glmnet(as.matrix(prueba[,-42]), prueba$Y)
plot(cv)
Métodos de penalización
l <- cv$lambda.1se
lasso.fit <- glmnet(as.matrix(prueba[,-42]), prueba$Y)
predict(lasso.fit, s=l, type="coef")
Métodos de penalización
Random Forest
Basado en la combinación de muchos árboles
Cada árbol se ajusta sobre una muestra bootstrap de los datos
En cada nodo sólo se prueban unas pocas variables seleccionadas
de forma aleatoria
Random Forest
library(randomForest)
rf.fit <- randomForest(Y ~., data=prueba)
rf.fit
varImpPlot(rf.fit)
Y <- 1.2*buena+0.4*buena2+rnorm(50)
Subiendo la apuesta
PLS
Subiendo la apuesta
LASSO
buena = 0.59
buena2 = 0.10
Subiendo la apuesta
Random Forest
Evolución de los métodos
Adaptive Lasso – Zou, H. (2006)
- Mejora del sesgo en lasso mediante penalización diferencial de los
coeficientes.
Relaxed Lasso – Meinshausen, N. (2006)
- Mejora en la selección de variables cuando hay mucho ruido
mediante penalización en dos pasos.
Elastic Net – Zou, H. (2005)
- Permite la selección de variables correlacionadas
Sparse PLS – Lê Cao, K.-A. et al (2008)
- Combinación del método de proyección PLS con el de penalización lasso
Conclusiones
Es posible realizar modelos fiables para problemas con muchas
variables, incluso para p >> n
Los distintos métodos tienen diferentes puntos fuertes y débiles.
Según el tipo de datos funcionarán mejor unos u otros (No free lunch)
Estos métodos NO realizan contrastes de hipótesis por lo que no se
puede hablar de efectos/asociaciones estadísticamente significativos
El ajuste de los hiperparámetros de estos modelos se suele realizar
mediante validación cruzada
Bibliografía recomendada

Contenu connexe

Similaire à Selección de variables en modelización (Selection of variables)

Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
Sergio Valenzuela Mayer
 
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdfAprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Gerard Alba
 
SESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.pptSESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.ppt
AxelAburtoRojas
 

Similaire à Selección de variables en modelización (Selection of variables) (20)

Optimizacion 1
Optimizacion  1Optimizacion  1
Optimizacion 1
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdfAprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
Aprendizaje automático I - Tema 3 Aprendizaje Automático Supervisado.pdf
 
Spss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacherSpss: A user-friendly statistical software for linguistics and teacher
Spss: A user-friendly statistical software for linguistics and teacher
 
Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria Ingeniería
 
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD  L...
REGRESION SIMBOLICA Y PROGRAMACIÓN GENETICA FUNDACIÓN UNIVERSITARIA KONRAD L...
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
 
Regresion
RegresionRegresion
Regresion
 
Andrea_Quijano
Andrea_QuijanoAndrea_Quijano
Andrea_Quijano
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
SESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.pptSESION 5.- ECUACIONES LINEALES.ppt
SESION 5.- ECUACIONES LINEALES.ppt
 
Ejemplos aplicados en R.docx
Ejemplos aplicados en R.docxEjemplos aplicados en R.docx
Ejemplos aplicados en R.docx
 
Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2Tecnicas estadsiticas _p_proyecto_2
Tecnicas estadsiticas _p_proyecto_2
 
20121010141000
2012101014100020121010141000
20121010141000
 
¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?¿En qué la estamos regando en pruebas de software?
¿En qué la estamos regando en pruebas de software?
 
Selecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modeloSelecccion de-variable-y-construccion-del-modelo
Selecccion de-variable-y-construccion-del-modelo
 
Mio
MioMio
Mio
 
Parameter Tuning
Parameter TuningParameter Tuning
Parameter Tuning
 
Teoría de Optimización
Teoría de OptimizaciónTeoría de Optimización
Teoría de Optimización
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con Eviews
 

Dernier

PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
CelesteRolon2
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
IrisMoreno27
 

Dernier (20)

PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptxP.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
P.P ANÁLISIS DE UN TEXTO BÍBLICO. TEMA 10.pptx
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 

Selección de variables en modelización (Selection of variables)

  • 1. Selección de variables en modelización David Hervás Unidad de Bioestadística IIS La Fe @ddhervas REUNIÓN GRUPO DE USUARIOS R VALENCIA 09/03/2016 @ValenciaRUsers https://valenciarusers.wordpress.com/
  • 2. David Hervás Marín - Unidad de Bioestadística, IIS La Fe
  • 3. Multidimensionalidad Bases de datos con un número creciente de variables: Experimentos controlados Estudios observacionales Datos ómicos 1-20 50-500 300-900000 Cuantas más variables más ruido
  • 4. Estrategias equivocadas Screening de variables: - No contempla factores de confusión - No contempla interacciones - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento mediocre
  • 5. Estrategias equivocadas Screening de variables: - No contempla factores de confusión - No contempla interacciones - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento mediocre Es una de las estrategias más utilizadas
  • 6. Aumento del error de tipo I: 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑 𝑛 1000 𝑡𝑒𝑠𝑡 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 En 1000 test esperamos unos 50 falsos positivos Estrategias equivocadas
  • 7. Aumento del error de tipo I: 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 − 1 − 𝛼𝑖𝑛𝑑 𝑛 1000 𝑡𝑒𝑠𝑡 𝛼 𝑡𝑜𝑡𝑎𝑙 = 1 En 1000 test esperamos unos 50 falsos positivos Aumento del error de tipo II: 𝑁 ~ 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝐸𝑓𝑒𝑐𝑡𝑜 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼 + 𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼𝐼 Penalización de los p-valores (Bonferroni, FDR, etc.) Estrategias equivocadas
  • 8. Algoritmos stepwise: - Sobreestimación de los coeficientes - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento muy pobre Estrategias equivocadas - Infraestimación de los p - valores
  • 9. Algoritmos stepwise: - Sobreestimación de los coeficientes - Tasa elevada de falsos positivos y falsos negativos - Genera modelos de rendimiento muy pobre Es otra de las estrategias más utilizadas Estrategias equivocadas - Infraestimación de los p - valores
  • 10. #Generación de ruido (50 observaciones x 40 predictores) X <- matrix(rnorm(2000), ncol=40) buena<-rnorm(50) #Generación de una variable que sí tendrá relación con Y Y <- 1.2*buena + rnorm(50) prueba <- data.frame(X, buena, Y) #Modelo lineal con selección stepwise lm1 <- lm(Y ~., data=prueba) lm1.1 <- step(lm1) summary(lm1.1) Estrategias equivocadas Ejemplo: Se seleccionan más de la mitad de las variables
  • 11. Un problema adicional Si tenemos más variables que observaciones no existen suficientes grados de libertad para poder estimar todos los parámetros del modelo y = 𝛽0 + 𝛽1 𝑥 + 𝜀
  • 12. Un problema adicional Si tenemos más variables que observaciones no existen suficientes grados de libertad para poder estimar todos los parámetros del modelo y = 𝛽0 + 𝛽1 𝑥 + 𝜀 ∆𝑥 ∆𝑦 𝛽0 𝛽1 ¿ 𝜀? 𝛽0 𝛽1 ∆𝑥 ∆𝑦 𝜀 No se puede realizar inferencia mediante un modelo clásico.
  • 13. - Métodos de proyección o de reducción de dimensión  PCR, PLS, sPLS - Métodos de regresión con penalización  Regresión ridge, lasso, elastic net - Métodos basados en árboles  Random forest, boosting Enfoques adecuados
  • 14. Métodos de proyección Los métodos de proyección consisten en reducir el problema a estimar M coeficientes en vez de I, con M < I • Las nuevas variables son una proyección de las originales en un espacio dimensional inferior Tres variables: x, y, z Dos variables: x, y
  • 15. Métodos de proyección library(mixOmics) pls.fit <- pls(prueba[,-42], prueba$Y, ncomp=2) #Ajuste del modelo pls.sel <- vip(pls.fit) #Importancia de variables dotplot(pls.sel) Seguimos con el mismo ejemplo:
  • 16. Métodos de penalización Error en la muestra Error en la población Errorenlaspredicciones Complejidad del modelo Sesgo elevado Varianza baja Sesgo bajo Varianza elevada Modelo original Al trabajar con muchas variables los modelos serán siempre demasiado complejos (sobreajuste)
  • 17. Métodos de penalización Error en la muestra Error en la población Errorenlaspredicciones Complejidad del modelo Sesgo elevado Varianza baja Sesgo bajo Varianza elevada Modelo original Al trabajar con muchas variables los modelos serán siempre demasiado complejos (sobreajuste) Modelo penalizado Introducir un sesgo en el modelo reducirá la varianza (y el error)
  • 18. Métodos de penalización Penalización L1 (LASSO): y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀 Restricción: ෍ 𝑗=1 𝑝 𝛽𝑗 ≤ 𝑠 𝑠 La restricción es capaz de forzar que la estimación de muchos de los coeficientes sea cero, por lo que se realiza una selección de variables al mismo tiempo que se ajusta el modelo. Esta característica de penalizar hacia cero simplifica mucho los modelos
  • 19. Métodos de penalización Penalización L1 (LASSO): y = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜀 Restricción: ෍ 𝑗=1 𝑝 𝛽𝑗 ≤ 𝑠 𝑠 La restricción es capaz de forzar que la estimación de muchos de los coeficientes sea cero, por lo que se realiza una selección de variables al mismo tiempo que se ajusta el modelo. Esta característica de penalizar hacia cero simplifica mucho los modelos
  • 20. library(glmnet) cv <- cv.glmnet(as.matrix(prueba[,-42]), prueba$Y) plot(cv) Métodos de penalización l <- cv$lambda.1se lasso.fit <- glmnet(as.matrix(prueba[,-42]), prueba$Y) predict(lasso.fit, s=l, type="coef")
  • 22. Random Forest Basado en la combinación de muchos árboles Cada árbol se ajusta sobre una muestra bootstrap de los datos En cada nodo sólo se prueban unas pocas variables seleccionadas de forma aleatoria
  • 23. Random Forest library(randomForest) rf.fit <- randomForest(Y ~., data=prueba) rf.fit varImpPlot(rf.fit)
  • 25. Subiendo la apuesta LASSO buena = 0.59 buena2 = 0.10
  • 27. Evolución de los métodos Adaptive Lasso – Zou, H. (2006) - Mejora del sesgo en lasso mediante penalización diferencial de los coeficientes. Relaxed Lasso – Meinshausen, N. (2006) - Mejora en la selección de variables cuando hay mucho ruido mediante penalización en dos pasos. Elastic Net – Zou, H. (2005) - Permite la selección de variables correlacionadas Sparse PLS – Lê Cao, K.-A. et al (2008) - Combinación del método de proyección PLS con el de penalización lasso
  • 28. Conclusiones Es posible realizar modelos fiables para problemas con muchas variables, incluso para p >> n Los distintos métodos tienen diferentes puntos fuertes y débiles. Según el tipo de datos funcionarán mejor unos u otros (No free lunch) Estos métodos NO realizan contrastes de hipótesis por lo que no se puede hablar de efectos/asociaciones estadísticamente significativos El ajuste de los hiperparámetros de estos modelos se suele realizar mediante validación cruzada