SlideShare una empresa de Scribd logo
1 de 12
Análisis y modelación de datos a través de
Minería de Datos y algoritmos evolutivos de
Regresión Lineal Múltiple
Juan Pablo Bribiesca Espinosa
ITAM 2015
Conceptos Básicos
Definición de Base de Datos
Exclusión de candidatos
Definición de variable de Respuesta
Inclusión de Base de Datos
Muestreo Aleatorio sin remplazo
Definición de Clases (tuplas)
Exclusión de datos potencialmente
erróneos y estabilización del modelo
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995
Apalancamiento:
Distancia de Cook ∶
𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1
, 1)
25
50
75
0 25 50 75 100
horas trabajadas
edad
Amer-Indian-Eskimo Asian-Pac-Islander Black Other White
𝑦𝑖0 = β00 +
𝑗=1
𝑘
𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
Determinación de Transformaciones
• Modelos no lineales por mínimos cuadrados.
• Relaciones Funcionales - Familias:
– Familia Polinomial
– Familia Exponencial
– Funciones Potencia
– Modelos Rendimiento-Densidad
– Modelos Sigmoidales
– Splines
Determinación de Transformaciones
Correlación de Pearson
Escalamiento
Jerarquización vía Coeficientes de
Determinación Ajustados 𝜌
𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1
Definición de Transformaciones
𝑦𝑖2 = β02 +
𝑗=1
𝜑∗𝑘
𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 2
Criterio de Información de Akaike
• Depuración de regresores vía análisis AIC
𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘
𝑦𝑖3 = β03 +
𝑗=1
𝑘
𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗))
𝑖 = 1,2, … , 𝑛 3
𝑘 ≤ 𝜑 ∗ 𝑘
Inserción de Relaciones
• 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜:
– 𝑝 − 𝑣𝑎𝑙𝑢𝑒
– 𝑑𝑓 ≤ 4: regresores númericos
– 𝑑𝑓 ≤ 6: Regresores categóricos
𝑌𝑖4 =
𝑗=1
𝑤
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4
+
𝑗=𝑤+1
𝑠
(
𝑟 𝜖 {𝛼,𝛽,…,}
𝜗
𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4
)
𝑖 = 1,2, … , 𝑛4
𝜗: candidatos a transformación
𝑎=1
𝜗−1 𝑎∗(𝑎+1)
2
: posibles interacciones
Modelo final
Stepwise AIC
Outliers:
𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠:
𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995
Distancia de Cook:
𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1
, 1
𝑖 = 1,2, … , 𝑛 𝐹
𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
Criterios
• Análisis Exploratorio de Datos (aproximación)
• Estadísticos:
– Análisis de Varianza.
– Contraste de White.
– Prueba de normalidad de K-S.
“Cuando las estadísticas nos dicen que la
familia mexicana tiene un promedio de cuatro
hijos y medio, nos explicamos por qué
siempre hay uno chaparrito.”
Marco Antonio Almazán

Más contenido relacionado

Destacado

Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesjuliobayonahernandez
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacatejcgarma10
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampPepeCambronne
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleadossantanes
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptxCristian Montes de Oca
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMGmarocsyndicat
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO TATACABEZAS
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"RaquelLopez235
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesemilyesperanzahum
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesgen0003
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordROSIO0412
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...dannelaravazquez
 
Météo
MétéoMétéo
Météorco35
 

Destacado (20)

Power
Power Power
Power
 
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionalesJaramillo el surgimiento del futbol en colombia aspectos fundacionales
Jaramillo el surgimiento del futbol en colombia aspectos fundacionales
 
Muestreo aguacate
Muestreo aguacateMuestreo aguacate
Muestreo aguacate
 
Lupiita
LupiitaLupiita
Lupiita
 
El Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel DuchampEl Dadaísmo y Marcel Duchamp
El Dadaísmo y Marcel Duchamp
 
28 beneficiosalos empleados
28 beneficiosalos empleados28 beneficiosalos empleados
28 beneficiosalos empleados
 
Tecnología
TecnologíaTecnología
Tecnología
 
5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx5 formas de marketing para tu py me.pptx
5 formas de marketing para tu py me.pptx
 
Obras en comparación
Obras en comparaciónObras en comparación
Obras en comparación
 
Bulletin No1 du SNMG
Bulletin No1 du SNMGBulletin No1 du SNMG
Bulletin No1 du SNMG
 
MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO MI IDEA DE NEGOCIO
MI IDEA DE NEGOCIO
 
"Endevina, endevinalla"
"Endevina, endevinalla""Endevina, endevinalla"
"Endevina, endevinalla"
 
AS
ASAS
AS
 
Aprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos movilesAprendizaje mediado por Dispositivos moviles
Aprendizaje mediado por Dispositivos moviles
 
Diaporama
DiaporamaDiaporama
Diaporama
 
Procedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientesProcedimiento de alimentos entre parientes
Procedimiento de alimentos entre parientes
 
Pasosparacombinarcorrespondenciaenword
PasosparacombinarcorrespondenciaenwordPasosparacombinarcorrespondenciaenword
Pasosparacombinarcorrespondenciaenword
 
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
Los intereses políticos y ecomonicos influyen en la creacion de nuevas tecnol...
 
#FIDmola - Reto_1
#FIDmola - Reto_1#FIDmola - Reto_1
#FIDmola - Reto_1
 
Météo
MétéoMétéo
Météo
 

Similar a Análisis y modelación masiva de datos a través

Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaDataLab Community
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdfVictorZP2
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobiTefy Ruiz
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptBrandonPuentes2
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulationFer_casas
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricasdaser wicho
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricasDarwin Izurieta Calle
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaMiguel Pajuelo Villanueva
 

Similar a Análisis y modelación masiva de datos a través (20)

Introducción al Machine Learning
Introducción al Machine LearningIntroducción al Machine Learning
Introducción al Machine Learning
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf2-Ajuste_de_Curvas.pdf
2-Ajuste_de_Curvas.pdf
 
Ajuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no linealAjuste de curvas regresion lineal y no lineal
Ajuste de curvas regresion lineal y no lineal
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Final.docx
Final.docxFinal.docx
Final.docx
 
A9 r55a7
A9 r55a7A9 r55a7
A9 r55a7
 
Sistemas Difusos
Sistemas DifusosSistemas Difusos
Sistemas Difusos
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Ajuste de curvas metodo de jacobi
Ajuste de curvas  metodo de jacobiAjuste de curvas  metodo de jacobi
Ajuste de curvas metodo de jacobi
 
Otto Challenge report
Otto Challenge reportOtto Challenge report
Otto Challenge report
 
Control_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.pptControl_estadistico_de_procesos_12053684.ppt
Control_estadistico_de_procesos_12053684.ppt
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulation
 
Trabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNATrabajo practico - Grafos y Matrices (332) - UNA
Trabajo practico - Grafos y Matrices (332) - UNA
 
2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas2. ejercicios pruebas_no_parametricas
2. ejercicios pruebas_no_parametricas
 
2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas2. ejercicios pruebas_no_param_tricas
2. ejercicios pruebas_no_param_tricas
 
02 modelización numerica
02 modelización numerica02 modelización numerica
02 modelización numerica
 
IT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificadaIT414 CONTROL TEMPORAL 4ta práctica calificada
IT414 CONTROL TEMPORAL 4ta práctica calificada
 
Matematicas 9
Matematicas 9Matematicas 9
Matematicas 9
 
Modelos de elección discreta II
Modelos de elección discreta IIModelos de elección discreta II
Modelos de elección discreta II
 

Último

libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacionesRamon Bartolozzi
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxwilliam801689
 
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdf
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdfAportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdf
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdfElisaLen4
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processbarom
 
ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................Juan293605
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potableFabricioMogroMantill
 
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptxG4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptxMaxPercyBorjaVillanu
 
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGUROalejandrocrisostomo2
 
Cereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. CerealesCereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. Cerealescarlosjuliogermanari1
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxfranklingerardoloma
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...GuillermoRodriguez239462
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATevercoyla
 
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdfGustavoAdolfoDiaz3
 
Análisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOAnálisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOFernando Bravo
 
3er Informe Laboratorio Quimica General (2) (1).pdf
3er Informe Laboratorio Quimica General  (2) (1).pdf3er Informe Laboratorio Quimica General  (2) (1).pdf
3er Informe Laboratorio Quimica General (2) (1).pdfSantiagoRodriguez598818
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...WeslinDarguinHernand
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptNombre Apellidos
 
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfGUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfWILLIAMSTAYPELLOCCLL1
 
Arquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheArquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheJuan Luis Menares
 

Último (20)

libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdf
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdfAportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdf
Aportes a la Arquitectura de Le Corbusier y Mies Van Der Rohe.pdf
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................ARMADURAS METODO NODOS.pptx......................
ARMADURAS METODO NODOS.pptx......................
 
422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptxG4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
 
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
 
Cereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. CerealesCereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. Cereales
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
 
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf
3.6.2 Lab - Implement VLANs and Trunking - ILM.pdf
 
Análisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOAnálisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECO
 
3er Informe Laboratorio Quimica General (2) (1).pdf
3er Informe Laboratorio Quimica General  (2) (1).pdf3er Informe Laboratorio Quimica General  (2) (1).pdf
3er Informe Laboratorio Quimica General (2) (1).pdf
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
 
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdfGUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
GUIA DE SEGURIDAD PARA VENTILACION DE MINAS-POSITIVA.pdf
 
Arquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo LimacheArquitecto cambio de uso de suelo Limache
Arquitecto cambio de uso de suelo Limache
 

Análisis y modelación masiva de datos a través

  • 1. Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de Regresión Lineal Múltiple Juan Pablo Bribiesca Espinosa ITAM 2015
  • 3. Definición de Base de Datos Exclusión de candidatos Definición de variable de Respuesta Inclusión de Base de Datos Muestreo Aleatorio sin remplazo Definición de Clases (tuplas)
  • 4. Exclusión de datos potencialmente erróneos y estabilización del modelo Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995 Apalancamiento: Distancia de Cook ∶ 𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1 , 1) 25 50 75 0 25 50 75 100 horas trabajadas edad Amer-Indian-Eskimo Asian-Pac-Islander Black Other White 𝑦𝑖0 = β00 + 𝑗=1 𝑘 𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
  • 5. Determinación de Transformaciones • Modelos no lineales por mínimos cuadrados. • Relaciones Funcionales - Familias: – Familia Polinomial – Familia Exponencial – Funciones Potencia – Modelos Rendimiento-Densidad – Modelos Sigmoidales – Splines
  • 6. Determinación de Transformaciones Correlación de Pearson Escalamiento Jerarquización vía Coeficientes de Determinación Ajustados 𝜌 𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1 Definición de Transformaciones 𝑦𝑖2 = β02 + 𝑗=1 𝜑∗𝑘 𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 2
  • 7. Criterio de Información de Akaike • Depuración de regresores vía análisis AIC 𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘 𝑦𝑖3 = β03 + 𝑗=1 𝑘 𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 3 𝑘 ≤ 𝜑 ∗ 𝑘
  • 8. Inserción de Relaciones • 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜: – 𝑝 − 𝑣𝑎𝑙𝑢𝑒 – 𝑑𝑓 ≤ 4: regresores númericos – 𝑑𝑓 ≤ 6: Regresores categóricos 𝑌𝑖4 = 𝑗=1 𝑤 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4 + 𝑗=𝑤+1 𝑠 ( 𝑟 𝜖 {𝛼,𝛽,…,} 𝜗 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4 ) 𝑖 = 1,2, … , 𝑛4 𝜗: candidatos a transformación 𝑎=1 𝜗−1 𝑎∗(𝑎+1) 2 : posibles interacciones
  • 9. Modelo final Stepwise AIC Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995 Distancia de Cook: 𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1 , 1 𝑖 = 1,2, … , 𝑛 𝐹 𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
  • 10. Criterios • Análisis Exploratorio de Datos (aproximación) • Estadísticos: – Análisis de Varianza. – Contraste de White. – Prueba de normalidad de K-S.
  • 11.
  • 12. “Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.” Marco Antonio Almazán