SlideShare une entreprise Scribd logo
1  sur  49
Washington Bastidas Santos Jesús González Vera http://www.espol.edu.ec/
INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA Agenda
INTRODUCCIÓN 1
[object Object],[object Object],[object Object],[object Object],   Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía INTRODUCCIÓN
[object Object],   Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía WEBSPAM [1]: Z. Gyongyiand H. Garcia-Molina. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web, 2005
   Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MOTIVACIÓN Suplir a las personas a través de una solución automatizada y que aprenda con el tiempo .
PROBLEMA 2
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],¿POR QUÉ EL WEBSPAM ES MALO?
Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA PALABRAS CLAVES + LINKS MÁQUINAS DE BÚSQUEDA PUBLICIDAD
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA
[object Object],[object Object],[object Object],[object Object],Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN CONTENIDO Keyword Stuffing
[object Object],[object Object],[object Object],[object Object],Introducción    Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SPAM BASADO EN LINK Granja de Enlaces
METODOLOGÍA 3
[object Object],[object Object],Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía APRENDIZAJE AUTOMÁTICO
[object Object],[object Object],[object Object],Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SUPERVISADO Y CLASIFICACIÓN Nuevo dato
[object Object],[object Object],[object Object],Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  ¿cómo clasificar estos datos? +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Definimos el hiperplano w · x +b=0 +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Definimos el margen +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  La idea es maximizar el margen. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  El hiperplano que tenga el mayor margen es el mejor clasificador de los datos. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Los vectores de apoyo son los puntos que tocan el límite del margen. +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Veamos los hiperplanos “positivo” y “negativo” +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  w · x +b = -1 w · x +b = +1 margen d - d + hiperplano “positivo”:  w · x +b = +1 hiperplano “negativo”:  w · x +b = -1 +1 -1
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO  Al final lo que resulta es una función de correspondencia para la clasificación Son los valores de  son los multiplicadores de LaGrange de la ecuación Es la función Kernel utilizada y  b  la variable independiente. Los vectores de apoyo están implícitos en la función Kernel
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía SVM EN CASCADA ,[object Object],[object Object],SVM en cascada
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía VECTORES DE CARACTERÍSTICAS <input type=&quot;hidden“  value=“Internet&quot;>  <a href=&quot;/deportes/&quot; title=&quot;Deportes&quot;>  Deportes  </a>  Texto ancla
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MAPREDUCE
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía AMAZON WEB SERVICE
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MODELO GENERAL Kernel RBF
IMPLEMENTACIÓN 4
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET ,[object Object],[object Object],[object Object],[object Object],[object Object]
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía DATASET ,[object Object],Dirección_página_web1    f11 ; f12 ; f13 ; f14 ; f15 ; etiqueta1 Dirección_página_web2    f21 ; f22 ; f23 ; f24 ; f25 ; etiqueta2 Dirección_página_web :  P ágina Web   : C arácter de tabulación  fn1 ; fn2 ; fn3 ; fn4 ; fn5 :  Características de una página n cualquiera. Etiqueta :  -1  spam y  1  no spam
Introducción Problema Metodología    Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía LIBRERÍAS Paradigma MapReduce Hadoop 1.8   Distribución Linux  Cloudera   Software de virtualización  VMware Player   Gestión instancias de Amazon EC2   Ec2 Api tools   SVM LibSVM   Gestionar Amazon S3 Plugin  S3 Organizer Gestionar EC2   Plugin  ElasticFox
EVALUACIÓN Y RESULTADOS 5
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DEL KERNEL Vectores Iniciales Vectores de Soporte Kernel Gaussiano Kernel Lineal Kernel Polinomial 500 156 500 156 7600 3300 7600 3300 55000 20370 55000 20370 100000 37037 100000 37037
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Tabla 4.3. Número de Palabras Título y Prom. de Tamaño de Palabra Spam y No Spam Tipo Numero De Palabras No Spam 444,79 Spam 583,3 Características Tipo Numero Palabras Título Promedio Tamaño Palabra No Spam 6,39 7,69 Spam 6,27 7,67
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Características Tipo Porcentaje Texto Ancla Porcentaje Texto Visible No Spam 34% 76% Spam 37% 87%
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MATRIZ DE CONFUSIÓN ,[object Object],[object Object],Clases Predichas     1 -1 Clases Conocidas   1 89,00% 0 -1 10,30% 0
Introducción Problema Metodología Implementación    Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MEDICIONES EC2 Mediciones realizadas en los clusters de  Amazon Kernel:  RBF (Radial Basis Function) Número de vectores:  67,577 Número de vectores de apoyo:  20,338 Nodos EC2 Extracción Tiempo (seg.) Entrenamiento  Tiempo (seg.) 3 83.127 302 8 50.54 250
CONCLUSIONES Y TRABAJOS FUTUROS 5
Introducción Problema Metodología Implementación Evaluación y resultados    Conclusión Trabajo Futuro Bibliografía CONCLUSIONES ,[object Object],[object Object],[object Object],[object Object]
Introducción Problema Metodología Implementación Evaluación y resultados Conclusión    Trabajo Futuro Bibliografía TRABAJO FUTURO Otra solución en &quot;Sub-problemas cuadráticos&quot; Extender la cantidad de características. Mecanismos de validación cruzada para el ajuste de parámetros.
Preguntas
Introducción Problema    Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía EXTRAER Y CUANTIFICAR

Contenu connexe

Similaire à WebSpam

Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesNicolás Tourné
 
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe... Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...Federico Toledo
 
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...Abstracta
 
2 problema, formulación, objetivos y justificación
2 problema, formulación, objetivos y justificación2 problema, formulación, objetivos y justificación
2 problema, formulación, objetivos y justificaciónMarina Vintimilla
 
Gestión de Proyectos.pptx
Gestión de Proyectos.pptxGestión de Proyectos.pptx
Gestión de Proyectos.pptxLuzCastaneda
 
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...JAVIER SOLIS NOYOLA
 
¿Quality Control = Project Control?
¿Quality Control = Project Control?¿Quality Control = Project Control?
¿Quality Control = Project Control?Excelza
 
Calendarización de Proyectos de Software
Calendarización de Proyectos de SoftwareCalendarización de Proyectos de Software
Calendarización de Proyectos de SoftwareJavier Capa
 
Conper 2010 version final
Conper 2010 version finalConper 2010 version final
Conper 2010 version finaljcarica
 
Sesión #1 Introduccion al curso.pptx
Sesión #1 Introduccion al curso.pptxSesión #1 Introduccion al curso.pptx
Sesión #1 Introduccion al curso.pptxAndersonHernandezara
 
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...JAVIER SOLIS NOYOLA
 
095 Estrategias Y Practicas De Integracion Con Genexus
095 Estrategias Y Practicas De Integracion Con Genexus095 Estrategias Y Practicas De Integracion Con Genexus
095 Estrategias Y Practicas De Integracion Con GenexusGeneXus
 
TechNoa 2007 - Visual Studio Team Systems
TechNoa 2007 - Visual Studio Team SystemsTechNoa 2007 - Visual Studio Team Systems
TechNoa 2007 - Visual Studio Team Systemsfmmeson
 
Metodologías y herramientas para la solución de Problemas.
Metodologías y herramientas para la solución de Problemas.Metodologías y herramientas para la solución de Problemas.
Metodologías y herramientas para la solución de Problemas.EDSON GUERRA
 
Introduccion Posicionamiento Buscadores Modulo 6
Introduccion Posicionamiento Buscadores Modulo 6Introduccion Posicionamiento Buscadores Modulo 6
Introduccion Posicionamiento Buscadores Modulo 6Jorge Serrano-Cobos
 

Similaire à WebSpam (20)

POLINOMIOS
POLINOMIOSPOLINOMIOS
POLINOMIOS
 
Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores sociales
 
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe... Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
Charla en Universidad ORT 2014 - Testing técnico (automatización, mobile, pe...
 
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
Testing técnico - Automatización en web y mobile para pruebas funcionales y p...
 
GuíA Para La OptimizacióN De Consultas
GuíA Para La OptimizacióN De ConsultasGuíA Para La OptimizacióN De Consultas
GuíA Para La OptimizacióN De Consultas
 
2 problema, formulación, objetivos y justificación
2 problema, formulación, objetivos y justificación2 problema, formulación, objetivos y justificación
2 problema, formulación, objetivos y justificación
 
Gestión de Proyectos.pptx
Gestión de Proyectos.pptxGestión de Proyectos.pptx
Gestión de Proyectos.pptx
 
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...
Aplicación Multimedia #3 álgebra lineal. CALCULADORA DE MATRICES. Actividad d...
 
¿Quality Control = Project Control?
¿Quality Control = Project Control?¿Quality Control = Project Control?
¿Quality Control = Project Control?
 
Calendarización de Proyectos de Software
Calendarización de Proyectos de SoftwareCalendarización de Proyectos de Software
Calendarización de Proyectos de Software
 
Conper 2010 version final
Conper 2010 version finalConper 2010 version final
Conper 2010 version final
 
Seis sigma iio09004 2013
Seis sigma iio09004 2013Seis sigma iio09004 2013
Seis sigma iio09004 2013
 
Sesión #1 Introduccion al curso.pptx
Sesión #1 Introduccion al curso.pptxSesión #1 Introduccion al curso.pptx
Sesión #1 Introduccion al curso.pptx
 
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...
Aplicación Multimedia #8 Álgebra Lineal. SOLUCIÓN DE SISTEMAS DE ECUACIONES L...
 
095 Estrategias Y Practicas De Integracion Con Genexus
095 Estrategias Y Practicas De Integracion Con Genexus095 Estrategias Y Practicas De Integracion Con Genexus
095 Estrategias Y Practicas De Integracion Con Genexus
 
TechNoa 2007 - Visual Studio Team Systems
TechNoa 2007 - Visual Studio Team SystemsTechNoa 2007 - Visual Studio Team Systems
TechNoa 2007 - Visual Studio Team Systems
 
Metodologías y herramientas para la solución de Problemas.
Metodologías y herramientas para la solución de Problemas.Metodologías y herramientas para la solución de Problemas.
Metodologías y herramientas para la solución de Problemas.
 
Introduccion Posicionamiento Buscadores Modulo 6
Introduccion Posicionamiento Buscadores Modulo 6Introduccion Posicionamiento Buscadores Modulo 6
Introduccion Posicionamiento Buscadores Modulo 6
 
Calidad del Software
Calidad del SoftwareCalidad del Software
Calidad del Software
 
Seis sigma ii09004
Seis sigma ii09004Seis sigma ii09004
Seis sigma ii09004
 

Dernier

presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxlosdiosesmanzaneros
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilJuanGallardo438714
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 

Dernier (15)

presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 

WebSpam

  • 1. Washington Bastidas Santos Jesús González Vera http://www.espol.edu.ec/
  • 2. INTRODUCCIÓN PROBLEMA METODOLOGÍA IMPLEMENTACIÓN EVALUACIÓN Y RESULTADOS CONCLUSIÓN TRABAJO FUTURO BIBLIOGRAFÍA Agenda
  • 4.
  • 5.
  • 6. Introducción Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MOTIVACIÓN Suplir a las personas a través de una solución automatizada y que aprenda con el tiempo .
  • 8.
  • 9. Introducción  Problema Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía PROBLEMA PALABRAS CLAVES + LINKS MÁQUINAS DE BÚSQUEDA PUBLICIDAD
  • 10.
  • 11.
  • 12.
  • 14.
  • 15.
  • 16.
  • 17. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 18. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 19. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 20. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 21. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO ¿cómo clasificar estos datos? +1 -1
  • 22. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Definimos el hiperplano w · x +b=0 +1 -1
  • 23. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Definimos el margen +1 -1
  • 24. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO La idea es maximizar el margen. +1 -1
  • 25. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO El hiperplano que tenga el mayor margen es el mejor clasificador de los datos. +1 -1
  • 26. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Los vectores de apoyo son los puntos que tocan el límite del margen. +1 -1
  • 27. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Veamos los hiperplanos “positivo” y “negativo” +1 -1
  • 28. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO w · x +b = -1 w · x +b = +1 margen d - d + hiperplano “positivo”: w · x +b = +1 hiperplano “negativo”: w · x +b = -1 +1 -1
  • 29. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MÁQUINA DE VECTORES DE APOYO Al final lo que resulta es una función de correspondencia para la clasificación Son los valores de son los multiplicadores de LaGrange de la ecuación Es la función Kernel utilizada y b la variable independiente. Los vectores de apoyo están implícitos en la función Kernel
  • 30.
  • 31.
  • 32. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MAPREDUCE
  • 33. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía AMAZON WEB SERVICE
  • 34. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MODELO GENERAL Kernel RBF
  • 36.
  • 37.
  • 38. Introducción Problema Metodología  Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía LIBRERÍAS Paradigma MapReduce Hadoop 1.8 Distribución Linux Cloudera Software de virtualización VMware Player Gestión instancias de Amazon EC2 Ec2 Api tools SVM LibSVM Gestionar Amazon S3 Plugin S3 Organizer Gestionar EC2 Plugin ElasticFox
  • 40. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DEL KERNEL Vectores Iniciales Vectores de Soporte Kernel Gaussiano Kernel Lineal Kernel Polinomial 500 156 500 156 7600 3300 7600 3300 55000 20370 55000 20370 100000 37037 100000 37037
  • 41. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Tabla 4.3. Número de Palabras Título y Prom. de Tamaño de Palabra Spam y No Spam Tipo Numero De Palabras No Spam 444,79 Spam 583,3 Características Tipo Numero Palabras Título Promedio Tamaño Palabra No Spam 6,39 7,69 Spam 6,27 7,67
  • 42. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía ANÁLISIS DE LAS CARACTERÍSTICAS Características Tipo Porcentaje Texto Ancla Porcentaje Texto Visible No Spam 34% 76% Spam 37% 87%
  • 43.
  • 44. Introducción Problema Metodología Implementación  Evaluación y resultados Conclusión Trabajo Futuro Bibliografía MEDICIONES EC2 Mediciones realizadas en los clusters de Amazon Kernel: RBF (Radial Basis Function) Número de vectores: 67,577 Número de vectores de apoyo: 20,338 Nodos EC2 Extracción Tiempo (seg.) Entrenamiento Tiempo (seg.) 3 83.127 302 8 50.54 250
  • 46.
  • 47. Introducción Problema Metodología Implementación Evaluación y resultados Conclusión  Trabajo Futuro Bibliografía TRABAJO FUTURO Otra solución en &quot;Sub-problemas cuadráticos&quot; Extender la cantidad de características. Mecanismos de validación cruzada para el ajuste de parámetros.
  • 49. Introducción Problema  Metodología Implementación Evaluación y resultados Conclusión Trabajo Futuro Bibliografía EXTRAER Y CUANTIFICAR