Pequeña introducción al laboratorio de Weka, para el curso BigData Analytics de la Universidad de los Andes, usando un ejemplo de clasificación de texto.
1. Introducción a Weka
Colección de algoritmos y herramientas de machine
learning para minería de datos.
Christian Fernando Ariza Porras
http://www.christian-ariza.net
cf.ariza975@uniandes.edu.co
@cronosnull
9. Cargar los datos
• Antes de poder entrenar el clasificado necesitamos llevar los
datos a un formato adecuado.
• Utilizamos la pestaña preprocess de la interfaz experimenter.
• Weka admite formatos y fuentes variadas.
10. Importar un directorio
• Cada subdirectorio
corresponde a una
categoría.
• Cada archivo
corresponde a una
instancia.
11. Importar un directorio
• Cada subdirectorio
corresponde a una
categoría.
• Cada archivo
corresponde a una
instancia.
18. Cross Validation
• Técnica para estimar el desempeño de un predictor en un data
set independiente.
Imagen tomada de:
http://chrisjmccormick.wordpress.com/2013/07/31/k-fold-
cross-validation-with-matlab-code/