SlideShare una empresa de Scribd logo
1 de 46
Tesis Doctoral
José Mª Carmona Cejudo
Directores:
Rafael Morales Bueno
Manuel Baena García
Universidad de Málaga
6 de junio de 2013
Nuevas tendencias en fundamentos
teóricos y aplicaciones de la minería
de datos aplicada a la clasificación de
textos en lenguaje natural
Why text mining?
 Nowadays, most information is stored as documents in natural language
 Applications: blog mining, spam detection, web page clustering,
recommender systems, analysis of medical literature, and much more
Why is it challenging?
 Unstructured information
 High dimensionality (large vocabulary)
 Massive, unbounded data sources
 Changes in underlying statistical distributions over time (concept change)
2
Objectives of this thesis
 Application to DNA strings
 Application of multilabel classification to electronic mail
 Study of concept drift in email data streams. GNUsmail framework
 Study of dynamical attribute spaces in text streams. Is it useful? What’s the
best strategy? ABC-DynF framework
 Efficient strategies for document summarization using reduced space. TF-
SIDF/BM25
 Efficient strategies for feature selection in text streams using reduced
space. STFSIDF
 Open source and replicable experimentation
3
Applications in
bounded datasets
Study of
data streams
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
4
Aplicaciones
datasets cerrados
Flujos de
datos
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
5
 Minería de textos: minería de datos para documentos en lenguaje natural
 Minería de datos: extracción de información de grandes cantidades de datos
 Tareas:
◦ Clasificación
◦ Regresión
◦ Clustering
◦ Reglas de asociación
 Proceso en varias fases:
◦ Comprensión del dominio de aplicación
◦ Preparación de los datos
◦ Modelado
◦ Evaluación
◦ Despliegue
6
Preprocesamiento de texto:
 Tokenization
 Stemming
 Eliminación de stop-words
 Transformación a espacio vectorial
 Pesos:
◦ Binarios
◦ Frecuencia
◦ Según función de relevancia (peso)
7
April is the cruellest month, breeding
Lilacs out of the dead land, mixing
Memory and desire (. . .)
[’april’, ’is’, ’the’, ’cruellest’, ’month’,
’breeding’, ’lilacs’, ’out’, ’of’, ’the’,
’dead’, ’land’, ’mixing’, ’memory’, ’and’,
’desire’]
[’april’, ’be’, ’the’, ’cruel’, ’month’,
’breed’, ’lilac’, ’out’, ’of’, ’the’, ’dead’,
’land’, ’mix’, ’memory’, ’and’, ’desire’
[’april’, ’cruel’, ’month’, ’breed’,
’lilac’,’dead’, ’land’, ’mix’, ’memory’,
‘desire’, ]
(The waste land, T.S. Eliot)
Reducción de dimensionalidad:
 Selección de términos
◦ Estrategia wrapper (funciones de relevancia)
◦ Estrategia de filtrado
 Extracción de términos
tokenization
stemming
eliminar stop-words
8
Algoritmos de clasificación:
 Probabilísticos (Naïve Bayes)
 SVMs
 Redes neuronales
 Basados en ejemplos (lazy)
 Árboles de decisión
 Multiclasificadores (ensemble learning)
o Boosting, bagging
Evaluación
 Medidas de evaluación
o Precisión, recall, F1
 Comparación de algoritmos
o Validación cruzada
o Tests estadísticos
Entrenamiento
Evaluación
4 fold
cross validation
Iteración 1
Iteración 2
Iteración 3
Iteración 4
 Escenario: fuentes de datos
no acotadas
 Limitaciones computacionales
◦ No se almacenan los ejemplos
◦ Modelos incrementales
◦ Limitaciones de espacio y
tiempo
9
 Cambios de concepto
◦ Repentino o gradual
◦ Real o virtual
 Algoritmos de clasificación.
 Dos filosofías:
◦ Estrategia wrapper
◦ Adaptación
 Algunos algoritmos influyentes:
◦ VFDT
◦ UFFT
◦ Algoritmos ensemble (OzaBoost/OzaBag)
10
 Algoritmos de detección de cambio
de concepto
o ADWIN
o Statistical Process Control
o Page-Hinkley Test
o DDM / EDDM
o Etc…
 Evaluación
o Validación cruzada: no sirve
o Evaluación precuencial. Estadístico pesimista.
o Mejora: fading factors / sliding windows. Trabajo de J. Gama [111]
Necesarios algoritmos aproximados para reducción de espacio
(estimación de frecuencias, top-k, …)
 Basados en contadores: se mantienen contadores para un
subconjunto de todos los ítems posibles.
 Basados en sketches:
◦ Se proyectan los contadores a un espacio de menor
dimensionalidad, usando funciones hash
◦ Aplicaciones: problema top-k, estimación de frecuencias
11
Count-Min Sketch. Cormode y Mathukrishnan, 2005 [202]
 Estructura matricial C (h filas, w columnas)
 Procedimento de actualización: cuando llega un item i, hj(i) se
computa para cada fila j, incrementando en 1 unidad el valor de C[j,
h_j[(i)]]
 Procedimiento de estimación: freq[i] ≈ minkC[k, hk(i)]
 Propiedad importante: para obtener una aproximación con error ε y
probabilidad δ, necesitamos un ancho de e/ε, y log(1/ δ) funciones
hash
12
Filtros de Bloom
 Estructura de datos probabilística para
comprobar eficientemente si un
elemento es miembro de un conjunto
 Array de m bits y k funciones hash
 Añadir elemento i: cada una de las k
posiciones del array que corresponden a i
según las funciones hash se pone a 1
 Comprobar si un elemento está en el
conjunto: si alguna de las k posiciones
está a 0, el elemento no está en el
conjunto.
13
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
14
 ADN (ácido desoxirribonucleico): largas
cadenas de nucleótidos (Adenina,
Timina, Citosina, Guanina) que se
transforman en proteínas.
 Cadenas de símbolos de un alfabeto
Σ={A,T,C,G}
15
 Nuestra idea: tratar las cadenas de ADN como si fueran cadenas de
lenguaje natural
 Minería de textos para extraer información biológica
 Necesario descubrir subcadenas relevantes en ADN (frecuentes, y no
sólo por formar parte de otra subcadena frecuente)
 Nuestra propuesta: dos fases:
1. Extracción de subcadenas frecuentes (SANSPOS paralelo)
2. Filtrado de subcadenas relevantes (función de relevancia Added Value)
16
17
 ADN mitocondrial (mtDNA).
Poblaciones organizadas en
haplogrupos
 Relación evolutiva entre grupos
poblacionales (antropología)
Clasificación de mtADN en
haplogrupos
 Extracción de características: SANSPOS
paralelo y filtrado por AV
 Modelado: SVM
 Base de datos de 1400 secuencias de mtDNA
humano, organizadas por haplogrupos
 Resultados similares a encontrados en
literatura, p.e. Wong et al. [65]
 Atributos encontrados automáticamente
(no proporcionados por expertos)
Source: Wikipedia
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta en email
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
18
 Minería multietiqueta: varias etiquetas para cada instancia
 Motivación: a veces, una sola etiqueta no basta (muy restrictivo)
 Métodos:
◦ Transformación del problema
◦ Adaptación del algoritmo
 Métodos de transformación del problema:
◦ Binarios (BR, CLR)
◦ Label Powerset y derivados (LP, RAkEL, PPT, EPPT)
 Medidas de evaluación:
◦ Basadas en instancias
◦ Basadas en etiquetas
19
 Estudio experimental: correo electrónico
 Dataset: Versión multietiqueta de ENRON (con y sin preprocesamiento
lingüístico)
 Algoritmos:
◦ Trasformación de dataset: BR, CLR, LP, RAkEL, PPT, EPPT
◦ Algoritmos base: SVM (kernel lineal y polinomial), NN-ge (basado en ejemplos, con
generalización), IB-k (vecino más cercano),C4.5 (árboles de decisión), Naïve Bayes
 Observaciones sobre los resultados:
◦ El preprocesamiento mejora significativamente los resultados
◦ Para medidas en recall, funciona mejor EPPT.
◦ Para las demás medidas, funcionan bien los algoritmos que implican binarización
◦ Es decir: la relación entre etiquetas es más importante para el recall que para la precisión
20
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
21
 Correo electrónico como flujo de datos de texto
 GNUsmail: http://code.google.com/p/gnusmail. Clasificación de flujos de
correo electrónico
 Arquitectura en capas
◦ Acceso a correo
◦ Procesamiento de texto
◦ Aprendizaje (online y batch)
◦ Evaluación
 Plataforma abierta a la incorporación de nuevos métodos
22
 Corpus ENRON: corpus de datasets de correo electrónico
 10 datasets en total, eliminando carpetas no tópicas y pequeñas
 Algunos desafíos:
◦ Desbalance en número de mensajes
◦ Aparición de carpetas nuevas
◦ Ejemplo: distribución de mensajes en carpetas en kitchen-l en el primer 30% (a) y el flujo completo (b)
23
a)
b)
Carpeta nº
Nº de mensajes
Carpeta nº
Nº de mensajes
Primer 30% del flujo 100% del flujo
24
Comparación de algoritmos en el dataset beck-s
Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)
Ganador:
OzaBag sobre NNge (con DDM)
25
Comparación de algoritmos en el dataset kitchen-l
Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995)
Ganador:
OzaBag sobre NNge (con DDM)
Cambio de concepto
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
26
 Dificultad de la minería de textos: alta dimensionalidad
 El conjunto de atributos relevantes evoluciona
 Necesario espacio de atributos dinámico
◦ Los clasificadores deben ser capaces de usar atributos cambiantes
 Para tratar con flujos de datos de alta dimensionalidad: ABC-DynF
◦ Sucesor de AdPreqFr4SL [156]. Monitorización del estado de aprendizaje y
acciones adaptativas
◦ ABC-DynF Incluye gestión de relevancia de atributos (filter approach)
27
 ABC-DynF (http://abcdynf.sourceforge.net): estrategias
adaptativas de AdPreqFr4SL + gestión de espacio de
atributos dinámico
 Clasificador base: redes bayesianas. Lista actualizada de
atributos más relevantes (chi cuadrado)
 Tabla de estadísticas suficientes compartida por el
clasificador bayesiano y por la función chi cuadrado
 Para cada batch de datos, se actualizan las estadísticas de
todos los atributos (entrenamiento)
 Para predecir: se usan sólo los k atributos con más relevancia
28
 Estudio experimental: estrategias
adaptativas
 Se comparan 4 estrategias
◦ Adapt00 (no se monitoriza cambio de concepto
ni se actualizan atributos)
◦ Adapt10 (se monitoriza cambio de concepto, no
se actualizan atributos)
◦ Adapt01 (no se monitoriza cambio de concepto,
se actualizan atributos)
◦ Adapt11 (se monitoriza cambio de concepto y se
actualizan atributos)
 P-values (Friedman): 0.00667
(F1), 6.03 10−9 (error percentual).
 Test Finner: Adapt01 y Adapt11 no
significativamente diferentes
29
 Estudio experimental: ¿cuándo
actualizar espacio de atributos?
 Se comparan 3 estrategias
◦ Cambiar para cada batch
◦ Cambiar cuando deja de
mejorar el desempeño
◦ Cambiar sólo para reconstruir
el modelo
 Resultado: Es mejor cambiar los
atributos para cada batch, pero la
diferencia no es significativa (p-
value > 0.05)
30
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
31
 Selección de atributos para resumen automático, usando
funciones de relevancia (TF-IDF, BM25)
 Palabras clave (keywords) y nubes de palabras (word clouds)
 Prohibitivo mantener todos los contadores necesarios
 Soluciones históricas: usar sólo parte de los documentos
 Problemas:
◦ Pérdida semántica
◦ La complejidad sigue siendo lineal
 Nuestra propuesta: uso de algoritmos aproximados para
estimación de contadores y listas top-k
32
 Usando Count-Min sketch para aproximar TF-IDF y BM25
33
)(ˆ
log),(),(
itfd
D
jiTFjiTFSIDF
5.0)(ˆ
5.0)(ˆ
log
25.2
75.0)(
)(3
),(25
,
,
i
i
ji
ji
tfd
tfdD
avgdl
D
dtf
dtf
jiSBM
donde:
› |D|: número de documentos
› df(ti): documentos donde aparece ti
› f(ti, dj): frecuencia absoluta del término ti en el documento dj
› avgdl: tamaño media de las categorías
› TF(i,j): f(ti, dj): frecuencia relativa del término ti en el documento dj
 Count-Min sketch para aproximar el número de documentos en el que aparece
cada término ti,
 Los términos TF no dependen del pasado (no hace falta mantener contadores)
Experimentación
 Diferentes configuraciones (alto/ancho) de los
sketches para un mismo tamaño
 Medidas de evaluación:
◦ Recall: Proporción de coincidencias entre listas top-k exacta y aproximada
(mejor mientras más grande)
◦ Distancia de Spearman: tiene en cuenta el orden de los términos según su
relevancia (mejor mientras más pequeña)
 Datasets usados:
◦ Reuters
◦ Pubmed Central
◦ Ambos han sido reordenados cronológicamente
34
Aplicación 1: extracción de palabras clave. Mejor resultado con 2 funciones hash
35
Reuters PMC
Observación: mejores resultados con 2 funciones hash
Spearman distance
Recall
 Otra aplicación: nubes de palabras para resumir categorías
 Para cada categoría, se seleccionan las k palabras clave más frecuentes
 Se representan en una nube de palabras según su frecuencia
36
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
37
 Extracción de atributos eficiente en flujos de texto, usando algoritmos
aproximados
 STFSIDF: Count-Min Sketch para aproximar TFIDF
 Objetivo: selección dinámica de atributos en espacio reducido (usando
espacio de atributos dinámico)
38
 STFSIDF: aproximación de funciones
usando sketches y filtros de Bloom
 Para TF usamos un sketch (CMterms) que
almacena pares (término, categoría), y
contadores para el tamaño de cada
categoría (CL)
 Para IDF necesitamos otro sketch (CMcat)
y una estructura que calcule si un par
(término, categoría) ha aparecido o no
◦ Los sketches no pueden aproximar bien cuenta 0
◦ Usamos para esto filtros de Bloom (BF)
39
Experimentación: aplicación a la clasificación de textos
40
Reuters
PMC
Test de McNemar
Precuencial
Precuencial
Versión exacta
Versión
con sketches
 Minería de textos
 Aplicación: análisis de ADN
 Clasificación multietiqueta
 Minería de flujos de texto y GNUsmail
 ABC-DynF: minería de flujos de datos con atributos
dinámicos
 TF-SIDF/SBM25: resumen de documentos en flujos
 STFSIDF para clasificación de flujos de texto
 Conclusions
41
 Competitive performance of DNA classification using pure text
mining techniques (without features provided by biologists)
 We have shown that email streams are affected by concept drift (often
virtual), and have published GNUSmail for email stream classification
 We have shown that it is advantegous to handle dynamic feature
spaces when dealing with high-dimensional data streams (such as text)
 We have published an open-source framework for data streams
classification with dynamic feature spaces (ABC-DynF)
42
 We have seen that it is recommendable to handle concept drifts and
changes in the feature space simultaneously (Adapt11 strategy)
 We have shown that better results are obtained if the feature space is
updated regardless of the learning state
 We have shown that it is possible to use approximate algorithms to
summarize documents, reducing space without significatively affecting
accuracy (TF-SIDF/SBM25)
 Finally, we have proposed a method for reducing the space needed for
online feature selection in data streams, using sketches and Bloom filters
(STFSIDF), without significatively affecting classification performance
43
 Extending GNUsmail to different domains
 Use of different weighting functions
 Extending ABC-DynF with non-Bayesian base models
 Handling sketch degradation due to saturation (hash function collisions)
 Studying the problem of multi-label text stream mining
 Use of other kinds of features (including exogenous knowledge such as
ontologies)
44
Journal articles:
 Baena-García, M; Carmona-Cejudo, J.M.; Morales-Bueno, R. String analysis by sliding positioning strategy. Journal of
Computer and System Sciences. Available online 19 March 2013, ISSN 0022-0000, 10.1016/j.jcss.2013.03.004
 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and
adaptive strategies for email foldering using the ABC-DynF framework. Knowledge-Based Systems. Available online 1 April
2013, ISSN 0950-7051, 10.1016/j.knosys.2013.03.006
Contributions in international conferences:
 Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. Feature extraction for
multi-label learning in the domain of email classification. Proceedings of CIDM 2011
 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and
adaptive strategies for email foldering , 11th International Conference on Intelligent Systems Design and Applications (ISDA)
 Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Gama, J.; Morales-Bueno, R. Online
Evaluation of Email Streaming Classifiers Using GNUsmail. IDA 2011
 Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. GNUsmail: Open
Framework for On-line Email Classification. ECAI 2010
 Baena-García, M; Carmona-Cejudo, J.M.; Castillo, G.; Morales-Bueno, R. Term Frequency, Sketched Inverse Document
Frequency, 11th International Conference on Intelligent Systems Design and Applications (ISDA)
 Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. Online Calculation of Word-Clouds for
Efficient Label Summarization, 11th International Conference on Intelligent Systems Design and Applications (ISDA)
45
46

Más contenido relacionado

Destacado

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destacado (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

New trends in data mining theory and applications for natural language text classification (Ph.D. presentation)

  • 1. Tesis Doctoral José Mª Carmona Cejudo Directores: Rafael Morales Bueno Manuel Baena García Universidad de Málaga 6 de junio de 2013 Nuevas tendencias en fundamentos teóricos y aplicaciones de la minería de datos aplicada a la clasificación de textos en lenguaje natural
  • 2. Why text mining?  Nowadays, most information is stored as documents in natural language  Applications: blog mining, spam detection, web page clustering, recommender systems, analysis of medical literature, and much more Why is it challenging?  Unstructured information  High dimensionality (large vocabulary)  Massive, unbounded data sources  Changes in underlying statistical distributions over time (concept change) 2
  • 3. Objectives of this thesis  Application to DNA strings  Application of multilabel classification to electronic mail  Study of concept drift in email data streams. GNUsmail framework  Study of dynamical attribute spaces in text streams. Is it useful? What’s the best strategy? ABC-DynF framework  Efficient strategies for document summarization using reduced space. TF- SIDF/BM25  Efficient strategies for feature selection in text streams using reduced space. STFSIDF  Open source and replicable experimentation 3 Applications in bounded datasets Study of data streams
  • 4.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 4 Aplicaciones datasets cerrados Flujos de datos
  • 5.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 5
  • 6.  Minería de textos: minería de datos para documentos en lenguaje natural  Minería de datos: extracción de información de grandes cantidades de datos  Tareas: ◦ Clasificación ◦ Regresión ◦ Clustering ◦ Reglas de asociación  Proceso en varias fases: ◦ Comprensión del dominio de aplicación ◦ Preparación de los datos ◦ Modelado ◦ Evaluación ◦ Despliegue 6
  • 7. Preprocesamiento de texto:  Tokenization  Stemming  Eliminación de stop-words  Transformación a espacio vectorial  Pesos: ◦ Binarios ◦ Frecuencia ◦ Según función de relevancia (peso) 7 April is the cruellest month, breeding Lilacs out of the dead land, mixing Memory and desire (. . .) [’april’, ’is’, ’the’, ’cruellest’, ’month’, ’breeding’, ’lilacs’, ’out’, ’of’, ’the’, ’dead’, ’land’, ’mixing’, ’memory’, ’and’, ’desire’] [’april’, ’be’, ’the’, ’cruel’, ’month’, ’breed’, ’lilac’, ’out’, ’of’, ’the’, ’dead’, ’land’, ’mix’, ’memory’, ’and’, ’desire’ [’april’, ’cruel’, ’month’, ’breed’, ’lilac’,’dead’, ’land’, ’mix’, ’memory’, ‘desire’, ] (The waste land, T.S. Eliot) Reducción de dimensionalidad:  Selección de términos ◦ Estrategia wrapper (funciones de relevancia) ◦ Estrategia de filtrado  Extracción de términos tokenization stemming eliminar stop-words
  • 8. 8 Algoritmos de clasificación:  Probabilísticos (Naïve Bayes)  SVMs  Redes neuronales  Basados en ejemplos (lazy)  Árboles de decisión  Multiclasificadores (ensemble learning) o Boosting, bagging Evaluación  Medidas de evaluación o Precisión, recall, F1  Comparación de algoritmos o Validación cruzada o Tests estadísticos Entrenamiento Evaluación 4 fold cross validation Iteración 1 Iteración 2 Iteración 3 Iteración 4
  • 9.  Escenario: fuentes de datos no acotadas  Limitaciones computacionales ◦ No se almacenan los ejemplos ◦ Modelos incrementales ◦ Limitaciones de espacio y tiempo 9  Cambios de concepto ◦ Repentino o gradual ◦ Real o virtual
  • 10.  Algoritmos de clasificación.  Dos filosofías: ◦ Estrategia wrapper ◦ Adaptación  Algunos algoritmos influyentes: ◦ VFDT ◦ UFFT ◦ Algoritmos ensemble (OzaBoost/OzaBag) 10  Algoritmos de detección de cambio de concepto o ADWIN o Statistical Process Control o Page-Hinkley Test o DDM / EDDM o Etc…  Evaluación o Validación cruzada: no sirve o Evaluación precuencial. Estadístico pesimista. o Mejora: fading factors / sliding windows. Trabajo de J. Gama [111]
  • 11. Necesarios algoritmos aproximados para reducción de espacio (estimación de frecuencias, top-k, …)  Basados en contadores: se mantienen contadores para un subconjunto de todos los ítems posibles.  Basados en sketches: ◦ Se proyectan los contadores a un espacio de menor dimensionalidad, usando funciones hash ◦ Aplicaciones: problema top-k, estimación de frecuencias 11
  • 12. Count-Min Sketch. Cormode y Mathukrishnan, 2005 [202]  Estructura matricial C (h filas, w columnas)  Procedimento de actualización: cuando llega un item i, hj(i) se computa para cada fila j, incrementando en 1 unidad el valor de C[j, h_j[(i)]]  Procedimiento de estimación: freq[i] ≈ minkC[k, hk(i)]  Propiedad importante: para obtener una aproximación con error ε y probabilidad δ, necesitamos un ancho de e/ε, y log(1/ δ) funciones hash 12
  • 13. Filtros de Bloom  Estructura de datos probabilística para comprobar eficientemente si un elemento es miembro de un conjunto  Array de m bits y k funciones hash  Añadir elemento i: cada una de las k posiciones del array que corresponden a i según las funciones hash se pone a 1  Comprobar si un elemento está en el conjunto: si alguna de las k posiciones está a 0, el elemento no está en el conjunto. 13
  • 14.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 14
  • 15.  ADN (ácido desoxirribonucleico): largas cadenas de nucleótidos (Adenina, Timina, Citosina, Guanina) que se transforman en proteínas.  Cadenas de símbolos de un alfabeto Σ={A,T,C,G} 15  Nuestra idea: tratar las cadenas de ADN como si fueran cadenas de lenguaje natural  Minería de textos para extraer información biológica
  • 16.  Necesario descubrir subcadenas relevantes en ADN (frecuentes, y no sólo por formar parte de otra subcadena frecuente)  Nuestra propuesta: dos fases: 1. Extracción de subcadenas frecuentes (SANSPOS paralelo) 2. Filtrado de subcadenas relevantes (función de relevancia Added Value) 16
  • 17. 17  ADN mitocondrial (mtDNA). Poblaciones organizadas en haplogrupos  Relación evolutiva entre grupos poblacionales (antropología) Clasificación de mtADN en haplogrupos  Extracción de características: SANSPOS paralelo y filtrado por AV  Modelado: SVM  Base de datos de 1400 secuencias de mtDNA humano, organizadas por haplogrupos  Resultados similares a encontrados en literatura, p.e. Wong et al. [65]  Atributos encontrados automáticamente (no proporcionados por expertos) Source: Wikipedia
  • 18.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta en email  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 18
  • 19.  Minería multietiqueta: varias etiquetas para cada instancia  Motivación: a veces, una sola etiqueta no basta (muy restrictivo)  Métodos: ◦ Transformación del problema ◦ Adaptación del algoritmo  Métodos de transformación del problema: ◦ Binarios (BR, CLR) ◦ Label Powerset y derivados (LP, RAkEL, PPT, EPPT)  Medidas de evaluación: ◦ Basadas en instancias ◦ Basadas en etiquetas 19
  • 20.  Estudio experimental: correo electrónico  Dataset: Versión multietiqueta de ENRON (con y sin preprocesamiento lingüístico)  Algoritmos: ◦ Trasformación de dataset: BR, CLR, LP, RAkEL, PPT, EPPT ◦ Algoritmos base: SVM (kernel lineal y polinomial), NN-ge (basado en ejemplos, con generalización), IB-k (vecino más cercano),C4.5 (árboles de decisión), Naïve Bayes  Observaciones sobre los resultados: ◦ El preprocesamiento mejora significativamente los resultados ◦ Para medidas en recall, funciona mejor EPPT. ◦ Para las demás medidas, funcionan bien los algoritmos que implican binarización ◦ Es decir: la relación entre etiquetas es más importante para el recall que para la precisión 20
  • 21.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 21
  • 22.  Correo electrónico como flujo de datos de texto  GNUsmail: http://code.google.com/p/gnusmail. Clasificación de flujos de correo electrónico  Arquitectura en capas ◦ Acceso a correo ◦ Procesamiento de texto ◦ Aprendizaje (online y batch) ◦ Evaluación  Plataforma abierta a la incorporación de nuevos métodos 22
  • 23.  Corpus ENRON: corpus de datasets de correo electrónico  10 datasets en total, eliminando carpetas no tópicas y pequeñas  Algunos desafíos: ◦ Desbalance en número de mensajes ◦ Aparición de carpetas nuevas ◦ Ejemplo: distribución de mensajes en carpetas en kitchen-l en el primer 30% (a) y el flujo completo (b) 23 a) b) Carpeta nº Nº de mensajes Carpeta nº Nº de mensajes Primer 30% del flujo 100% del flujo
  • 24. 24 Comparación de algoritmos en el dataset beck-s Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995) Ganador: OzaBag sobre NNge (con DDM)
  • 25. 25 Comparación de algoritmos en el dataset kitchen-l Precisión precuencial (fading factors, α= 0.995) Test de McNemar, OzaBag vs. NN-ge (fading factors, α = 0.995) Ganador: OzaBag sobre NNge (con DDM) Cambio de concepto
  • 26.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 26
  • 27.  Dificultad de la minería de textos: alta dimensionalidad  El conjunto de atributos relevantes evoluciona  Necesario espacio de atributos dinámico ◦ Los clasificadores deben ser capaces de usar atributos cambiantes  Para tratar con flujos de datos de alta dimensionalidad: ABC-DynF ◦ Sucesor de AdPreqFr4SL [156]. Monitorización del estado de aprendizaje y acciones adaptativas ◦ ABC-DynF Incluye gestión de relevancia de atributos (filter approach) 27
  • 28.  ABC-DynF (http://abcdynf.sourceforge.net): estrategias adaptativas de AdPreqFr4SL + gestión de espacio de atributos dinámico  Clasificador base: redes bayesianas. Lista actualizada de atributos más relevantes (chi cuadrado)  Tabla de estadísticas suficientes compartida por el clasificador bayesiano y por la función chi cuadrado  Para cada batch de datos, se actualizan las estadísticas de todos los atributos (entrenamiento)  Para predecir: se usan sólo los k atributos con más relevancia 28
  • 29.  Estudio experimental: estrategias adaptativas  Se comparan 4 estrategias ◦ Adapt00 (no se monitoriza cambio de concepto ni se actualizan atributos) ◦ Adapt10 (se monitoriza cambio de concepto, no se actualizan atributos) ◦ Adapt01 (no se monitoriza cambio de concepto, se actualizan atributos) ◦ Adapt11 (se monitoriza cambio de concepto y se actualizan atributos)  P-values (Friedman): 0.00667 (F1), 6.03 10−9 (error percentual).  Test Finner: Adapt01 y Adapt11 no significativamente diferentes 29
  • 30.  Estudio experimental: ¿cuándo actualizar espacio de atributos?  Se comparan 3 estrategias ◦ Cambiar para cada batch ◦ Cambiar cuando deja de mejorar el desempeño ◦ Cambiar sólo para reconstruir el modelo  Resultado: Es mejor cambiar los atributos para cada batch, pero la diferencia no es significativa (p- value > 0.05) 30
  • 31.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 31
  • 32.  Selección de atributos para resumen automático, usando funciones de relevancia (TF-IDF, BM25)  Palabras clave (keywords) y nubes de palabras (word clouds)  Prohibitivo mantener todos los contadores necesarios  Soluciones históricas: usar sólo parte de los documentos  Problemas: ◦ Pérdida semántica ◦ La complejidad sigue siendo lineal  Nuestra propuesta: uso de algoritmos aproximados para estimación de contadores y listas top-k 32
  • 33.  Usando Count-Min sketch para aproximar TF-IDF y BM25 33 )(ˆ log),(),( itfd D jiTFjiTFSIDF 5.0)(ˆ 5.0)(ˆ log 25.2 75.0)( )(3 ),(25 , , i i ji ji tfd tfdD avgdl D dtf dtf jiSBM donde: › |D|: número de documentos › df(ti): documentos donde aparece ti › f(ti, dj): frecuencia absoluta del término ti en el documento dj › avgdl: tamaño media de las categorías › TF(i,j): f(ti, dj): frecuencia relativa del término ti en el documento dj  Count-Min sketch para aproximar el número de documentos en el que aparece cada término ti,  Los términos TF no dependen del pasado (no hace falta mantener contadores)
  • 34. Experimentación  Diferentes configuraciones (alto/ancho) de los sketches para un mismo tamaño  Medidas de evaluación: ◦ Recall: Proporción de coincidencias entre listas top-k exacta y aproximada (mejor mientras más grande) ◦ Distancia de Spearman: tiene en cuenta el orden de los términos según su relevancia (mejor mientras más pequeña)  Datasets usados: ◦ Reuters ◦ Pubmed Central ◦ Ambos han sido reordenados cronológicamente 34
  • 35. Aplicación 1: extracción de palabras clave. Mejor resultado con 2 funciones hash 35 Reuters PMC Observación: mejores resultados con 2 funciones hash Spearman distance Recall
  • 36.  Otra aplicación: nubes de palabras para resumir categorías  Para cada categoría, se seleccionan las k palabras clave más frecuentes  Se representan en una nube de palabras según su frecuencia 36
  • 37.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 37
  • 38.  Extracción de atributos eficiente en flujos de texto, usando algoritmos aproximados  STFSIDF: Count-Min Sketch para aproximar TFIDF  Objetivo: selección dinámica de atributos en espacio reducido (usando espacio de atributos dinámico) 38
  • 39.  STFSIDF: aproximación de funciones usando sketches y filtros de Bloom  Para TF usamos un sketch (CMterms) que almacena pares (término, categoría), y contadores para el tamaño de cada categoría (CL)  Para IDF necesitamos otro sketch (CMcat) y una estructura que calcule si un par (término, categoría) ha aparecido o no ◦ Los sketches no pueden aproximar bien cuenta 0 ◦ Usamos para esto filtros de Bloom (BF) 39
  • 40. Experimentación: aplicación a la clasificación de textos 40 Reuters PMC Test de McNemar Precuencial Precuencial Versión exacta Versión con sketches
  • 41.  Minería de textos  Aplicación: análisis de ADN  Clasificación multietiqueta  Minería de flujos de texto y GNUsmail  ABC-DynF: minería de flujos de datos con atributos dinámicos  TF-SIDF/SBM25: resumen de documentos en flujos  STFSIDF para clasificación de flujos de texto  Conclusions 41
  • 42.  Competitive performance of DNA classification using pure text mining techniques (without features provided by biologists)  We have shown that email streams are affected by concept drift (often virtual), and have published GNUSmail for email stream classification  We have shown that it is advantegous to handle dynamic feature spaces when dealing with high-dimensional data streams (such as text)  We have published an open-source framework for data streams classification with dynamic feature spaces (ABC-DynF) 42
  • 43.  We have seen that it is recommendable to handle concept drifts and changes in the feature space simultaneously (Adapt11 strategy)  We have shown that better results are obtained if the feature space is updated regardless of the learning state  We have shown that it is possible to use approximate algorithms to summarize documents, reducing space without significatively affecting accuracy (TF-SIDF/SBM25)  Finally, we have proposed a method for reducing the space needed for online feature selection in data streams, using sketches and Bloom filters (STFSIDF), without significatively affecting classification performance 43
  • 44.  Extending GNUsmail to different domains  Use of different weighting functions  Extending ABC-DynF with non-Bayesian base models  Handling sketch degradation due to saturation (hash function collisions)  Studying the problem of multi-label text stream mining  Use of other kinds of features (including exogenous knowledge such as ontologies) 44
  • 45. Journal articles:  Baena-García, M; Carmona-Cejudo, J.M.; Morales-Bueno, R. String analysis by sliding positioning strategy. Journal of Computer and System Sciences. Available online 19 March 2013, ISSN 0022-0000, 10.1016/j.jcss.2013.03.004  Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and adaptive strategies for email foldering using the ABC-DynF framework. Knowledge-Based Systems. Available online 1 April 2013, ISSN 0950-7051, 10.1016/j.knosys.2013.03.006 Contributions in international conferences:  Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. Feature extraction for multi-label learning in the domain of email classification. Proceedings of CIDM 2011  Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. A comparative study on feature selection and adaptive strategies for email foldering , 11th International Conference on Intelligent Systems Design and Applications (ISDA)  Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Gama, J.; Morales-Bueno, R. Online Evaluation of Email Streaming Classifiers Using GNUsmail. IDA 2011  Carmona-Cejudo, J.M.; Baena-García, M; del Campo-Ávila, J.; Bifet, A.; Morales-Bueno, R. GNUsmail: Open Framework for On-line Email Classification. ECAI 2010  Baena-García, M; Carmona-Cejudo, J.M.; Castillo, G.; Morales-Bueno, R. Term Frequency, Sketched Inverse Document Frequency, 11th International Conference on Intelligent Systems Design and Applications (ISDA)  Carmona-Cejudo, J.M.; Castillo, G.; Baena-García, M; Morales-Bueno, R. Online Calculation of Word-Clouds for Efficient Label Summarization, 11th International Conference on Intelligent Systems Design and Applications (ISDA) 45
  • 46. 46

Notas del editor

  1. Diferenciar en dos partes: con datasets estáticos (los 2 primeros puntos) y dinámicos/flujos (lo demás)
  2. Le dedicamos un punto a cada objetivo, predecidos de una discusión sobre la minería de textos, y seguido de las conclusiones
  3. Tabla 2.1: ilustra la parte de preparación de los datos
  4. ->El gráfico de la derecha ilustra las diferentes partes del preprocesamiento-> Pasar “de puntillas” por la reducción de dimensionalidad (no da tiempo)
  5. -> Idea general de este capítulo: plataforma para clasificación de flujos de correo electrónico-> ¿Qué pasaría si, en esta fuente de datos, no hubiésemos incorporado la información del Mundial, aunque antes funcionase bien el modelo? Que no estaríamos capturando una información muy importante sobre la asociación España-fútbol
  6. -> Los algoritmos de detección de cambio de concepto se basan en general en comparación de ventanas de ejemplos, mediante tests estadísticos, aunque por falta de tiempo no voy a discutir ejemplos concretos-> Evaluación precuencial: tenemos un flujo. Llega un ejemplo. Emitimos una medida de desempeño tras tratar de clasificarlo, y la añadimos a la media. Después, añadimos la información del ejemplo al modelo de clasificación, y asi-> Pesimista, porque tiene en cuenta el principio (cuando no había aprendido demasiado bien el modelo)-> Las mejoras permiten darle más peso a las últimas instancias
  7. Puede parecer raro hablar de ADN en una tesis sobre lenguaje natural, pero hay que tener en cuenta que el ADN son cadenas de símbolos con una semántica (“el lenguaje de la vida”).Por lo tanto, los planteamos usar técnicas de TM para extraer informaicón biológica
  8. El problema en el ADN es cómo extraer subcadenas, que en el lenguaje natural es un problema más fácil.Lo hacemos en dos fases:1) Usamos el algoritmo SANSPOS paralelo para extraer palabras frecuentes2) Usamos la función AV para filtrar las palabras realmente relevantes (muchas son frecuentes porque forman parte de una palabra frecuente).Para usar AV: en cada palabra se miran las subcadenas para las que no hay valor añadido, y se añaden a una lista de “tabús”¿Cómo funciona AV?
  9. ElmtDNA se transmite por vía materna, y es útil para estudiar los movimientos de las poblacionesPrincipal diferencia: no usamos atributos proporcionados por los expertos, sino que mediante minería de datos encontramos los atributos más adecuados
  10. Dos estrategias básicas de transformación de problemas: binarizatorias (se tienen en cuenta las etiquetas por separado) y tipo LP (se tienen en cuenta conjuntos de etiquetas)
  11. Los resultados indican que la dependencia entre etiquetas es más importante en recall
  12. Aquí empieza la segunda parte de la tesis, dedicada a flujos de texto
  13. Idea: plataforma que implemente estos métodos para clasificación de correo electrónico
  14. Vemos como la proporción de número de mensajes es diferente en el primer 30% y el 100%, lo que indica la ocurrencia de cambio de concepto
  15. Explicar lo que simbolizan las gráficas antes de explicar el resultadoObservaciones:El ganador es OzaBag sobre Nnge, usando detector de cambio de concepto (DDM)Vemos como, si usamos fading factors, el resultado es más altoTest de McNemar: según los FN y FP, se computa si hay diferencia significativa o no. Con fading factors hay menos diferencia significativa (el principio del flujo tiene menos importancia)
  16. Observaciones:El ganador es OzaBag sobre Nnge, usando detector de cambio de concepto (DDM)Vemos como, si usamos fading factors, el resultado es más altoTest de McNemar: según los FN y FP, se computa si hay diferencia significativa o no. Con fading factors hay menos diferencia significativa (el principio del flujo tiene menos importancia)
  17. En este capítulo introducimos el concepto de espacios de atributos dinámicos
  18. Origen: estancia en Aveiro. Construye una capa adicional sobre Ad…SL.Los ejemplos llegan en batchUsamos Chi^2, porque necesita exactamente los mismos contadores que las redes bayesianas (tenemos una tabla de estadísticas suficientes)
  19. Aquí no se muestran p-values, sino valores en bruto (usando las configuraciones que hemos fijado en los puntos anteriores), y el ranking.
  20. Aquí no se muestran p-values, sino valores en bruto (usando las configuraciones que hemos fijado en los puntos anteriores), y el ranking.
  21. Idea de estas funciones: una palabra es relevante si aparece mucho en un documento, y poco en los demás (discriminativa)Para calcular las palabras relevantes de un documento, necesitamos dos cosas:La frecuencia de las palabras de ESE documento (sin tener en cuenta el pasado)El número de documentos en el que ha aparecido cada palabra (hace falta tener en cuenta el pasado ->problema de complejidad)Para b, usamos Count-min sketch
  22. Para cadio ratio de compresión, comparamos diferente número de funciones hash. Resultado: mejor, height = 2 ( para reducir el error en la cuenta de los elementos comparativamente pequeños)Hablar aquí de distribución de Zipf
  23. Segundo nivel: resumir categorías
  24. Aquí medimos la relevancia respecto a una “CATEGORIA”, no documento.Hemos elegido TF-IDF en vez de otras funciones porque
  25. Aproximar TF y IDF apartePara calcular SIDF: hariá falta saber para cuántas categorías la cuenta de una palabra es 0. Pero los sketches no aproximan bien esta cantidad, a causa de las colisiones. Por lo tanto, es necesario otro tipo de estructuras: filtros de Bloom.
  26. Reducción
  27. TODO visualization?
  28. TODO visualization?