SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
¾Podemos predecir si Twitter hundirá un banco?
Carlos Perales González
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
¾Puede Twitter hundir un banco?
¾Puede Twitter hundir un banco?
Realmente, no hay datos históricos de que haya ocurrido con ante-
rioridad.
Sin embargo, con la reciente crisis nanciera, los reguladores (BCE,
FED) están empezando a pedir más medidas de control sobre los
bancos.
La regulación está asociada al riesgo:
• Riesgo de mercado
• Riesgo de crédito
• . . .
En breve, la Autoridad Bancaria Europea (EBA) exigirá a los bancos
una medida del riesgo reputacional.
Riesgo → posibilidad de pérdidas (ganancias, liquidez . . . )
En este caso, a consecuencia del daño de de la perspectiva que la
sociedad tenga de esta.
Causas y consecuencias
Hay una serie de directrices de la EBA sobre los temas más sensibles
a la reputación.
Causas de una mala reputación
• Corrupción
• Mala gestión
• Política de empresa (negocios armamentísticos, deshaucios . . .)
• . . .
Consecuencias
• Retirada de efectivo
• No apertura de cuentas
• . . .
Organización del trabajo
1 Recogida de tweets (tweemanager)
2 Base de datos con tweets `positivos' y `negativos'
3 Entrenamiento de un clasicador
4 Clasicación a lo largo del tiempo → Indicador reputacional
Clasicador: instrumento matemático que se sirve de un algoritmo
estadístico con el n de asignar una etiqueta clasicatoria.
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Usos de este análisis
Análisis de sentimiento: determinación automatizada de la subjeti-
vidad, polaridad (`positivo', `negativo') y fuerza que tenga un texto.
En pocas palabras, clasica en `bueno' y `malo'. Nos puede servir
para ver cómo evolucionan las opiniones.
• Análisis de mercado
• Inteligencia articial
Análisis en español
La mayoría de la bibliografía que se puede encontrar sobre el tema
está en inglés. ¾Por qué?
Análisis en español
¾Por qué hay más análisis de sentimiento en inglés, pese a ser el
español una lengua bastante hablada?
• Construcción gramatical más sencilla
• Menos formas verbales
• Muchos verbos regulares y lexemas sencillos
El español es más difícil que el inglés
Análisis en español
Para un análisis en español hemos tenido que trabajar antes el texto.
1 Stopwords (artículos, preposiciones . . . )
2 Stemming (reducir una palabra a su raíz)
3 Uso de n-gramas (secuencias de n palabras)
Inicialmente nos apoyamos en el paquete NLTK para estos procesos,
por la cantidad de reglas que involucraban.
Corpus
Para que el algoritmo clasicador funcione el entrenamiento tiene
que ser el adecuado.
Buen entrenamiento → Buen clasicador
El entrenamiento se ha conseguido escogiendo tweets que represen-
ten las directrices de la EBA sobre qué afecta a la reputación.
Nuestro corpus se ha obtenido mediante recogida de tweets, usando
tweemanager, buscando sobre entidades nancieras.
https://github.com/nfqsolutions/tweemanager
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Estructura
1 Extracción del tweet en sus features
2 Reglas de probabilidad para los features
3 Composición de features en un clasicador
Features: propiedades de un fenómeno a estudiar. Sirven como va-
riables.
• Nuestras features serán n-gramas del texto
Extracción de features
• Se aplica stemming y stopwords
`CaixaBank, reconocida por su compromiso con la conciliación
laboral y familiar'
`caixabank', `reconoc', `compromis', `conciliacion', `laboral', `famili',
`caixabank reconoc', `reconoc por', `por su', `su compromis', `com-
promis con', `con la', `la conciliacion', `conciliacion laboral', `laboral
y', `y famili', `caixabank reconoc por', `reconoc por su', `por su com-
promis', `su compromis con', `compromis con la', `con la conciliacion',
`la conciliacion laboral', `conciliacion laboral y', `laboral y famili'
Laplace simple
La probabilidad de Laplace simple (LS) es puramente frecuentista
P(ngram|pos) =
d
N
(1)
Donde:
d es el no de veces que aparece en positivo
N es el no de veces total que aparece
Laplace suavizado (o adición suavizada)
La probabilidad de Laplace suavizada (AS) es una composición de la
probabilidad de Laplace con la prob. uniforme
P(ngram|pos) =
d + α
N + ncatα
(2)
Donde:
α es un factor de composición. Se ha escogido 0,5
ncat es el no de categorías (`positivo' y `negativo'
→ 2)
Laplace simple vs suavizado
• Ante variación de N y d, Laplace suavizado funciona mejor
• Con valores d y N altos, tiende a Laplace simple
• Laplace suavizado evita asignar valores extremos
Ejemplos
`CaixaBank impulsará el crédito entre los abogados de Castellón'
`impuls' (LS) → 1,0 `impuls' (AS) → 0,75
`credit' (LS) → 0,9167 `credit' (AS) → 0,8846
Clasicadores
El tweet está formado por features
tweet ∼ features
Para la clasicación usamos el teorema de Bayes
P(pos|features) =
P(pos)P(features|pos)
P(pos)P(features|pos) + P(neg)P(features|neg)
(3)
Se usa junto con la hipótesis de independencia
P(fi ∩ fj ) = P(fi |fj )P(fj ) = P(fi )P(fj ) ∀i,j i = j (4)
Bayesiano ingenuo y nuestro indicador
reputacional
¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba-
yesian o NB):
tweet = (feature1, feature2, . . . , featuren) =
i
fi ≡ features (5)
½Hipótesis! Cambiamos la concepción del elemento a clasicar
tweet ∼
i
fi ≡ features (6)
Comparación. Clasicador de manzanas
Tenemos un objeto. ¾Será una manzana?
• Rojo
• Redondo
• ∼ 7 cm de diámetro
Bayesiano ingenuo (NB) → Rojo y redondo y ∼ 7 cm de diámetro
Nuestro indicador (IR) → Promedio de variables.
NB presenta overtting. Tiende a puntuar con valores extremos.
IR puntúa con valores intermedios. Es más conservador.
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
¾Qué medimos? Acierto y ROC
Escogemos un set de validación para testear nuestros clasicadores.
Set de validación → 10 % del tamaño del entrenamiento
Probamos cuántos es capaz de acertar (tasa de aciertos), junto con
la curva ROC y el área bajo esta curva.
Acierto (validación) Acierto (entrenamiento)
NB 0.715 0.995
IR 0.790 0.990
Curva ROC
La curva ROC es una técnica para ver cómo varía la tasa de verda-
deros positivos (TPR) y de falsos positivos (FPR) conforme el umbral
discriminante cambia.
El área bajo esta curva representa la probabilidad de que un caso
que el clasicador haya categorizado como positivo, efectivamente,
sea realmente positivo
Grácas de la curva ROC. NB
Grácas de la curva ROC. IR
Índice
1 ¾Puede Twitter hundir un banco?
2 Análisis de Sentimiento
Usos de este análisis
Análisis en español
Entrenamiento especíco para reputación
3 Metodología de clasicación
Extracción de features
Estimación de probabilidades
Clasicadores
4 Resultados
Tasa de acierto
Curva ROC
5 Conclusiones
Conclusiones
• El clasicador NB tiene overtting que el clasicador IR no
tiene.
• Esto se debe, entre otras cosas, al uso de Laplace suavizado y
a la hipótesis tweet ∼ i fi
• La hipótesis de independencia es ingenua pero funciona
• Los bigramas y trigramas ayudan al análisis en español
Resultados parecidos + ventajas de nuestro clasicador →
IR ≥ NB
Conclusiones
• Prueba de una nueva concepción de objeto a clasicar
• Obtención de corpus especíco para reputación
• Solución técnica de un problema real
• Desarrollo de la aplicación Qdos
Gracias por su atención!!
Agradecimientos: Hugo Marrão y Rogelio Rodríguez

Contenu connexe

Similaire à ¿Podemos predecir si Twitter hundirá un banco?

Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13Maestros Online
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Taller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarTaller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarUniversidad de Lima
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Maestros Online
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Maestros en Linea
 
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...MeaningCloud
 
Tema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaTema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaJaime Manera
 
Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.N Andre Vc
 
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...TestingUy
 
Teoria de la estimación
Teoria de la estimaciónTeoria de la estimación
Teoria de la estimaciónJOHNNY28000
 
Tecnologias de información ebc
Tecnologias de información ebcTecnologias de información ebc
Tecnologias de información ebcMaestros Online
 
Como lograr mejora con agile dev
Como lograr mejora con agile devComo lograr mejora con agile dev
Como lograr mejora con agile devLuis Mulato
 
Analisis y diseño de experimentos
Analisis y diseño de experimentosAnalisis y diseño de experimentos
Analisis y diseño de experimentosMaestros Online
 
Leader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpLeader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpINNOGYZER.com
 
Evaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionEvaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionLuis Francisco
 

Similaire à ¿Podemos predecir si Twitter hundirá un banco? (20)

Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13
 
Analisis multivariante ss13
Analisis multivariante ss13Analisis multivariante ss13
Analisis multivariante ss13
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Taller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovarTaller crystal ball raphael rey tovar
Taller crystal ball raphael rey tovar
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
ESCALAS DE MEDICION.pdf
ESCALAS DE MEDICION.pdfESCALAS DE MEDICION.pdf
ESCALAS DE MEDICION.pdf
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14
 
Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14Estadistica y pronostico para la toma de decisiones s14
Estadistica y pronostico para la toma de decisiones s14
 
Introducción al CRO
Introducción al CROIntroducción al CRO
Introducción al CRO
 
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
 
Tema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medidaTema 2 mglpc Escalas de medida
Tema 2 mglpc Escalas de medida
 
Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.Procesamiento, nalisis e interpretacion de resultado.
Procesamiento, nalisis e interpretacion de resultado.
 
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
Meetup TestingUy 2017 - Lo que aprendí de Rapid Software Testing con Michael ...
 
Teoria de la estimación
Teoria de la estimaciónTeoria de la estimación
Teoria de la estimación
 
Historias de usuario y estimacion
Historias de usuario y estimacionHistorias de usuario y estimacion
Historias de usuario y estimacion
 
Tecnologias de información ebc
Tecnologias de información ebcTecnologias de información ebc
Tecnologias de información ebc
 
Como lograr mejora con agile dev
Como lograr mejora con agile devComo lograr mejora con agile dev
Como lograr mejora con agile dev
 
Analisis y diseño de experimentos
Analisis y diseño de experimentosAnalisis y diseño de experimentos
Analisis y diseño de experimentos
 
Leader´s Guide - Lean Start Up
Leader´s Guide - Lean Start UpLeader´s Guide - Lean Start Up
Leader´s Guide - Lean Start Up
 
Evaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacionEvaluacion de sistemas de recomendacion
Evaluacion de sistemas de recomendacion
 

Plus de Carlos Perales

Clustering de canciones usando Fourier
Clustering de canciones usando FourierClustering de canciones usando Fourier
Clustering de canciones usando FourierCarlos Perales
 
A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)Carlos Perales
 
Estudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasEstudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasCarlos Perales
 
Un estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachUn estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachCarlos Perales
 
Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Carlos Perales
 
Propagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasPropagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasCarlos Perales
 
Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Carlos Perales
 
Sobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosSobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosCarlos Perales
 

Plus de Carlos Perales (8)

Clustering de canciones usando Fourier
Clustering de canciones usando FourierClustering de canciones usando Fourier
Clustering de canciones usando Fourier
 
A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)A preliminary study of diversity in ELM ensembles (HAIS 2018)
A preliminary study of diversity in ELM ensembles (HAIS 2018)
 
Estudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas somerasEstudio y simulación numérica de las ecuaciones de aguas someras
Estudio y simulación numérica de las ecuaciones de aguas someras
 
Un estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de MachUn estudio numérico sobre el número de Mach
Un estudio numérico sobre el número de Mach
 
Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)Energía fotovoltaica en España y el mundo (2004-2008)
Energía fotovoltaica en España y el mundo (2004-2008)
 
Propagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicasPropagación de una enfermedad en poblaciones dinámicas
Propagación de una enfermedad en poblaciones dinámicas
 
Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)Sobre la radiación Cherenkov (presentación)
Sobre la radiación Cherenkov (presentación)
 
Sobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicosSobre la radiación Cherenkov y los rayos cósmicos
Sobre la radiación Cherenkov y los rayos cósmicos
 

Dernier

Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxCristianCastro978067
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 

Dernier (20)

Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 

¿Podemos predecir si Twitter hundirá un banco?

  • 1. ¾Podemos predecir si Twitter hundirá un banco? Carlos Perales González
  • 2. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 3. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 4. ¾Puede Twitter hundir un banco? ¾Puede Twitter hundir un banco? Realmente, no hay datos históricos de que haya ocurrido con ante- rioridad. Sin embargo, con la reciente crisis nanciera, los reguladores (BCE, FED) están empezando a pedir más medidas de control sobre los bancos.
  • 5. La regulación está asociada al riesgo: • Riesgo de mercado • Riesgo de crédito • . . . En breve, la Autoridad Bancaria Europea (EBA) exigirá a los bancos una medida del riesgo reputacional. Riesgo → posibilidad de pérdidas (ganancias, liquidez . . . ) En este caso, a consecuencia del daño de de la perspectiva que la sociedad tenga de esta.
  • 6. Causas y consecuencias Hay una serie de directrices de la EBA sobre los temas más sensibles a la reputación. Causas de una mala reputación • Corrupción • Mala gestión • Política de empresa (negocios armamentísticos, deshaucios . . .) • . . . Consecuencias • Retirada de efectivo • No apertura de cuentas • . . .
  • 7. Organización del trabajo 1 Recogida de tweets (tweemanager) 2 Base de datos con tweets `positivos' y `negativos' 3 Entrenamiento de un clasicador 4 Clasicación a lo largo del tiempo → Indicador reputacional Clasicador: instrumento matemático que se sirve de un algoritmo estadístico con el n de asignar una etiqueta clasicatoria.
  • 8. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 9. Usos de este análisis Análisis de sentimiento: determinación automatizada de la subjeti- vidad, polaridad (`positivo', `negativo') y fuerza que tenga un texto. En pocas palabras, clasica en `bueno' y `malo'. Nos puede servir para ver cómo evolucionan las opiniones. • Análisis de mercado • Inteligencia articial
  • 10. Análisis en español La mayoría de la bibliografía que se puede encontrar sobre el tema está en inglés. ¾Por qué?
  • 11. Análisis en español ¾Por qué hay más análisis de sentimiento en inglés, pese a ser el español una lengua bastante hablada? • Construcción gramatical más sencilla • Menos formas verbales • Muchos verbos regulares y lexemas sencillos El español es más difícil que el inglés
  • 12. Análisis en español Para un análisis en español hemos tenido que trabajar antes el texto. 1 Stopwords (artículos, preposiciones . . . ) 2 Stemming (reducir una palabra a su raíz) 3 Uso de n-gramas (secuencias de n palabras) Inicialmente nos apoyamos en el paquete NLTK para estos procesos, por la cantidad de reglas que involucraban.
  • 13. Corpus Para que el algoritmo clasicador funcione el entrenamiento tiene que ser el adecuado. Buen entrenamiento → Buen clasicador El entrenamiento se ha conseguido escogiendo tweets que represen- ten las directrices de la EBA sobre qué afecta a la reputación. Nuestro corpus se ha obtenido mediante recogida de tweets, usando tweemanager, buscando sobre entidades nancieras. https://github.com/nfqsolutions/tweemanager
  • 14. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 15. Estructura 1 Extracción del tweet en sus features 2 Reglas de probabilidad para los features 3 Composición de features en un clasicador Features: propiedades de un fenómeno a estudiar. Sirven como va- riables. • Nuestras features serán n-gramas del texto
  • 16. Extracción de features • Se aplica stemming y stopwords `CaixaBank, reconocida por su compromiso con la conciliación laboral y familiar' `caixabank', `reconoc', `compromis', `conciliacion', `laboral', `famili', `caixabank reconoc', `reconoc por', `por su', `su compromis', `com- promis con', `con la', `la conciliacion', `conciliacion laboral', `laboral y', `y famili', `caixabank reconoc por', `reconoc por su', `por su com- promis', `su compromis con', `compromis con la', `con la conciliacion', `la conciliacion laboral', `conciliacion laboral y', `laboral y famili'
  • 17. Laplace simple La probabilidad de Laplace simple (LS) es puramente frecuentista P(ngram|pos) = d N (1) Donde: d es el no de veces que aparece en positivo N es el no de veces total que aparece
  • 18. Laplace suavizado (o adición suavizada) La probabilidad de Laplace suavizada (AS) es una composición de la probabilidad de Laplace con la prob. uniforme P(ngram|pos) = d + α N + ncatα (2) Donde: α es un factor de composición. Se ha escogido 0,5 ncat es el no de categorías (`positivo' y `negativo' → 2)
  • 19. Laplace simple vs suavizado • Ante variación de N y d, Laplace suavizado funciona mejor • Con valores d y N altos, tiende a Laplace simple • Laplace suavizado evita asignar valores extremos
  • 20. Ejemplos `CaixaBank impulsará el crédito entre los abogados de Castellón' `impuls' (LS) → 1,0 `impuls' (AS) → 0,75 `credit' (LS) → 0,9167 `credit' (AS) → 0,8846
  • 21. Clasicadores El tweet está formado por features tweet ∼ features Para la clasicación usamos el teorema de Bayes P(pos|features) = P(pos)P(features|pos) P(pos)P(features|pos) + P(neg)P(features|neg) (3) Se usa junto con la hipótesis de independencia P(fi ∩ fj ) = P(fi |fj )P(fj ) = P(fi )P(fj ) ∀i,j i = j (4)
  • 22. Bayesiano ingenuo y nuestro indicador reputacional ¾Relación entre tweet y features? El bayesiano ingenuo (Naive Ba- yesian o NB): tweet = (feature1, feature2, . . . , featuren) = i fi ≡ features (5) ½Hipótesis! Cambiamos la concepción del elemento a clasicar tweet ∼ i fi ≡ features (6)
  • 23. Comparación. Clasicador de manzanas Tenemos un objeto. ¾Será una manzana? • Rojo • Redondo • ∼ 7 cm de diámetro Bayesiano ingenuo (NB) → Rojo y redondo y ∼ 7 cm de diámetro Nuestro indicador (IR) → Promedio de variables. NB presenta overtting. Tiende a puntuar con valores extremos. IR puntúa con valores intermedios. Es más conservador.
  • 24. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 25. ¾Qué medimos? Acierto y ROC Escogemos un set de validación para testear nuestros clasicadores. Set de validación → 10 % del tamaño del entrenamiento Probamos cuántos es capaz de acertar (tasa de aciertos), junto con la curva ROC y el área bajo esta curva. Acierto (validación) Acierto (entrenamiento) NB 0.715 0.995 IR 0.790 0.990
  • 26. Curva ROC La curva ROC es una técnica para ver cómo varía la tasa de verda- deros positivos (TPR) y de falsos positivos (FPR) conforme el umbral discriminante cambia. El área bajo esta curva representa la probabilidad de que un caso que el clasicador haya categorizado como positivo, efectivamente, sea realmente positivo
  • 27. Grácas de la curva ROC. NB
  • 28. Grácas de la curva ROC. IR
  • 29. Índice 1 ¾Puede Twitter hundir un banco? 2 Análisis de Sentimiento Usos de este análisis Análisis en español Entrenamiento especíco para reputación 3 Metodología de clasicación Extracción de features Estimación de probabilidades Clasicadores 4 Resultados Tasa de acierto Curva ROC 5 Conclusiones
  • 30. Conclusiones • El clasicador NB tiene overtting que el clasicador IR no tiene. • Esto se debe, entre otras cosas, al uso de Laplace suavizado y a la hipótesis tweet ∼ i fi • La hipótesis de independencia es ingenua pero funciona • Los bigramas y trigramas ayudan al análisis en español Resultados parecidos + ventajas de nuestro clasicador → IR ≥ NB
  • 31. Conclusiones • Prueba de una nueva concepción de objeto a clasicar • Obtención de corpus especíco para reputación • Solución técnica de un problema real • Desarrollo de la aplicación Qdos
  • 32. Gracias por su atención!! Agradecimientos: Hugo Marrão y Rogelio Rodríguez