DataMining_lastfm

’Técnicas de Miner´ıa de Datos para el
análisis de la información de las redes
sociales. El caso de Last.FM.’
Rubén Afonso Francos
16 de Septiembre de 2011
Directora:
Prof. Dra. Susana San Mat´ıas Izquierdo
Departamento de Estad´ıstica e Investigación Operativa Aplicadas y
Calidad
Universidad Politécnica de Valencia
Master Universitario en Análisis de Datos, Mejora de Procesos y Toma de
Decisiones

Resumen
La miner´ıa de datos es una disciplina que goza de buena salud desde hace años, vinculada
principalmente a la extracción no trivial de información con fines comerciales a partir de
fuentes de datos de diversa naturaleza.
En el mundo empresarial la miner´ıa de datos ha estado tradicionalmente ligada a las
áreas encargadas de mantener la relación con el cliente final, la detección de patrones
de fuga, fraudes y la gestión de recursos humanos de la propia empresa. Precisamente
esta consolidación ha hecho que en la actualidad sea un campo que hace uso de técnicas
estad´ısticas ampliamente documentadas, en constante evolución y aplicación a nuevos
campos del conocimiento. Hoy en d´ıa, el aumento de la cantidad de información que se
produce y trasmite a diario ha hecho que la miner´ıa de datos en particular, y las técnicas de
análisis de datos en general, cobren especial importancia como herramienta para obtener
información de alto valor estratégico a partir de grandes volúmenes de datos, muchas
veces obtenidos de fuentes externas a la propia empresa.
El auge de las redes sociales en los últimos años ha hecho que cada vez sea más
frecuente hacer uso de este tipo de información con fines comerciales, ya que a menudo
suele estar disponible de forma masiva y a un coste muy bajo o nulo, permitiendo, por
ejemplo, el estudio de los hábitos de consumidores potenciales, la elaboración de perfiles
de usuario o la estimación del impacto al lanzar al mercado un determinado producto.
El potencial de la miner´ıa de datos aplicada a las redes sociales es evidente. Sin embargo
hasta ahora éstos han sido campos que han evolucionado de forma paralela. El estudio
de las redes sociales parece estar muy ligado sin embargo a las nuevas tendencias en
visualización de datos, que han permitido analizar las mismas desde un punto de vista más
intuitivo y entender mejor su dinámica y evolución (de por s´ı complejas). Los estudios
sobre redes sociales en la actualidad muchas veces se limitan a análisis descriptivos muy
someros que no hacen uso del potencial que ofrecen las técnicas estad´ısticas tradicionales
de análisis de datos, desaprovechando la oportunidad de obtener resultados más robustos
que permitan una mejor toma de decisiones.
En nuestro trabajo proponemos el estudio de Last.fm, una red social especializada en
contenidos musicales, con el fin de analizar los perfiles de usuarios y obtener información
a priori dif´ıcil de estimar como puede ser el grado de aceptación de un nuevo artista, o
la determinación del público objetivo para un determinado género musical, cuestiones de
interés dentro de la industria discográfica. Para este estudio recurrimos a las herramientas
de mineriá de datos tradiciones y sugerimos una posible metodolog´ıa a utilizar en sistemas
de recomendación basados en etiquetas, la elaboración de las llamadas dimensiones.
3

Declaración
Declaro que esta Tesis de Máster ha sido realizada por mi, que todo el trabajo contenido
es m´ıo a menos que se indique lo contrario en el texto y que este documento no ha sido
utilizado para la obtención de ningún otro t´ıtulo o reconocimiento académico.
Rubén Afonso Francos,
Valencia 16 de Septiembre de 2011
4

Índice
Resumen 3
1. Introducción 9
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Motivación y Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Miner´ıa de Datos 14
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2. El proceso de miner´ıa de datos . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Evolución histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Métodos estad´ısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5. Análisis Clúster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1. Determinación del número de clusters . . . . . . . . . . . . . . . 21
2.5.2. Representación Silhouette . . . . . . . . . . . . . . . . . . . . . 22
2.5.3. Algoritmo K-medias . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5.4. Algoritmo PAM . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.5. CLARA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.6. Clustering jerárquico . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6. Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . . . 31
2.7. Reglas de asociación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.8. CART / Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3. Redes Sociales 36
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2. Estructuración de los datos: tags . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Sistemas de Recomendación Musical . . . . . . . . . . . . . . . . . . . . 38
3.3.1. El problema de la recomendación . . . . . . . . . . . . . . . . . 38
3.3.2. Métodos de recomendación musical . . . . . . . . . . . . . . . . 39
3.3.3. Recomendación musical basada en dimensiones . . . . . . . . . . 42
4. El caso de Last.FM 44
4.1. Obtención de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2. Datos iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5

4.4. Descripción del modelo de datos . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1. Análisis descriptivo de los datos de tags y artistas . . . . . . . . . 50
4.4.2. Usuarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5. Obtención de las dimensiones de los artistas . . . . . . . . . . . . . . . . 55
4.5.1. Reducción de la dimensionalidad en el conjunto lm-artistas . . . . 55
4.6. Clustering de artistas y definición de perfiles . . . . . . . . . . . . . . . . 61
4.7. Predicción del número de escuchas . . . . . . . . . . . . . . . . . . . . . 63
4.7.1. Elaboración de las dimensiones de los usuarios . . . . . . . . . . 63
4.7.2. Modelo Predictor . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.8. Predicción del interés del usuario . . . . . . . . . . . . . . . . . . . . . 67
5. Conclusiones y Trabajo Futuro 73
Bibliograf´ıa 75
Apéndice 77
A. Conjunto de tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B. Detalle del clustering jerárquico de tags . . . . . . . . . . . . . . . . . . 79
C. Correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6

Índice de figuras
2.1. Disciplinas de la miner´ıa de datos . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Etapas en el proceso de la miner´ıa de datos . . . . . . . . . . . . . . . . 16
2.3. Ejemplos de gráficos Silhouette . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Ejemplo de K-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5. Ejemplo de PAM sobre el conjunto Iris . . . . . . . . . . . . . . . . . . . 27
2.6. Cluster jerárquico (aglomerativo, distancia de Ward) del conjunto Iris . . 29
2.7. Gráfico de Scores y Loadings resultantes del PCA sobre el conjunto Iris . 32
3.1. Proceso de elaboración de las dimensiones de los usuarios . . . . . . . . . 42
4.1. Modelo Lógico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2. (1) Frecuencia de cada tag por su ID. (2) Número de tags para cada artista 50
4.3. Frecuencia de la variable Sexo . . . . . . . . . . . . . . . . . . . . . . . 51
4.4. Distribución de la variable edad . . . . . . . . . . . . . . . . . . . . . . . 51
4.5. Frecuencias del atributo Pa´ıs. Se muestran los 30 primeros pa´ıses con más
usuarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.6. Frecuencias por categor´ıas del atributo Pa´ıs . . . . . . . . . . . . . . . . 53
4.7. Distribución de la variable logins de los usuarios recogidos en el conjunto
de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.8. Distribución de la variable hits de los usuarios del conjunto de datos. . . . 55
4.9. Evolución del coef. Silhouette al aplicar PAM sobre el cjto de tags . . . . 56
4.10. Silhouette de PAM(k=2) sobre los tags . . . . . . . . . . . . . . . . . . 57
4.11. Gráfico de scores PCA del conjunto de tags . . . . . . . . . . . . . . . . 58
4.12. Variabilidad explicada en el PCA por cada componente . . . . . . . . . . 59
4.13. Clustering jerárquico de los tags . . . . . . . . . . . . . . . . . . . . . . 60
4.14. Silhouette del agrupamiento de los 100 artistas más referenciados . . . . 62
4.15. Errores de validación MAPE para diferentes parámetros de la red neuronal. 66
4.16. Esquema de la red neuronal utilizada para predecir no
de escuchas de un
artista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.17. Distribución de las audiciones para Pink Floyd . . . . . . . . . . . . . . . 68
4.18. Distribución de las audiciones para los 100 artistas más populares . . . . 69
4.19. Distribución del valor mediana para las medianas de los 100 artistas más
populares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7

Índice de cuadros
3.1. 12 tags más utilizados para Coldplay . . . . . . . . . . . . . . . . . . . 41
4.1. Conjunto de datos lm-artistas . . . . . . . . . . . . . . . . . . . . . . . 45
4.2. Conjunto de datos lm-usuarios . . . . . . . . . . . . . . . . . . . . . . . 46
4.3. Volumen de datos en lm-usuarios . . . . . . . . . . . . . . . . . . . . . 46
4.4. Volumen de datos en lm-artistas . . . . . . . . . . . . . . . . . . . . . . 46
4.5. Recodificación del atributo Edad . . . . . . . . . . . . . . . . . . . . . . 48
4.6. Recodificación del atributo Pais en regiones geográficas . . . . . . . . . . 48
4.7. Estructura de datos resultante . . . . . . . . . . . . . . . . . . . . . . . 50
4.8. Dimensiones de los artistas, obtenidas a partir del clustering jerárquico de
los tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.9. Reglas de asociación de los tags en cada cluster . . . . . . . . . . . . . . 63
4.10. Conjunto de datos lm-gustos . . . . . . . . . . . . . . . . . . . . . . . 64
4.11. Valores utilizados para los parámetros de la red neuronal . . . . . . . . . 65
4.12. Errores obtenidos tras construir la red neuronal . . . . . . . . . . . . . . 67
4.13. Matriz de confusión de random forest sobre el conjunto de datos de en-
trenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.14. Matriz de confusión de random forest sobre el conjunto de datos de testeo 71
4.15. Resultados de la validación de random forest . . . . . . . . . . . . . . . 72
5.1. Tags del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2. Correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8

Cap´ıtulo 1
Introducción
En los últimos años la miner´ıa de datos ha experimentado un resurgimiento debido a
las necesidades por parte de las empresas e instituciones de dar sentido y valor añadido a
los grandes volúmenes de datos que se generan diariamente como fruto de su actividad.
El aumento de la información en nuestra sociedad ha dado fruto a la creación de grandes
conjuntos de datos que debido a su extensión dificultan el procesamiento y el análisis de la
información mediante métodos clásicos de tratamiento de datos. La búsqueda de patrones,
relaciones, reglas y asociaciones útiles que aporten información relevante o conocimiento
para el proceso de toma de decisiones se ha revelado como una importante herramienta de
retroalimentación que permite mejorar tanto a nivel empresarial como a nivel institucional.
El aumento de las prestaciones de los equipos informáticos también ha contribu´ıdo a
popularizar las técnicas de análisis de datos, pudiéndose llevar a cabo e implantar dentro
de la cadena de producción con costes admisibles para las empresas.
En la actualidad, la expansión de Internet y las redes sociales ha hecho que las técni-
cas de miner´ıa de datos cobren un valor añadido al permitir recopilar información que se
encuentra disponible públicamente y de forma gratuita en muchas redes sociales y que
permite inferir conclusiones sobre los usuarios de las mismas. Dicha información puede ir
desde simples estad´ısticas de uso hasta patrones de conducta o consumo, ambos de alto
valor para empresas de marketing, a coste prácticamente cero, ya que los datos muchas
veces son fácilmente recopilables de forma automatizada, e incluso un gran número de re-
des proporcionan medios e incentivan el tratamiento y estudio de sus datos, generalmente
mediante un sistema API 1
.
La información contenida en las redes sociales puede ser utilizada para elaborar sistemas
de recomendación, cuyo fin último es proporcionar predicciones sobre un usuario a partir de
los datos existentes de otros usuarios (Costa[12]). Con la difusión de Internet y el comercio
electrónico, grandes compañias como Amazon o Netflix han elaborado sus propios sistemas
de recomendación espec´ıficos para los diferentes tipos de actividades que desempeñan,
siendo uno de ellos los sistemas de recomendación musicales, especializados en sugerir
nuevos artistas. Como paso previo a la recomendación, en estos sistemas suele existir una
fase de clasificación, en la que el usuario es previamente clasificado dentro de un cierto
grupo atendiendo a su historial en el sistema. Una vez ubicado dentro de un cierto perfil,
se realiza la fase de recomendación propiamente dicha donde interviene nuevamente la
1
API: application programming interface
9

información sobre los gustos del usuario, pero también los gustos de usuarios similares
(Celma[13]).
1.1. Antecedentes
Sorprendentemente, los trabajos relacionando el campo de la miner´ıa de datos con el
estudio de las redes sociales hasta la actualidad son escasos.
Si realizamos una búsqueda mediante Google Scholar 2
durante los últimos años las
publicaciones sobre miner´ıa de datos y redes sociales ascienden a 35 publicaciones en
el año 2010. En cambio, el número de ar´ticulos publicados el mismo año relacionados
con las redes sociales llegó hasta los 1634. De hecho, el análisis de redes sociales (SNA
por sus siglas en inglés) es una disciplina con una larga trayectoria y objeto de continua
investigación. De forma similar, los articulos publicados en el año 2010 sobre miner´ıa de
datos sobrepasaron los 2300.
Ambas son disciplinas de actualidad que hoy en d´ıa se han visto impulsadas por el auge
de Internet y la ubicuidad de los sistemas de información.
Esto nos indica que efectivamente parece existir un vac´ıo en las publicaciones que ven
la luz vinculando estos dos campos. Sin embargo, parece ser que las investigaciones sobre
el uso de la información contenida en redes sociales continúa de forma privada (y por lo
tanto no publicada) en campos dispares como la investigación de mercados 3
, instituciones
bancarias 4
, e incluso como parte de programas de inteligencia gubernamentales 5
.
Entre las primeras referencias al uso de la miner´ıa de datos aplicada a redes sociales
se encuentra el trabajo de Richards y Higgins[14] en el año 2001, donde los autores ya
expon´ıan que las técnicas utilizadas hasta el momento para la visualización de grandes
conjuntos de datos eran insuficientes cuando se dispone de un gran volumen de informa-
ción.
Posteriormente aparecieron nuevos trabajos sobre miner´ıa de datos en diferentes ámbitos,
destacando algunos ligados al estudio de redes sociales para la obtención de información
vinculada a la seguridad gubernamental (Liu et al.[15], COPLINK[17]) as´ı como a los prob-
lemas de privacidad derivados del uso de dichas técnicas en redes sociales (Kleinberg[16]),
que indican la tendencia de las primeras investigaciones.
No fue hasta hace pocos años, alrededor de 2008/2009, cuando la masa de usuarios de
las redes sociales alcanzó el volumen suficiente como para ser vista como un fenómeno im-
portante con doble valor añadido. Por un lado los usuarios de las redes sociales comenzaron
a ser considerados como posible objetivo comercial de las campañas de marketing, lo que
contribuyó a comenzar a estudiar dichas redes, y por otra parte, el conocimiento derivado
de las mismas empezó a utilizarse para fines comerciales en entornos externos a las redes
2
buscando art´ıculos que tengan las siguientes palabras en el t´ıtulo: mining social network
3
http://www.tomhcanderson.com/2010/01/29/data-mining-and-social-media-in-market-research-
interview/
4
http://rbach.net/blog/index.php/banks-and-bosses-using-social-media-to-assess-risk/
5
White House Seeks to Capture Citizens Comments http://www.cnsnews.com/news/article/53363
10

sociales, utilizándolas como fuente de información para entender el comportamiento de
los consumidores de la sociedad en s´ı.
De los diferentes tipos de redes sociales, hasta la actualidad uno de los menos estudia-
dos son las redes sociales centradas en la música; siendo LastFM la principal de ellas por
número de usuarios. Existen algunos trabajos recientes que han estudiado LastFM, en con-
creto la información etiquetada asociada a los artistas (los llamados tags) (Douglas[18],
Robert et al.[19]), as´ı como la forma en que esta red social refleja el panorama musical
actual (Chen et al.[20]).
El aumento en el número de usuarios de LastFM ha inspirado algunos art´ıculos sobre
cómo aprovechar dicha información para construir mejores sistemas de recomendación en
tiendas online (Costa[12], López y Rodr´ıguez[21]), o para elaborar sistemas que sugieran
artistas emergentes, que de otra forma pasar´ıan desapercibidos a los usuarios (Celma[13]).
1.2. Motivación y Objetivos
En la actualidad, la gran mayor´ıa de estudios aplicados a redes sociales se basan en
análisis descriptivos, muchas veces haciendo uso de técnicas de visualización de datos, que
si bien presentan ciertas ventajas frente a las técnicas estad´ısticas y facilitan la comprensión
de las redes, en ocasiones son insuficientes para interpretar en profundidad la información
contenida en las mismas, sobre todo cuando el volumen de datos es muy grande.
El objetivo de nuestro trabajo es aplicar las técnicas de miner´ıa de datos tradicionales
en un entorno nuevo como son los conjuntos de datos procedentes de redes sociales.
Estos datos, por provenir de este tipo de redes, presentan caracter´ısticas particulares
que influyen en la forma en que se manipular´ıan en un proceso habitual de miner´ıa de
datos. Abordamos los sistemas de recomendación basados en etiquetas y proponemos la
elaboración de estructuras de datos (denominadas dimensiones) que faciliten el manejo
de información en dichos sistemas.
La información obtenida puede utilizarse para fines comerciales como la elaboración
de perfiles de usuario o definición de sistemas de recomendación de compra, as´ı como la
predicción de gustos de los usuarios. Todos ellos son objetivos tradicionales de las técnicas
de miner´ıa de datos.
En nuestro trabajo proponemos:
estudiar las particularidades de la obtención de datos provenientes de redes sociales.
aplicar las técnicas de miner´ıa de datos para obtener conclusiones sobre la red social
más allá de las conclusiones meramente descriptivas, de forma que se genere nuevo
conocimiento.
una metodolog´ıa para facilitar el manejo de la información en sistemas de recomen-
dación musicales basados en etiquetas mediante la elaboración de las denominadas
dimensiones musicales.
11

extraer información a partir de las mismas de forma que se puedan clasificar los
usuarios en función de sus hábitos de escucha.
elaborar modelos predictivos a partir de la información de la red que sirvan para
mejorar la calidad de los sistemas de recomendación musical.
1.3. Metodolog´ıa
La forma de trabajar con datos obtenidos de redes sociales difiere de las metodolog´ıas
tradicionales en lo que al proceso de obtención de datos se refiere, ya que la mayor´ıa de
redes sociales en lugar de proporcionar conjuntos de datos cerrados y estáticos dan acceso
a la información contenida en sus sistemas mediante interfaces de programación (APIs)
que permiten acceder prácticamente en tiempo real a los datos manejados dentro de la
red. Este acceso no suele ser completo ya que por motivos de privacidad algunos datos
no están disponibles libremente, e incluso en ocasiones los usuarios pueden decidir cuales
de sus datos se pueden distribuir y cuáles no. Esto debe tenerse en cuenta sobre todo en
la fase de preprocesado de los datos, ya que puede ser necesario filtrar los usuarios para
utilizar únicamente aquellos que proporcionan un m´ınimo de información útil.
De igual manera el acceso mediante la API definida suele estar restringido, de forma
que para poder hacer uso de la misma sea necesario previamente darse de alta en el propio
sistema, ya sea como simple usuario o expl´ıcitamente como desarrollador. La cantidad de
información a obtener var´ıa de una red a otra, pero normalmente suelen existir restricciones
temporales, expresadas en parámetros como l´ımite máximo de conexiones por minuto
ó volumen de información a consultar en un cierto per´ıodo de tiempo. Muchas de estas
restricciones buscan salvaguardar el rendimiento de los propios sistemas de la red.
Una vez obtenidos los datos se requiere de una fase de preprocesamiento para adecuarlos
a los futuros análisis estad´ısticos. Esta parte suele requerir de una gran fracción del total
de tiempo del proyecto, siendo en ocasiones la fase en la que más tiempo se invierte de
todo el proceso de extracción y análisis de los datos.
En nuestro trabajo hemos utilizado un conjunto de datos ya existente proveniente de
LastFM, lo que nos ha significado un ahorro de tiempo ya que los l´ımites impuestos por
dicha red, aunque no afectan a la información disponible, s´ı lo hacen respecto a la cantidad
de transacciones por minuto lo que significa que para obtener un conjunto de datos lo
suficientemente amplio como el nuestro se hubiera requerido de d´ıas o incluso semanas.
Posteriormente los datos han sido analizados mediante diversas técnicas estad´ısticas;
para nuestro estudio, debido a su amplia difusión dentro de la comunidad investigadora y
a su amplio abanico de recursos, hemos elegido el entorno de de programación R.
Con las conclusiones obtenidas, hemos clasificado los usuarios en grupos atendiendo a
diversos criterios, y dicha agrupación nos ha permitido además extraer reglas que poten-
cialmente podr´ıan incorporarse a un sistema de recomendación musical para mejorar su
eficacia.
12

1.4. Estructura
Este documento está estructurado de la siguiente manera:
Cap´ıtulo 1: introduce nuestro trabajo y proporciona una visión global del mismo.
Cap´ıtulo 2: proporciona información preliminar sobre el conjunto de técnicas y metodolog´ıas
que se incluyen dentro de la disciplina conocida como miner´ıa de datos y que hemos
utilizado posteriormente en nuestro caso de estudio.
Cap´ıtulo 3: se introducen las estructuras conocidas como redes sociales, los sistemas
de recomendación más habituales y se propone una metodolog´ıa basada en la uti-
lización de las etiquetas para deducir información sobre los usuarios (elaboración de
dimensiones).
Cap´ıtulo 4: proponemos un caso de estudio con datos procedentes de una conoci-
da red social, LastFM, aplicando algunas técnicas habituales en miner´ıa de datos.
También se exponen los resultados obtenidos de dichos análisis.
Cap´ıtulo 5: presenta las conclusiones de nuestro trabajo y se señalan algunos puntos
sobre los que trazar futuras l´ıneas de investigación.
13

Cap´ıtulo 2
Miner´ıa de Datos
2.1. Introducción
En los últimos años cada vez más datos están siendo almacenados en las organizaciones
y/o empresas para diversos fines. Sin embargo, en muchas ocasiones no se extrae infor-
mación útil de los mismos lo que impide la generación de nuevo conocimiento. Basándose
en la premisa de que los datos poseen más información de la observada a simple vista,
nació en los 60 la disciplina conocida como KDD (Knowledge Discovery from Databases),
extracción de conocimiento a partir de bases de datos, a partir de la cual nació la miner´ıa
de datos tal y como la conocemos hoy en d´ıa.
Podemos definir KDD como el proceso no trivial de identificar patrones válidos, nove-
dosos, potencialmente útiles y comprensibles a partir de datos (Fayyad[27]). Inicialmente
una de las partes de dicho proceso la constitu´ıa la miner´ıa de datos, pero con el transcur-
so del tiempo, la adopción de ésta última por parte de la industria ha hecho que en la
actualidad el conjunto en su totalidad se denomine miner´ıa de datos.
La emergencia de la miner´ıa de datos está intr´ınsecamente relacionada con el desarrollo
de las tecnolog´ıas de la información, en concreto con la evolución y organización de
las tecnolog´ıas de bases de datos. Las herramientas para la consulta y elaboración de
informes proporcionadas por muchas bases de datos son fáciles de usar; ayudan a explorar
los datos hasta cierto punto, ya que presentan algunas limitaciones. La miner´ıa de datos
es diferente de la mera extracción de datos porque se basa en la búsqueda de relaciones
y asociaciones entre fenómenos que no son conocidos de antemano, y que muchas veces
no son observables mediante un análisis superficial.
La miner´ıa de datos abarca en la actualidad de forma indirecta una serie de disciplinas
paralelas, no sólo las relacionadas con las técnicas estad´ısticas y el aprendizaje automático
sino también otras como la teor´ıa de bases de datos, ya que la fuente de información
suele ser una base de datos. También engloba las técnicas de visualización de datos,
herramientas de gran difusión.
14

Figura 2.1: Disciplinas de la miner´ıa de datos
Aunque la miner´ıa de datos ha estado siempre relacionada con el análisis estad´ıstico
de datos, existen algunos matices que los diferencian (Giudici[2]). La miner´ıa de datos
trata de analizar grandes conjuntos de datos, lo que implica tener en cuenta ciertas con-
sideraciones al plantear el análisis estad´ıstico. En muchas ocasiones es imposible analizar
la totalidad de la base de datos por limitaciones tecnológicas, por lo tanto es necesario
tomar una muestra de los datos. Esta muestra debe tener en cuenta qué se pretende
obtener con el proceso de miner´ıa de datos, por lo que no puede realizarse únicamente
con los métodos tradicionales de análisis de datos. Además existen nuevas y emergentes
formas de obtener los datos, como es el caso de la información obtenida directamente de
Internet, o de dispositivos móviles, que obliga a definir nuevos métodos de extracción de
datos, añadiendo as´ı una capa extra de complejidad técnica que va más allá del mundo de
la estad´ıstica. Finalmente, los resultados que se persiguen con la miner´ıa de datos deben
ser útiles para la empresa u organización, prestando atención a la viabilidad de los análisis
en relación al beneficio que proporcionan.
En conclusión, podemos decir que la miner´ıa de datos abarca más disciplinas que única-
mente el análisis de datos. De hecho las técnicas de análisis en miner´ıa de datos deber´ıan
formalizarse haciendo uso de los métodos estad´ısticos. Por otra parte, el contexto en que
se ubica la miner´ıa de datos hace que esta disciplina tenga en cuenta otros factores de
tipo técnico, económico y empresarial, fundamentales para aportar coherencia y justificar
la inversión en la búsqueda de nuevo conocimiento que soporte la toma de decisiones
dentro de la empresa.
15

2.2. El proceso de miner´ıa de datos
La miner´ıa de datos engloba una serie de actividades, desde la definición de objetivos
hasta la evaluación de resultados, descritos en los siguientes pasos:
Definición
de objetivos
pretratamiento
de los datos
Análisis
exploratorio
Especificación
de técnicas
estadísticas
Análisis
de los datos
Evaluación de los
métodos utilizados
Interpretación
del modelo escogido
Figura 2.2: Etapas en el proceso de la miner´ıa de datos
Definición de los objetivos
La definición de los objetivos incluye la especificación de lo que se espera del análisis. No
siempre es fácil describir lo que se quiere descubrir. De hecho, los objetivos establecidos
en entornos empresariales suelen ser claros, residiendo el problema en cómo traducir los
mismos en problemas espec´ıficos a tratar.
Esta parte es una de las más dif´ıciles del proceso, ya que lo que se determine en esta
etapa repercutirá directamente en las demás fases del mismo. Por lo tanto, los objetivos
deben ser claros y no dar lugar a dudas o incertidumbres.
Organización de los datos
Una vez estén claros los objetivos, es necesario seleccionar los datos a analizar. El
primer paso es identificar la fuente de donde obtener dichos datos. Normalmente suele ser
un origen interno, más barato y fiable, si bien en el caso de las redes sociales deben ser
extra´ıdos mediante los mecanismos oportunos. Los datos internos de la empresa tienen la
ventaja de ser producto de experiencias y procesos pasados de la propia empresa. La fuente
de datos ideal es el llamado almacén de datos (data warehouse), un almacén de datos
históricos que se mantiene estático (en el sentido de que se añade información pero no se
elimina) y del que es fácil extraer información de interés. La construcción y estructuración
del data warehouse es una materia compleja en s´ı misma, vinculada directamente con las
tecnolog´ıas de bases de datos.
Normalmente en esta fase del proceso también se realiza el preprocesado de los datos,
incluyendo la eliminación de información irrelevante, identificando variables útiles y descar-
tando aquellas que no sean objeto de estudio.
16

Análisis exploratorio de los datos
El análisis exploratorio de los datos incluye un análisis preliminar de los mismos, que
puede dar lugar a realizar transformaciones de las variables originales que ayuden al análisis,
as´ı como a la identificación de valores anómalos. Esta es una fase importante porque
permite al analista decidir qué métodos estad´ısticos pueden ser los más adecuados para
la siguiente parte del análisis.
También puede suceder que, como resultado del análisis exploratorio, se decidan extraer
nuevos datos porque los obtenidos inicialmente se consideren insuficientes para llegar a
los objetivos establecidos.
Especificación de los métodos estad´ısticos
Existen muchos métodos estad´ısticos que pueden ser utilizados y una gran cantidad de
algoritmos. La elección de los métodos depende del problema en cuestión y de los datos
disponibles.
Análisis de datos
Una vez se han especificado los métodos estad´ısticos a utilizar, deben ser trasladados
a algoritmos apropiados que ayuden a obtener los resultados a partir de la información
contenida en la base de datos. En la actualidad la variedad de software estad´ıstico y
de paquetes especializados en miner´ıa de datos hace que normalmente no sea necesario
desarrollar software propio, bastando con el que se proporciona por defecto. De todas
formas, debe asegurarse que los resultados proporcionados se adecúen a las caracter´ısticas
del problema en cuestión y ayuden en la toma de decisiones.
Evaluación de los métodos estad´ısticos
Para poder tomar una decisión final es necesario elegir el mejor análisis de entre los
disponibles. Por lo tanto, la elección del modelo y las reglas de decisión definitivas se basan
en la comparación de los resultados obtenidos con los diferentes métodos. Es posible que
ninguno de los métodos utilizados permita obtener una conclusión clara. En ese caso,
será necesario retroceder y especificar nuevos métodos que sean más apropiados para el
análisis. En miner´ıa de datos no suele bastar con un solo análisis de datos, algunas técnicas
se adaptan mejor que otras a un determinado problema. La ventaja de utilizar distintos
métodos es que cada uno de ellos permite resaltar diferentes aspectos que de otra forma
podr´ıan ser ignorados.
La evaluación de los métodos estad´ısticos suele ser una fase bastante ágil, donde se
evalúan los diferentes métodos y se proporcionan pruebas de por qué unos métodos dan
resultados que ayudan más o menos a obtener una conclusión a partir de los datos.
17

Implementación de los métodos
La miner´ıa de datos no finaliza una vez los datos han sido analizados, incluye también
la integración de los resultados en los procesos de decisión dentro de la compañ´ıa. El
conocimiento sobre la empresa, la extracción de reglas y su inclusión en los procesos
internos permiten pasar de la fase más anal´ıtica a la creación de un verdadero sistema de
ayuda a la decisión.
Por ejemplo, en el ámbito de la segmentación de clientes, una vez el modelo ha sido
elegido y testeado con un conjunto de datos, las reglas de clasificación pueden ser aplicadas
a toda la población. La inclusión del proceso de miner´ıa de datos dentro de la estructura de
la empresa debe realizarse paulatinamente, estableciéndose objetivos realistas y obteniendo
resultados gradualmente.
El objetivo final es que el proceso esté totalmente integrado con las demás herramientas
utilizadas en la empresa para dar soporte a la toma de decisiones.
2.3. Evolución histórica
La idea del data mining no es nueva. Ya desde los años sesenta los estad´ıstas manejaban
términos como data fishing, data mining o data archaeology con la idea de encontrar
correlaciones sin una hipótesis previa en bases de datos que presentaban observaciones
con ruido.
El aprendizaje automático está relacionado con la informática y la inteligencia artificial
y se encarga de encontrar relaciones y patrones en los datos que puedan ser convertidos
en conocimiento. El objetivo del aprendizaje automático es la reproducción del proceso
de generación de datos, permitiendo a los analistas generalizar a partir de los datos con-
cretos observados. En 1958, el trabajo de Rosenblatt[33] introdujo el primer modelo de
aprendizaje automático, denominado perceptrón. A partir de éste se desarrollaron las re-
des neuronales en la segunda mitad de la década de los 80. En el mismo per´ıodo, algunos
investigadores perfeccionaron la teor´ıa sobre árboles de decisión, utilizada sobre todo en
problemas de clasificación.
En la segunda mitad de los 80, debido al aumento de la relevancia de los métodos com-
putacionales como base para el cálculo estad´ıstico, hubo una evolución en el desarrollo
de métodos estad´ısticos multivariantes. Los métodos de aprendizaje automático comen-
zaron a utilizarse más allá del ámbito de las tecnolog´ıas de la información y la inteligencia
artificial. En particular, se aplicaron para elaborar campañas de marketing. De hecho, el
término extracción de conocimiento en bases de datos (KDD) se acuñó inicialmente para
describir todos aquellos métodos que intentaban encontrar patrones dentro de conjuntos
de datos. Gradualmente el término KDD se utilizó para todo el proceso de extrapolación
de información; una de sus fases era la llamada miner´ıa de datos, en referencia a la etapa
donde los algoritmos de aprendizaje se aplicaban a los datos. Este término terminar´ıa por
abarcar todo el proceso, como sucede en la actualidad.
En la década de los 90, los estadistas comenzaron a interesarse en los métodos de
aprendizaje automático, lo que llevó al desarrollo de nuevas metodolog´ıas. Fue entonces
18

cuando los entornos empresariales comenzaron a englobar todas las partes del proceso
de aprendizaje bajo la denominación de miner´ıa de datos. Esta entrada en el ámbito
empresarial fue posible debido a la reducción en el coste del almacenamiento en las bases
de datos y a los evidentes beneficios de la miner´ıa de datos. Las empresas comenzaron
a utilizar estas técnicas para dar soporte a las diferentes fases del ciclo de vida de los
clientes, incluyendo la adquisición de nuevos clientes, el aumento de los beneficios de los
clientes existentes y la fidelización de los mejores.
En la actualidad, la miner´ıa de datos es utilizada en una amplia variedad de industrias
y sectores incluyendo el análisis de texto, medicina, log´ıstica, telecomunicaciones, mar-
keting, Internet y programas gubernamentales relacionados con la seguridad, el servicio
a los ciudadanos y el fraude fiscal. Nuevas tendencias incluyendo el llamado webmining,
extracción de conocimiento a partir de fuentes de datos online y la expansión de las redes
sociales, han hecho que la miner´ıa de datos cobre renovada importancia.
2.4. Métodos estad´ısticos
Los métodos estad´ısticos utilizados en miner´ıa de datos pueden clasificarse dentro de
tres grandes clases, atendiendo a los objetivos que persiguen: métodos descriptivos, méto-
dos predictivos y métodos locales (Giudici[2]):
Métodos descriptivos (aprendizaje no supervisado)
Tienen como objetivo describir los datos de la forma más resumida posible; también
son llamados métodos indirectos o no supervisados, ya que no se conoce de antemano
la clase a la que pertenecen los datos en una hipotética clasificación. Todas las variables
disponibles son consideradas por igual y no hay hipótesis de causalidad entre ellas.
Entre las técnicas descriptivas más habituales encontramos:
algoritmos de agrupamiento jerárquico y no jerárquico (clustering).
mapas autoorganizados (SOM) y redes de Kohonen.
métodos gráficos para la visualización de datos.
Métodos predictivos (aprendizaje supervisado)
Los métodos predictivos buscan describir una o más de las variables en relación a las
demás, por ello también son llamados métodos supervisados. Para ello buscan patrones que
permitan elaborar reglas de clasificación o predicciones basadas en los datos existentes.
Estas reglas permiten predecir o clasificar el resultado de una o más variables respuesta
en relación a una serie de variables denominadas explicativas, o de entrada.
Los métodos más importantes son aquellos desarrollados en el campo del aprendizaje
automático como las redes neuronales (destacando el perceptrón multicapa) y los árboles
de decisión. También entran dentro de esta categor´ıa modelos estad´ısticos clásicos como
la regresión lineal y la log´ıstica.
19

Métodos locales
El tercer grupo de métodos lo constituyen los métodos locales, cuyo objetivo último es
identificar aquellas caracter´ısticas particulares relacionadas con un subconjunto de interés
en la base de datos. Desde esta consideración, los métodos descriptivos y predictivos
anteriormente citados pueden ser considerados como globales.
El máximo exponente de métodos locales lo constituyen las reglas de asociación, muy
utilizadas para analizar datos transaccionales.
2.5. Análisis Clúster
El análisis de agrupamiento, ó cluster, es una de las técnicas descriptivas más utilizadas
y estudiadas de entre todos los métodos utilizados en miner´ıa de datos. También llamado
segmentación de datos, se utiliza de forma descriptiva para determinar si un conjunto de
datos conforma o no un conjunto de subconjuntos (clusters), donde cada uno contiene
objetos con caracter´ısticas comunes. Esto requiere de una medida de la similitud entre
los objetos para poder asignarlos a los correspondientes clusters, lo que nos lleva a la
noción de grado de similitud entre los objetos individuales que se agrupan. Un método de
clustering intenta agrupar dichos objetos basándose en la definición de similitud que se
utilice.
Dada una matriz formada por n observaciones (filas) y p variables (columnas), el ob-
jetivo del análisis cluster es agrupar dichas observaciones en grupos de forma que sean
internamente homogéneos (cohesión interna) y heterogéneos entre los grupos (separación
externa).
Métodos de agrupamiento
Podemos dividir los métodos de agrupamiento en dos grandes familias, atendiendo a
cómo realizan el agrupamiento de las observaciones.
Métodos jerárquicos: comienzan la división con todas las observaciones separadas,
partiendo de n clusters, uno para cada observación. Como su nombre indica, se
obtiene como resultado una representación jerárquica donde los clusters a cada
nivel son creados uniendo los clusters existentes a niveles inferiores. En los niveles
más bajos se encuentran las observaciones individuales mientras que en el nivel más
alto existe un único cluster conteniendo todas las observaciones.
Métodos no jerárquicos: en estos métodos se obtiene una división de las n observa-
ciones en g grupos, donde g debe ser definido a priori. Al contrario de los métodos
jerárquicos, el resultado es una única partición que satisface el criterio de optimalidad
que se haya definido, normalmente el agrupamiento que permite obtener la máxima
cohesión interna para el número especificado de grupos. Para alcanzar esta meta, se
clasifica cada observación atendiendo al valor de una función objetivo previamente
establecida.
20

Elección de las variables
La elección de qué variables utilizar para el clustering tiene que tener en cuenta múltiples
aspectos. Utilizar variables que tengan poca relevancia empeorará la calidad del resultado.
En general, el agrupamiento puede considerarse satisfactorio cuando no muestra excesiva
sensibilidad a cambios pequeños en el conjunto de variables utilizadas.
Antes de realizar un análisis cluster es conveniente realizar algún tipo de análisis previo
que nos proporcione información adicional sobre las propias variables objeto del estudio,
con técnicas como el análisis de la matriz de correlación, o más sofisticadas como el
Análisis de Componentes Principales (PCA).
2.5.1. Determinación del número de clusters
En los métodos no jerárquicos es necesario proporcionar a priori el número de clusters
en los que se desean agrupar las observaciones iniciales.
La determinación del número de clusters en un conjunto de datos es un problema
frecuente, previo al propio análisis cluster, que se ha convertido en objeto de estudio
independiente en s´ı mismo. En algunos tipos de algoritmos cluster existe un parámetro
normalmente referenciado como k, que especifica el número de clusters a detectar.
La elección de k suele ser ambigua, con interpretaciones que dependen de la escala de
la distribución de los puntos del conjunto de datos y la resolución que se desea en el
resultado. Utilizar un número de clusters demasiado grande puede llevar a resultados
complejos dif´ıciles de interpretar y evaluar, si es demasiado grande se pierde la motivación
del análisis, mientras que la elección de un número de clusters demasiado bajo lleva a
la pérdida de información, no refleja correctamente las caracter´ısticas de los datos, y
potencialmente, a la toma de decisiones erróneas (Phama et al.[8]).
Por lo tanto, en lugar de adoptar un valor de k predefinido, es una buena práctica probar
con diferentes valores del mismo.
Algunos métodos utilizados para encontrar el número adecuado de clusters son:
visualización del conjunto de datos, lo que puede funcionar bien para el caso concreto
de dos variables, es decir, bidimensional; generalmente los conjuntos de datos son
más complicados.
construcción de reglas de parada: se recurre al uso de ´ındices para enfatizar la
compactación intracluster y la distancia intercluster utilizando herramientas como
el error cuadrático medio, propiedades geométricas de los datos o la matriz de
similitud.
métodos heur´ısticos basados en diferentes técnicas y aproximaciones.
Una sencilla técnica fácilmente aplicable es la llamada regla del codo (Thorndike[4]),
que parte de la regla intuitiva de que se deber´ıa elegir un número ideal de clusters de
forma que añadir un nuevo cluster no modele notablemente mejor los datos, es decir,
si representamos el porcentaje de varianza explicada frente al número de clusters, los
21

primeros añadirán mucha más información al modelo (explicarán más varianza), pero a
un determinado punto esta ganancia se reducirá, lo que se traduce en la gráfica en la
aparición de un ángulo (de ah´ı el nombre).
El punto donde se produce este cambio representar´ıa el número de clusters a utilizar.
Sin embargo, este punto en ocasiones puede no ser claramente observable (Ketchen y
Shook[3]).
A continuación describimos el método silhouette, una técnica ampliamente utilizada
para determinar el número de clusters, que proporciona por un lado un resultado gráfico
que permite visualizar qué número de clusters es más adecuado, y por otra parte un
resultado numérico para estimar la calidad del valor k elegido.
2.5.2. Representación Silhouette
Cuando se aplica un algoritmo de particionamiento en k clusters sobre un conjunto de
n observaciones, el resultado obtenido suele ser una lista de las mismas y los clusters en
los que se asignan. Sin embargo, este resultado no es tan visual como las representaciones
en dendogramas utilizadas en los métodos jerárquicos.
La representación en silhouettes (Rousseeuw[5]) es una representación gráfica de utili-
dad cuando la proximidad entre las observaciones sigue una escala de razón (como es el
caso de la distancia Eucl´ıdea) y el objetivo es obtener clusters compactos y claramente
diferenciados. Una gran ventaja de este tipo de representaciones es la gráfica obtenida,
que permite valorar la calidad del ajuste de una forma rápida e intuitiva.
Para construir las representaciones silhouette se necesitan dos elementos:
el particionamiento obtenido, (independientemente de la técnica utilizada para re-
alizarlo).
una medida de la proximidad entre las diferentes observaciones, por ejemplo la matriz
de similitud, o la matriz de distancias.
Con estos datos se obtiene un valor s(i) para cada una de las observaciones. Si para cada
observación i indicamos como A el cluster en el que se asigna, se define:
a(i) = media de la distancia de i frente a todos los demás elementos de A.
Tomando ahora los demás clusters C donde no ha sido asignado i,
d(i, C) = media de la distancia de i frente a todos los elementos de C.
Finalmente, para todos los d(i,C), definimos el menor como
b(i) = mind(i,C), con C = A.
El cluster B asociado con b(i), es decir (d(i, B) = b(i)) se denomina vecino del objeto i,
y podr´ıa verse como la segunda mejor clasificación del objeto i si el cluster A no existiese.
De esta forma, definimos s(i) como
22

s(i) = b(i)−a(i)
maxa(i),b(i)
El valor del coeficiente Silhouette puede variar entre -1 y 1, siendo el mejor caso cuando
vale 1, ya que indica que a(i)) = 0. Si el cluster A está formado por un sólo elemento se
define su s(i) = cero, ya que el valor a(i) no estar´ıa definido.
Una vez hemos obtenido los valores s(i), puede obtenerse la media de todos los s(i)
asociados a cada cluster y representarla gráficamente en función del número de clusters
k.
Como ejemplo, la siguiente figura muestra dos gráficos Silhouette obtenidos para difer-
entes valores de k, en concreto k = 2, y k=4, aplicando el algoritmo PAM (descrito
más adelante) al conjunto de datos Iris 1
, un conjunto ampliamente difundido entre la
comunidad investigadora.
Figura 2.3: Ejemplos de gráficos Silhouette
La primera gráfica describe el resultado al dividir el conjunto de pruebas en dos clusters.
Se obtiene una media del valor s(i) igual a 0,68.
En la segunda gráfica, al agrupar en cuatro clusters el valor obtenido s(i) es menor
(0.5), lo que nos indicar´ıa que ser´ıa más apropiado dividir en dos clusters. Operando de
esta forma, si obtuvieramos el gráfico Silhouette para un rango más amplio de valores
de k, podr´ıamos determinar cual es el valor más conveniente y utilizarlo posteriormente
para agrupar los datos por el método de agrupamiento que consideremos más adecuado,
no teniendo que ser necesariamente el mismo utilizado para obtener las representaciones
Silhouette.
1
http://archive.ics.uci.edu/ml/datasets/Iris
23

2.5.3. Algoritmo K-medias
El algoritmo k-means (k-medias) (Hartigans y Wong[9]) es uno de los métodos cluster
iterativos más conocidos. Se aplica principalmente cuando todas las variables son de tipo
cuantitativo, y para cuantificar cuánto cerca se encuentran unos puntos de otros se suele
elegir como distancia la distancia eucl´ıdea al cuadrado (L2),
d(xi , xi ) = p
j−1 (xij − xi j )2
= xi − xi
2
Existen otras medidas como la distancia Manhattan, o la medida de Jaccard; la elección
depende del tipo de datos a tratar.
Normalmente las medidas de distancia son relativamente simples ya que el algoritmo
debe calcular repetidamente la cercan´ıa entre cada par de puntos, cada vez que se recal-
culan los centroides. Esto hace que la rapidez de cálculo de la medida de distancias sea
un factor importante en el rendimiento del algoritmo (Tan et al.[6]).
El objetivo del algoritmo k-means es agrupar M puntos representados en N dimensiones
en k clusters de forma que la suma de los cuadrados intracluster sea m´ınima.
El algoritmo toma como entrada una matriz de M puntos en N dimensiones y una
matriz de k clusters iniciales centrados en dichas dimensiones. El número de puntos en el
cluster L se denota como NC(L). Para indicar la distancia eucl´ıdea entre el punto I y el
cluster L se utiliza D(I,L).
El procedimiento general es mover puntos de un cluster a otro para buscar una partición
en K clusters que origine la suma de cuadrados intracluster m´ınima (un óptimo local).
En el primer paso, los puntos son asignados a los centroides iniciales, que se encuentran
en el grupo más poblado de puntos. Una vez hecho esto, se actualizan los centroides.
De forma general podemos describir el algoritmo k-means en los siguientes pasos,
1. seleccionar k puntos como los centroides iniciales.
2. repetir
3. construir k clusters asignando cada punto a su centroide más cercano.
4. recalcular el centroide de cada cluster.
5. hasta que los centroides no cambien.
Cuando el algoritmo termina, debido a que no se producen nuevos cambios en los
centroides, éstos identifican los clusters alrededor de los cuales se agrupan los puntos.
La mayor parte de la convergencia tiene lugar en los primeros pasos, cuando el movimien-
to de los diferentes valores da lugar a mayores cambios en los centroides; por ello el criterio
de parada del último paso suele relajarse a una condición más suave, por ejemplo hasta
que sólo el 1 % de los puntos cambien de cluster.
La siguiente figura muestra el resultado de la aplicación del algoritmo k-means sobre
el conjunto de datos Iris, tomando un valor de k igual a 3; siendo éste un conjunto muy
24

estudiado sabemos a priori que los datos se agrupan en 3 clases. Cada una de las filas
corresponde a una de las dimensiones originales de los datos, y cada color a uno de las
clases (versicolor, cetosa y virg´ınica).
Sepal.Length
2.0 2.5 3.0 3.5 4.0
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
0.5 1.0 1.5 2.0 2.5
4.55.56.57.5
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
2.02.53.03.54.0
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
Sepal.Width
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qqq
q q
q
q qq q qq
q
q q
q
qq
q
q
q
q
q
q
q
qq qq
qq qq qq
q qqq
q
qqq
q
q
q
q
q qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q q
q
q
qq
q
q
q
q
qqq q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
qq q
q q
q
qqq q qq
q
q q
q
qq
q
q
q
q
q
q
q
q qqq
qq q qqq
q qqq
q
qq q
q
q
q
q
q qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q q
q
q
qq
q
q
q
q
q qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
Petal.Length
1234567
qqq
qq
q
qqqqqq
q
qq
q
qq
q
q
q
q
q
q
q
q qqq
qq qqqq
qqqq
q
qqq
q
q
q
q
qqq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
qq
q
q
qq
q
q
q
q
qqqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
4.5 5.5 6.5 7.5
0.51.01.52.02.5
qqqq q
q
q
qq
q
qq
qq
q
qq
q qq
q
q
q
q
q q
q
qqqq
q
q
qqq q
q
q q
qq
q
q
q
q
qq qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qqq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq qq q
q
q
qq
q
qq
qq
q
qq
q qq
q
q
q
q
qq
q
qqqq
q
q
qqq q
q
q q
qq
q
q
q
q
qq qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
1 2 3 4 5 6 7
qqqqq
q
q
qq
q
qq
qq
q
qq
qqq
q
q
q
q
qq
q
qqqq
q
q
qqqq
q
qq
qq
q
q
q
q
qqqq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qqq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
Petal.Width
Figura 2.4: Ejemplo de K-medias
Entre los inconvenientes del método k-medias podemos citar:
el algoritmo k-means asume que el número de clusters k es conocido de antemano, lo
que raramente sucede, (y lleva a recurrir a métodos para calcular dicho k previamente
a aplicar el algoritmo).
siendo una técnica iterativa, el algoritmo k-means es especialmente sensible a las
condiciones de inicio (número de clusters y orden de los datos). De hecho algunos
autores (Hartigan y Wong[9]) sugieren iniciar el algoritmo con diferentes valores
para las medias iniciales, y elegir la solución que dé el menor valor para la función
objetivo.
el algoritmo converge la mayor´ıa de las veces a un m´ınimo local.
A favor del algoritmo k-means está su baja demanda de recursos: el espacio en memoria
requerido para los cálculos es pequeño ya que solamente se guarda información sobre
los datos originales y los centroides. En concreto, la memoria necesaria es del orden de
O((m + K)n), siendo m el número de puntos y n el número de dimensiones. El tiempo
invertido en los cálculos es también reducido, prácticamente lineal con el número de puntos
25

(orden O(I∗K∗m∗n)) donde I es el número de iteraciones requeridas para la convergencia,
que suele ser pequeño y normalmente acotable fácilmente, ya que como hemos indicado
anteriormente la mayor´ıa de los cambios se producen en las primeras iteraciones (Tan et
al.[6]).
Podemos decir que el algoritmo k-medias es lineal con m, el número de puntos, sien-
do eficiente y simple siempre que k, el número de clusters, sea significativamente más
pequeño que m. Esto hace que, frecuentemente, se utilice como primera opción al llevar
a cabo estudios preliminares de los datos, o como una fase de procesamiento inicial para
obtener una configuración inicial que sirva de punto de partida para otros algoritmos más
complejos.
2.5.4. Algoritmo PAM
El algoritmo PAM (partitioning around medoids) es el exponente más representativo
del llamado algoritmo k-medoides (k-medoids).
El objetivo del algoritmo PAM es encontrar grupos que presenten un alto grado de simil-
itud entre sus elementos mientras que los elementos pertenecientes a diferentes clusters
sean lo más distintos posible (Kauman y Rousseeuw[10]).
En algoritmos como k-medias, los elementos representativos de cada cluster son los
centroides. El algoritmo PAM se basa en la misma idea de búsqueda de k elementos
representativos pero tomando los llamados medoides para cada cluster: aquellos elementos
del cluster que minimizan la distancia media respecto a los demás puntos, es decir, los
centros de los clusters son puntos reales del propio cluster. Una vez encontrados dichos
elementos, los clusters se construyen asignando cada punto del conjunto de datos al
medoide más cercano.
Algorithmo 1 Algoritmo PAM
1. Dada una distribución de los puntos en el cluster C, encontrar el elemento en el
cluster que minimice la distancia total a los demás puntos de dicho cluster:
i∗k = argmin{i:C(i)=k}
C(i )=k
D(xi , xi ).
Los valores mk , k = 1,2,. . . ,K son las estimaciones iniciales de los medoides de los
clusters.
2. Dado el conjunto actual de medoides {m1,. . . ,mK} minimizar el error total asignando
cada observación al medoide más cercano de los clusters existentes.
C(i) = argmin
1<=k<=K
D(xi , mk ).
3. Repetir los pasos 1 y 2 hasta que los medoides no cambien.
26

El primer paso, donde el algoritmo busca un conjunto inicial válido de medoides también
recibe el nombre en la literatura de fase de construcción (BUILD phase), mientras que la
segunda fase es denominada fase de intercambio (SWAP phase).
Como ejemplo aplicaremos el algoritmo PAM al conjunto de datos Iris, utilizando un
valor de k igual a 3. La Figura 2.5 muestra la representación en silhouettes, frecuentemente
utilizada para visualizar los resultados del método PAM.
Silhouette width si
0.0 0.2 0.4 0.6 0.8 1.0
Silhouette plot of pam(x = iris, k = 3)
Average silhouette width : 0.57
n = 150 3 clusters Cj
j : nj | avei∈Cj si
1 : 50 | 0.80
2 : 52 | 0.41
3 : 48 | 0.51
Figura 2.5: Ejemplo de PAM sobre el conjunto Iris
Comparado con el método k-medias, PAM presenta las siguientes ventajas:
PAM trabaja con la matriz de distancias del conjunto de datos. Si en lugar de este
dato se proporciona una matriz de n observaciones y p dimensiones, el algoritmo
calcula dicha matriz en primer lugar.
es más robusto ya que se minimiza la suma de distancias en lugar de la suma de los
cuadrados de las distancias eucl´ıdeas.
los resultados no dependen del orden en que se presenten las observaciones (a ex-
cepción de cuando existen múltiples soluciones equivalentes, lo que es muy poco
frecuente).
Desde el punto de vista del rendimiento, el cálculo del paso 2. del algoritmo requiere
un esfuerzo computacional proporcional al número de observaciones asignadas al clúster,
mientras que para resolver el primer paso el orden de complejidad es O(N2
k ). Con todo esto,
27

PAM es mucho más costoso de calcular que el algoritmo k-means, y para conjuntos de
datos grandes se suele recurrir a otros algoritmos, como CLARA, descrito a continuación.
2.5.5. CLARA
El método de particionamiento PAM descrito anteriormente da buenos resultados en-
muchos casos. Sin embargo, para conjuntos de datos muy grandes presenta problemas de
escalabilidad en el tiempo de cálculo y la memoria necesarios.
Debido a esto se planteó CLARA (abreviación de Clustering LARGge Applications),
especialmente adaptado para aplicaciones que hacen uso de grandes conjuntos de datos.
El clustering mediante CLARA se lleva a cabo en dos fases. Primero, una muestra se
toma del conjunto de datos y se agrupa en k clusters utilizando el método PAM, por lo
que se obtienen k elementos representativos. A continuación todos los elementos que no
pertenecen a la muestra se asignan al más cercano de los k representantes, lo que propor-
ciona un agrupamiento de todo el conjunto de datos. Una medida de la calidad de este
método puede obtenerse calculando la distancia media entre cada elemento del conjunto
de datos y su representante más cercano. Este proceso se repite 5 veces, tomando cada
vez una muestra aleatoria sobre el conjunto total, y seleccionando como solución aquella
que proporcione una menor distancia media respecto de su cluster más cercano.
A continuación se define la función utilizada para calcular dicha distancia.
Cost(M, D) =
i=1
n
distancia(Oi , rep(M, Oi ))
n
donde M es un conjunto de los medoides escogidos, distancia(Oi , Oj ) es la distancia
entre los objetos Oi y Oj , y rep(M, Oi ) devuelve el medoide en M más cercano a Oi .
Los datos de entrada al algoritmo son idénticos a los proporcionados para PAM y
similares métodos de agrupamiento, con la excepción de que con CLARA sólo es necesario
proporcionar la matriz original de datos (de n observaciones y p dimensiones). La matriz
de distancias se calcula posteriormente, solamente respecto a la muestra.
Los resultados obtenidos pueden darse en forma de representación gráfica mediante
silhouettes de la muestra seleccionada (ya que hacerlo con todo el conjunto de datos
podr´ıa ser demasiado costoso). El hecho de utilizar una muestra hace que la calidad de
los resultados dependa en gran medida del tamaño de la misma. Si la muestra es pequeña
CLARA es un método muy rápido pero a costa de perder calidad en el agrupamiento. Por
otra parte, al tomar muestras de tamaño fijo, el tiempo de cálculo y espacio en memoria se
mantienen lineales con el número total de elementos del conjunto en lugar de cuadráticos,
como suced´ıa en el algoritmo k-means.
Además, CLARA también proporciona información relativa a cada cluster, como su
tamaño y los medoides obtenidos. Finalmente también proporciona un ratio de la máxima
distancia de cada medoide respecto a su distancia al medoide más cercano; este valor da
una idea de la compactación del cluster. Un valor pequeño (≈ 20) indica un cluster muy
compacto mientras que un valor > 1 refleja un cluster débil.
28

2.5.6. Clustering jerárquico
En los métodos de clustering anteriores como k-medias, el resultado depend´ıa en gran
medida del número de grupos a buscar (el parámetro k). Por el contrario, los métodos
de agrupamiento jerárquico no lo necesitan. En su lugar debe proporcionarse una medida
de distancia entre dos grupos de observaciones dadas, basada en las distancias de las
observaciones de cada uno de ellos.
Como el nombre indica, lo que se obtiene son representaciones jerarquizadas donde
los clusters de cada nivel de la jerarqu´ıa se obtienen uniendo los clusters existentes en los
niveles inferiores. En el nivel más bajo cada cluster contiene una única observación mientras
que en el nivel más alto existe un único cluster agrupando todas las observaciones.
Sepal.Length
Petal.Width
Sepal.Width
Petal.Length
2530354045
Cluster Dendrogram
hclust (*, "ward")
d
Height
Figura 2.6: Cluster jerárquico (aglomerativo, distancia de Ward) del conjunto Iris
Las estrategias para el clustering jerárquico pueden ser divididas en dos grandes grupos:
aglomerativas (también llamadas bottom-up) y divisivas (o top-down). Las estrategias
aglomerativas comienzan por abajo, en cada nivel recursivamente fusionan un par de clus-
ters (aquellos con menor distancia entre s´ı) en uno solo, lo que produce un agrupamiento
en el siguiente nivel con un cluster menos. Los métodos divisivos por el contrario comien-
zan en la parte superior del árbol y en cada nivel recursivamente dividen uno de los clusters
existentes en dos nuevos clusters, aquellos dos con mayor distancia entre s´ı. Ambas es-
trategias generan un total de N-1 niveles.
Todos los métodos aglomerativos presentan una propiedad de monotonicidad; la dis-
tancia entre los clusters fusionados en cada nivel se incrementa progresivamente. Esto
29

hace que el árbol pueda ser representado mediante un dendograma de forma que el peso
de cada nodo sea proporcional al valor de la distancia entre sus nodos hijo. Los nodos
terminales, que representan observaciones individuales, se representan en la base.
El cálculo de la distancia entre las observaciones puede hacerse mediante diversas fórmu-
las, dando cada una resultados distintos. No existe una mejor que otra y la elección suele
depender del dominio del problema y los datos a analizar. Hay que destacar que los méto-
dos jerárquicos necesitan únicamente como entrada la matriz de distancias, por lo que
una vez calculada no es necesario trabajar más con los datos originales.
Una de las distancias más habituales es la distancia eucl´ıdea:
a − b 2 = (ai − bi )2
Además de una medida de la distancia entre muestras, es necesario definir una medida
de la distancia entre dos clusters. De forma similar, existen diversas medidas:
Single Linkage (SL): también llamada la técnica del vecino más próximo. Toma
como distancia entre clusters la menor distancia entre dos pares cualquiera de ambos
clusters:
dSL(G, H) = m´ıni∈G,i ∈H dii
Complete Linkage (CL): también llamada técnica del vecino más lejano. Toma como
distancia entre dos clusters la mayor distancia existente entre dos pares de observa-
ciones cualuesquiera de dichos clusters.
dCL(G, H) = máxi∈G,i ∈H dii
Group Average (GA): utiliza la media de las distancias entre ambos grupos:
dGA(G, H) = 1
NhNG
i∈G i ∈H dii
distancia de Ward: propuesta de Ward (Ward[26]). El objetivo es buscar las parti-
ciones Pk , Pk−1, . . . , P1 de forma que se minimice la pérdida asociada a cada agru-
pamiento y permita cuantificar dicha pérdida de forma intuitiva. La pérdida de in-
formación se expresa en términos de una suma de cuadrados (ESS);
ESS =
K
k=1 xi ∈Ck
p
j=1
(xij − ¯xkj )2
La principal diferencia de este método con los anteriores es el proceso de fusión de
los clusters, ya que no se unen los que tengan menor distancia sino aquellos que no
incrementen en exceso la heterogeneidad. Lo que se busca es unir clusters de forma
que la variación dentro de los mismos no se incremente. Como resultado se obtienen
clusters que son lo más homogéneos posible.
30

De nuevo no existe una regla sobre cuándo utilizar una medida u otra. Si los datos
presentan tendencia al agrupamiento en clusters compactos y claramente separados unos
de otros, los 4 métodos producirán resultados similares.
Las técnicas de clustering jerárquico están ampliamente extendidas ya que son fáciles
de aplicar y los dendogramas resultantes proporcionan información de manera intuitiva.
2.6. Análisis de Componentes Principales
PCA (análisis de componentes principales) (Pearson[23]) es una técnica que explora
datos multivariantes, y define nuevas variables expresadas como combinaciones lineales de
las originales de forma que el eje principal se encuentra en la dirección que contiene más
variacion.
Cada nueva variable es ortogonal a las precedentes, siempre en la dirección en la que se
explique más variabilidad. Las nuevas variables a menudo son llamadas variables latentes,
(LVs), y en el contexto del análisis PCA reciben el nombre de componentes principales
(PCs).
La idea principal del PCA es que a menudo muchas de las variables son superfluas, por lo
que se busca una reducción de la dimensionalidad, pasando de un espacio multidimensional
a otro con menos variables pero manteniendo la mayor parte de la información existente
en los datos originales, reduciendo la dimensionalidad del conjunto inicial. Los mejores
resultados se obtienen cuando la mayor parte de los datos pueden ser representados en
referencia a un subespacio bidimensional (un plano), ya que los resultados pueden ser
vistos directamente en referencia a estas dos dimensiones en lugar de un gran número
de dimensiones. Si los datos se representan en mas de dos dimensiones en el subespacio
también es posible la visualización (generalmente se eligen dos de las mismas de forma
interactiva).
El análisis PCA puede hacerse mediante la descomposición en autovectores de la matriz
de covarianza de los datos o bien a través de la descomposición de la matriz de datos en
valores únicos, normalmente tras centrar en media la matriz de datos, ya que las diferencias
en media de las diferentes variables puede alterar el resultado del análisis. Los resultados
obtenidos del análisis se suelen expresar en términos de dos valores para cada observación:
Scores: las coordenadas de las muestras en el nuevo espacio. Son los valores de cada
observación al calcular los nuevos valores de las variables.
Loadings: el peso por el cual debe multiplicarse cada variable original para obtener
el score.
Multiplicando scores y loadings se obtiene nuevamente una aproximación de los datos
originales (aproximada, ya que una cierta parte de la información se habrá perdido en la
descomposición inicial).
El análisis PCA permite representar los scores y loadings a través de sendos gráficos
homónimos, lo que ayuda a la interpretación de los resultados.
31

Figura 2.7: Gráfico de Scores y Loadings resultantes del PCA sobre el conjunto Iris
En la Figura 2.7 vemos un ejemplo de la aplicación del PCA sobre el conjunto Iris. El
gráfico de scores muestra como dos de las clases del conjunto pueden separarse lineal-
mente (la nube de puntos de las observaciones aparece dividida). En el gráfico de loadings
se refleja la relación entre las variables de longitud de pétalos Petal.Length y ancho de
pétalos Petal.Width. También se indica la variabilidad explicada por la primera componente
(72.96 %) y la segunda (22.85 %).
El uso del PCA permite por lo tanto reducir la dimensionalidad de problemas aparente-
mente inabordables y proporciona una herramienta para estudiar la variabilidad mediante
la búsqueda de estructuras subyacentes que pueden pasar desapercibidas mediante otras
técnicas anal´ıticas. El hecho de que sea una técnica no paramétrica es por una parte una
ventaja para el análisis exploratorio, pero por otra un inconveniente en ciertos casos al
impedir al analista aportar su posible conocimiento sobre el dominio del problema. Aún
as´ı, el análisis de componentes principales es una técnica muy extendida aplicable a una
gran cantidad de problemas en campos muy diversos.
2.7. Reglas de asociación
El análisis mediante reglas de asociación se ha convertido en una herramienta muy
utilizada para el estudio de bases de datos comerciales. El objetivo es obtener conjuntos
de las variables X = (X1, X2, . . . , Xp) que aparezcan con mayor frecuencia en el conjunto
de datos.
Normalmemente se utiliza para datos de tipo binario donde Xj ∈ {0, 1}; en este caso
frecuentemente se denomina análisis de la “cesta de la compra”, donde las observaciones
son ventas de productos. Las variables representan los productos vendidos en la tienda.
Para cada una de las i observaciones cada variable Xj toma el valor 1, xi j = 1 si se ha
producido una venta, o 0 en caso contrario. Aquellas variables que coincidan con valor
32

unitario frecuentemente se considerarán como productos que se han vendido juntos. Esta
información puede ser muy útil en campos como la planificación log´ıstica, técnicas de
publicidad, diseño de catálogos y segmentación de consumidores según sus patrones de
consumo.
El planteamiento original de las reglas de asociación, debido a la explosión combina-
cional que presenta, requiere de algunas simplificaciones para que puedar ser utilizable
para conjuntos de transacciones relativamente grandes (106
, 108
), tamaños habituales en
entornos comerciales. Esto ha llevado a la búsqueda de algoritmos para la elaboración
de reglas de asociación que sean rápidos y aplicables en la práctica, siendo el algoritmo
Apriori uno de los más extendidos.
Las reglas de asociación en el algoritmo Apriori pueden ser vistas como relaciones de
la forma “if-then”, obtenidas directamente de los datos de entrada, por lo que son por
naturaleza de carácter probabil´ıstico.
A ⇒ B
Tanto para el primer elemento de cada regla (A) denominado antecedente, como para
el segundo, consecuente (B) se asigna una medida de la calidad de la misma a través de
dos medidas:
El soporte (support) de la regla: es el número de transacciones que contienen to-
dos los elementos del antecedente y consecuente de la regla. Suele expresarse en
términos de porcentaje respecto al total de observaciones .
La confianza (confidence) de la regla: es el ratio entre el número de transacciones
que incluyen el antecedente y consecuente de la regla (el soporte) y el número total
de reglas que incluyen el antecedente:
C(A ⇒ B) = T (A⇒B)
T (A)
El tercer parámetro de interés en las reglas de asociación es el lift, que no es más que el
número total de transacciones que incluyen el consecuente dividido entre el número total
de transacciones:
L(A ⇒ B) = C(A⇒B)
T (B)
Es un valor que proporciona información sobre el aumento de la probabilidad del con-
secuente dada una ocurrencia del antecedente.
El algoritmo Apriori proporciona un buen rendimiento al reducir el número de conjuntos
candidatos. Sin embargo, en escenarios con conjuntos muy frecuentes, grandes subcon-
juntos o con un nivel de soporte muy bajo, necesita generar un gran número de candidatos
por lo que debe recorrer varias veces todo el conjunto de datos, aumentando el tiempo
computacional. Aún as´ı, dada su sencillez y rapidez se encuentra entre las técnicas de
miner´ıa de datos más utilizadas (Wu et al.[22]).
33

2.8. CART / Random Forest
El método CART (Classificacion and Regression Tree) (Breiman et al.[25]) es un pro-
cedimiento recursivo de particionamiento binario que permite utilizar variables cuantitati-
vas y categóricas tanto como variables predictoras como variables respuesta. Además no
necesita que los datos de entrada sean transformados de forma alguna.
Los árboles se construyen hasta que alcanzan un tamaño máximo l´ımite (sin necesidad
de especificar una regla de parada) y posteriormente son podados atendiendo a un ratio
coste/complejidad. Esto es as´ı ya que, aunque en los trabajos anteriores sobre árboles
de decisión se constru´ıan hasta que se cumpl´ıa una regla de parada, en CART no existe
una regla que dé garant´ıas de que deteniendo el proceso no se dejarán fuera datos impor-
tantes. Como consecuencia de esto, es necesario introducir la fase de poda anteriormente
mencionada. Cuando se finaliza, el árbol resultante además es invariante al orden de los
datos de entrada.
El método CART está pensado para producir no sólo uno, sino una secuencia de árboles
(simplificados mediante la poda) que puedan ser candidatos a árboles óptimos.
Las reglas de división mediante las cuales se construye el árbol son de la forma
una observacion se clasifica a la IZQUIERDA si se cumple la CONDICI ÓN, a la
DERECHA en otro caso
donde dicha condición se expresa de la forma “atributo Xi <= C para variables cuan-
titativas. En el caso de variables nominales, la condición se indica como pertenencia a
una lista expl´ıcita de valores. El hecho de que sean árboles binarios favorece que el parti-
cionamiento requiera más pasos, y permite repetir particiones utilizando el mismo atributo.
La poda se lleva a cabo utilizando solamente los datos de entrenamiento y comienza
calculando la siguiente medida de coste/complejidad:
Ra(T) = R(T) + AT
donde R(T) es el coste del árbol constru´ıdo con los datos de entrenamiento, T es el
número de nodos terminales del árbol y a es una penalización impuesta en cada nodo. Si a
= 0 se obtiene el valor m´ınimo de coste/complejidad. La poda se realiza paso a paso donde
en cada iteración se elimina el nodo que menos aporta, por lo que aquellos más pequeños
(que dividen menos datos) serán eliminados antes. El proceso continúa ascendentemente
hasta que se detiene, por lo que puede suceder que si no se puede explicar el atributo
objetivo se acabe con un árbol sin hojas, únicamente la raiz, lo que indica que no existe
una solución factible.
CART es capaz de trabajar con datos faltantes, situación muy frecuente en escenarios
reales, utilizando un mecanismo que se aplica en las tres fases: (a) durante la división de
las ramas del árbol, (b) cuando se aplican datos de entrenamiento sobre los nodos del
árbol, y (c) cuando se utilizan datos de testeo para clasificar las observaciones en uno de
los nodos terminales del árbol.
La importancia de un atributo en CART se basa en la suma de las contribuciones
en todos los nodos en los que dicho atributo se utiliza como divisor (ponderado con la
34

fracción del conjunto de entrenamiento utilizado en el nodo). Aqu´ı se incluyen también
valores subrogados, por lo que puede que una variable que no divida en ningún nodo puede
tener una importancia alta. Esto permite descubrir influencias de variables aparentemente
ocultas y correlaciones no lineales. Entre las ventajas de CART podemos citar:
se obtienen unas reglas de clasificación que permiten una interpretación sencilla.
al ser un método no paramétrico no es necesario validar los datos a la adecuación a
ninguna distribución de probabilidad.
tanto las variables predictoras como las predichas pueden ser de diferente naturaleza:
binarias, nominales, ordinales, etc.
La aparición del método CART supuso el asentamiento de las bases teóricas de la
teor´ıa sobre árboles. Los trabajos anteriores eran métodos en la práctica útiles, cuyas
propiedades hab´ıan sido obtenidas en base a unos pocos ejemplos emp´ıricos, pero carec´ıan
de base teórica formal (Wu et al.[22]).
Como desventajas de CART podemos citar:
es poco robusto: pequeños cambios en los datos pueden originar árboles muy distin-
tos.
puede suceder que al realizar una división existan dos variables igual de buenas; en
este caso se pierde información al escoger una de ellas.
cada división depende de las divisiones precedentes.
Esta serie de inconvenientes hizo que se buscase una metodolog´ıa alternativa que mit-
igase dichos defectos, denominada random forest (Breiman[7]), que se basa en 3 carac-
ter´ısticas fundamentales:
múltiples árboles: no se genera un solo árbol sino un conjunto de ellos. Además no
es necesario podarlos posteriormente.
se generan conjuntos de datos similares mediante bootstrap, técnica que consiste en
tomar datos de muestreo con reposición (aproximadamente el 30 % de la muestra
original). De esta forma se corrige el error de predicción y se dispone siempre de una
muestra independiente para estimar el error de clasificación.
a la hora de dividir un nodo, en lugar de escoger la mejor variable se seleccionan
al azar un conjunto de variables y se busca la mejor en dicho conjunto. El objetivo
de este procedimiento es aumentar la variabilidad y reducir la dependencia de una
división respecto de las anteriores.
Como resultado, random forest no proporciona una salida gráfica como CART, sino una
lista de importancia de las diferentes variables involucradas. Como posible inconveniente
es preciso citar que random forest requiere de una capacidad de cálculo relativamente alta
si lo ponemos en comparación con CART, debido fundamentalmente al gran número de
árboles que deben ser generados en la fase de bootstrap.
35

Cap´ıtulo 3
Redes Sociales
En este cap´ıtulo proporcionamos una breve introducción a las redes sociales. Describi-
mos las partes más importantes de las mismas y su relación con los sistemas de recomen-
dación, presentes hoy en d´ıa en innumerables tiendas online y comunidades de usuarios.
Abordamos la problemática de la recomendación, y en concreto analizamos los sistemas
de recomendación musicales basados en etiquetas (tags). Finalmente para este tipo de
sistemas proponemos la elaboración de indicadores (denominados dimensiones) que ayuden
al proceso de recomendación, como base teórica del método utilizado posteriormente en
el caso de estudio en el Cap´ıtulo 4.
3.1. Introducción
Cualquier tipo de relación social puede representarse en términos de elementos que
componen dicha agregación y las relaciones entre los mismos. Este tipo de relación de la
estructura es lo que se denomina como “Red Social”.
En una red social cada unidad, denominada “actor” (una persona, grupo, o un elemento
abstracto) se representa como un nodo; una relación entre dos actores se representa
mediante un enlace entre ambos. El conjunto de posibles relaciones es potencialmente
infinito; una relación puede reflejar muchos conceptos: pertenencia, similitud, jerarqu´ıa, o
conexiones f´ısicas, por citar algunos ejemplos. Por lo tanto, los objetos en estudio no son
únicamente los individuos y sus atributos, sino también las relaciones entre los individuos
y su estructura. La ventaja de esta representación es que permite el análisis del conjunto
social como un producto de la relación entre sus actores.
En la actualidad, podemos definir las redes sociales como sistemas donde (Boyd y
Ellison[29]):
los usuarios son las entidades principales del sistema, con un perfil (atributos) semi-
público.
los usuarios pueden crear libremente enlaces expl´ıcitos con otros usuarios o con-
tenidos.
es posible navegar dentro de la red a través de dichos enlaces y perfiles de otros
usuarios.
36

La utilidad de las redes sociales es muy amplia, como también lo es la temática de
cada una de ellas, pero podemos distinguir tres roles principales comunes a todas las redes
actuales. Primero, las redes sociales se utilizan para mantener y fortalecer v´ınculos so-
ciales existentes, o establecer algunos nuevos. Segundo, permiten que los propios usuarios
añadan contenido, proporcionando nueva información al sistema, lo que constituye el ver-
dadero valor añadido de la red. Por último, las redes son usadas como instrumentos para
obtener nueva información, filtrando y organizando los contenidos de los propios usuarios.
3.2. Estructuración de los datos: tags
El contenido añadido por los usuarios a las redes sociales puede ser de diversa natu-
raleza. La información existente en la red sobre el propio contenido servirá a los demás
usuarios como instrumento para poder encontrarlo. Por lo tanto es necesario introducir un
mecanismo que permita localizar y además describa de alguna manera el contenido. Esto
es la denominada metainformación, es decir, información sobre el contenido de los recursos
existentes (por ejemplo nombre, fecha de creación o formato); puede ser de cierta ayuda,
pero es necesario un instrumento más flexible que dote de mayor libertad y flexibilidad a
los usuarios.
En la actualidad, el problema de la descripción de contenidos se resuelve en las redes
sociales mediante los denominados tags (etiquetas). Un tag es una palabra clave, gen-
eralmente en texto plano, que se asigna a cierto contenido (una imagen, o un archivo por
ejemplo) o a un recurso abstracto como un enlace web, o un usuario de la propia red. La
ventaja de utilizar tags reside en que permiten localizar la información existente, y además
al ser texto plano su interpretación es más intuitiva. Suelen estar asociados a contenidos
diferentes de texto, como audio o imágenes, ya que del primero puede obtenerse informa-
ción adicional analizando directamente el contenido (buscando palabras frecuentes, por
ejemplo).
Dependiendo del sistema, los tags se asignan bien por el creador del recurso, o bien por
los usuarios que hacen uso del mismo.
El uso de tags en los contenidos de los usuarios aporta valor semántico a la red, sobre
todo si se permite a los usuarios etiquetar sus propios contenidos libremente, sin que
exista una clasificación previa de los tags a utilizar. Esto ha llevado al desarrollo de las
denominadas folksonom´ıas.
Al permitir a los usuarios expresarse libremente utilizando su vocabulario para describir
contenidos, se aporta mucha más información sobre la información etiquetada, ya que los
usuarios no se centran tanto en clasificar como en describir la información referenciada.
Esto hace que automáticamente emerjan patrones culturales similares, apareciendo vo-
cabularios comunes incluso cuando no existe un control previo sobre las etiquetas (Halpin
et al.[30]). De forma similar, en grandes folksonom´ıas, incluso aparecen categorizaciones
naturales de los contenidos fruto de las asociaciones entre etiquetas creadas por los usuar-
ios.
37

Limitaciones
Una de las principales limitaciones del uso de etiquetas es la cobertura. Es bastante
frecuente que sólo los elementos más populares sean descritos por más de un usuario,
creando una descripción compacta del mismo, y dejando al margen a los demás. Los
elementos poco famosos normalmente no tienen suficientes tags como para poderse car-
acterizar. Esto dificulta el proceso de recomendación, sobre todo si lo que se intenta es
promocionar dichos elementos (Celma[13]) (denominados en ocasiones “elementos en la
cola”, por constituir la cola de la función de densidad de elementos etiquetados).
Otra dificultad que se presenta es que al no estar limitado a un vocabulario controlado,
los tags presentan ciertos inconvenientes, como polisemia (conceptos similares descritos
de forma diversa, I like this song, Songs that I like), existencia de sinónimos (hip-hop,
hip.hop, rap), o elementos con dudosa utilidad para la clasificación (seen.live, to-check).
Todo ello dificulta aún más la extracción de relaciones entre los usuarios y los elementos
a recomendar.
El uso de los tags en s´ı es otro problema: algunos tags están muy extendidos, como
rock en el dominio musical, mientras que otros son utilizados raramente (por ejemplo,
melodic heavy metal). Esto hace que la distribución de los términos var´ıe y por tanto
deban tomarse medidas apropiadas al explotar los datos derivados de los tags, tales como
el filtrado de los tags menos importantes o la agrupación de tags similares.
3.3. Sistemas de Recomendación Musical
El fin último de un sistema de recomendación es elaborar predicciones para un usuario
concreto del sistema, utilizando para ello los perfiles de los demás usuarios existentes. Las
recomendaciones consisten en información que se considera que puede ser de su interés,
y que no hubiera sido capaz de obtener por s´ı mismo de forma sencilla.
La información utilizada para la decisión de qué contenido recomendar puede haber
sido obtenida de forma impl´ıcita registrando las acciones del usuario o expl´ıcitamente
solicitándole que evalúe su interés por un cierto contenido. En la actualidad, debido al
aumento de la información existente sobre los intereses de los usuarios, los sistemas de re-
comendación están presenten en muchas comunidades online, bien para la recomendación
de compras (Amazon), contenidos multimedia (Netflix) o gustos musicales (Last.fm).
3.3.1. El problema de la recomendación
En general, podemos describir el problema de la recomendación de contenidos a los
usuarios como la búsqueda del conjunto óptimo de elementos que un usuario desea en-
contrar disponiendo de un intervalo de tiempo limitado, de forma que no es posible la
evaluación sistemática de todos ellos. En la actualidad, los sistemas de recomendación
más avanzados han sido desarrollados con éxito para la industria del entretenimiento,
como pel´ıculas, música o libros (Herlocker et al.[32]).
38

Podemos dividir el problema de la recomendación en dos subproblemas diferentes:
el primero es un problema de predicción, relacionado con la estimación del grado de
aceptación de un ´ıtem por parte de un usuario en concreto. Por otra parte, el segundo
problema es recomendar una lista de N elementos a un usuario suponiendo que el sistema
es capaz de predecir el grado de aceptación de nuevos elementos. Ambos comparten la
necesidad de obtener dicha estimación. Una vez que el sistema puede estimar elementos
de un conjunto, el problema de la recomendación se limita a ordenar los elementos y
escoger los N primeros con mayor valor de precisión.
Formalmente podemos describir el problema de la predicción de la siguiente manera:
sea U = {u1, u2, . . . un} el conjunto de todos los usuarios, e I = {i1, i2, . . . in} el
conjunto de todos los posibles items a recomendar.
Cada usuario tiene una lista de Iui
items, que representa los items sobre los que
el usuario ha mostrado interés (puede ocurrir que Iui
= ∅). La función Pua,ij
es la
aceptación predicha del item ij para el usuario elegido ua, siendo ij /∈ Iui
.
El problema de la recomendación se reduce a proporcionar una lista de N elemen-
tos, Ir ⊂ I, que agraden al usuario (por ejemplo, aquellos con mayor valor Pua,ij
).
Idealmente la lista de recomendaciones no deber´ıa contener elementos que sean del
interés del usuario, es decir, Ir ∩ Iui
= ∅.
El conjunto resultante de elementos recomendados puede ser muy grande, al igual que
el conjunto de usuarios U. En la gran mayor´ıa de sistemas de recomendación la función de
predicción se representa mediante una puntuación que puede ser un número real (entre
0 y 1), un valor en un rango concreto (por ejemplo entre 1 y 6), o un valor binario
(normalmente aceptación/rechazo). Existen diversos métodos para resolver el problema
de la recomendación, algunos de los cuales describimos en el siguiente apartado.
3.3.2. Métodos de recomendación musical
La construcción de un sistema de recomendación debe afrontar diversos retos; entre
ellos, el manejo de la base de datos a utilizar, ya que se hace necesario utilizar gran
cantidad de datos para poder realizar predicciones precisas, as´ı como describir qué atributos
describen mejor a los usuarios teniendo en cuenta los objetivos planteados.
Hay que tener en cuenta que aunque el sistema sea capaz de realizar predicciones, éstas
sólo se pueden proporcionar basándose en estad´ısticas obtenidas del conjunto de datos,
lo que hace necesario disponer de datos de calidad que reflejen diversos escenarios y tipos
de usuarios.
En el caso concreto de los sistemas de recomendación en redes sociales centradas en
contenidos musicales (Last.FM por ejemplo) la recomendación automática de música se
convierte en una herramienta muy importante para descubrir nueva música que encaje con
los gustos de un usuario.
A continuación describimos algunas de las técnicas más utilizadas para la construcción
de sistemas de recomendación musical. Cada una de ellas se centra en una parte concreta
de la información disponible.
39

Filtrado demográfico
El filtrado demográfico puede ser utilizado para identificar el tipo de usuarios que poten-
cialmente valoran cierto´ıtem. Por ejemplo, se puede esperar descubrir qué tipo de persona
prefiere un cierto artista. Esta técnica clasifica los perfiles de usuario en grupos de acuer-
do a ciertos criterios extra´ıdos de los datos personales de los usuarios (edad, estado civil,
sexo, etc.), datos geográficos (ciudad, pa´ıs), o psicolo´gicos (intereses, hobbies, etc.).
El principal inconveniente es que proporciona resultados muy generales; además de que
en muchas ocasiones se trabaja con información incompleta de los usuarios, ya que éstos
no siempre proporcionan datos demográficos, bien porque el sistema no lo permite, o bien
porque ellos mismos no permiten que se pueda consultar dicha información.
Filtrado Colaborativo
El filtrado colaborativo (CF) predice preferencias de los usuarios sobre los ´ıtems estu-
diando las relaciones usuario-items pasadas. Es decir, el usuario proporciona información
al sistema de forma que éste puede predecir en función de la evaluación que han hecho
otros usuarios del item.
Los métodos de filtrado colaborativo se basan en la construcción de una matriz de
preferencias de usuarios de forma que cada fila representa el perfil de un usuario, y las
columnas los elementos a recomendar. El elemento Rui ,ij
es la valoración del usuario ui
para el elemento ij .
Dentro del filtrado colaborativo podemos distinguir dos grandes grupos:
Vecindad entre usuarios (User-based neighbourhood): los valores predichos del ´ıtem
i, para predecir Ru,i se obtienen a partir de las medias de valores para el mismo´ıtem
i de los usuarios similares a u.
Esta aproximación también recibe el nombre de filtrado colaborativo basado en usuar-
ios. El algoritmo toma como entrada el conjunto de usuarios potencialmente sim-
ilares, una forma de medir dicha similitud (por ejemplo, la distancia eucl´ıdea), y el
número k de usuarios a tomar en consideración. Generalmente con estos datos se
utiliza un algoritmo de clustering, como k-medias, para asignar el usuario a un grupo
y a partir del mismo obtener los mencionados k vecinos.
Vecindad entre ´ıtems (item-based neighbourhood): aplica la misma idea que el an-
terior método pero en lugar de utilizar usuarios recurre a los ´ıtems que el usuario ha
valorado anteriormente para decidir si un determinado ´ıtem i debe ser recomendado
o no al usuario.
Los sistemas de recomendación automática suelen utilizar técnicas de filtrado colabora-
tivo para recomendar música basándose en los gustos musicales de otros usuarios. Aunque
generan buenas recomendaciones plantean algunos inconvenientes, como el denominado
problema del arranque en fr´ıo: es necesario cierto volumen de información antes de generar
40

recomendaciones, por lo que para un nuevo artista o un artista poco conocido, un sistema
basado en CF no puede generar recomendaciones. Otro problema es la falta de trans-
parencia en las recomendaciones (Herlocker et al.[31]), ya que dichos sistemas no pueden
justificar una recomendación mas allá de “personas que escuchan X también escuchan
Y”.
Filtrado basado en el contexto
Podemos definir contexto como cualquier información que pueda ser utilizada para
caracterizar la situación de una entidad. El filtrado basado en el contexto (Context-based
filtering, CB), utiliza información contextual para definir y caracterizar los ´ıtems.
De entre las numerosas técnicas existentes destacamos dos de gran actualidad: web-
mining y el etiquetado social.
Las técnicas de webmining intentan descubrir información útil a partir del análisis de
las páginas web as´ı como del uso de las mismas. Abarca el análisis del texto y contenido
multimedia en general (web content mining), el estudio de cómo se relacionan entre s´ı las
páginas webs a través de enlaces y conforman topolog´ıas web (web structure mining), y la
forma en que se utilizan las webs mediante el análisis de los archivos de conexiones (logs)
que permiten descubrir hábitos y preferencias de los usuarios (web usage mining).
Por otra parte el llamado etiquetado social (social tagging) se basa en que el contenido
web sea etiquetado mediante tags que aporten información contextual adicional. Por ejem-
plo, tomemos la recomendación de música basada en la similitud de los tags utilizados
para describir los recursos musicales. Dado que estos tags son asignados libremente por
los usuarios observando un conjunto relativamente grande de tags, utilizados por miles
de usuarios, aparece una visión del artista o canción mucho más global y descriptiva, no
solamente en la dimensión musical sino también en otras de tipo cultural y social.
La Figura 3.1 muestra los 12 tags más utilizados para describir a la banda “Coldplay”
en la red social Last.FM.
Tag Freq Tag Freq Tag Freq
Rock 4911 Indie 2121 Electronica 160
Alternative 4016 Seen Live 940 Mellow 158
Pop 3147 Favourite 278 Punk 155
British 2659 Chillout 269 UK 79
Cuadro 3.1: 12 tags más utilizados para Coldplay
Podemos observar como los usuarios han utilizado tags referentes al género musical
(Pop, Rock, etc.) junto con tags sobre el estado de ánimo (mellow (relajante, chillout),
preferencias (favourite, seen.live), o pa´ıs (UK). Con este conjunto de tags y sus frecuen-
cias obtenemos una visión mucho más completa sobre Coldplay que con un sistema de
clasificación musical tradicional: “una banda de estilo pop-rock”. La asignación individual
41

DataMining_lastfm

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (13)

En vedette

En vedette (8)

Similaire à DataMining_lastfm

Similaire à DataMining_lastfm (20)

DataMining_lastfm