1. MÓDULO 1.
Asignatura 3. Asignatura Técnicas de análisis de datos y
explotación de datos
MASTER IN BIG DATA & BUSINESS INTELLIGENCE
TEMA. Análisis de Redes Sociales (Fernando Tricas García.
Universidad de Zaragoza)
2. An´alisis de redes sociales y anal´ıtica web.
Fernando Tricas Garc´ıa
Departamento de Inform´atica e Ingenier´ıa de Sistemas
Universidad de Zaragoza
http://webdiis.unizar.es/~ftricas/
http://campusvirtual.nextibs.com/
ftricas@unizar.es
3. An´alisis de Redes Sociales
Fernando Tricas Garc´ıa
Departamento de Inform´atica e Ingenier´ıa de Sistemas
Universidad de Zaragoza
http://webdiis.unizar.es/~ftricas/
http://campusvirtual.nextibs.com/
ftricas@unizar.es
13. Algunas definiciones
Grafo simple
1. Como mucho un arco para cada par de nodos.
2. No arcos de un v´ertice a s´ı mismo.
V´ertices adyacentes si est´an unidos por un arco.
Grado de un v´ertice N´umero de arcos incidentes.
14. Tipos de grafos con ‘nombre’
Grafos Eulerianos Se pueden dibujar sin levantar el l´apiz del
papel y sin pasar dos veces por el mismo v´ertice.
Grafos Hamiltonianos Se pueden dibujar sin levantar el l´apiz
del papel y sin pasar dos veces por el mismo arco.
15. Redes Sociales
Investigar estructuras sociales mediante la teor´ıa de redes y de
grafos.
Estructuras en red caracterizadas mediante nodos (actores,
personas, cosas,...) y arcos (relaciones o interacciones).
Ejemplos
Redes sociales en internet, amistad y/o relaciones, parentesco,
propagaci´on de enfermedades, relaciones sexuales...
16. With a little help of my friends
http://www.flickr.com/photos/pietermorlion/2127296477/
http://www.flickr.com/photos/anaypacosancho/2357581936/
17. Relaciones en el ‘mundo real’. Con tecnolog´ıa
http://arxiv.org/abs/physics/0610104
Structure and tie strengths in mobile communication
networks. Authors: J.-P. Onnela, J. Saramaki, J.
Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz, A.-L.
Barabasi
http://www.dailymotion.com/video/xm6vlq_
france-region-mobile_tech
http://www.paristechreview.com/2011/11/15/
voice-border-cellphones-redraw-maps/
18. ¿Es Facebook el mundo real?
http://www.facebook.com/notes/facebook-engineering/
visualizing-friendships/469716398919
19. Blogs
2003. F. Tricas, JJ. Merelo, V.R. Ru´ız, “Do we live in a Small
World? Measuring the Spanish-speaking blogosphere”
24. Pero . . . ¿c´omo se generan las redes?
Modelos
‘Se pintan unos cuantos nodos, se a˜naden enlaces entre ellos y
. . . ’
(redes aleatorias)
1. Cada nodo puede enlazarse con cualquier otro con la misma
probabilidad
(el mundo no es as´ı casi nunca)
2. Enlazado preferencial (los ricos ser´an mas ricos)
25. Modelo Erd¨os-R´eny
Todos los grafos con n v´ertices y M ejes tienen la misma
probabilidad G(n, M)
Cada arco se incluye con una cierta probabilidad G(n, p)
p=0.01
Imagen: Wikipedia.
https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/Erdos_generated_network-p0.01.jpg/
800px-Erdos_generated_network-p0.01.jpg
26. Modelo Erd¨os-R´eny
Suele haber una componente grande que agrupa a la mayor´ıa
(cuando se alcanza un n´umero suficiente de enlaces)
Di´ametro peque˜no (logN)
Di´ametro: m´axima distancia entre pares de nodos.
Relaciones adecuadas entre n y p definen ciertas propiedades
estructurales (existencia o no de componentes conexas,
componentes especiales, fen´omenos de aislamiento, conexi´on,
...)
Fen´omenos de percolaci´on (componentes peque˜nos se van
sumando a la mayor, como en el paso lento de fluidos a trav´es
de materiales porosos).
No muy adecuado para representar fen´omenos sociales
Demo
https://www.cs.purdue.edu/homes/dgleich/demos/erdos_renyi/
27. Modelo Watts-Strogatz
Algunos lazos lejanos (Watts, Strogatz)
Normalmente nos relacionamos con nuestros vecinos pr´oximos
(alto acoplamiento).
Adem´as, tenemos unos pocos lazos ‘lejanos’, que hacen reducir
mucho el di´ametro de la red total.
28. Modelo Watts-Strogatz
Algunos lazos lejanos (Watts, Strogatz)
Normalmente nos relacionamos con nuestros vecinos pr´oximos
(alto acoplamiento).
Adem´as, tenemos unos pocos lazos ‘lejanos’, que hacen reducir
mucho el di´ametro de la red total.
29. Modelo Watts-Strogatz. Propiedades
Siempre que no haya demasiados arcos..
Agrupamiento alto (disminuir´a despacio)
El camino m´as corto es, en media, peque˜no (disminuir´a
r´apido)
Agrupamiento
N´umero de arcos / N´umero de posibles arcos
http://www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html
30. Modelo Barabasi-Albert
Enlazado preferencial:
Se empieza con un conjunto de nodos conectados
aleatoriamente
Los nuevos nodos se a˜naden de uno en uno. Cada nodo se
conecta a cierto n´umero de nodos con una probabilidad
proporcional (preferencia) al n´umero de enlaces.
https://commons.wikimedia.org/wiki/File:Barabasi_Albert_model.gif
Palabras clave: notoriedad, antig¨uedad, ...
32. Modelo Barabasi-Albert
Propiedades
Distribuci´on de grados
Libre de escala. Sigue la distribuci´on P(k) = k−α
Distribuci´on de grados en internet
Bit´acoras
Suscriptores Yahoo! Amigos en
LiveJournal
Clay Shirky. ‘Power Laws, Weblogs, and Inequality’. 2003
http://www.shirky.com/writings/herecomeseverybody/powerlaw_weblog.html
33. ¿C´omo?
Hay unos pocos que tienen mucho
Pero, a veces, si se juntan los que tienen menos, tienen m´as
34. ¿C´omo?
Hay unos pocos que tienen mucho
Pero, a veces, si se juntan los que tienen menos, tienen m´as
Pero estamos acostumbrados a ver el mundo as´ı . . .
35. ¿Qu´e indica la media aqu´ı?
F. Tricas, Juan J. Merelo-Guerv´os. ‘The Spanish-speaking Blogosphere: towards
the powerlaw?’. Web Based Communities 2004
36. La cola larga
Aviso . . .
A veces, muchos pocos valen mas que pocos muchos.
¿De qu´e depende?
Exponente de la ley de potencias: y = C · x−α
α < 1 →: los primeros nodos acumulan s´olo un porcentaje
peque˜no del valor
En los dem´as casos, la cola larga existe, pero no tiene ‘peso’
37. M´as propiedades. Lobby index
l-index: ‘The l -index or lobby index of a node x is the largest
integer k such that x has at least k neighbors with a degree of
at least k .’
P(l(x) ≥ k) = k−α(α+1))
Centralidad (el dilema del diplom´atico, alguien tiene
capacidad de influencia si tiene ‘buenos’ contactos)
Buenos contactos → bien conectados.
38. h–index. Recordatorio
The original Hirsch index is based on a richer model: author – paper and
paper – citing paper links. Let x be a randomly chosen author of the
scientific community under scrutiny and n = n(x) is the number of
his/her papers (either in general or within a defined perio d). Let y i
denote the individual papers (where i = 1 , ...n ,) and c(yi ) their citation
score (in decreasing order), so that c(y1) ≥ c(y2) ≥ ... ≥ c(yn).
h(x) = max{k : c(yk ) ≥ k} .
P(h(x) ≥ k) = k−α(β+1))
39. M´as propiedades
Longitud media de los caminos
lnN/lnlnN
Crece ‘aproximadamente’ de manera logar´ıtmica.
Asortatividad (preferencia de los nodos por unirse a otros de
grado similar). Correlaciones entre nodos de grado similar.
Coeficiente de agrupamiento (clustering) alto. Tendencia a
agruparse los nodos con sus vecinos (mayor que en redes
aleatorias).
Normalmente, m´as alto de lo que se podr´ıa esperar
(empaquetamiento, comunidades, . . . )
40. Medidas interesantes
Hemos hablado de la distancia y de coeficiente de agrupamiento
(‘clustering’)
Tambi´en son interesantes:
Centralidad (‘betweenness’, inevitabilidad)
Es la proporci´on de geod´esicas (caminos m´as cortos) que
pasan por un nodo
En personas, a veces se asocia con popularidad
En transportes, con flujo e inevitabilidad
Centralizaci´on Diferencia de centralidad entre el punto m´as
central y el resto (ratio of the actual sum of differences to the
maximum possible sum of differences).
Centralidad de vector propio (‘eigenvector centrality’) de la
matriz de incidencia del grafo, relacionado con el PageRank
41. Pero . . . ¿Qu´e necesito?
Estar cerca de la ‘mayor´ıa’ de la red
Cercan´ıa (‘closeness centrality’), distancia media de un nodo
a todos los dem´as de la red.
42. Pero . . . ¿Qu´e necesito?
Estar cerca de la ‘mayor´ıa’ de la red
Cercan´ıa (‘closeness centrality’), distancia media de un nodo
a todos los dem´as de la red.
Hay otras . . .
‘Degree centrality’ (el que tiene m´as cercanos)
43. Hay otras formas de verlo
En grafos dirigidos:
Hubs, de los que salen muchas conexiones
‘todo lo que debes conocer’
Autoridades, que reciben muchas conexiones
‘¿D´onde va Vicente . . . ?’
Naturalmente, pueden coincidir, y entonces hablamos de
conectores (influyentes, influenciadores, . . . )
48. No todas las redes se distribuyen siguiendo leyes de
potencia
Comunicaci´on rec´ıproca y frecuente
Red el´ectrica
Directores de empresas
49. Detecci´on de comunidades
Si dos nodos interact´uan, probablemente es porque tienen
alg´un tipo de relaci´on
Las relaciones no siempre son transitivas, pero ayudan a
entender mejor lo que vemos (modas, tendencias, estados de
opini´on, . . . ).
Tambi´en nos pueden dar pistas de por d´onde ir.
50. ¿Qu´e es una comunidad?
S´olo los recursos t´ecnicos no hacen una comunidad.
Presencia.
Organizaci´on de actividades.
Organizaci´on de los contenidos que se produzcan.
Organizaci´on interna.
Flexibilidad.
51. En todo caso . . . ¿qu´e es una comunidad?
Comunidad de vecinos
Comunidad de hispanohablantes
Comunidad de los miembros del curso
52. En todo caso . . . ¿qu´e es una comunidad?
Comunidad de vecinos
Comunidad de hispanohablantes
Comunidad de los miembros del curso
¿Y en internet?
53. En todo caso . . . ¿qu´e es una comunidad?
Comunidad de vecinos
Comunidad de hispanohablantes
Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
54. En todo caso . . . ¿qu´e es una comunidad?
Comunidad de vecinos
Comunidad de hispanohablantes
Comunidad de los miembros del curso
¿Y en internet?
Lo mismo, claro
Y adem´as. . .
55. Comunidades. Algunas formas de verlo
Relaciones m´utuas (todos se conocen)
Abundancia de relaciones (al menos hay relaci´on con un cierto
n´umero de miembros)
Cercan´ıa o alcanzabilidad de un subgrupo (distancia de como
mucho ...)
Abundancia relativa de relaciones
Redes de afiliaci´on (relacionados porque pertenecen a...)
56. Relaciones m´utuas. Cliques
cada miembro est´a relacionado con todos los dem´as
Puede haber solapamiento
http://www.ladamic.com/netlearn/nw/Cliques.html
57. Relaciones m´utuas. Cliques
cada miembro est´a relacionado con todos los dem´as
Puede haber solapamiento
http://www.ladamic.com/netlearn/nw/Cliques.html
No robustos
Poco interesantes
¿Todos conectados?
Centro–periferia
Pueden ser m´as interesantes los solapamientos que los cliques
en s´ı mismos
58. Abundancia de relaciones. k-cores
Cada nodo est´a relacionado con al menos otros k
A´un as´ı puede ser restrictivo
59. Cercan´ıa. n-cliques
M´axima distancia entre nodos de n
Problemas
Di´ametro mayor que n
el n-clique puede estar desconectado (enlaces externos)
Remedio: n-club. subgrafo m´aximo de di´ametro n
62. Comunidades impl´ıcitas
Principalmente basadas en enlaces
Cliques grupos de nodos que se enlazan m´as entre si que con
el resto
Comunidades de Newman–Girvan Definidas por lo que las
separa (nodos de centralidad alta).
Co–citas Si tu citas a X y ´el cita a X, probablemente los dos
querais conoceros
63. Ejemplo. Comunidades de alimentos
Chun-Yuen Teng, Yu-Ru Lin, Lada A. Adamic.
‘Recipe recommendation using ingredient networks’
64. Ejemplo. Comunidades de alimentos
Dos comunidades grandes (dulce/salado)
Y una tercera de combinados (mixed–drinks).
Se pueden encontrar comunidades de ingredientes de
‘sustituci´on’
Pueden predecir las calificaciones de las recetas
Preferencias locales (en este caso de EEUU)
66. El experimento de Stanley Milgram
Podemos alcanzar a cualquier persona en el mundo
mediante contactos cercanos. En USA, en 1967, la
separaci´on era de seis.
67. El experimento de Milgram
Las cartas
Enviadas por personas elegidas aleatoriamente, residentes en
Wichita y Omaha.
La carta conten´ıa un resumen del estudio, una foto y el nombre y
la direcci´on de la persona a la que iba destinada.
1. A˜nada su nombre a la lista de abajo
2. Separe una postal. Rell´enela y enviela a la Universidad de
Harvard
3. Si conoce a la persona (personalmente) env´ıele la postal.
4. Si no la conoce personalmente, env´ıesela a alg´un conocido
personal suyo que ud. crea que puede hacer que le llegue.
68. Los resultados
S´olo llegaron el 29 % de las cartas enviadas (42 de 169)
De las que llegaron: la mediana de personas intermedias era 5.5 (la
media 6.5)
69. Los resultados
S´olo llegaron el 29 % de las cartas enviadas (42 de 169)
De las que llegaron: la mediana de personas intermedias era 5.5 (la
media 6.5)
¿En internet?
En la web se hicieron estudios en el 1999, llegando a la conclusi´on
de que entre cualquier par de documentos en la red habr´ıa un
di´ametro de 18.59 (19 grados de separaci´on).
Albert, Barabasi.
70. Bastante popularidad
El n´umero de Bacon refleja distancia entre
actores, basados en pel´ıculas en las que ambos
han participado
Kevin Bacon Number # of People
0 1
1 1913
2 162819
3 460113
4 110419
5 7994
6 777
7 78
8 14
72. M´as estrellas que en el cielo
Alfredo Landa, 3
Antonio Banderas, 2
Pen´elope Cruz, 2
73. M´as estrellas que en el cielo
Alfredo Landa, 3
Antonio Banderas, 2
Pen´elope Cruz, 2
En todo caso . . . (April 2015)
Hay 410 actores mejor conectados que Kevin Bacon
La media del n´umero de Bacon es de 3.009 (2.946 en 2006)
El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es Harvey
Keitel (2.85789)
74. M´as estrellas que en el cielo
Alfredo Landa, 3
Antonio Banderas, 2
Pen´elope Cruz, 2
En todo caso . . . (April 2015)
Hay 410 actores mejor conectados que Kevin Bacon
La media del n´umero de Bacon es de 3.009 (2.946 en 2006)
El actor mejor conectado es Eric Roberts (2.83285), el
segundo Michael Madsen (2.85125), el tercero es Harvey
Keitel (2.85789)
76. El mundo es un pa˜nuelo (Small World)
El experimento de Milgram
Estructura local
Coeficiente de agrupamiento
Motifs (tama˜no k)
Modelos
Watts-Strogatz (agrupamiento y caminos cortos)
http:
//www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html
Kleinberg (basadas en proximidad geogr´afica)
...
77. Navegabilidad y encontrabilidad
Experimento Small World en Columbia.
Cadenas exitosas utilizaban mucho m´as:
Lazos d´ebiles (Granovetter)
Relaciones profesionales (34 % vs 13 %)
Relaciones originadas en el trabajo/estudios
Trabajo del objetivo (65 % vs 40 %)
Y evitaban:
Hubs (8 % vs 1 %)
Familia/amistades (60 % vs 83 %)
Estrategia; geograf´ıa → trabajo
79. Procesos en redes
Contagio (umbrales?)
Simple vs Complejo (difusi´on con umbrales, creaci´on de
grupos resistentes, diferentes zonas tienen diferentes
opininones)
http://www.ladamic.com/netlearn/NetLogo4/
DiffusionCompetition.html
Coordinaci´on
Innovaci´on
Resoluci´on de problemas
80. Resistencia y robustez
Quitar nodos o arcos, ¿qu´e sucede?
Arcos no es un gran problema
Nodos aleatorios, no es un problema (muchos humildes).
Puede ser un problema si quitamos nodos con alto grado
(eliminamos muchos arcos)
81. Ataques
Problema cuando nos dirigimos a los hubs
La asortatividad es importante (topolog´ıa)
¿Qu´e sucede con un nodo cuando falla? (red el´ectrica vs
criminales)
82. La vista es la que trabaja
Existen programas para ayudarnos:
Pajek (Windows) http://pajek.imfm.si/
Netdraw (Windows)
https://sites.google.com/site/netdrawsoftware/home
Visone (Java) http://www.visone.info/
SocNetV (Linux) http://socnetv.sourceforge.net/
Gephi http://gephi.github.io/