Este documento apresenta um resumo dos principais pontos de um estudo sobre a estrutura da blogosfera portuguesa entre 2006-2009. O estudo analisou as ligações entre mais de 70 mil blogues portugueses para identificar padrões e caracterizar grupos de blogues com base na popularidade. Os resultados mostram que os blogues mais populares tendem a ter mais entradas, palavras por entrada e ligações com outros blogues.
Análise da rede de blogues portugueses através das ligações entre entradas
1. Ecossistema de Liga¸oes
c˜
da Blogosfera Portuguesa
Jos´ Lu´ Devezas
e ıs
Faculdade de Engenharia da Universidade do Porto
Rua Dr. Roberto Frias, s/n
4200-465 Porto, Portugal
joseluisdevezas@gmail.com
22 de Mar¸o de 2010
c
2. Conte´dos
u
1 Introdu¸˜o
ca
O que ´ a blogosfera?
e
Estudar a blogosfera
Enunciado de tese
2 Conhecer a amostra
Colec¸˜o
ca
Tecnologias
Extrac¸˜o e valida¸˜o do conjunto de dados
ca ca
3 An´lise de liga¸oes
a c˜
Estrutura de dados
Prepara¸˜o dos dados
ca
Total de liga¸oes, por dia, ao longo do tempo
c˜
Agrupamento de blogues
N´mero de palavras por entrada, para o grafo simplificado
u
N´mero de palavras por entrada, para o grafo original
u
N´mero de entradas criadas por mˆs, para o grafo original
u e
N´mero mensal de liga¸oes p/entrada, para o grafo original
u c˜
4 Conclus˜es
o
Principais contribui¸oes
c˜
Trabalho futuro
4. O que ´ a blogosfera?
e
Defini¸˜o
ca
A blogosfera consiste no conjunto de todos os blogues e suas interliga¸˜es.
co
A blogosfera ´:
e
Uma rede de blogues;
Um conjunto de textos ricos em imagem e v´
ıdeo;
Um conjunto de entradas cronologicamente ordenadas.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 1 / 17
5. Estudar a blogosfera
O estudo da blogosfera pode focar-se:
Na evolu¸˜o da colec¸˜o;
ca ca
No conte´do das entradas;
u
Nos coment´rios;
a
Na estrutura de liga¸˜es.
co
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 2 / 17
6. Enunciado de tese
Atrav´s da an´lise de liga¸˜es, identificar e caracterizar conjuntos de blogues, com
e a co
o objectivo de provar que:
Afirma¸˜o
ca
Existe um padr˜o consistente de varia¸˜o de caracter´
a ca ısticas dos blogues com a
popularidade.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 3 / 17
8. Colec¸˜o
ca
Disponibilizada pelo SAPO;
Entradas escritas em portuguˆs;
e
V´rios dom´
a ınios, principalmente Blogues do SAPO e Blogger;
Entradas entre 1 de Mar¸o de 2006 e 1 de Outubro de 2009.
c
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 4 / 17
9. Tecnologias
Base de dados relacional MySQL.
Base de dados chave ⇒ valor Berkeley DB.
Dialecto GraphML para representa¸˜o de grafos.
ca
Linguagem e ambiente R para computa¸˜o estat´
ca ıstica e gr´ficos.
a
Biblioteca ggplot2 para cria¸˜o de gr´ficos.
ca a
Biblioteca igraph para manipula¸˜o de grafos.
ca
Linguagem Perl.
Extrac¸˜o e selec¸˜o de dados.
ca ca
Processamento e indexa¸˜o de conte´dos.
ca u
Gera¸˜o do documento GraphML e tabelas de entrada para o R.
ca
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 5 / 17
10. Extrac¸˜o e valida¸˜o do conjunto de dados
ca ca
Dos 17 GB de registos s˜o seleccionadas as entradas:
a
Cujo dom´ cont´m “blogs.sapo.pt”;
ınio e
Datadas entre 1 de Mar¸o de 2006 e 30 de Setembro de 2009.
c
´
E feita a indexa¸˜o de cada blogue no formato blogue ⇒ entradas:
ca
blogue.blogs.sapo.pt =>
http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32t
http://blogue.blogs.sapo.pt/342.html|2008-05-13 10:27:13t
http://blogue.blogs.sapo.pt/678.html|2008-11-11 11:13:27
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 6 / 17
11. Extrac¸˜o e valida¸˜o do conjunto de dados
ca ca
700
200
600
500
150
400
Blogs
Blogs
300 100
200
50
100
0 0
2006 2007 2008 2009 2006 2007 2008 2009
Years Years
N´mero de blogues criados por dia ao longo dos anos.
u
Contagem do n´mero de blogues e entradas criados por dia.
u
Durante o mˆs de Setembro de 2009 observa-se um pico anormal.
e
Uma verifica¸˜o autom´tica determina que 42% dos blogues desse mˆs n˜o
ca a e a
existem no mˆs seguinte.
e
Setembro de 2009 ´ removido do estudo.
e
Crescimento acentudado ap´s a primeira metade de 2007.
o
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 7 / 17
13. Estrutura de dados
Grafo dirigido para representar a rede de blogues.
V´rtices ⇔ Blogues.
e
Arestas ⇔ Liga¸oes entre os blogues.
c˜
(provenientes de ˆncoras, imagens e conte´do embebido no HTML das entradas)
a u
V´rios atributos associados aos v´rtices e arestas.
a e
Atributo Exemplo
name blog.blogs.sapo.pt
Blogues date 2007-10-11 16:22:57
hostgraph.outdegree 50.077
post.url http://blog.blogs.sapo.pt/1046448.html
post.date 2008-09-09 19:14:49
Entradas
post.wordcount 25
post.charcount 216
name http://outro.blogs.sapo.pt/25856.html
Liga¸oes
c˜ source blog.blogs.sapo.pt
target outro.blogs.sapo.pt
Informa¸˜o captada no grafo de blogues.
ca
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 8 / 17
14. Prepara¸˜o dos dados
ca
Passar da tabela de entradas, dispon´ na base de dados, ao grafo de blogues
ıvel
envolve:
1 Extrair e indexar as liga¸˜es no formato liga¸˜o ⇒ entradas
co ca
http://bit.ly/23a5b =>
http://blogue.blogs.sapo.pt/112.html|2008-02-01 23:45:32|50|200t
http://outro.blogs.sapo.pt/1243.html|2008-05-13 10:27:13|19|101t
http://outro.blogs.sapo.pt/1122.html|2009-11-11 11:13:27|7|32
2 Agregar por dom´
ınio, contabilizando as liga¸˜es de entrada e de sa´
co ıda;
3 Remover dom´ ınios externos ao Blogues do SAPO e associar a data de cria¸˜o
ca
a cada blogue;
4 Gerar um documento GraphML que represente a rede de blogues;
5 Carregar o documento GraphML no R, para ser analisado utilizando a
biblioteca igraph.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 9 / 17
15. Total de liga¸oes, por dia, ao longo do tempo
c˜
459.737 liga¸˜es, extra´
co ıdas de
72.591 blogues. 400,000
Taxa m´dia de crescimento mensal:
e 300,000
17,88%.
Total Links
200,000
Pico de utiliza¸˜o de liga¸˜es
ca co
durante Junho e Julho de 2008. 100,000
Resulta no aumento acentuado do
n´mero de liga¸˜es.
u co 2006 2007
Years
2008 2009
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 10 / 17
16. Agrupamento de blogues
Blogues ordenados por popularidade.
N´mero de cita¸˜es como crit´rio de classifica¸˜o.
u co e ca
Duas vers˜es do grafo de blogues:
o
Grafo original Uma ilustra¸˜o crua da realidade da blogosfera ⇔ quantidade;
ca
Grafo simplificado Sem multiplicidade de arestas e auto-cita¸˜es, ignorando n´s com
co o
menos de duas liga¸˜es de entrada ou de saida ⇔ variedade.
co
Grafos de blogues partidos em fatias de 1.000 blogues.
An´lise da evolu¸˜o do valor m´dio e mediano de v´rias caracter´
a ca e a ısticas, para
fatias progressivamente menos populares.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 11 / 17
17. N´mero de palavras por entrada, para o grafo simplificado
u
Eixo dos XX: ordem da fatia — a
fatia 0 representa o conjunto dos
1.000 blogues mais citados e a fatia
9 representa os 1.000 blogues 800
menos citados.
Mean and Median Post Word Number
700
Eixo dos YY: m´dia ou mediana do
e
n´mero de palavras por entrada nos
u 600
Mean
blogues da fatia. Median
500
Ordem M´dia
e Mediana
400
0 829 706
6 532 360
0 2 4 6 8
9 762 574 Slice Order
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 12 / 17
18. N´mero de palavras por entrada, para o grafo original
u
Blogues mais citados: m´dia de
e 1000
Mean and Median Post Word Number
1.124 palavras por entrada. 800
Blogues restantes: m´dia entre 135
e
600
e 749 palavras. Mean
Median
Decr´scimo constante, mas n˜o
e a 400
muito acentudado. 200
0 10 20 30 40 50 60 70
Slice Order
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 13 / 17
19. N´mero de entradas criadas por mˆs, para o grafo original
u e
Blogues mais citados: m´dia de
e
Mean and Median Newly Created Posts per Month
103.5
7.934 novas entradas por mˆs.
e
103
Outras blogues mais citados: m´dia
e 102.5
superior a 100 — 594 para a Mean
102
segunda fatia mais citada. Median
101.5
Blogues menos citados: m´dia entre
e
101
5 e 30 novas entradas mensais.
100.5
0 10 20 30 40 50 60 70
Slice Order
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 14 / 17
20. N´mero mensal de liga¸˜es p/entrada, para o grafo original
u co
Blogues mais citados s˜o os que
a
ligam mais a outros blogues.
No entanto, em geral, as entradas 100
n˜o contˆm um grande n´mero de
a e u
Mean and Median Monthly Links per Post
10−0.5
liga¸˜es.
co 10−1
A fatia mais citada tem em m´dia
e 10−1.5
1,15 liga¸˜es por entrada.
co 10−2
Mean
Median
As restantes fatias tˆm uma m´dia
e e 10−2.5
inferior a 0,25 liga¸˜es por entrada.
co 10−3
Na fatia menos citada ´ utiliza
e
apenas 1 liga¸˜o por cada 1.000
ca 0 10 20 30
Slice Order
40 50 60 70
entradas!
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 15 / 17
22. Principais contribui¸˜es
co
Agrupamos blogues utilizando como crit´rio de popularidade o n´mero de
e u
cita¸˜es.
co
Blogues populares tˆm um comportamento distinto dos blogues menos
e
populares.
Conforme passamos dos blogues mais populares para os menos populares,
observ´mos um padr˜o de decr´scimo:
a a e
Na frequˆncia de cria¸˜o de entradas;
e ca
No n´mero de liga¸oes de sa´
u c˜ ıda;
No tamanho das entradas.
Conclui-se que existem efectivamente grupos de blogues com caracter´
ısticas
distintas.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 16 / 17
23. Trabalho futuro
Estudar a evolu¸˜o da popularidade dos blogues.
ca
O que influencia um blogue a tornar-se popular.
Como evolui a classifica¸˜o dos blogues mais populares.
ca
Como evoluem as suas caracter´ısticas.
Estudar as comunidades portuguesas de blogues.
Analisar algoritmos de detec¸˜o de comunidades.
ca
Identificar o factor de uni˜o dos elementos das comunidades.
a
Identificar os blogues centrais de cada comunidade.
J. L. Devezas (FEUP) Ecossistema de Liga¸˜es
co Mar¸o 2010
c 17 / 17
26. Apˆndice A.1
e
Met´fora de ecossistema
a
A blogosfera pode ser vista como um ecossistema em que os blogues s˜oa
considerados organismos que interagem entre si, interligando-se por meio de
hiperliga¸oes, no ambiente da World Wide Web.
c˜
29. Apˆndice C.1
e
1
q
5
q
2
q
0 3
Classifica¸˜o
ca
q q
q
7 Nesta amostra, o n´ 2 ´ citado 8
o e
vezes e o n´ 7 ´ citado 5 vezes. O
o e
n´ 2 ´ considerado o mais popular
o e
devido ` quantidade de liga¸˜es que
a co
6
q apontam para ele.
4
q
Amostra do grafo de blogues antes da
simplifica¸˜o.
ca
30. Apˆndice C.2
e
1
q
5
q
2
q
0 3
Classifica¸˜o
ca
q q
q
7 Nesta amostra, o n´ 2 ´ citado 3
o e
vezes e o n´ 7 ´ citado 4 vezes. O
o e
n´ 7 ´ considerado o mais popular
o e
devido ` variedade de liga¸˜es que
a co
6
q apontam para ele.
4
q
Amostra do grafo de blogues ap´s a
o
simplifica¸˜o.
ca