Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Social Network Analysis Project

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 54 Publicité

Plus De Contenu Connexe

Similaire à Social Network Analysis Project (20)

Publicité

Plus récents (20)

Social Network Analysis Project

  1. 1. Docenti: Prof. Fosca Giannotti, Dott. Michele Berlingerio Percorso di Eccellenza - Laurea Magistrale in Ingegneria Informatica Alessandro Biondi, Francesco Corucci - 2011 Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  2. 2. Scopi  Scopo del seguente lavoro:  Raccolta dati e costruzione di alcune reti sociali riguardanti uno o più ambiti d’interesse  Analisi ed interpretazione sociale dei parametri più significativi caratterizzanti le reti ottenute  Estrazione di informazioni non immediate dalle reti ottenute Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  3. 3. Come  Utilizzando un crawler che esplora l’archivio degli articoli pubblicati sul sito del NY Times  Input del crawler: due liste di parole (eventualmente uguali) riguardanti gli ambiti da analizzare  Output del crawler: co-occorrenze negli articoli tra le due liste di parole Es: Source Target Co-occorrenze Italy France 1200 Italy Germany 853 France Germany 650 … … … Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  4. 4. Fonti  Per ricavare le liste di termini da dare in ingresso al crawler, abbiamo utilizzato tre fonti di informazioni (combinate in vari modi):  TIME 100: lista delle 100 persone più influenti dell’anno secondo il TIME  Google Zeitgeist: lista delle parole più cercate su Google in un anno  Top Wikipedia: lista delle pagine più visitate su Wikipedia in un anno Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  5. 5. I tre ambiti inquadrati 1. Google Zeitgeist 2010 + TIME100 2010 2. TIME 100 2008-2011 3. Google Zeitgeist 2010 + Top Wikipedia 2010  In tutte e tre le analisi, abbiamo posto lista source = lista target  Ovviamente abbiamo fatto cercare al crawler articoli temporalmente coerenti con i dati di input Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  6. 6. Definizioni preliminari  Characteristic path length: distanza media tra coppie di nodi della rete  Diameter: massima distanza tra due nodi della rete  Clustering coefficient: quanti dei nodi connessi ad un certo nodo sono a loro volta connessi tra loro (media)  Betweennes centrality: numero (normalizzato) di shortest path che passano per un certo nodo  Indica l’influenza di un nodo sulle interazioni tra gli altri nodi (strategicità per quanto riguarda il fluire dell’informazione)  Closeness centrality: distanza media di un nodo da tutti gli altri Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  7. 7. Rete n°1: TIME 100 (2008-2011) Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  8. 8. TIME 100 (2008-2010)  Scopo: analizzare le relazioni esistenti tra i personaggi più influenti degli ultimi 4 anni  Numero di termini in input: 485  Tempo di crawling: ~ 48h Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  9. 9. Parametri globali  Active network: interazioni con peso > 2  Tipo di rete ottenuta: indiretta, 373 nodi, 5350 archi  Parametri globali: Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Parametro Valore Connected components 4 Clustering coefficient 0.582 Diameter 5 Characteristic path length 2.282
  10. 10. Degree distribution (power law) Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  11. 11. Betweennes centrality Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Top betweennes 1. Barack Obama 2. Bill Clinton 3. George W. Bush 4. John McCain 5. Tiger Woods 6. Sarah Palin 7. Oprah Winfrey 8. Michelle Obama 9. Hillary Clinton 10. Sting 11. Nicolas Sarkozy 12. Mark Zuckenberg 13. Lady Gaga
  12. 12. Closeness centrality e degree Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Top closeness 1. Barack Obama 2. George W. Bush 3. Bill Clinton 4. John McCain 5. Sarah Palin 6. Hillary Clinton 7. Oprah Winfrey 8. Michelle Obama 9. Sting 10. Tina Fey 11. Jon Stewart 12. Jey Leno 13. Lady Gaga Top degree 1. Barack Obama 2. George W. Bush 3. Bill Clinton 4. John McCain 5. Sarah Palin 6. Hillary Clinton 7. Oprah Winfrey 8. Michelle Obama 9. Jon Stewart 10. Tina Fey 11. Jay Leno 12. Sting 13. Lady Gaga Si osserva che i nodi che primeggiano per betweennes hanno anche closeness e degree elevati
  13. 13. Closeness, betweennes, degree Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Personaggi Professione Barack Obama, George W. Bush, Bill Clinton, John McCain, Sarah Palin, Hillary Clinton, Michelle Obama Politici statunitensi Oprah Winfrey Conduttrice televisiva e opinionista statunitense Sting Musicista britannico Tina Fey, Jon Stewart, Jay Leno Attori, conduttori, comici statunitensi Lady Gaga Pop star americana Chi sono i personaggi che primeggiano per closeness, betweennes, e degree?
  14. 14. Clustering coefficient Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica  Passando al coefficiente di clustering la situazione sembra invertirsi:  Nodi con alto degree, closeness e betweennes, mostrano un coefficiente di clustering basso  Nodi con basso degree, closeness e betweennes hanno coefficiente di clustering elevato Highest clustering Connie Hedegaard, Ken Lewis, Wendy Kopp, Peter Gabriel, Theodore Olson, Heidi Murkoff, Ron Bloom, Gaddafi, Sheila Bair, Rob Bell, Linda Avey, Richard Cizik, Apolo Ohno, … Lowest clustering Barack Obama George W. Bush Bill Clinton John McCain …
  15. 15. Clustering coefficient Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica  Chi sono i personaggi con clustering più elevato? Persona Professione Connie Hedegaard, Ken Lewis Politica danese Ken Lewis Ex CEO, presidente, chairmen di Bank of America Wendy Kopp CEO e fondatrice di Teach For All Peter Gabriel Musicista britannico Theodore Olson U.S. Solicitor General sotto G. W. Bush Heidi Murkoff Scrittrice statunitense Ron Bloom Senior official sotto Obama Gaddafi Dittatore
  16. 16. Community Discovery Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  17. 17. Scrittori e mondo politico Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Scrittrice americana Scrittore americano Impegno sociale in Afghanistan Ex Ammiraglio USA Mondo Politico Scrittore americano - Saggista
  18. 18. Sports Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Tennista statunitense Tennista belga Pugile filippino Cestista statunitense Sciatrice statunitense
  19. 19. Calciatori Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  20. 20. Cinema Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  21. 21. Ancora cinema… Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  22. 22. Economia Francese Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Direttore Fondo Monetario Internazionale Banchiere francese, Ex presidente Banca Centrale Europea Economista Politico Francese
  23. 23. Economia USA Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Imprenditore statunitense Esperta di bancarotta statunitense Economista statunitense Economista statunitenseEconomista statunitense Economista banchiere statunitense
  24. 24. Cosa lega… Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Ex tennista statunitense Scrittore e saggista statunitense Comica Conduttrice TV Famoso per aver scritto un romanzo autobiografico A fine carriera ha scritto un libro autobiografico Ha scritto ben 3 libri autobiografici
  25. 25. Rete n°2: TIME 100 + GOOGLE ZEITGEIST 2010 Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  26. 26. TIME 100 + GOOGLE ZEITGEIST 2010  Scopo: analizzare le relazioni esistenti tra i personaggi più influenti di un certo anno ed i termini più cercati su Google nello stesso anno  Numero di termini in input: 224  Tempo di crawling: ~ 10h Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  27. 27. Parametri globali  Active network scelta: interazioni con peso > 0  Tipo di rete ottenuta: indiretta,153 nodi, 1691 archi  Parametri globali: Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Parametro Valore Connected components 1 Clustering coefficient 0.620 Diameter 4 Characteristic path length 2.048
  28. 28. Degree distribution Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  29. 29. Betweennes centrality Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Top betweennes 1. Facebook 2. Twitter 3. Haiti 4. World cup 5. Barack Obama 6. Bill Clinton 7. Earthquake 8. Olympics 9. Ipad 10. Oil spill 11. Sarah Palin 12. Lady Gaga 13. James Cameron
  30. 30. Closeness centrality and degree Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica  Anche in questa rete, nodi con alta betweennes hanno anche alta closeness centrality ed alto grado (omettiamo perciò le tabelle)  Si nota anche qui come nodi con alti valori di closeness, betweennes, e degree abbiano un basso coefficiente di clustering (e viceversa)
  31. 31. Clustering coefficient vs closeness/degree/betweennes Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Decreasing betweennes Increasing clustering
  32. 32. Clustering coefficient vs betweennes Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  33. 33. Degree vs clustering coefficient Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  34. 34. Community Discovery Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  35. 35. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Senior Official nell’amministra- zione Obama Avvocato francese e direttore amministrativo del fondo monetario internazionale Economista e politico francese, ex direttore amministrativo del fondo monetario internazionale Presidente degli Stati Uniti Partito democratico USA Presidente degli Emirati Arabi Politica internazionale
  36. 36. Calcio Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Allenatore Videogame sul calcio Calciatore Calciatore Calciatore Squadra di calcio
  37. 37. Scrittrici americane Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Romanziera americana Romanziera americana Autrice TV e romanziera americana Scrittrice americana
  38. 38. Cantanti americani Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Attrice e cantante americana Cantante rap americana Cantante rap americana Attore e cantante americano Rapper americano
  39. 39. Ancora cantanti Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Cantante scozzese Cantante pop americana Cantante pop colombiana Attrice e cantante americana Cantante soul americana Cantante pop americana Cantante pop americana Conduttore americano di talent show musicali
  40. 40. Conclusioni su questa rete  L’aver mischiato persone e cose in questo crawling non ha dato risultati particolarmente interessanti a livello di communities  Le communities più rilevanti coinvolgono infatti quasi esclusivamente persone  Tuttavia le «cose» compaiono in posizioni importanti per quanto riguarda i parametri di centralità Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  41. 41. Rete n°3: Google Zeitgeist + Top Wikipedia (2010-11) Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  42. 42. Google Zeitgeist + Top Wikipedia  Scopo: analizzare le relazioni esistenti tra i termini più ricercati in un dato anno su Wiki e su Google  Numero di termini in input: 615  Tempo di crawling: ~ 72h Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  43. 43. Parametri globali  Active network: interazioni con peso > 10  Tipo di rete ottenuta: indiretta, 416 nodi, 10’022 archi  Parametri globali: Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Parametro Valore Connected components 4 Clustering coefficient 0.806 Diameter 4 Characteristic path length 1.965
  44. 44. Degree distribution Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  45. 45. Community Discovery Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  46. 46. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Attori e films Nodo Daniel Radcliffe Jim Carrey Robert De Niro Christian Bale Emma Watson Natalie Portman The Chronicles of Narnia Tron Legacy Toy Story 3 Little Fockers Anne Athaway Gulliver's Travels Mark Wahlberg Harry Potter …
  47. 47. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Tecnologia e intrattenimento
  48. 48. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Pallacanestro
  49. 49. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Telefilms, teenagers
  50. 50. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Ancora telefilms…
  51. 51. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica Musica…
  52. 52. Conclusioni Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  53. 53. Conclusioni  Abbiamo inquadrato degli ambiti di interesse, cercato fonti e raccolto dati mediante crawling  Abbiamo acquisito dimestichezza con la manipolazione di grosse moli di dati  Abbiamo preso confidenza con lo strumento Cytoscape  Abbiamo estrapolato e interpretato delle informazioni dalle reti ricavate  Abbiamo evidenziato il comportamento sociale di tutte le reti costruite mediante l’analisi dei parametri caratteristici dei grafi Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica
  54. 54. Social Network Analysis - Percorso di Eccellenza, Laurea Magistrale in Ing. Informatica

×