Small Data vs. Big DataMener des expériences dans les médias sociaux              Antonio	  A.	  Casilli	  
•  Big data ?•  Un forum Web traditionnel   (∼20Gio de données sur 10   ans de durée de vie)•  Une banque en ligne (∼2Tio ...
•  Impossible d’appliquer des   techniques traditionnelles•  Millions d’enregistrements   avec des milliers d’attributs•  ...
•  Promesses des big data :   1.  Pour la recherche (physique,       génomique, épidémiologie,       bioinformatique, etc....
•  Big data : est-ce la fin de la   théorie ?•  Approche dirigée par les   données (data-driven) de la   recherche   “Forg...
•  Six limites de big data (boyd &   Crawford, 2011):    1.    N’évacuent pas la théorie, mais la changent    2.    Préten...
•  Alternatives aux big data   –  L a s t a t i s t i q u e p u b l i q u e      (Eurobarometer, enquêtes INSEE,      etc....
•  Face aux limites des « big   data », valeur des petites   données ethnographiques :   qualitatives, denses et   dirigée...
•  Problème : comment les   généraliser ?•  Small data qualitatives plus   adaptées pour décrire des   situations idiosync...
•  Les pierres angulaires   d’une approche ethno-   computationnelle1.  E n q u ê t e      socio-   anthropologique de ter...
•  Simulation, ABM (Agent-Based   Modelling), « modélisation par   agent »…•  Représentation adaptée d’un   phénomène soci...
Tubaro, Paola & Antonio A. Casilli (2010). ‘An Ethnographic Seduction’: how qualitative research and Agent-based Models ca...
Etude 1 : diversité culturelle sur Facebook
•  Triomphe de l’homophilie et   de l’entre-soi ? Ou bien de la   diversité culturelle ?•  L’ a p p r o c h e b i g d a t ...
•  Approche small data :   expérimentation sur le capital   social en ligne (Casilli, 2010)•  Créer deux profiles•  Invite...
•  Carnet d’observation:   –  « Vendredi 1 mai 2009. Jusqu’à aujourd’hui, les      retours sur les deux profils sont assez...
•  Comparaison graphes sociaux   entre profile authentique et   profile témoin•  Partage favorise équilibre   caractéristi...
•  r é a t i o n d ’ u n m o d è l e d e Csimulation multi-agents afin degénérer des scénarios alternatifsqui permettent d...
•  ésultats stables du système R(configurations après 20000pas de temps)1.  Effet de Monde dense » :  «composant unique à ...
•  ignatures de dynamiques Sd’harmonisation de laconsommation culturelle:1.  pprentissage initial  A2.  ans apprentissage ...
•  euils de connectivité, Stolérance, densité•  lus de connectivité  Ptolérance               pour“dissonances culturelle...
A réfléchir : La « fin de la vie privée » n’est pas une fatalité.     Monde hautement connecté, hausse des valeurs privacy...
•  Deux résultats :1. Possibilité à un retour vers un   scénario de « petites boîtes »   après une orgie de partage   soci...
Etude 2 : usage des médias sociaux dans               des émeutes
•  « Twitter revolutions? »•  Internet pour coordonner,   débattre, recruter,   s’informer ?•  Dépasser le dualisme et   l...
•  Les émeutes britanniques de   2011•  Ambiguïté fondamentale du   discours public : réseaux   outils de démocratie   (Pr...
•  Questionner le rôle des   médias sociaux dans les   émeutes•  Les données ne sont pas   toujours parlantes (v. LSE/   G...
•  S o l u t i o n :    “rapid   ethnography” (Millen 2000) :   - nformateurs-clés    I   -  bservations in situ et via pl...
•  Inspiré par modèle de la   violence civile de Josh   Epstein (2002)•  Une grille peuplée d’acteurs•  D i f f é r e n t ...
•  Mobilité des agents dans   l’environnement•  La variable « vision » :   capacité des acteurs de   parcourir leur enviro...
•  Usage des médias sociaux   pour acquérir une meilleure   sensibilisation             à   lemplacement (location   aware...
•  Patterns de violence selon différents niveaux de           censure :Red patterns represent number of violent protesters...
•  La violence civile n’est pas un   processus linéaire•  Elle peut atteindre un plateau   tout de suite (en cas de   cens...
•  Pourquoi préférer un équilibre ponctué :Figure:	  In	  the	  absence	  of	  censorship,	  high	  levels	  of	  social	 ...
•  Parce qu’il correspond au niveau de violence le plus basFigure:	  Average	  levels	  of	  civil	  violence	  as	  funcD...
•  Parce que pour des niveaux comparables de violence              civile, l’absence de censure assure le niveau minimal d...
•  Interpréter ces résultats : le   pattern de la violence civile   change avec la censure;•  A b s e n c e d e c e n s u ...
•  Aller plus loin•  Se servir du modèle comme   “béquille” pour la théorie   (développements analytiques)•  Repenser la c...
•  Aller plus loin•  Se servir du modèle comme   “béquille” pour la théorie   (développements analytiques)•  Repenser la c...
•  Ethno-computationnel   particulièrement indiqué pour:   –  Populations sensibles   –  Contraintes de temps   –  Pour dé...
MerciEmail :casilli@enst.frBlog de recherche :http://www.bodyspacesociety.euFil Twitter :@bodyspacesoc
Big data vs small data
Big data vs small data
Prochain SlideShare
Chargement dans…5
×

Big data vs small data

6 316 vues

Publié le

" Small data vs. Big data : comment mener des expériences dans les médias sociaux " : séminaire EHESS Antonio A Casilli, 15 févr. 2012.

Publié dans : Formation
0 commentaire
6 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
6 316
Sur SlideShare
0
Issues des intégrations
0
Intégrations
3 285
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
6
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Big data vs small data

  1. 1. Small Data vs. Big DataMener des expériences dans les médias sociaux Antonio  A.  Casilli  
  2. 2. •  Big data ?•  Un forum Web traditionnel (∼20Gio de données sur 10 ans de durée de vie)•  Une banque en ligne (∼2Tio de données)•  Google Search : 850 Tio de données (2006)•  Facebook bientôt ∼9Pio de données Ghitalla, Franck (2004) La géographie des agrégats de documents sur le Web”, WebAtlas,. http://www.webatlas.fr/ ressources/geographieDesAgregatsWeb.pdf
  3. 3. •  Impossible d’appliquer des techniques traditionnelles•  Millions d’enregistrements avec des milliers d’attributs•  Triomphe de la fouille de données (data mining) et de l’extraction de connaissances•  Exploration automatique de grandes quantités de données pour extraire des patterns
  4. 4. •  Promesses des big data : 1.  Pour la recherche (physique, génomique, épidémiologie, bioinformatique, etc.) 2.  P o u r l e s e c t e u r p u b l i c ( d a t a . g o v, crime, infrastructures) 3.  Pour le privé (recherche industrielle, publicité, assurances, finance) Lohr, Steve (2012) Big Data’s Impact in the World, The New York Times, Feb. 11, sect. Sunday Review. https://www.nytimes.com/ 2012/02/12/sunday-review/big-datas-impact-in-the-world.html.
  5. 5. •  Big data : est-ce la fin de la théorie ?•  Approche dirigée par les données (data-driven) de la recherche “Forget taxonomy, ontology, and psychology. Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak Anderson, Chris (2008) The End of Theory: The Data Deluge for themselves.” Makes the Scientific Method Obsolete. Wired, 16(7), http:// www.wired.com/science/discoveries/magazine/16-07/pb_theory.
  6. 6. •  Six limites de big data (boyd & Crawford, 2011): 1.  N’évacuent pas la théorie, mais la changent 2.  Prétention d’objectivité 3.  Piètre qualité des données (effet boîte noire) 4.  Non-équivalence des données (ex. SNA ≠ SNS) 5.  Exposent à des problèmes éthiques 6.  Créent des fractures des données•  U n e l i m i t e é c o n o m i q u e (Gillespie 2011): 7. Les bailleurs de fonds n’aiment que les gros graphes tâpe-à-l’œil boyd, danah & Kate Crawford (2011) Six Provocations for Big Data. A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, Oxford Internet Institute, Sept. 21, http:// ssrn.com/abstract=1926431
  7. 7. •  Alternatives aux big data –  L a s t a t i s t i q u e p u b l i q u e (Eurobarometer, enquêtes INSEE, etc.) –  Grandes enquêtes universitaires (e.g. European Social Survey, Int Social Survey Program, Program International Student Assesment) –  Grands corpus qualis (DIME SHS)•  Peu flexibles : ne posent pas nécessairement questions significatives pour nos enquêtes
  8. 8. •  Face aux limites des « big data », valeur des petites données ethnographiques : qualitatives, denses et dirigées•  Elles sont plus maîtrisables et accessibles que les big data•  Compensent les limites déclaratives des données des grandes enquêtes
  9. 9. •  Problème : comment les généraliser ?•  Small data qualitatives plus adaptées pour décrire des situations idiosyncrasiques•  M é t h o d e ethno- computationnelle « Décompresser » les petites données à l’aide de systèmes artificiels empiriquement calibrés
  10. 10. •  Les pierres angulaires d’une approche ethno- computationnelle1.  E n q u ê t e socio- anthropologique de terrain2. Définition d’un jeu de règles pour une population3. Simulation multi-agents modellisant le phénomène social observé Tubaro, Paola & Antonio A. Casilli (2010). ‘An Ethnographic Seduction’: how qualitative research and Agent-based Models can Benefit Each Other. BMS: Bulletin of Sociological Methodology, 106(1): 59-74
  11. 11. •  Simulation, ABM (Agent-Based Modelling), « modélisation par agent »…•  Représentation adaptée d’un phénomène social•  Pas des variables, mais des agents•  Interaction adaptative et/ou évolutive dans le temps•  Deux grandes familles de modèles: Schelling Thomas (1978). Micromotives and Macrobehavior. •  Modèles « purs » Toronto: Norton. Gilbert, Nigel & Klaus Troitzsch (2005) Simulation for the social •  Modèles qui intègrent données empiriques scientist. McGraw-Hill International.
  12. 12. Tubaro, Paola & Antonio A. Casilli (2010). ‘An Ethnographic Seduction’: how qualitative research and Agent-based Models can Benefit Each Other. BMS:Bulletin of Sociological Methodology, 106(1): 59-74.
  13. 13. Etude 1 : diversité culturelle sur Facebook
  14. 14. •  Triomphe de l’homophilie et de l’entre-soi ? Ou bien de la diversité culturelle ?•  L’ a p p r o c h e b i g d a t a : expérience avec exposition aléatoire à information échangée entre 253 million d’utilisateurs de FB (Bakshy et al., 2012)•  Résultats : chambre d’écho mais aussi mobilisation des liens faibles Bakshy, Eytan, Rosenn, Itamar , Marlow, Cameron & Lada Adamic (2012) The Role of Social Networks in Information Diffusion, arXiv. http://arxiv.org/abs/1201.4145.
  15. 15. •  Approche small data : expérimentation sur le capital social en ligne (Casilli, 2010)•  Créer deux profiles•  Inviter 100 individus à devenir « amis »•  Faire évoluer et comparer les deux profils•  Amis fournissent des feedback sur comment modifier et enrichir les profils (Commentaires, Messages, J’aime, Partages) Antonio A. Casilli (2010) Les liaisons numériques. Vers une nouvelle sociabilité ?, Paris, Seuil.
  16. 16. •  Carnet d’observation: –  « Vendredi 1 mai 2009. Jusqu’à aujourd’hui, les retours sur les deux profils sont assez négatifs. Les connaissances de sexe féminin surtout ne se gênent pas pour exprimer leur aversion. Une amie définit le profil 1 comme ‘effrayant’, une autre qualifie la photo du profil 2 de ‘monstrueuse’ ». –  « 12-19 mai 2009. Indication : utilisateur du profil 1 apprécie la cuisine japonaise et écoute de la musique punk. Il lit des bandes dessinées et des poètes de la beat generation ». –  « Mardi 19 mai 2009. Profil 1 constamment ouvert dans mon navigateur. En automatique des petites fenêtres contenant des suggestions ou des ‘morceaux choisis’ par ses amis. ‘L’utilisatrice X est fan de l’artiste peintre Tel’ ; ‘L’utilisateur Y a Antonio A. Casilli (2010) Les liaisons numériques. Vers une aimé le dernier livre de l’écrivain Telautre’ ». nouvelle sociabilité ?, Paris, Seuil.
  17. 17. •  Comparaison graphes sociaux entre profile authentique et profile témoin•  Partage favorise équilibre caractéristique entre cohésion sociale (bonding) et connectivité sociale (bridging)•  Reproduction qualitative des résultats de Bakshy et al.•  Généraliser à l’aide de scénarios alternatifs pour comparaisons additionnelles
  18. 18. •  r é a t i o n d ’ u n m o d è l e d e Csimulation multi-agents afin degénérer des scénarios alternatifsqui permettent des comparaisonsadditionnelles•  Etudier la formation de liensaffinitaires en ligne à travers lasimulation de connectivité socialeet respect des particularitésindividuelles
  19. 19. •  ésultats stables du système R(configurations après 20000pas de temps)1.  Effet de Monde dense » : «composant unique à très fortedensité2.  Petites boîtes » : sous- «réseaux à forte densité interne(« Petites boîtes »)
  20. 20. •  ignatures de dynamiques Sd’harmonisation de laconsommation culturelle:1.  pprentissage initial A2.  ans apprentissage initial S3. S i t u a t i o n m i x t e a v e capprentissage constant
  21. 21. •  euils de connectivité, Stolérance, densité•  lus de connectivité  Ptolérance pour“dissonances culturelles”• D e n s i t é r a r e m e n tobservable dans réseauxempiriques hors-ligne Casilli, Antonio A. & Paola Tubaro (2010). Légitimation intersubjective de la présence en ligne et formation de réseaux sociaux : Une approche ethno-computationnelle, II Journées d’études du RT 26 (Réseaux sociaux) de l’Association Française de Sociologie « Les réseaux sociaux: quoi de neuf ? », 16-17 mars, Université de Toulouse II – Le Mirail http://www.bodyspacesociety.eu/2010/03/17/entre-effets-de-petit-monde-et- emiettement-communautaire-la-legitimation-culturelle-a-lheure-de-facebook/
  22. 22. A réfléchir : La « fin de la vie privée » n’est pas une fatalité. Monde hautement connecté, hausse des valeurs privacy !Connectedness Diversity
  23. 23. •  Deux résultats :1. Possibilité à un retour vers un scénario de « petites boîtes » après une orgie de partage social…2. Pratiques expressivistes de partage ne conduisent pas pas automatiquement vers la « publitude » : au contraire certaines configurations affichent plus d’attention à la privacy  
  24. 24. Etude 2 : usage des médias sociaux dans des émeutes
  25. 25. •  « Twitter revolutions? »•  Internet pour coordonner, débattre, recruter, s’informer ?•  Dépasser le dualisme et l’exceptionnalisme des discours sur le Web politique•  N e p a s g o m m e r l e s spécificités matérielles des contextes nationaux –  Moldavie 2009 (TdPI = 30%) –  Iran 2010 (TdPI = 32%) –  Tunisie 2010 (TdPI = 33%) –  Egypte 2011 (TdPI = 21%) –  R-U 2011 (TdPI = 82.5%)
  26. 26. •  Les émeutes britanniques de 2011•  Ambiguïté fondamentale du discours public : réseaux outils de démocratie (Printemps Arabe) ou expression de cultures criminelles (Londres) ?•  Cameron: “shut down the Web to stop the violence”?•  P o u r v u q u e c e s o i t t e c h n i q u e m e n t , économiquement et légalement faisable, est-ce que la censure du Web aurait comme effet la fin de Casilli, Antonio A. & P. Tubaro (2011) Social Media Censorship in Times of Political Unrest Results in More Violent Uprisings : A la violence ? Social Simulation Experiment on the UK Riots, Social Science Research Network, http://ssrn.com/abstract=1909467
  27. 27. •  Questionner le rôle des médias sociaux dans les émeutes•  Les données ne sont pas toujours parlantes (v. LSE/ Guardian vs. UK Gov’t)•  Données difficiles : •  C o n t r a i n t e s p o l i t i q u e s e t légales •  Contraintes imposée du comité d’éthique Burn-Murdoch, John, Lewis, Paul, Ball, James, Oliver, Christine, •  Contraintes économiques Robinson, Michael & Garry Blight (2011) Twitter traffic during the riots, The Guardian, 24 Aug, http://www.guardian.co.uk/uk/ interactive/2011/aug/24/riots-twitter-traffic-interactive
  28. 28. •  S o l u t i o n : “rapid ethnography” (Millen 2000) : - nformateurs-clés I -  bservations in situ et via plusieurs O médias -  nalyse collaborative des données A (notamment via blogs & medias sociaux)•  A partir d’une petite quantité de données d’exploration, créer un jeu de règles pour une population d’agents dans un environnement•  Réaliser expériences de pensée (utiles dans des Millen, David R. (2000) Rapid Ethnography: Time Deepening Strategies for HCI Field Research. Proceedings of the 3rd situations d’instabilité sociale) conference on Designing interactive systems: processes, practices, methods, and techniques: 280-286.
  29. 29. •  Inspiré par modèle de la violence civile de Josh Epstein (2002)•  Une grille peuplée d’acteurs•  D i f f é r e n t s n i v e a u x d e “revendication” (gradation de vert)•  Acteurs révoltés (cercles rouges) se déplacent vers zones d’émeutes•  Présence de policiers dans les parages (triangles bleus)•  A r r e s t a t i o n s a r b i t r a i r e s (cercles noirs)
  30. 30. •  Mobilité des agents dans l’environnement•  La variable « vision » : capacité des acteurs de parcourir leur environnement•  Détecter traces de policiers ou d’autres émeutiers•  La vision représente la « portée » de l’acteur en situation de violence civile•  La vision est inversement proportionnelle à la censure –  Vision peu importante = haut niveau de censure –  Vision importante = censure limitée
  31. 31. •  Usage des médias sociaux pour acquérir une meilleure sensibilisation à lemplacement (location awareness)•  Agents se déplacent dans des zones dans lesquels ils ont un avantage compétitif par rapport aux forces de l’ordre (field awareness)•  Simuler l’état du système pour différentes valeurs du paramètre vision (de 1 a 10) sur laps de temps significatif (1000 pas de temps)
  32. 32. •  Patterns de violence selon différents niveaux de censure :Red patterns represent number of violent protesters over time with different levels of social media censorship: from 0 vision (total censorship, upper left corner)to 10 vision (no censorship, lower right corner). Trend lines are in black. Time is measured as number of steps (1 to 1000). Source: authors’ elaboration.
  33. 33. •  La violence civile n’est pas un processus linéaire•  Elle peut atteindre un plateau tout de suite (en cas de censure)…•  ..ou atteindre un « équilibre ponctué » : des périodes de stabilité suivis de pics de violence (courbe rouge)•  Un pattern qualitativement différent se met en place quand le niveau de censure diminue
  34. 34. •  Pourquoi préférer un équilibre ponctué :Figure:  In  the  absence  of  censorship,  high  levels  of  social  unrest  are  possible  (see  peaks  in  red  line),  but  between  uprisings,  the  social  system  is  able  to  come  back  to  significant  levels  of  quiet  (green  line).  Source:  authors’  elaboraDon.  
  35. 35. •  Parce qu’il correspond au niveau de violence le plus basFigure:  Average  levels  of  civil  violence  as  funcDon  of  levels  of  censorship.  Higher  vision  means  less  censorship  and  less  civil  violence.  Source:  authors’  elaboraDon.  
  36. 36. •  Parce que pour des niveaux comparables de violence civile, l’absence de censure assure le niveau minimal de violence et d’acteurs emprisonnésFigure:   Average   number   of   acDve   (red),   quiet   (green)   and   jailed   (black)   agents   as   funcDon   of   levels   of   censorship.   Higher   vision   means   less  censorship  and  less  civil  violence.  The  total  number  of  agents  is  constant  across  all  simulaDons,  and  over  Dme.  Source:  authors’  elaboraDon  
  37. 37. •  Interpréter ces résultats : le pattern de la violence civile change avec la censure;•  A b s e n c e d e c e n s u r e n’élimine pas totalement la violence civile mais permet d’avoir périodes de paix plus Censorship levels % time spent in quiet (no civil violence) longues 10 9 0 0 •  (Sans parler du nombre de 8 7 0 0 personnes emprisonnées qui 6 5 0 0 est significativement moins 4 0 important…) 3 2 0 0.3 1 10.2 0 32.5
  38. 38. •  Aller plus loin•  Se servir du modèle comme “béquille” pour la théorie (développements analytiques)•  Repenser la contextualisation des phénomènes d’instabilité politique actuels•  Liens entre médias sociaux en tant qu’outils d’expression et en tant qu’outils d’association•  Pérennisation des mobs ou Etling, Bruce, Faris, Robert & John Palfrey (2010) Political volatilité accrue des Change in the Digital Age: The Fragility and Promise of Online Organizing, SAIS Review, 30 (2) : 37-49. mouvements ? Banos, Arnaud (2010) La simulation à base d’agents en sciences sociales : une “béquille pour l’esprit humain”?, Nouvelles perspectives en sciences sociales, 5(2): 91-100.
  39. 39. •  Aller plus loin•  Se servir du modèle comme “béquille” pour la théorie (développements analytiques)•  Repenser la contextualisation des phénomènes d’instabilité politique actuels•  Liens entre médias sociaux en tant qu’outils d’expression et en tant qu’outils d’association•  Pérennisation des mobs ou Etling, Bruce, Faris, Robert & John Palfrey (2010) Political volatilité accrue des Change in the Digital Age: The Fragility and Promise of Online Organizing, SAIS Review, 30 (2) : 37-49. mouvements ? Banos, Arnaud (2010) La simulation à base d’agents en sciences sociales : une “béquille pour l’esprit humain”?, Nouvelles perspectives en sciences sociales, 5(2): 91-100.
  40. 40. •  Ethno-computationnel particulièrement indiqué pour: –  Populations sensibles –  Contraintes de temps –  Pour détecter des phénomènes de seuil –  Pour analyser les phénomènes marginaux (queues des distributions pour lesquels on n’a pas assez de données)•  Limites –  Propres des approches individualistes –  Hyper-simplification et difficulté de gérer des paramètres ad hoc
  41. 41. MerciEmail :casilli@enst.frBlog de recherche :http://www.bodyspacesociety.euFil Twitter :@bodyspacesoc

×