Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre approches théoriques et retours d’expériences

Archiver les réseaux sociaux
Panorama des pratiques et des enjeux : entre approches théoriques et
retours d’expériences
Formation INA - le 3 décembre 2018
responsable de la cellule d’ingénierie documentaire, département des étude et de la recherche (INHA)
maitre de conférence associé à l’Université Paris Nanterre, laboratoire DICEN
Antoine Courtin

Avoir des « billes » pour élaborer des stratégies pour la collecte de
contenu (communication officielle de l’institution + communication
crowdsourcée des communautés d’intérêt).
Connaitre les autres projets de collecte par d’autres organismes
(cohérence/coopération, etc.) en France et à l’étranger.
Evaluer les implications juridiques et éthique de l’archivage de contenu
des médias sociaux
Connaître les enjeux et les implications techniques de ce type de collecte
Enjeux de l’intervention

La question des archives de Museomix varie selon la manière dont
on regarde l'initiative Museomix :
» Museomix comme un événement de 3 jours organisé sur une
année par des organisateurs.
» Museomix comme une communauté 
» Museomix comme une performance
Les ateliers méthodologiques du dépôt légal
du web à l’Ina Vendredi 10 janvier 2014

- Article L211-1 du Code du patrimoine [en ligne], modifié par la loi n°
2008-696 du 15 juillet 2008, disponible sur http://www.legifrance.gouv.fr/
« l'ensemble des documents, quels que soient leur date,
leur lieu de conservation, leur

forme et leur support, produits ou reçus par toute
personne physique ou morale et par tout service

ou organisme public ou privé dans l'exercice de leur
activité. »

5 verbes pour définir les actions entourant une politique
d’archive du web social
Collecter
Stocker
Analyser
Publier
Préserver
• que peut-on collecter (limite des CGU)
• que faut-il collecter ?
• avec quels outils ?
• comment ?
• la question du format ?
• quels objectifs
• quali/quanti ?
• les biais à prendre en compte
• quelles modalités
• respect des CGU
• comment ? Et quels acteurs aujourd’hui
• à quel terme ? Pour quels usages futurs ?

Médias sociaux :
« les différentes activités qui intègrent la technologie, l’interaction
sociale, et la création de contenu » 
 
Réseaux sociaux :
« point de rassemblement sur internet d’un groupe d’individus, et qui
met à leur disposition des outils favorisant les échanges entre eux »

http://www.blogdumoderateur.com/chiffres-internet/ http://www.internetlivestats.com/
Quels activités sur les RSN ?

Source : Blog Books are social
Une histoire (déjà) longue ?

On n’est pas maître des algorithmes de visibilité et des évolutions des business plan
Centralisation/captation des réseaux et donc des données
(alternative à Twitter : Mastodon)
Digital Labor

• accroissement du volume des informations
• apparition/disparition constante des plateformes de RSN
• diversité des formats et mode d’accès aux données
• mise à jour et agrégation continues des informations
• Fréquence des captures, méthode et traitement des contenus +
accessibilité des corpus et valorisation
*Challenges*

Zoom sur Twitter
• Pourquoi ?
• Quels biais ?

juillet 2006
Lancement de Twitter
Octobre 2009
Partenariat avec Google pour
un flux en temps réel (jusqu’en
juillet 2011)
Août 2015
Nouveau partenariat avec
Google (intégration temps réel
dans les SERP sur mobile et
postes fixes)
Ventes d’accès (et
de ses données) via
la société Datasift et
GNIP
Septembre 2015
juillet 2014
L a n c e m e n t d e
analytics.twitter.com
Avril 2012
Possibilité de télécharger
une « archive » de ses
tweets
Twitter devient le seul
interlocuteur pour accéder
à son FireHose
*Twitter et ses data*
Février 2013
Twitter donne accès à la totalité
de son archives par son
interface de recherche
14 avril 2010
Twitter reverse à
la Library of
Congress, 5 TO
Fév. 2012
Restriction de l’API
Avril 2014
Rachat de la société Gnip
1er tests des
@UkNatArchives
pour l’archivage des
tweets de comptes
gouvernementaux
2008
mai. 2009
Première version de l’API
2013
Depuis 2006, le volume de
tweets archivés par la LOC est
estimé à 170 milliards
Sept. 2012
La LOC annonce quà partir du 1er janvier 2018, réaliser l’archivage des tweets par des sélections
janvier 2018

les
tweets de
« compte »
les
tweets
d’évènements
les
tweets
de
conversations
Les
informations
de comptes
Les
statistiques
de tweets
@seeksanusername #askanArchivistDay https://twitter.com/
bymichalak/status/
1031855670134534145
https://analytics.twitter.com/
Quoi collecter ?

https://gwu-libraries.github.io/sfm-ui/

Tweet Visibility Dynamics in a Tweet Conversation Graph
http://ws-dl.blogspot.com/2016/07/2016-07-18-tweet-visibility-dynamics-in.html

La question des « usagers » - Humains ou robots ?
Formerly known as BotOrNot, part of the OSoMe project at Indiana University.
https://botometer.iuni.iu.edu/#!/

http://socialmediadata.org/social-media-research-toolkit/

https://tweetsets.library.gwu.edu/

Elections Européennes - Collecte du web électoral par la #BnF
0
125
250
375
500
2009 2014
Compte Twitter Pages Facebook Nombre URL Total
Elections régionales - Collecte du web électoral par la #BnF
0
750
1500
2250
3000
2010 2015

https://www.alfresco.com/products/ecm/integrations/alfresco-mulesoft

Des limites ?
- à toutes les étapes
- de différentes « natures »
- légales
- techniques
- éthiques

https://developer.twitter.com/en/docs/tweets/search/overview

Une question Ethique ?
via Anatoliy Gruzd

Une question Ethique ?
• Voir le support « Social media research ethical and privacy guidelines »
• https://gwu-libraries.github.io/sfm-ui/resources/
social_media_research_ethical_and_privacy_guidelines.pdf
• Propose des « lignes directrices » pour aider à penser un projet autour des données issues des
médias sociaux lors des différents phases (de collecte, d’archivage, d’analyse , etc.)
• Surtout applicable aux données Twitter mais finalement parfois plus larges aux données sociales et
publiques.
• Pour la collecte, soyez particulièrement attentif :
• à la collecte de données des personnes vulnérables (mineurs, etc.)
• à la collecte des médias sociaux qui pourraient être sensibles ou nuisibles (« comportement
moralement douteux », pornographie, etc.)
• à la collecte de données avec une approche géographique car peut poser des problèmes de
protection de la vie privée des utilisateurs.

*Implications juridiques et éthiques*
[…] the ethical challenge concentrate on a larger question: juste because
we can archive social media, does that mean we should ? […]
Twitter permet aux utilisateurs de déposer des demandes de retraits pour
les personnes utilisants du contenu sans attribution
Droits des utilisateurs / droits de propriété intellectuelle
La question de la vie privée et/ou du consentement des utilisateurs
Nécessité pour l’archiviste de documenter l’ensemble de leurs actions et
de décision.
Rivers CM and Lewis BL (2014) Ethical research standards in a world of big data [v1; ref status: approved with
reservations 1, http://f1000r.es/2wq] F1000Research 2014, 3:38 (doi: 10.12688/f1000research.3-38.v1)
Matthew L Williams, Pete Burnap, Luke Sloan (2017). “Towards an Ethical Framework for Publishing Twitter Data in
Social Research: Taking into Account Users’ Views, Online Context and Algorithmic Estimation” http://
journals.sagepub.com/doi/full/10.1177/0038038517708140

https://archivesocial.com/whitehouse/

http://www.trumptwitterarchive.com/

https://dash.harvard.edu/bitstream/handle/1/25658314/HL_web_archiving_env_scan_2006.pdf?sequence=1
*L’exemple du Smithsonian*

https://archive.org/details/twitterstream&tab=collection

http://data.issy.com/explore/dataset/flux-rss-
du-twitter-issylesmoul/export/?
sort=published&disjunctive.published&disju
nctive.author

Comment collecter ?
[solution + ou – « geeks »]

https://github.com/edsu/twarc
http://140dev.com/free-twitter-api-source-code-library/
https://github.com/digitalmethodsinitiative/dmi-tcat
https://tags.hawksey.info/get-tags/
http://sferik.github.

A Web Scraping Methodology for Bypassing Twitter API
Restrictions. https://arxiv.org/pdf/1803.09875.pdf
https://github.com/bpb27/twitter_scraping
https://rtweet.info/

A pre-configured
collection of tools
including Social Feed
Manager and Lentil for
easily building Twitter and
Instagram social media
archives on your own
computer.
https://github.com/NCSU-Libraries/Social-Media-Combine
SocialMedia- Archives -ToolKit
Environmental Scan
https://www.lib.ncsu.edu/social-media-archives-toolkit/collecting/social-media-harvesting-tools
http://social-feed-manager.readthedocs.org/en/m5_004/

https://wiki.digitalmethods.net/Dmi/ToolDatabase?
cat=MediaAnalysis&subcat=Media%20Monitoring

Et du côté de Facebook
• même soucis que Twitter > versalité des collecte à
cause des API
• petite astuce : retrouver l’id des pages avec http://
lookup-id.com/#

• Collecte de tous les hastags pilotés par l’INHA (via twarc)
• Téléchargement annuel des archives de comptes de tous les
comptes associés à l’INHA
• Téléchargement des données statistiques tous les 3 mois.
• Politique de nommage et sauvegarde en CSV sur serveurs
redondés (en attendant outils de conservation d’objets
numériques).
• analyse des statistiques et des collectes – aide au pilotage
Une approche pragmatique

Nouveaux « matériaux » pour
la recherche

http://digital.wustl.edu/ferguson/
http://goo.gl/M33QOs

« Documenting the Now: Supporting Scholarly Use and
Preservation of Social Media Content » project.
http://goo.gl/Z9fc2p
• Projet lancé en janvier 2016
• 3 institutions partenaires
• Université du Maryland
• Université Saint-Louis de Washingtion
• Université Riverside de Californie
• Financé par la Fondation Andrew W. Mellon
(à hauteur de 517000$ pour 2 ans)
• Développement d’un outil DocNow

Le dossier "Le temps long des réseaux sociaux numériques" du Temps des médias, coordonné par Cécile Meadel, Frédéric Clavert et Martin Grandjeau vient de
paraitre. Disponible le 3 décembre en librairie et bientôt sur @Cairninfo

http://histnum.hypotheses.org/category/ww1
*Objet de recherche*
http://ideo2017.ensea.fr/plateforme/
http://politwoops.sunlightfoundation.com/

https://goo.gl/3va0rC
https://hal.archives-ouvertes.fr/hal-01758645
https://hal.archives-ouvertes.fr/hal-01145723
https://halshs.archives-ouvertes.fr/halshs-01217118

• Bibliographie sélective sur le dépôt légal de l’internet, Bibliothèque national de France (http://
www.bnf.fr/documents/bibliographie_dl_web.pdf)
• Web90 – Patrimoine, Mémoires et Histoire du Web dans les années 1990 (https://
web90.hypotheses.org/693)
• Web Archiving Environmental Scan, Harvard Library Report, January 2016 (https://goo.gl/
es2NDO)
• National Archives and Records Administration (White Paper on Best Practices for the Capture of
Social Media Records) http://goo.gl/d0sjSw
• @IanMiligan
• @ruebot
• @edsu
• @documentnow
*Ressources*
• @gruzd
• @valerie_schafer
• @inadlweb
• @HistWebArchives
Sans oublier, les séance « Social Media Archiving »
aux conférences IIPC (International Internet Preservation Consortium)
• @DLWebBnF
• @AndreaGoethals
• @was3210

Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre approches théoriques et retours d’expériences

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre approches théoriques et retours d’expériences

Similaire à Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre approches théoriques et retours d’expériences (20)

Plus de Antoine Courtin

Plus de Antoine Courtin (17)

Dernier

Dernier (12)

Archiver les réseaux sociaux : Panorama des pratiques et des enjeux : entre approches théoriques et retours d’expériences