Les humanités numériques sont la rencontre entre la numérisation des traces de l’activité humaine et la démarche scientifique des SHS. Si le digital turn est une révolution sociétale, la pratique du chercheur ne peut échapper aux enjeux majeurs d’une innovation radicale de ses pratiques. Dans le cadre de cette master class, Amar LAKEL s’est interrogé sur la capacité d’innovation du chercheur en SHS qu’il distingue de ses capacités de professionnel de la recherche. Il enjoint alors la recherche à réussir une série d’épreuves pour réussir son entrer dans le XXIe siècle.
Vous trouverez la présentation video ici : https://youtu.be/YHj953Yb95w
Et l’article sur lequel se fonde cette présentation dans la revue Etudes digitales N°6 : https://www.researchgate.net/publication/332671854_Recherches_digitales_et_production_des_donnees_bouleversement_des_agencements_pour_le_chercheur_en_SIC
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
1. +
Patrimonialisation numérique et avenir digital du document
– Amar LAKEL, MICA E3D
MasterClass DNHD Bordeaux # 1
21/22 février 2019
HyperEdition, Documentarité, Technologies intellectives
2. +
Numérique : les humanités mises à
l’épreuve.
D’une explosion de la numérisation du monde à une
accumulation de sa captation.
Humanités numériques une série d’épreuves :
Que faire de ces big data ?
Quels outillages intellectifs ?
Comment appréhender les algorithmes d’analyse?
Quel agencement de compétences face à ces épreuves ?
Sommes-nous face à un renouvellement du rôle des SHS (et
des SIC) dans l’économie des savoirs ?
Toutes ces épreuves sont pour nous un programme
4. +
Épreuve 1 : complexité du
document
Le big data est-il la promesse d’un big
knowledge ?
Massification de la conversion des traces en données
numériques
Hétérogénéité des formats numérisés (texte/image/son)
traçabilité des agencements éditoriaux
Granularité des corpus (objets connectés)
5. +
Épreuve 1 : complexité du process
Or le document numérique est un processus construit
complexe
De ce qui est capté (action ou représentation)
De ce qui est conservé
De ce qui est éditorialisé (public, restreint, privé)
De ce qui est indexé et annoté (infomédiaire)
De ce qui est archivé (la mémoire numérique)
Le chercheur se retrouve devant une multitude de dispositifs
complexes dont il faut à chaque fois essayer de suivre la
généalogie (La méthode Foucault ?)
6. +
Épreuve 2 : Accéder aux données
La captation du monde dans le capitalisme informationnel est
une histoire de propriété privée à haute valeur ajoutée
La propriété privée des données fait entrer les humanités dans un
rapport de force économique
La question de la confidentialité et de la vie privée
Éthique de la recherche et puissance prédictive
Données de la recherche et bien commun
7. +
Solution 1 : Open Data Research
Normaliser les pratiques de web sémantique dans la production
de données pour la recherche en vue de la mise en accès.
Normaliser les objets informationnels au cœur des disciplines en
SHS (ex. des enquêtes psychosociales)
Développer des outils de constitution de corpus open source et en
licence MIT (reproductibilité)
Constituer des cohortes pour des études multiples et
longitudinales
Contractualiser l’accès à la data publique avec les géants du
numérique et les grandes institutions publiques
9. +
Recodage algorithmique : enrichir
les données
Face aux grandes masses de données, seule la maîtrise
algorithmique permettra l’expérimentation de nouvelles
signifiances (ex. recodage automatique)
Texte : analyse de similarité, analyse stylistique, lemmatisation,
détection d’objet, classification thématique, analyse de sentiments…
Image/Vidéo : détection de visages, détection d’émotions, d’objets, de
lieux, annotations contextuelles, retranscriptions textuelles, découpages
séquentiels
Son : Retranscription automatique, analyse séquentielle, de similarité,
détection de langue, etc.
Peut-on imaginer une véritable politique publique de l’archivage
numérique (BNF, INA, etc.) ?
10. +
Analyse structurale : corrélation et
classification
Face aux grandes masses de données, la démocratisation des
algorithmes « interprétatifs » dans les langages R et Python
Algorithmes de régression : comprendre les facteurs corrélés aux
phénomènes étudiés
Algorithmes de clusterisation : créer des sociotypes en réduisant les
dimensions de l’enquête
Algorithmes de classification :
Peut-on imaginer une véritable politique de formation universitaire
des futurs lettrés du digital ?
11. +
Analyse systémique :
Contextualisation des réseaux
Placer l’individu (au sens statistique) dans un système d’interconnexions
(explicites ou implicites internes ou implicites externes) permet de
comprendre le poids de sa « position » sur son existence (statut,
comportements et représentations)
Approche holiste permet de qualifier algorithmiquement le réseau et ses individus
au sens global et le comparer à d’autres réseaux de même nature
Approche atomiste permet de qualifier la position de l’individu dans le réseau et
de le corréler à ses comportements
Approche communautaire permet d’analyser les sous-réseaux comme des
cliques et voir se jouer les logiques de rassemblement
La scientométrie et la bibliographie sont les fondements de l’approche réseau et
donc du renouveau de la documentarité dans les humanités digitales.
13. +
My Web Intelligence : une
architecture d’annotation
Une logique
projet
• Problématisation de recherche
• Dictionnaire de requêtes
Agent de
« scraping »
• Constitution du corpus
• HTTP ou API interface
Crawling des
liens
• Epuisement du corpus
• lien pertinent ? approbation ? Profondeur
Algorithme de
recodage
• Nettoyage des données
• détection des médias
Une interface
d’annotation
• générateur de formulaires
• interconnexion des API externes
Algorithme
structuraux
• Classification et régression
• Machine Learning
Exports des
données
• Base de données(CSV et TEI)
• Fichiers Graph
• Fichiers propriétaires
14. + 2 cas de sociologie du web : Humanités
digitales et information de santé
Scenario d’usage :
le monde selon
google
• « il faut pouvoir tout lire »(Foucault)
• Un dictionnaire est toujours social
Recupération des
corpus sans
apriori
• 1000 + 30 000 pages
• groupés en sites
Annotations
humaines
• Type d’émetteurs
• Dispositif de communication
Annotation
externes
• Résonnance sociale
• Facebook, Twitter, Moz, etc
Analyse réseau
des liens qualifiés
• Détection des communautés
• Indices d’autorité et hub, pgrank
Classifications
thématiques des
corpus
• Lemmatisation
• ACP et KMean
Opérationnaliser le concept
stratégique de « prise de
position »
Qui + Quoi + Ou
Résonnance sociale
+
Autorité
=
Influence
15. +
Polinum : Allez plus loin sur les
études monographiques
Un acteur central des politiques publiques du numérique qui
disparaît. Patrimoine numérique ? Accès aux données pour la
recherche
Archivage total d’un nom de domaine en normes TEI – Dublin
Core mis en accès libre
Protocoles HD en cartographie augmentée pour retrouver la
dynamique d’un écosystème numérique sur 10 ans
Méthodes mixtes couplage quali - quanti
Renouveau de la recherche en politique publique territoriale
par le numérique
17. +
Innover en SHS malgré tout
Quelques leçons sur la conduite de projet « humanités digitales »
1. Logique Open source et Licence MIT VS les pathologies
académiques/bureaucratiques (mégalomanie, paranoïa et
perversité) ?
1. Difficiles interactions avec les informaticiens (Partenariats
académiques ? Partenariats avec entreprises ? Prestataires ?)
1. Nécessité de développement en continu vs logique projet
2. Quels financements pour l’innovation dans la recherche ? Une
confédération de projets régionaux contre la centralisation
bureaucratique parisienne ?
18. +
Innover en SHS malgré tout
Se former soi-même au développement informatique en SHS ?
Quelle reconnaissance de la communauté ? Impact sur la recherche
en SHS ? Impact sur la carrière ?
Avoir un vrai corps d’ingénieurs de recherche en humanités digitales
au cœur des équipes de recherche (vs logique masse salariale nulle)
?
Fonder des vraies équipes projet sur le modèle des équipes Open-
Sources en rupture avec la culture académique (vs révolution
culturelle ?)