Amar Lakel - Patrimonialisation numérique et avenir digital du document.

+
Patrimonialisation numérique et avenir digital du document
– Amar LAKEL, MICA E3D
MasterClass DNHD Bordeaux # 1
21/22 février 2019
HyperEdition, Documentarité, Technologies intellectives

+
Numérique : les humanités mises à
l’épreuve.
 D’une explosion de la numérisation du monde à une
accumulation de sa captation.
 Humanités numériques une série d’épreuves :
 Que faire de ces big data ?
 Quels outillages intellectifs ?
 Comment appréhender les algorithmes d’analyse?
 Quel agencement de compétences face à ces épreuves ?
 Sommes-nous face à un renouvellement du rôle des SHS (et
des SIC) dans l’économie des savoirs ?
 Toutes ces épreuves sont pour nous un programme

+
Les épreuves de la
documentarité

+
Épreuve 1 : complexité du
document
 Le big data est-il la promesse d’un big
knowledge ?
 Massification de la conversion des traces en données
numériques
 Hétérogénéité des formats numérisés (texte/image/son)
 traçabilité des agencements éditoriaux
 Granularité des corpus (objets connectés)

+
Épreuve 1 : complexité du process
 Or le document numérique est un processus construit
complexe
 De ce qui est capté (action ou représentation)
 De ce qui est conservé
 De ce qui est éditorialisé (public, restreint, privé)
 De ce qui est indexé et annoté (infomédiaire)
 De ce qui est archivé (la mémoire numérique)
 Le chercheur se retrouve devant une multitude de dispositifs
complexes dont il faut à chaque fois essayer de suivre la
généalogie (La méthode Foucault ?)

+
Épreuve 2 : Accéder aux données
 La captation du monde dans le capitalisme informationnel est
une histoire de propriété privée à haute valeur ajoutée
 La propriété privée des données fait entrer les humanités dans un
rapport de force économique
 La question de la confidentialité et de la vie privée
 Éthique de la recherche et puissance prédictive
 Données de la recherche et bien commun

+
Solution 1 : Open Data Research
 Normaliser les pratiques de web sémantique dans la production
de données pour la recherche en vue de la mise en accès.
 Normaliser les objets informationnels au cœur des disciplines en
SHS (ex. des enquêtes psychosociales)
 Développer des outils de constitution de corpus open source et en
licence MIT (reproductibilité)
 Constituer des cohortes pour des études multiples et
longitudinales
 Contractualiser l’accès à la data publique avec les géants du
numérique et les grandes institutions publiques

+
Épreuves de la signifiance
algorithmique

+
Recodage algorithmique : enrichir
les données
 Face aux grandes masses de données, seule la maîtrise
algorithmique permettra l’expérimentation de nouvelles
signifiances (ex. recodage automatique)
 Texte : analyse de similarité, analyse stylistique, lemmatisation,
détection d’objet, classification thématique, analyse de sentiments…
 Image/Vidéo : détection de visages, détection d’émotions, d’objets, de
lieux, annotations contextuelles, retranscriptions textuelles, découpages
séquentiels
 Son : Retranscription automatique, analyse séquentielle, de similarité,
détection de langue, etc.
 Peut-on imaginer une véritable politique publique de l’archivage
numérique (BNF, INA, etc.) ?

+
Analyse structurale : corrélation et
classification
 Face aux grandes masses de données, la démocratisation des
algorithmes « interprétatifs » dans les langages R et Python
 Algorithmes de régression : comprendre les facteurs corrélés aux
phénomènes étudiés
 Algorithmes de clusterisation : créer des sociotypes en réduisant les
dimensions de l’enquête
 Algorithmes de classification :
 Peut-on imaginer une véritable politique de formation universitaire
des futurs lettrés du digital ?

+
Analyse systémique :
Contextualisation des réseaux
 Placer l’individu (au sens statistique) dans un système d’interconnexions
(explicites ou implicites internes ou implicites externes) permet de
comprendre le poids de sa « position » sur son existence (statut,
comportements et représentations)
 Approche holiste permet de qualifier algorithmiquement le réseau et ses individus
au sens global et le comparer à d’autres réseaux de même nature
 Approche atomiste permet de qualifier la position de l’individu dans le réseau et
de le corréler à ses comportements
 Approche communautaire permet d’analyser les sous-réseaux comme des
cliques et voir se jouer les logiques de rassemblement
 La scientométrie et la bibliographie sont les fondements de l’approche réseau et
donc du renouveau de la documentarité dans les humanités digitales.

+
3 projets Humanités
numériques
My Web Intelligence, Information de santé, et PoliNUM

+
My Web Intelligence : une
architecture d’annotation
Une logique
projet
• Problématisation de recherche
• Dictionnaire de requêtes
Agent de
« scraping »
• Constitution du corpus
• HTTP ou API interface
Crawling des
liens
• Epuisement du corpus
• lien pertinent ? approbation ? Profondeur
Algorithme de
recodage
• Nettoyage des données
• détection des médias
Une interface
d’annotation
• générateur de formulaires
• interconnexion des API externes
Algorithme
structuraux
• Classification et régression
• Machine Learning
Exports des
données
• Base de données(CSV et TEI)
• Fichiers Graph
• Fichiers propriétaires

+ 2 cas de sociologie du web : Humanités
digitales et information de santé
Scenario d’usage :
le monde selon
google
• « il faut pouvoir tout lire »(Foucault)
• Un dictionnaire est toujours social
Recupération des
corpus sans
apriori
• 1000 + 30 000 pages
• groupés en sites
Annotations
humaines
• Type d’émetteurs
• Dispositif de communication
Annotation
externes
• Résonnance sociale
• Facebook, Twitter, Moz, etc
Analyse réseau
des liens qualifiés
• Détection des communautés
• Indices d’autorité et hub, pgrank
Classifications
thématiques des
corpus
• Lemmatisation
• ACP et KMean
Opérationnaliser le concept
stratégique de « prise de
position »
Qui + Quoi + Ou
Résonnance sociale
+
Autorité
=
Influence

+
Polinum : Allez plus loin sur les
études monographiques
 Un acteur central des politiques publiques du numérique qui
disparaît. Patrimoine numérique ? Accès aux données pour la
recherche
 Archivage total d’un nom de domaine en normes TEI – Dublin
Core mis en accès libre
 Protocoles HD en cartographie augmentée pour retrouver la
dynamique d’un écosystème numérique sur 10 ans
 Méthodes mixtes couplage quali - quanti
 Renouveau de la recherche en politique publique territoriale
par le numérique

+
Pour conclure…
… sans s’arrêter.

+
Innover en SHS malgré tout
Quelques leçons sur la conduite de projet « humanités digitales »
1. Logique Open source et Licence MIT VS les pathologies
académiques/bureaucratiques (mégalomanie, paranoïa et
perversité) ?
1. Difficiles interactions avec les informaticiens (Partenariats
académiques ? Partenariats avec entreprises ? Prestataires ?)
1. Nécessité de développement en continu vs logique projet
2. Quels financements pour l’innovation dans la recherche ? Une
confédération de projets régionaux contre la centralisation
bureaucratique parisienne ?

+
Innover en SHS malgré tout
 Se former soi-même au développement informatique en SHS ?
Quelle reconnaissance de la communauté ? Impact sur la recherche
en SHS ? Impact sur la carrière ?
 Avoir un vrai corps d’ingénieurs de recherche en humanités digitales
au cœur des équipes de recherche (vs logique masse salariale nulle)
?
 Fonder des vraies équipes projet sur le modèle des équipes Open-
Sources en rupture avec la culture académique (vs révolution
culturelle ?)

Amar Lakel - Patrimonialisation numérique et avenir digital du document.

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (18)

Similaire à Amar Lakel - Patrimonialisation numérique et avenir digital du document.

Similaire à Amar Lakel - Patrimonialisation numérique et avenir digital du document. (20)

Plus de Amar LAKEL, PhD

Plus de Amar LAKEL, PhD (20)

Dernier

Dernier (10)

Amar Lakel - Patrimonialisation numérique et avenir digital du document.