Lors de la séance du 5 février 2014 du séminaire Digital Humanities, nous avons proposé une discussion sur la plateforme collaborative Kinsources, un outil de recherche en anthropologie qui permet de stocker, partager, analyser et comparer ses bases de données sur la parenté.
Dans les slides la présentation par Pascal Cristofoli.
2. RÉSUME DE LA PROPOSITION DE
PROJET
L’objectif du projet est la mise en place d’une plateforme ouverte et interactive pour le
partage et l’analyse des données de parenté (généalogiques, terminologiques et
résidentielles) utilisées dans la recherche scientifique, notamment en anthropologie, en
histoire et en démographie.
Associant les fonctionnalités d’une archive de sources avec celle d’une boîte à outils mettant
à la disposition des chercheurs les logiciels les plus avancés pour leur traitement, cette
plateforme s’inscrit dans une perspective de recherche qui vise à comprendre l’interaction
entre généalogie, terminologie et espace dans l’émergence des structures de parenté.
Hébergée par le TGE Adonis, la plateforme garantira à la fois la sécurisation et le libre accès
à des données dont le caractère scientifique est validé par la communauté des chercheurs,
tout en permettant aux auteurs et aux développeurs de compléter leurs données et de faire
évoluer les services web intégrés.
Avec l’ambition de réunir, à moyen terme, une grande part des données de parenté utilisées
dans la recherche scientifique internationale, cette plateforme constituera un moyen
important et inédit pour fournir aux études de la parenté une base empirique solide et un
instrumentaire analytique intégré.
11. • Hamberger and Daillant (2008), « L’analyse de réseaux de parenté. Concepts et outils », Annales de Démographie Historique 116, 13‐52
• Hamberger, Houseman et Grange (2009), « La parenté radiographiée : un nouveau logiciel pour le traitement et l’analyse des structures
matrimoniales », L’Homme 191, 107‐137
• Hamberger, Houseman et White (2011), « Kinship Network Analysis », In Carrington, Peter and J. Scott (dir.) The Sage Handbook of Social Network
Analysis, London, Sage Publications, 533‐549
Manuel Puck 2.0 : http://www.kintip.net/component/docman/doc_download/75‐puck‐manual‐20
17. Etudier la population et ses relations
• Se servir de la parenté comme structure de fond.
– recenser les circuits observés quand la relation de clôture n’est plus
un mariage, mais un autre type de relation (ex: transaction)
– recenser les circuits observés entre individus ayant des ancêtres
partageant des caractéristiques communes (ex: même village)
Transaction
Même village
Mariage
Ancêtres
20. Open sources / Open data
• Utilisation et création d’outils libres
– Sites et logiciels
• Publication de «données ouvertes»
– Assurer leur pérennité
– Protéger les «auteurs» des corpus
– Enjeux du référencement des corpus
• Démarche scientifique
– Fiabilité des données
– Exigences techniques
– Reproductibilité des analyses
– Vérification des résultats
21. Archiver des données scientifiques
• Des « données numériques » ≠
• Des « données de recherche »
(Anthropologie, Ethnologie, Histoire, Démographie)
• Des données généalogiques au sens large
– Généalogies (filiations et alliances)
– Donnés associées:
Données terminologiques et géographies
Données « sociales » (liens et affiliations)
• Types d’échantillonnages:
– Corpus généalogiques de « communautés »
– Généalogies patrilinéaires
– Prosopographies
22. Fonction patrimoniale
• Mise à disposition de données
– Nombreux corpus réalisés avec de l’argent public
• Nombreux corpus en perdition
– Départ de leurs auteurs, pas de conservation
– Des outils, des formats, logiciels non pérennes
– Pas de problématique générale de sauvegarde des
données de la recherche.
• Diffusion auprès de la communauté scientifique
– Apparaitre comme une solution viable et simple de
pérennisation de corpus
– Devenir acteur identifié par la communauté pour la
diffusion des données de la recherche
23. Fonction scientifique
• Reproductibilité des analyses
• Approfondissement des analyses
• Comparaison de corpus
• Ouverture vers
– d’autres analyses
– d’autres champs de recherche
– d’autres problématiques et données (terminologies de
parenté, données spatiales)
• Point de départ pour des recherches
• Interroger la parenté à partir d’autres données
• Commutativité des informations
25. « Publier » un corpus
• Idée que la publication de corpus scientifique est un
travail à part entière (souvent ingrat)
– Qualité du corpus, métadonnées, etc.
– On utilise le corpus, mais on ne fait pas l’effort
supplémentaire permettant sa publication et la ré‐utilisation
par des tiers.
• Idée de donner à la publication de corpus le statut de
publication à part entière.
– Edition de source ou description d’enquête
– Validation scientifique
– Garantir la cohérence « interne » du corpus
– Identification du corpus et de ses « auteurs »
– Garantir une documentation minimum
– Valorisation de la publication vis‐à‐vis des institutions
– Statut de « publication électronique » d’un corpus?
27. Stratégies pour augmenter les dépôts
• Incitation au dépôt individuel de corpus
• Atteindre une masse critique par l’exemple
– Qualité des corpus déjà archivés
– Célébrité de certains corpus
– Diversité des corpus susceptibles d’être intégrés
– Utilité et apports des outils associés
• Susciter de nouvelles contributions:
– Recensement des corpus pouvant être concernés
– Corpus existants à sauvegarder (transformations de formats)
– Initiatives de codages de corpus par le projet Kinsources
• Codage de corpus peut être long
• Nécessités d’avoir une politique générale
28. Diffusion : effet Boule de Neige
• Rechercher des contributions et des contributeurs
– Atteindre une «masse critique» de corpus (effet d’aubaine)
– Bouche à oreille
– Présences de corpus «éligibles» dans l’entourage des
membres du projet
– Repérage des corpus existants
– Priorité aux corpus publiés ou déjà saisis
– Actions de diffusion
• Appels dans des revues, sur listes de diffusion
• Journées d’études, manifestations scientifique
• Sensibilisation des acteurs de la recherche: établissements, centres
de recherche, Enseignants/chercheurs, Étudiants
– Mise en place et entretien d’un réseau de contributeurs‐
utilisateurs
• Flux RSS, lettre d’information, et liste de diffusion
• Référencement
29. « Stratégies de corpus » par Labos
• Possibilité technique de distinguer des «collections» de
corpus (cf. HAL) :
• Notamment les collections des laboratoires partenaires
• Collections thématiques
• Politique de corpus des laboratoires partenaires
Chaque laboratoire organise sa politique d’acquisition et de publication autour
d’un ou plusieurs axes (notamment régionaux), dans le but d’optimiser
l’effet de «masse critique» pour attirer des communautés de chercheurs
– Communautés juives en Europe moderne (CRM)
– Histoire moderne française, prosopographies (LaDeHiS)
– Corpus démographiques (LaDeHiS/INED/CRM)
– Monde amérindien (LAS)
– Sahel et Océan Indien (LESC)
30. Interroger la parenté…
– Données spatiales: géocodage/géoréférencement des données de parenté
– Données terminologiques : manipulation et étude des terminologies de
parenté.
– Réseaux sociaux et des données relationnelles associées aux données de
parenté
– Question de la qualité des généalogies qui sont souvent des outils de
légitimation.
– Etude des groupes sociaux (noblesses, bourgeoisie, etc.)
– Prosopographies:
Données de parenté réunies à partir de l’observation d’un groupe social particulier,
croisement avec d’autres types de données (carrières professionnelles, résidentielles)
– Données démographiques et sociales:
Bases de données démographiques (démographie historique): actes d’état civil,
registres paroissiaux, et procédure de reconstitution des familles
– Données économiques: Transmission de patrimoines, filiations d’offices, etc.
35. Développement: Société Devinsy
La programmation de la plateforme
(V1, novembre 2013):
● Développement:
‐ 52 000 lignes de code Java, 279 classes Java
‐ 5 800 lignes de code HTML, 101 fichiers HTML
‐ durée : 170 jours (en cours)
● Modules techniques :
gestion de comptes, suivi d'activité, webmaster, base de données…
● Modules de communications :
Gestion de contenu éditorial, forums, flux RSS…
● Modules métiers :
gestion de corpus : télé‐versement, exploration, recherche
gestion de demandes de publication de corpus Kinsources.
Société DEVINSY (créée en 2007):
Société de service en informatique libre,
Recherche & développement : 50 %
● Écrire des logiciels libres
● Utiliser des formats ouverts (OpenDocumentFormat...)
● Utiliser des outils libres (GNU/Linux, Eclipse, LibreOffice, Gimp…)
● Choisir des licences libres (GNU Public License, CeCILL, Creative Commons…)
36. Fonctionnalités du site (1/3)
• Soumission de corpus par un utilisateur
– Téléverser un corpus au format gedcom, tip, pajek...
– Le renseigner (auteur, description courte, licence...)
– Autoriser ou non sa mise en ligne
• Procédure de validation des soumissions
– Automatique : cohérence du corpus lors du dépôt
utilisation de fonctions pré‐existantes dans Puck
– Scientifique : avis d’un comité scientifique avant la
publication du corpus
• Export des données
– Télécharger un ou plusieurs corpus (pour y travailler sur
sa propre machine)
38. Fonctionnalités du site (3/3)
• Navigation dans les corpus
• Selon différentes vues
• Fil d'actualités
– Compatible avec les lecteurs de flux classiques
• Aide utilisateur
– Pages d'aide textuelles et visuelles pour accompagner les
utilisateurs dans leurs soumissions, recherches...
• Design et aspect général
– Un visuel simple, un site « user‐friendly »
• Site multilingue
39. Contraintes techniques à intégrer
• Interopérabilité
– Du site avec les logiciels classiques en parenté (Puck et
KinOath)
– Des méta‐données avec les formats de référence
• Validité
– Selon les normes W3C
• Sécurité
• Ouverture du code du site
– Sources libres (licence Cecill)