N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique
1. XML TEI : un outil méthodologique
pour la recherche en SHS
Atelier pratique. Indexation d'un corpus TEI à partir
d'une plateforme collaborative.
EHESS – 3 février 2010
Nicole Dufournaud
Ingénieure de recherche
CESR Tours
Chercheuse en Histoire
2. Plan
● La plate-forme Millefeuille
– Le projet Millefeuille
– La plate-forme
● Les entités nommés :
– Les lieux
– Les noms de personnes
3. La partie « Atelier »
● Présentation :
– de la plate-forme
– indexation
● Démonstration
● Atelier :
– Exercices encodés
– 1 exercice à encoder avec <persName>
<placeName> <geogName>
4. Le projet Millefeuille
2006- 2007
● Projet Millefeuille : Archives nationales, Ecole
nationale des Chartes, IDHE de l'Université
Paris I et l'INRIA (2006-2007)
– Encodage des almanachs royaux, nationaux
et impériaux entre 1750 et 1850
– Création d'une plate-forme collaborative qui
autorise un travail collectif : un véritable
outil de travail mais un prototype
● Créé par Félicien François sur une idée de
Jean-Daniel Fekete (INRIA)
5. Le projet Millefeuille
2006- 2007
● Projet Millefeuille 2006-2007:
– Emacs, une plate-forme de travail efficace et
souple: recherche dans le corpus facile
(grep et agrep pour la recherche
approximative), gestion des versions de
documents (cvs) et convertisseur de dates
– Inconvénient : lourd apprentissage et aspect
rebutant pour les non-initiés
– Préparer la seconde phase du projet
6. La plate-forme Millefeuille
● Eclipse
– Éditeur XML : logiciel libre
● Plugin (module accessoire ou “greffon” ou
“extension”) :
– Affichage des documents en HTML
– Création et génération d'index
– Filtres et navigation dans les index
● Co-développé par l'IRHT (Richard Walter) et
l'INRIA (JD Fekete)
– Troisième version sur le site de Telma
http://www.cn-telma.fr/ (février 2010)
7. A savoir !
● Le système de perspective Millefeuille : par
défaut Eclipse propose la perspective Java
● Structure du document XML/TEI
– L'affichage se fait sous forme d'arbre.
– Le menu contextuel (bouton droit de la
souris) propose des fonctions d'édition :
● Ajout d'attribut
● Ajout d'élément
8. Exercices sur les minutes
● Une minute notariale est l'acte original
notarié, signé par les parties en présence
ainsi que par les notaires ; la minute est
conservée chez le notaire à la différence de
la « grosse » qui est la copie remise aux
parties.
10. Exercices sur les lettres de
rémission
« ...La lettre de rémission est un acte de la
Chancellerie par lequel le roi octroie son
pardon à la suite d’un crime ou d’un délit,
arrêtant ainsi le cours ordinaire de la
justice, qu’elle soit royale, seigneuriale,
urbaine ou ecclésiastique... » Claude
Gauvard.
12. Les entités nommés
● Plusieurs types : on en retient deux
– Personnes
– Lieux
● Lieux : problèmes
– Orthographe et variante : « Bretaigne »
– Changement de noms de lieux
● Personnes : problèmes
– Orthographe : « Lefebure » « Lefebvre »
– Identité sociale
13. Les entités nommés et TEI
● <rs> chaîne de caractères
<rs type="person">François Rabelais</rs>
<rs type="person">sa mère</rs>
<rs type="airport">Charles de Gaulle</rs>
● <name>
<name type="person">François Rabelais</name>
<name type="place">Charles de Gaulle</name>
<name type="person">Charles de Gaulle</name>
– ou <persName> !
14. Les noms de lieux
<placeName> <geogName>
● <placename> nom de lieu
<placename>Paris</placename>
● <geogName> nom associé à un lieu géo.
<geogName>Pont Neuf</geogName>
15. Les noms de personnes
<persName>
● <surname> nom de famille ou patronyme
● <forename> prénom
● <roleName> titre et avant-nom
● <addName> épithète
● <nameLink> particules nobiliaires
Exemple : « haute dame dame Suzanne de Bourbon dame
de Rieux »
<persName>
<addName type="epithete-honneur">haute dame</addName>
<roleName type="avant-nom">dame</roleName>
<forename>Suzanne</forename><nameLink>de</nameLink>
<surname>Bourbon</surname>
<roleName type="titre">dame</roleName> de
<geogName>Rieux</geogName>
</persName>
16. Démonstration
● Démonstration sur les fichiers des minutes
notariales et lettres de rémission
– Présentation de la plate-forme
– Index de chaque fichier particulier
– Index du fichier général
17. Indexation
● Les index sont de plusieurs couleurs
– Bleu foncé : occurrence dans le fichier ouvert
– Bleu clair : occurrence régularisée dans le fichier
externe
● Les index sont triés alphabétiquement; par défaut
● Externaliser signifie copier une information d'un
fichier particulier dans un fichier commun à un
projet.
– Seul l'enrichissement commun des données est
externalisé.
– Le texte reste intact.
18. Index particulier
● Pour supprimer une régularisation :
– un clic droit sur une occurrence régularisée,
– puis sélectionner « Supprimer la référence dans
ce fichier ».
Attention ! Seule la suppression dans le fichier
particulier est effective.
● Pour externaliser plusieurs occurrences :
– Externalisation en masse n'est pas
recommandée
– Si plusieurs occurrences concernent la même
référence : sélectionner l'occurrence de
référence avec les autres.
19. Index général
● La couleur verte indique un fichier particulier suivi du
nombre d'occurrences d'une même référence que
l'on peut y trouver
● La suppression d'une référence entraîne aussi la
suppression dans les fichiers particuliers : la couleur
rouge y indique une référence morte
● La régularisation orthographique s'effectue dans le
fichier général.
– Attention ! Ne pas toucher à l'identifiant généré
automatiquement !
● Afficher au format HTML
● Les filtres