XML TEI : un outil méthodologique
   pour la recherche en SHS
Atelier pratique. Indexation d'un corpus TEI à partir
      ...
Plan
●   La plate-forme Millefeuille
        –   Le projet Millefeuille
        –   La plate-forme
●   Les entités nommés ...
La partie « Atelier »
●   Présentation :
        –   de la plate-forme
        –   indexation
●   Démonstration
●   Atelie...
Le projet Millefeuille
                  2006- 2007
●   Projet Millefeuille : Archives nationales, Ecole
    nationale des...
Le projet Millefeuille
                  2006- 2007
●   Projet Millefeuille 2006-2007:
        –   Emacs, une plate-forme ...
La plate-forme Millefeuille
●   Eclipse
       –   Éditeur XML : logiciel libre
●   Plugin (module accessoire ou “greffon”...
A savoir !
●   Le système de perspective Millefeuille : par
    défaut Eclipse propose la perspective Java
●   Structure d...
Exercices sur les minutes
●   Une minute notariale est l'acte original
    notarié, signé par les parties en présence
    ...
Exemple d'une minute notariale (AD44)
Exercices sur les lettres de
        rémission
  « ...La lettre de rémission est un acte de la
    Chancellerie par lequel...
Exemple d'une lettre de rémission (AD44)
Les entités nommés
●   Plusieurs types : on en retient deux
        –   Personnes
        –   Lieux
●   Lieux : problèmes
...
Les entités nommés et TEI
●   <rs>       chaîne de caractères
    <rs type="person">François Rabelais</rs>
    <rs type="p...
Les noms de lieux
     <placeName> <geogName>
●   <placename> nom de lieu
    <placename>Paris</placename>
●   <geogName> ...
Les noms de personnes
                <persName>
●   <surname> nom de famille ou patronyme
●   <forename> prénom
●   <role...
Démonstration
●   Démonstration sur les fichiers des minutes
    notariales et lettres de rémission
       –   Présentatio...
Indexation
●   Les index sont de plusieurs couleurs
       –   Bleu foncé : occurrence dans le fichier ouvert
       –   B...
Index particulier
●   Pour supprimer une régularisation :
        –   un clic droit sur une occurrence régularisée,
      ...
Index général
●   La couleur verte indique un fichier particulier suivi du
    nombre d'occurrences d'une même référence q...
A VOUS !




http://www.wordle.net/
Prochain SlideShare
Chargement dans…5
×

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

1 511 vues

Publié le

Partie atelier de la séance consacrée à la XML TEI du séminaire Digital Humanities de l'EHESS 2009-2010

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 511
Sur SlideShare
0
Issues des intégrations
0
Intégrations
143
Actions
Partages
0
Téléchargements
9
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

  1. 1. XML TEI : un outil méthodologique pour la recherche en SHS Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative. EHESS – 3 février 2010 Nicole Dufournaud Ingénieure de recherche CESR Tours Chercheuse en Histoire
  2. 2. Plan ● La plate-forme Millefeuille – Le projet Millefeuille – La plate-forme ● Les entités nommés : – Les lieux – Les noms de personnes
  3. 3. La partie « Atelier » ● Présentation : – de la plate-forme – indexation ● Démonstration ● Atelier : – Exercices encodés – 1 exercice à encoder avec <persName> <placeName> <geogName>
  4. 4. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille : Archives nationales, Ecole nationale des Chartes, IDHE de l'Université Paris I et l'INRIA (2006-2007) – Encodage des almanachs royaux, nationaux et impériaux entre 1750 et 1850 – Création d'une plate-forme collaborative qui autorise un travail collectif : un véritable outil de travail mais un prototype ● Créé par Félicien François sur une idée de Jean-Daniel Fekete (INRIA)
  5. 5. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille 2006-2007: – Emacs, une plate-forme de travail efficace et souple: recherche dans le corpus facile (grep et agrep pour la recherche approximative), gestion des versions de documents (cvs) et convertisseur de dates – Inconvénient : lourd apprentissage et aspect rebutant pour les non-initiés – Préparer la seconde phase du projet
  6. 6. La plate-forme Millefeuille ● Eclipse – Éditeur XML : logiciel libre ● Plugin (module accessoire ou “greffon” ou “extension”) : – Affichage des documents en HTML – Création et génération d'index – Filtres et navigation dans les index ● Co-développé par l'IRHT (Richard Walter) et l'INRIA (JD Fekete) – Troisième version sur le site de Telma http://www.cn-telma.fr/ (février 2010)
  7. 7. A savoir ! ● Le système de perspective Millefeuille : par défaut Eclipse propose la perspective Java ● Structure du document XML/TEI – L'affichage se fait sous forme d'arbre. – Le menu contextuel (bouton droit de la souris) propose des fonctions d'édition : ● Ajout d'attribut ● Ajout d'élément
  8. 8. Exercices sur les minutes ● Une minute notariale est l'acte original notarié, signé par les parties en présence ainsi que par les notaires ; la minute est conservée chez le notaire à la différence de la « grosse » qui est la copie remise aux parties.
  9. 9. Exemple d'une minute notariale (AD44)
  10. 10. Exercices sur les lettres de rémission « ...La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d’un crime ou d’un délit, arrêtant ainsi le cours ordinaire de la justice, qu’elle soit royale, seigneuriale, urbaine ou ecclésiastique... » Claude Gauvard.
  11. 11. Exemple d'une lettre de rémission (AD44)
  12. 12. Les entités nommés ● Plusieurs types : on en retient deux – Personnes – Lieux ● Lieux : problèmes – Orthographe et variante : « Bretaigne » – Changement de noms de lieux ● Personnes : problèmes – Orthographe : « Lefebure » « Lefebvre » – Identité sociale
  13. 13. Les entités nommés et TEI ● <rs> chaîne de caractères <rs type="person">François Rabelais</rs> <rs type="person">sa mère</rs> <rs type="airport">Charles de Gaulle</rs>  ● <name> <name type="person">François Rabelais</name> <name type="place">Charles de Gaulle</name> <name type="person">Charles de Gaulle</name> – ou <persName> !
  14. 14. Les noms de lieux <placeName> <geogName> ● <placename> nom de lieu <placename>Paris</placename> ● <geogName> nom associé à un lieu géo. <geogName>Pont Neuf</geogName>
  15. 15. Les noms de personnes <persName> ● <surname> nom de famille ou patronyme ● <forename> prénom ● <roleName> titre et avant-nom ● <addName> épithète ● <nameLink> particules nobiliaires Exemple : « haute dame dame Suzanne de Bourbon dame de Rieux » <persName> <addName type="epithete-honneur">haute dame</addName> <roleName type="avant-nom">dame</roleName> <forename>Suzanne</forename><nameLink>de</nameLink> <surname>Bourbon</surname> <roleName type="titre">dame</roleName> de <geogName>Rieux</geogName> </persName>
  16. 16. Démonstration ● Démonstration sur les fichiers des minutes notariales et lettres de rémission – Présentation de la plate-forme – Index de chaque fichier particulier – Index du fichier général
  17. 17. Indexation ● Les index sont de plusieurs couleurs – Bleu foncé : occurrence dans le fichier ouvert – Bleu clair : occurrence régularisée dans le fichier externe ● Les index sont triés alphabétiquement; par défaut ● Externaliser signifie copier une information d'un fichier particulier dans un fichier commun à un projet. – Seul l'enrichissement commun des données est externalisé. – Le texte reste intact.
  18. 18. Index particulier ● Pour supprimer une régularisation : – un clic droit sur une occurrence régularisée, – puis sélectionner « Supprimer la référence dans ce fichier ». Attention ! Seule la suppression dans le fichier particulier est effective. ● Pour externaliser plusieurs occurrences : – Externalisation en masse n'est pas recommandée – Si plusieurs occurrences concernent la même référence : sélectionner l'occurrence de référence avec les autres.
  19. 19. Index général ● La couleur verte indique un fichier particulier suivi du nombre d'occurrences d'une même référence que l'on peut y trouver ● La suppression d'une référence entraîne aussi la suppression dans les fichiers particuliers : la couleur rouge y indique une référence morte ● La régularisation orthographique s'effectue dans le fichier général. – Attention ! Ne pas toucher à l'identifiant généré automatiquement ! ● Afficher au format HTML ● Les filtres
  20. 20. A VOUS ! http://www.wordle.net/

×