Construire l’édition électronique du second volume
de Bouvard et Pécuchet de Flaubert
L’édition critique, de l’imprimé au ...
LeprojetBouvard
C’est un projet de recherche porté
par Stéphanie Dord-Crouslé,
chercheur au LIRE (UMR 5611).
Lancé en juin...
Plan
1. Une édition nécessairement
électronique
2. Contraintes et apports de
l’encodage
3. L’enjeu interface
Unvéritable«chantierdocumentaire»…
Le manuscrit conservé à la
bibliothèque municipale de
Rouen :
• 8 gros recueils de docu...
…pourlequellesupportélectroniqueest
seuladapté
• Navigation multicritères dans les
10 volumes :
• patrimoniale (volume, do...
Unsecondvolumeaupérimètreetà
l’organisationflous
Un « texte » composé de fragments
–citations et extraits d’œuvres -
dont ...
Unprocessusdecompositioncomplexe
A partir de l’analyse matérielle et
typologique du corpus, un classement se
dessine :
 N...
Structurationducorpusetnumérisation
dutexte:choixdelaTEI
LaText Encoding Initiative est un
consortium international
d’univ...
Descontraintesfortes
Un balisage descriptif privilégiant la
« logique » textuelle (sur sa
présentation matérielle)
Une str...
1
2
3
4
5
Maisune solution auproblèmede
l’extraction desfragments textuels
Comment gérer la saisie de toutes
les relations...
Littérature de
jocrisses
Vérités
jocrisses
imbécilles
Fragment 1
Fragment2 Jocrisses
Fragment 3
Fragment 4 Fragment 5
Exem...
« Littérature de
Jocrisses »
en <head>
(titre de liste)
=
s’applique à tous
les items de la liste
(fragments)
« jocrisse »...
Littérature de
jocrisses
<head>
Vérités
jocrisses
imbécilles
<label>
Fragment 1
<item>
Fragment2
<item>
Jocrisses
<label>
...
Uncahierdeschargesambitieux
Reconstitutions conjecturales :
•Parcours figés
•Mode simple
• Mode expert
Représentation des ...
Deuxinterfacesclés
1. La « matrice »
Une représentation visuelle simplifiée
permettant d’éditer facilement une
première ba...
1.La«matrice»
« J’édite mon Second volume de
Bouvard et Pécuchet »…
Typologie des fragments
Catégories de classement PR NL...
0% 20% 40% 60% 80% 100%
Nomenclatures et bizarreries
Spécimens de style
Esthétique et Critique
Haine des romans
Classiques...
2.L’interfacedelectureetdereclassement
desfragments
Spécimens
de style
• Style scientifique
• Style agricole
• Arbres enfa...
Plusieursmodesdelecturecombinés…
• Style agricole
• Après Canova*
• Belle pensée
3-135-f5
• ce qui couronne la gloire
des ...
Leguidagedesreclassementséventuels
Reclasser ?
Catégories extraites de
la base de données
Histoire et
idées
scientifiques
...
Comparervisuellementlesreconstitutions?
Si créer une reconstitution, c’est
« remplir le tableau », il est facile
d’en prop...
Nomenclatures et bizarreries
Spécimens de style
Esthétique et Critique
Haine des romans
Classiques corrigés
Histoire et Id...
0
20
40
60
80
100
120
140
160
180
200
Nomenclatures et bizarreries
Spécimens de style
Esthétique et Critique
Haine des rom...
2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter
2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter
2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter
2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter
Prochain SlideShare
Chargement dans…5
×

2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter

397 vues

Publié le

Comme un kaléidoscope… : Construire l’édition électronique du second volume de Bouvard et Pécuchet de Flaubert. Communication au 24ème colloque international François Mauriac, L’édition critique, de l’imprimé au numérique : François Mauriac et les autres…Université d’Exeter, Royaume-Uni, 2-4 septembre 2010
(avec Stephanie Dord-Crouslé).

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
397
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Bonjour,
    Je m’appelle Emmanuelle Morlock-Gerstenkorn, je suis ingénieur d’études au Service d’ingénierie documentaire de l’ISH.

    J'ai le plaisir d'être parmi vous aujourd'hui pour vous parler du projet d'édition électronique qui concerne les dossiers préparatoires du dernier roman de Flaubert.
  • La responsable du projet est Stéphanie Dord Crouslé, chercheur au sein de l'UMR Lire à Lyon. Elle est à l'origine de ce projet. Autour de l'UMR Lire, une équipe scientifique s'est constituée avec d'autres spécialistes de Flaubert et plus largement, du XIXe siècle. Elle réunit aujourd'hui une trentaine de chercheurs répartis en 4 pôles géographiques : France, Italie, Japon, Etats-Unis.

    Le service d'ingénierie documentaire de l'institut des sciences de l'homme, au sein duquel je remplis des missions d'accompagnement de projets d'édition électronique, est partenaire du projet dans le cadre du financement ANR obtenu fin 2007. La collaboration avec l'équipe scientifique est cependant plus ancienne. Raphaël Tournoy a créé le site web de travail et il en dirige les nouveaux développements et évolutions.

    En ce qui me concerne, je suis "entrée" dans le projet à mon arrivée dans le service, en octobre 2008. Mes missions principales dans le projet sont centrées sur l’organisation de l'encodage en TEI, mais je travaille également, en collaboration avec Raphaël et Stéphanie, sur la structuration des données et la conception des interfaces web de l'édition que nous « construisons ».
  • Sur les deux volumes envisagés par Flaubert, c'est en fait seul le "premier volume" de l‘œuvre qui est publié sous le titre Bouvard et Pécuchet. Et ce depuis la parution originale posthume de l'ouvrage en 1881, jusqu'aux éditions modernes actuelles.

    Si Flaubert était loin d'avoir terminé son "second volume", il en avait rassemblé de nombreux éléments. Ceux-ci peuvent cependant être présentés et agencés de diverses manières car les annotations de classement portées par l'écrivain sont instables : plurielles, ambigües ou contradictoires… il y a une "mobilité" de ces catégories - et donc des fragments qu'elles concernent - que la fixité de l'édition imprimée ne permet pas de restituer fidèlement.
     
    L'idée fondatrice du projet est justement de s'appuyer sur les possibilités du support électronique pour représenter ce document patrimonial dans sa dynamique propre, tout en le "donnant à lire" au sein d'une édition critique. En un mot il s'agit non pas de proposer seulement plusieurs reconstitutions conjecturales fixes de ce "second volume", mais une interface qui permette à chaque visiteur, s'il le souhaite, de construire ses propres reconstitutions, de manière évolutive, toujours modifiable.
     
    Cela rend les choses plus complexes pour l'éditeur scientifique. Cela rend aussi la tâche plus difficile pour l'équipe technique chargée du développement des interfaces car comme vous le savez on est dans un domaine il n'existe pas encore de "modèle de publication" stabilisé : tout semble devoir être inventé, au cas par cas, pour chaque projet, ou presque.
     
    Mais cela peut aussi rendre la tâche du lecteur plus ardue pour "rentrer" dans le manuscrit. Si le support électronique démultiplie les modes d'édition et de lecture, il alourdit du même coup la "charge cognitive" du lecteur. Et risque de le décourager, de pousser plus avant son exploration. Le soin apporté à la conception des interfaces est donc crucial, si l'on souhaite que ces réalisations soient effectivement utilisées.
      
    La question de la conception des interfaces est une question éditoriale avant d’être une question technique. En tant qu’éditeurs scientifiques d’une édition numérique, il est nécessaire que vous chercheurs, soyez parfaitement à l’aise avec cet aspect du travail, ainsi qu’avec les questions qu’il soulève.

    Dans cette présentation, mon objectif est donc de vous montrer, à partir du projet d’édition des dossiers de Bouvard et Pécuchet, comment nous abordons l’étape clé de conception de ces interfaces. Vous verrez que la question de la conception des interfaces d’édition est directement reliée à la phase d’encodage et de « structuration de l’information », si l’on peut désigner ainsi l’ensemble des éléments à intégrer dans l’édition numérique que l’on vise.
     
    Dans un premier temps, je présenterai donc rapidement les raisons qui font que cette édition des dossiers documentaires de Bouvard et Pécuchet ne peut être éditée, sans simplification ni trahison, que sur support électronique. Dans un deuxième temps j’essaierai de vous montrer la manière dont l'encodage XML structuré de la transcription permet de rassembler et d’organiser les informations que l’on souhaite mobiliser, avec des niveaux de complexité différenciés.
    Enfin dans un troisième temps je vous présenterai les pistes que nous suivons pour définir construire cette édition électronique, en utilisant la métaphore du kaléidoscope…
  •  
    Pour ce second volume, le projet de Flaubert est une "encyclopédie en farce" prenant la forme d’un agencement de citations reliées entre elles par de courts moments de récit, moments qu’il désigne dans sa correspondance sous le terme d’ “attaches”.
  •  
    C'est en fait un "véritable chantier documentaire" que l'on découvre en ouvrant le manuscrit - ou en le consultant à partir du site de travail.
     
    L'hétérogénéité est double, voire triple : matérielle, typologique, fonctionnelle. On a des pages manuscrites à plusieurs scripteurs, des pages imprimées constituées de coupures de presse, de journaux complets, voir de documents divers comme des tracts. On a aussi des pages complexes résultant de collages, mêlant morceaux manuscrits, morceaux imprimés et annotations. La difficulté d’appréhension de ce « matériau » par rapport au second volume vient du fait que certaines pages concernent uniquement le premier volume, d'autres le second, tandis nombreuses pages ont été utilisées pour les deux parties. Sans la distinction puisse être établie de manière certaine dans de nombreux cas. En ce qui concerne la documentation brute, on ne sais si ou comment Flaubert l'aurait effectivement utilisée s'il avait vécu.

    La diapositive décrit l'ordre patrimonial comme étant "sujet à caution" : c'est à cause des distorsions contingentes aux manipulations des feuillets qui ont eu lieu entre la mort de Flaubert en 1880 et l’arrivée des dossiers à la bibliothèque de Rouen en 1914.
  • Vous avez ici la reproduction d'une page du site de travail.

    Toutes les pages du manuscrit sont consultables dans leur version image et texte, lorsque la transcription diplomatique conventionnelle a été réalisée.

    Les deux peuvent être consultées indépendamment ou en vis à vis vertical et horizontal, les collaborateurs scientifiques peuvent y ajouter des annotations critiques et autres notes d’édition.

    La base de données permet d'accéder aux pages selon divers critères.

    Un moteur de recherche provisoire sur le texte transcrit et / ou les annotations de l'équipe a été mis en place.

    [Il faudrait refaire la diapo en ajoutant avec la visualisation facsimile / transcription diplomatique]
  • Quel est donc le périmètre du second volume au sein de ce corpus ?
     
    La difficulté particulière sa délimitation vient d'abord du fait que ses éléments de base ne sont pas les pages du corpus mais des fragments textuels, correspondant aux passages que Flaubert prend en note ou insère sous forme d’extrait imprimé, qu’il sélectionne et annote éventuellement, qu’il copie ou fait recopier sur des pages dédiées.
     
    Le module de reconstitution ne peut fonctionner qu'à l'aide d'une base de données spécifique pour ces fragments, permettant de les présenter hors de leur contexte matériel de leur page d'origine.
     
    Or l'identification de ces fragments du second volume est problématique : suivant le point de vue adopté, on peut souhaiter intégrer - ou pas - une citation, pourtant pertinente dans une autre configuration.
    Le périmètre varie et reste flou en de nombreux endroits : on doit également gérer des degrés de certitude (ou d'incertitude) sur l'appartenance de tel ou tel citation au projet d'ensemble.
     
    De même l'association de ces fragments à des catégories de classement est problématique. Vous voyez ici deux exemples de cette instabilité.
    Dans le premier, la catégorie initiale donnée au fragment, "style médical" a été barrée et corrigée en "style rococo". Mais une sous catégorie persiste, "dangers du chocolat", qui relève de la logique médicale précédente… Du coup, où classer ce fragment ?
     
    De même dans le second exemple la catégorie initiale "idées scientifiques" a été biffée, sans être remplacée, la catégorie "chimie", plus spécifique, correspondant plutôt à une sous-catégorie d'idées scientifiques. Mais la fonction de la marque de suppression n'est pas si évidente qu'elle y paraît au premier abord. Qu'est-ce qui est "supprimé" ? la catégorie elle-même, ou uniquement l'association entre le fragment et sa "vedette" ?
     
  • Derrière cette hétérogénéité, il y a cependant des régularités et une méthode de travail de Flaubert. Vous en avez ici la liste des grandes étapes et des jalons.
     
    Il faut préciser qu'il ne s'agit pas d'un processus chronologique cumulatif : les fragments peuvent passer par l'une ou plusieurs de ces étapes, mais pas nécessairement par toutes.
     
    Il faut également avoir à l'esprit que certains fragments restent à "découvrir" : le corpus n'est pas encore entièrement transcrit, des pages, dont on connaît l'existence, ont été vendues et sont conservées ailleurs ou sont perdues. D'autres encore ont peut-être existé… on ne sait pas…
     
    De plus, certaines pages ont existé et sont toujours présentes dans le corpus… par morceaux ! Il s’agit des pages découpées et dont certains morceaux ont été collés sur de nouvelles pages sur lesquelles elles ont pu être annotées par Flaubert à nouveau…
     
    Avant de se demander comment représenter cette complexité et la rendre lisible, notre première tâche est de parvenir à extraire ces unités avec leurs caractéristiques précises (scripteur, catégories, marques de sélection). C'est le rôle que nous avons assigné à l'étape de l'encodage du texte.
     
     
  • L’encodage correspond, pour le texte, à l’étape de la numérisation pour les feuillets : passage d’un état analogique à un état numérique. On parle d’encodage structuré car il s’agit de représenter les contenus textuels ou graphiques, mais aussi  leur(s) structure(s) et caractéristiques.

  •  
    La Text Encoding Initiative est un consortium international d’universitaires qui ont travaillé depuis le début des années 90 au développement d’un format d’encodage structuré dans un langage de description par balises, pour l’encodage de textes de natures très diverses, en vue de leur exploitation et de leur échange.   
     
    Mais ce n’est pas “un simple format”. La TEI n’est pas utilisable “directement” : c’est plus un cadre de description très générique, organisé par  “grands modules” spécialisés (phénomènes analytiques simples / textes dramatiques / entités nommées (dates, lieux, personnes) / appareil critique, etc. Il faut donc sélectionner ses balises et créer son schéma d'encodage avant de commencer.
  • La TEI voit donc un "texte" comme arborescence structurée, une hiérarchique logique d'éléments (texte, section, sous division, paragraphe, etc.). La présentation matérielle est dissociée de la structure logique.

    On cherche en priorité à représenter la fonction logique des éléments entrant dans la composition du texte, ainsi que leur niveau hiérarchique. Par exemple si une inscription se trouve en marge, on précisera s'il s'agit d'un ajout s'insérant dans le flux du texte ou une glose. La position en marge peut être décrite, mais elle est moins importante que de savoir de quelle est la nature et la fonction de l'inscription.


     
    Cette expressivité descriptive a une contrepartie : elle est coûteuse. Comme il s’agit de manuscrit, l’encodage est nécessairement manuel. C’est donc une opération qui prend du temps, et qui doit être réalisée par des personnes qualifiées…
  •  
    En dehors des atouts liés à la normalisation (échange avec d’autres projets, pérennisation), c’est un outil d’explicitation à la fois précis (tous les éléments signifiants sont décrits de manière explicite et univoque, ce qui les rend exploitables informatiquement).

    C’est la TEI qui nous permet de délimiter précisément nos unités de base : dans notre schéma, il s'agit simplement de tous les éléments textuels contenus dans des éléments de type "fragment".

    L'arborescence nous permet de récupérer les informations de "contexte" d'un fragment dont la combinatoire serait plus fastidieuse à exprimer sous forme de types uniques.

    Par exemple pour cette page sur la "littérature de Jocrisses", qui résulte d'un montage de morceaux collés, il est pour nous important d'enregistrer dans la base de données à la fois les catégories explicitement inscrites en face de chaque fragment, et les catégories "implicites" qui sont induites par la disposition des collages.
  • Une représentation de la hiérarchie logique de cette page préparée permet de comprendre comment le positionnement des éléments sur l'arbre, indiquant les dépendances, permet d'enregistrer l'information en limitant la saisie répétitive des mêmes informations.
  • Voici ici une transposition de cet arbre dans le code TEI simplifié.
  • Et enfin la hiérarchie avec les balises TEI associées.





    Il y a d'autres utilisations plus traditionnelles de la TEI dans l’édition. Les versions diplomatiques et normalisées du texte sont en fait issues du même encodage. C'est le principe de la séparation du contenu et de la présentation qui permet de proposer facilement autant de versions que l'on souhaite du même texte, selon le choix d'éléments que l'on décide d'afficher ou non. C'est un aspect très important de l'édition électronique mais il est maintenant assez maîtrisé et répandu. J'ai préféré mettre plutôt l'accent sur les possibilités ouvertes par la richesse et la précision de cet encodage pour la conception des interfaces de lecture et d'agencements.
  • Actuellement l'encodage TEI est en cours et avance bien. On est en train de mettre au point avec Raphaël Tournoy les scripts permettant de renseigner la base de données des fragments à partir des fichiers encodés, qui reste une opération complexe et fine, étant donné la complexité de notre matériau.

    Pour pouvoir structurer et organiser cette base de manière optimale, il faut bien entendu tenir compte des exploitations que l'on souhaite en faire : il nous faut donc maintenant faire les choix de conception de l'interface de création des reconstitutions, de leur lecture et de leur exploitation critique.

    Face à cette multiplicité des périmètres et des classements, comment permettre au lecteur d’entrer rapidement dans le second volume ? Quelles solutions peut-on lui proposer ?
  • Voici un rappel du cahier des charges du support de "lecture" pris au sens large : il y a la question de la représentation du texte, des fragments et de leurs catégories et la possibilité d'offrir des modes différenciés d'accès : soit guidé, soit laissant plus de marge de manœuvre à l'utilisateur, mais lui demandant un peu plus d'effort pour comprendre la portée des possibilités d'agencements qu'on lui offre.

    Ce que je vais vous présenter concerne surtout l'étage du milieu dans cette liste des principaux besoins du projet : celle de la représentation des fragments et de leurs catégories.
  • Il y a deux interface clés : celle qui permet de choisir ses fragments, autrement dit de définir un périmètre et celle qui permet tout à la fois de lire et d'affiner le périmètre et l'agencement interne des fragments dans chaque catégorie.
  • La première étape de la création d'une reconstitution est d'en sélectionner les éléments.

    L'idée de cette matrice est de fournir un moyen rapide et direct d'obtenir un ensemble fini de fragments, que l'on pourra ré-organiser par la suite et affiner.

    On peu donc constituer cette sélection :en choisissant de conserver ou non chaque catégorie thématique en choisissant un ou des types de fragments (PP / PP+PR / PP+ PR+NL / etc.) au sein de chaque catégorie conservée

    Le tableau représente la structure des données : pour chaque catégorie thématique, on peut choisir de sélectionner les fragments selon leur appartenance plus ou moins certaine au projet de second volume, d’après l’interprétation qu’on en a fait à l’encodage, bien sûr.
  • On peut aussi imaginer réaliser cette sélection de manière plus visuelle. Ce graphique croise les données de catégorie thématique et de type en représentant le pourcentage de chaque type dans la catégorie. Déplacer un curseur permet d'indiquer précisément comment ajuster une sélection en fonction des types.
  • La lecture de la reconstitution s'effectue à partir des catégories, avec des système de plier/déplier permettant de faire tous les allers nécessaires entre le texte de chaque unité, et sa position dans l'ensemble. Cela correspond à une vue simplifiée. On peut imaginer privilégier pour cet accès la version normalisée : par exemple si la prise de notes a abrégé certains mots, ils sont développés. Quand les transcripteurs ont complété la rédaction du scripteur en se reportant à l'ouvrage source, c'est ce texte "complété" qui s'affiche.
  • Mais il est possible de passer à tout moment à la version diplomatique, pour voir toutes les autres occurrence de la même citation dans d'autres fragments appartenant à d'autres types. Il est possible aussi de voir l'image du fac-similé ou d'accéder à la page complète ou à d'autres entités en relation (le début de la note de lecture, le dossier, etc.)
  • L'exploitation des informations de la base de données permet de proposer d'autres reclassements;

    Le principe consiste à exploiter toutes les informations enregistrées dans la base de données. Par exemple pour cette citation issue des Soirées de Saint Petersboug de Maistre, il suffit d'aller chercher :

     
    le titre du dossier dans lequel se trouve le fragment,
    les vedettes contenant les mêmes mots ou les mêmes lemmes (un fragment indexé par "scientifique" en "vedette la plus probable", se voit automatiquement proposer, en option de reclassement dans l'interface d'édition, "style scientifique" et "ce qui couronne la gloire des jésuites",
    les autre vedettes dans les autres occurrences du même fragment
    les autres vedettes associées à la vedette en question dans d'autres folios
    les autres vedettes associées aux folios partageant la même référence exacte, qu'il s'agisse du même passage ou du même ouvrage…
  • Mais une fois que l'on a produit une ou plusieurs reconstitutions, comment en apprécier l'intérêt et les limites, comment les comparer entre elles ?L'intégration de modes de présentation visuels et graphiques paraissent très intéressantes pour simplifier les interfaces et les rendre beaucoup plus facilement utilisables.
  • voici par exemple un graphique par secteurs de la reconstitution de Lea Caminiti dans son édition de 1981. Chaque secteur représente le nombre de citations de référence par catégorie (on compte pour un les différentes occurrences d'une même citation).
  • Ici on a intégré le nombre de fragment par types : plus on est au centre de la "toile", plus l'appartenance au second volume est certaine.
  • Conclusion

    Voilà donc comment nous essayons dans ce projet de répondre au véritable défi que représente l'édition de ce corpus.
     
    Cet état du projet flaubertien tel qu’il nous est transmis par le manuscrit patrimonial requiert donc la création d’une forme éditoriale adaptée.
     
    Sans possibilité de reconstituer le “film” de la composition de l’œuvre, c’est la mise en mouvement des possibilités d’agencement qu’elle recèle qui permet de mettre au jour les intentions de l’auteur, sans introduire de biais injustifié, ni restreindre sa complexité originale.
     
    Comme lorsque l’on fait tourner le tube du kaléidoscope sur lui même, l’outil électronique de lecture permet de faire l’expérience que le tout est plus que la somme des parties.
     
    Et si Flaubert avait pu disposer d’un tel outil, me direz-vous, qu’en aurait-il fait ? Qu’elle option aurait-il adopté ? aurait-il souhaité fixer un classement et un seul ? aurait-il été happé, fasciné par le spectacle de la multiplication des agencements ? N’aurait-il pas été tenté de conserver ses citations dans leur état dynamique, toujours en mouvement ?
     
    Je ne suis pas spécialiste de Flaubert, je ne prétends pas être en mesure de répondre. Je souhaite néanmoins attirer votre attention sur la question de l’achèvement des éditions électroniques. Reposant sur des bases de données ou des documents facilement modifiables, augmentables, démultipliant les possibilités de présentation, il semble qu’elles soient du même coup plus difficilement achevables.
    Il faut faire avec. C’est dans la logique du support numérique. Il ne faut donc pas vivre cela comme un échec ou un travail éditorial « insuffisant ». Au contraire, bien faire son travail avec une édition numérique c’est moins achever, donner un ordre définitif, que travailler la catégorisation, la description documentaire des contenus que l’on édite, pour les rendre exploitables de multiples manières. On peut donc dire que dans une édition numérique, le travail éditorial se rapproche du travail scientifique : il ne s’agit pas seulement de se soucier de style et de mise en page, mais tout autant de la qualité des structures logiques internes. Il ne s’agit pas de proposer des « images », mais de construire l’outil qui permet de les composer.

  • 2010 09 06_construire-edition-electronqiue-vol-2-bouvard-et-pecuchet-colloque-mauriac-exeter

    1. 1. Construire l’édition électronique du second volume de Bouvard et Pécuchet de Flaubert L’édition critique, de l’imprimé au numérique : François Mauriac et les autres… 24e colloque international François Mauriac - Université d’Exeter, Grande-Bretagne, 2-4 septembre 2010 Emmanuelle Morlock-Gerstenkorn (CNRS – Service d’ingénierie documentaire de l’ISH – UMS 1798) Stéphanie Dord-Crouslé (CNRS – Laboratoire LIRE – UMR 5611)
    2. 2. LeprojetBouvard C’est un projet de recherche porté par Stéphanie Dord-Crouslé, chercheur au LIRE (UMR 5611). Lancé en juin 2005, le projet a obtenu un financement de l’ANR (2008-2001) au titre de l'appel à projets « Corpus » 2007. La participation du service d’ingénierie documentaire de l’ISH au projet s’inscrit dans ce cadre : • Accompagnement à la gestion de projet •Veille technologique et expertiseTEI • Coordination technique (RaphaëlTournoy)
    3. 3. Plan 1. Une édition nécessairement électronique 2. Contraintes et apports de l’encodage 3. L’enjeu interface
    4. 4. Unvéritable«chantierdocumentaire»… Le manuscrit conservé à la bibliothèque municipale de Rouen : • 8 gros recueils de documents divers • 2 recueils pour le Dictionnaire des idées reçues) Caractéristiques : • taille imposante (2300 feuillets) • hétérogénéité matérielle et typologique • classement patrimonial sujet à caution
    5. 5. …pourlequellesupportélectroniqueest seuladapté • Navigation multicritères dans les 10 volumes : • patrimoniale (volume, dossier, cote) • par type • par date • par scripteur • Accès direct à toutes les pages • Mise en regard du fac-simile image et de la transcription • Moteur de recherche • Liens directs vers les ouvrages cités disponibles en ligne • Etc. Le sitedetravail http://dossiers-flaubert.ish-lyon.cnrs.fr/
    6. 6. Unsecondvolumeaupérimètreetà l’organisationflous Un « texte » composé de fragments –citations et extraits d’œuvres - dont les unités sont le plus souvent impossibles à identifier et à classer avec certitude… « Ces notes, dans son projet, devaient être reliées, soudées ensemble, par des morceaux de récit qui remettaient en scène les deux commis, et par des morceaux de dialogues, formant les commentaires de leurs lectures et de leurs copies. Ces parties, je ne puis me permettre de les faire, et, sans elles, le livre est illisible : il ne forme plus qu'une agglomération, qu'un amas de citations sans ordre, dont le sens même échappera très souvent au lecteur. » Maupassant - lettre du 30 juillet 1881 à la nièce de Flaubert rococo Style médical dangers du chocolat. http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_7_f_014__r____ http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_3_f_128__r____
    7. 7. Unprocessusdecompositioncomplexe A partir de l’analyse matérielle et typologique du corpus, un classement se dessine :  Notes de lecture (NL)  Notes de lectures annotées de marques de sélection (NLM)  Listes récapitulatives de recopiages ou « todo lists » (PR)  Les pages préparées par Laporte (PP1) pour le 2nd volume  Les montages de morceaux de PP1 réalisés par Flaubert et annotés de marques de sélection (PP2)  Les pages de la main de Flaubert préparées pour le 2nd volume, pendant la collaboration et après la brouille (PP3)  Mais ce n’est pas une chronologie ni un processus complet : les PP n’ont pas vocation à passer par ces 3 stades !  2nd volume achevé = PP1+ PP2 + PP3 http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_7_f_012__r____ http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_6_f_192__r____ http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_3_f_134__r____
    8. 8. Structurationducorpusetnumérisation dutexte:choixdelaTEI LaText Encoding Initiative est un consortium international d’universitaires qui développe un standard d’encodage depuis le début des années 90 : les « Guidelines » = cadre de description très générique pour l’encodage structuré de textes de natures variées, en vue de leur échange et de leur exploitation.  Le formatTEI est choisi pour le projet Bouvard suite à une « étude de faisabilité », menée dans le cadre du stage de fin d’étude d’un master 2 professionnel.
    9. 9. Descontraintesfortes Un balisage descriptif privilégiant la « logique » textuelle (sur sa présentation matérielle) Une structure arborescente hiérarchique unique (interdiction des chevauchements de balises en XML) L’encodage manuel est une tâche longue (donc coûteuse), pour lequel il faut être (bien) formé… Transcription diplomatique traditionnelle Pré-balisage Encodage Contrôle et enrichissement Supervision scientifique Macro- Structuration en <teiCorpus> Indexation sémantique Intégration dans l'interface d'édition Le«workflow»TEI duprojet
    10. 10. 1 2 3 4 5 Maisune solution auproblèmede l’extraction desfragments textuels Comment gérer la saisie de toutes les relations possibles entre un fragment et ses classements : • prévus • probables • potentiels • abandonnés • etc. sur plus de 3500 pages ? Fragment 1 Littérature de Jocrisses vérités jocrisses imbécilles Fragment 2 Littérature de Jocrisses Fragment 3 Littérature de Jocrisses jocrisse Fragment 4 Littérature de Jocrisses Fragment 5 Littérature de Jocrisses
    11. 11. Littérature de jocrisses Vérités jocrisses imbécilles Fragment 1 Fragment2 Jocrisses Fragment 3 Fragment 4 Fragment 5 Exempledehiérarchielogiqued’unepage http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_1_f_082__r____
    12. 12. « Littérature de Jocrisses » en <head> (titre de liste) = s’applique à tous les items de la liste (fragments) « jocrisse » placé dans le <label> (étiquette d’item) est redoublé pour le troisième <item> (fragment) et uniquement lui
    13. 13. Littérature de jocrisses <head> Vérités jocrisses imbécilles <label> Fragment 1 <item> Fragment2 <item> Jocrisses <label> Fragment 3 <item> Fragment 4 <item> Fragment 5 <item> LemêmeexempleaveclesbalisesTEIchoisies http://dossiers-flaubert.ish-lyon.cnrs.fr/cote-g226_1_f_082__r____
    14. 14. Uncahierdeschargesambitieux Reconstitutions conjecturales : •Parcours figés •Mode simple • Mode expert Représentation des fragments et des catégories de classement • Degré de certitude par rapport au 2nd volume • Orientation dans l’éventail des mobilités possibles Édition de la transcription textuelle • Exploiter les possibilités du support électronique • Respect si possible des conventions traditionnelles d’édition critique • Ergonomie de la présentation de l’appareil critique • Lisibilité et utilisabilité
    15. 15. Deuxinterfacesclés 1. La « matrice » Une représentation visuelle simplifiée permettant d’éditer facilement une première base de travail à partir : • des grandes sections thématiques • de la typologie des fragments 2. L’interface de lecture et de reclassement Suggérer des reclassements en exploitant les métadonnées enregistrées dans la base de données….
    16. 16. 1.La«matrice» « J’édite mon Second volume de Bouvard et Pécuchet »… Typologie des fragments Catégories de classement PR NL avec marque(s) de sélection NL sans marque de sélection Doc préparat Doc provis. croix catégorie croix et catégorie soulignement ou trait vertical Annonces, réclames, circulaires Nomenclatures et bizarreries Spécimens de style Scientifiques Ecclésiastiques Grands Écrivains Romantiques Dramatiques Révolutionnaires Réaliste, populaire, cavalier, des propriétaires Officiels, Souverains
    17. 17. 0% 20% 40% 60% 80% 100% Nomenclatures et bizarreries Spécimens de style Esthétique et Critique Haine des romans Classiques corrigés Histoire et Idées scientifiques Contradictions de la science Philosophie Religion. Mysticisme. Prophéties Grands Hommes Exaltation du Bas Beautés Injures. Sottises. Lâchetés. Amour. Palinodies Page préparée Page récapitulative Note de lecture avec marques de sélection Note de lecture sans marque Dossier de Jules Duplan Documentation provisionnelle brute Ajuster le curseur Par exemple + ou – de notes de lectures avec marques Sections thématiques Types génétiques
    18. 18. 2.L’interfacedelectureetdereclassement desfragments Spécimens de style • Style scientifique • Style agricole • Arbres enfants • Valets de comédie • Gamins • Vertueux • Belle pensée • Les jésuites ont rendu des services éminents à la littérature et à l’instruction publique. (…) • Grande pensée • Style rococo • (…) La lecture de la reconstitution s’effectue en dépliant ou repliant les catégories… Section thématique Fragment Catégorie
    19. 19. Plusieursmodesdelecturecombinés… • Style agricole • Après Canova* • Belle pensée 3-135-f5 • ce qui couronne la gloire des jésuites •  C3-136-f2 Spécimens de style • Style scientifique • Style agricole • Arbres enfants • Valets de comédie • Gamins • Vertueux • Belle pensée • Les jésuites ont rendu des services éminents à la littérature et à l’instruction publique. (…) • Grande pensée • Style rococo • (…) Transcriptions  Diplomatique  Semi-diplomatique  Normalisée  Référence bibliographique Image de la page complète Séquence Dossier Etc.
    20. 20. Leguidagedesreclassementséventuels Reclasser ? Catégories extraites de la base de données Histoire et idées scientifiques •(…) •Histoire •Idées scientifiques •linguistique •Si on avait un dictionnaire des langues sauvages on y trouverait des restes évidents d’une langue antérieure parlée par un peuple éclairé, et quand même nous ne les trouverions pas, il en résulterait seulement que la dégradation est arrivée au point d’effacer ces derniers restes. •4-48-f- •(…) De Maistre, Les Soirées de Saint- Pétersbourg, 2e entretien
    21. 21. Comparervisuellementlesreconstitutions? Si créer une reconstitution, c’est « remplir le tableau », il est facile d’en proposer une représentation visuelle et graphique et de comparer ainsi plusieurs reconstitutions entre elles… La métaphore du kaléidoscope : « Cette image permet (…) d'illustrer un propos soutenant que ce ne sont pas les éléments qui font le tout, mais la forme que prend leur combinaison : le tout n'est pas réductible à la somme de ses parties. » Wikipédia, consulté le 31 août 2010
    22. 22. Nomenclatures et bizarreries Spécimens de style Esthétique et Critique Haine des romans Classiques corrigés Histoire et Idées scientifiques Contradictions de la science Philosophie Religion. Mysticisme. Prophéties Grands Hommes Exaltation du Bas Beautés Injures. Sottises. Lâchetés. Amour. Palinodies Reconstitution de Léa Caminiti
    23. 23. 0 20 40 60 80 100 120 140 160 180 200 Nomenclatures et bizarreries Spécimens de style Esthétique et Critique Haine des romans Classiques corrigés Histoire et Idées scientifiques Contradictions de la sciencePhilosophie Religion. Mysticisme. Prophéties Grands Hommes Exaltation du Bas Beautés Injures. Sottises. Lâchetés. Amour. Palinodies PP PR NLM NL DUP BRUT

    ×