LES DONNÉES DE LA
RECHERCHE DANS LES THÈSES
EN SHS DE L’UNIVERSITÉ DE
LILLE 3
Cécile Malleret
Hélène Prost
Lille, 2 février 2015
• Les données de la recherche
• Pratiques des chercheurs ?
• Besoins ?
• Enquête à venir, en collaboration avec l’Université
Humboldt de Berlin
• Valorisation des thèses
• Diffusion des thèses en libre accès
• Valorisation des résultats publiés avec les thèses
• Les humanités numériques
• Opportunité de faire du text & data mining ?
L’étude
Le contexte
• Exploration : quelles sont les données publiées avec
les thèses ?
• Quelles sources ?
• Quels types de données ?
• Dans quels domaines ?
• Volumétrie ?
• Formats ?
• Quel potentiel ?
• Quels problèmes ?
• Quelles limites ?
L’étude
Les objectifs
• Thèses soutenues à Lille 3
• Toutes les thèses numériques
• D’autres thèses plus anciennes pour obtenir un échantillon
plus conséquent (autour de 300)
• Focus on quatre domaines (histoire, psychologie,
archéologie/égyptologie, linguistique)
• Intérêt : illustration, richesse du matériel, mais pas de
représentativité
• Eventuellement : d’autres domaines à analyser par la suite
L’étude
L’échantillon
• « L’ensemble des fichiers composant la thèse
doit être déposé » (extrait de la charte de dépôt
de Lille 3)
• Possibilité de déposer des fichiers de type audio
ou vidéo : rarement exploitée
• Exemple : « Des TIC comme vecteur matériel et
symbolique de rationalisation et modélisation de la
vie domestique : le cas de l'intelligence ambiante »
d’Iwan Barth (2010)
Des documents à explorer
Que peut-on y trouver ?
ANNEXE 4 : Sommaire du CD-ROM de vidéos et sons
Des documents à explorer
Qu’y trouve-t-on ?
• Les archives ouvertes
• Dépôt d’image, vidéo, son et carte prévus dans HAL v3
• Possibilité de les lier à un autre document (en
illustration d’un document principal par exemple)
• Utilisé ? 1 fichier vidéo existant aujourd’hui.
• Pas de fichier vidéo mais, par exemple : « Bande
originale de film, bande originale de vie : pour une
sémiologie tripartite de l'emblème musical : le cas de
l'univers Disney » de Raphaël Roth (2013 – Université
d’Avignon) https://tel.archives-ouvertes.fr/tel-00987167
+ vidéos sur un blog privé
Des documents à explorer
Où peut-on les trouver ?
• Exemple : « L'iconographie de sainte Anne en
Espagne à la fin du Moyen Age » de Alfonso de
Salas (2010)
1 vol d’illustrations
de 1581 images
1 vol d’annexes
dont 1 catalogue
de 179 notices
………………
………………
………………
……………
1 vol principal
de texte suivi
d’1 plan de classement
Des documents à explorer
Structure et présentation (1)
• Exemple : « Stratégie de coping chez le sportif » de
Annie Carton-Caron (2004)
1 vol d’annexes
qui suit le plan
du texte
………………
………………
………………
……………
1 vol
principal
de texte
Tableaux
Figures
Des documents à explorer
Structure et présentation (2)
28%
22%
8%
8%
8%
7%
6%
5%
3% 3% 2%
Histoire
Psychologie
Philosophie
Langues et littératures étrangères
Sciences de l'information et de la
communication
Histoire de l'art
Sciences du langage
Archéologie et égyptologie
Autres
Langue et littérature françaises
Sciences de l'éducation
10
Le corpus
Répartition des thèses par disciplines
283 thèses
195 thèses imprimées
88 thèses électroniques
36%
20%
12%
9%
7%
7%
4% 2%
1%
1%
1%
Histoire
Histoire de l'art
Archéologie et égyptologie
Sciences de l'information et de
la communication
Sciences de l'éducation
Psychologie
Sciences du langage
Langues et littératures
étrangères
Autres
Philosophie
Langue et littérature françaises
25 085 pages réparties entre 188 thèses
11
Le corpus
Répartition des annexes par disciplines
Le corpus
Distribution des disciplines
Les annexes
31%
39%
30%
Thèses imprimées
aucune
intégrées
séparées
39%
52%
9%
Thèses électroniques
aucune
intégrées
séparées
13
Lien avec le texte de la thèse
Les annexes
Répartition des sources par disciplines
Les annexes
Types de document par disciplines
Typologie des annexes
131
81
58
44 44 44 41
32
16
7 7
Nombre de thèses concernées
Répartition des documents
Exemple de graphiques (1)
Typologie des annexes
Source : Laure Tabary Bolka (2007)
Eléments pour une analyse sémio-pragmatique du transfert multisupport de l'image
télévisuelle : le cas des images de la télé-réalité sur Internet et dans la presse magazine
Typologie des annexes
Exemple de graphiques (2)
Source : Mylène Mihout Natar (2003)
L' intervention des capitaux français dans la Pologne de la Seconde République (1918-1939)
contribution a l'histoire de l'impérialisme économique français en Europe Centrale
• Linguistique
– Analyse lexicale
• Histoire
– Prosopographie
• Archéologie
– Inventaire
– http://steles-halma-ipel.univ-lille3.fr
Valorisation des données
Quelques exemples
Contenu des annexes
• Mettre au maximum les données en annexes
• Décrire précisément les données, leur contenu et les conditions
de recueil
• Déposer les données dans le format obtenu
Structuration des annexes
• Suivre si possible la structure du texte
• Numéroter et paginer les annexes
• Insérer des tables spécifiques par types de données
Veiller à la pérennité des accès
En conclusion
Quelques recommandations
Merci de votre attention
cecile.malleret@univ-lille3.fr
helene.prost@inist.fr

Drtd2015 valorisation des dr ds les thèses

  • 1.
    LES DONNÉES DELA RECHERCHE DANS LES THÈSES EN SHS DE L’UNIVERSITÉ DE LILLE 3 Cécile Malleret Hélène Prost Lille, 2 février 2015
  • 2.
    • Les donnéesde la recherche • Pratiques des chercheurs ? • Besoins ? • Enquête à venir, en collaboration avec l’Université Humboldt de Berlin • Valorisation des thèses • Diffusion des thèses en libre accès • Valorisation des résultats publiés avec les thèses • Les humanités numériques • Opportunité de faire du text & data mining ? L’étude Le contexte
  • 3.
    • Exploration :quelles sont les données publiées avec les thèses ? • Quelles sources ? • Quels types de données ? • Dans quels domaines ? • Volumétrie ? • Formats ? • Quel potentiel ? • Quels problèmes ? • Quelles limites ? L’étude Les objectifs
  • 4.
    • Thèses soutenuesà Lille 3 • Toutes les thèses numériques • D’autres thèses plus anciennes pour obtenir un échantillon plus conséquent (autour de 300) • Focus on quatre domaines (histoire, psychologie, archéologie/égyptologie, linguistique) • Intérêt : illustration, richesse du matériel, mais pas de représentativité • Eventuellement : d’autres domaines à analyser par la suite L’étude L’échantillon
  • 5.
    • « L’ensembledes fichiers composant la thèse doit être déposé » (extrait de la charte de dépôt de Lille 3) • Possibilité de déposer des fichiers de type audio ou vidéo : rarement exploitée • Exemple : « Des TIC comme vecteur matériel et symbolique de rationalisation et modélisation de la vie domestique : le cas de l'intelligence ambiante » d’Iwan Barth (2010) Des documents à explorer Que peut-on y trouver ?
  • 6.
    ANNEXE 4 :Sommaire du CD-ROM de vidéos et sons Des documents à explorer Qu’y trouve-t-on ?
  • 7.
    • Les archivesouvertes • Dépôt d’image, vidéo, son et carte prévus dans HAL v3 • Possibilité de les lier à un autre document (en illustration d’un document principal par exemple) • Utilisé ? 1 fichier vidéo existant aujourd’hui. • Pas de fichier vidéo mais, par exemple : « Bande originale de film, bande originale de vie : pour une sémiologie tripartite de l'emblème musical : le cas de l'univers Disney » de Raphaël Roth (2013 – Université d’Avignon) https://tel.archives-ouvertes.fr/tel-00987167 + vidéos sur un blog privé Des documents à explorer Où peut-on les trouver ?
  • 8.
    • Exemple :« L'iconographie de sainte Anne en Espagne à la fin du Moyen Age » de Alfonso de Salas (2010) 1 vol d’illustrations de 1581 images 1 vol d’annexes dont 1 catalogue de 179 notices ……………… ……………… ……………… …………… 1 vol principal de texte suivi d’1 plan de classement Des documents à explorer Structure et présentation (1)
  • 9.
    • Exemple :« Stratégie de coping chez le sportif » de Annie Carton-Caron (2004) 1 vol d’annexes qui suit le plan du texte ……………… ……………… ……………… …………… 1 vol principal de texte Tableaux Figures Des documents à explorer Structure et présentation (2)
  • 10.
    28% 22% 8% 8% 8% 7% 6% 5% 3% 3% 2% Histoire Psychologie Philosophie Langueset littératures étrangères Sciences de l'information et de la communication Histoire de l'art Sciences du langage Archéologie et égyptologie Autres Langue et littérature françaises Sciences de l'éducation 10 Le corpus Répartition des thèses par disciplines 283 thèses 195 thèses imprimées 88 thèses électroniques
  • 11.
    36% 20% 12% 9% 7% 7% 4% 2% 1% 1% 1% Histoire Histoire del'art Archéologie et égyptologie Sciences de l'information et de la communication Sciences de l'éducation Psychologie Sciences du langage Langues et littératures étrangères Autres Philosophie Langue et littérature françaises 25 085 pages réparties entre 188 thèses 11 Le corpus Répartition des annexes par disciplines
  • 12.
  • 13.
    Les annexes 31% 39% 30% Thèses imprimées aucune intégrées séparées 39% 52% 9% Thèsesélectroniques aucune intégrées séparées 13 Lien avec le texte de la thèse
  • 14.
    Les annexes Répartition dessources par disciplines
  • 15.
    Les annexes Types dedocument par disciplines
  • 16.
    Typologie des annexes 131 81 58 4444 44 41 32 16 7 7 Nombre de thèses concernées Répartition des documents
  • 17.
    Exemple de graphiques(1) Typologie des annexes Source : Laure Tabary Bolka (2007) Eléments pour une analyse sémio-pragmatique du transfert multisupport de l'image télévisuelle : le cas des images de la télé-réalité sur Internet et dans la presse magazine
  • 18.
    Typologie des annexes Exemplede graphiques (2) Source : Mylène Mihout Natar (2003) L' intervention des capitaux français dans la Pologne de la Seconde République (1918-1939) contribution a l'histoire de l'impérialisme économique français en Europe Centrale
  • 19.
    • Linguistique – Analyselexicale • Histoire – Prosopographie • Archéologie – Inventaire – http://steles-halma-ipel.univ-lille3.fr Valorisation des données Quelques exemples
  • 20.
    Contenu des annexes •Mettre au maximum les données en annexes • Décrire précisément les données, leur contenu et les conditions de recueil • Déposer les données dans le format obtenu Structuration des annexes • Suivre si possible la structure du texte • Numéroter et paginer les annexes • Insérer des tables spécifiques par types de données Veiller à la pérennité des accès En conclusion Quelques recommandations
  • 21.
    Merci de votreattention cecile.malleret@univ-lille3.fr helene.prost@inist.fr