DISCOURS ET
DOCTORAT -ANALYSE
DU DISCOURS
NUMÉRIQUE
CORPUS NUMERIQUES
1

Recueillir des données numériques sur les
variations du développement sexuel :
problèmes méthodologiques

Noémie Marignier – 22 novembre 2013
2



Les variations du développement sexuel



Scrapbook



Corpus numériques homogènes/hétérogènes
?



Problèmes d’unité



Problèmes de représentativité : corpus infinis
Les variations du développement
sexuel
3



Personnes nées avec des organes génitaux qui
ne permettent pas de leur assigner le sexe mâle
ou femelle (intersexes, « hermaphrodites »)



Discours des variations sexuelles :
Discours militants (forums, sites d’association)
 Discours médical (dossiers d’enfants, articles et
ouvrages médicaux)
 Discours du désir (sites
pornographiques, d’exhibition…)
 Presse – blogs

Problèmes de la constitution d’un
corpus sur les VDS
4



Sujet méconnu, tabou



Discours très dispersés






Les aspirateurs de sites (à partir d’une URL)




peu d’associations, peu de lieux numériques dédiés
pas d’événement discursif (sauf C. Semenya en 2009)
pas de dénomination stable

Problème de la dispersion des données

Diigo (social, en ligne):



Problème de la confidentialité des données
Problème de la disparition des données/accès refusé
Scrapbook
5







Add-on de Firefox
Permet d’enregistrer pages web en HTML hors
ligne
Avantages :
Corpus imperdable (même en cas d’accès
refusé/disparition de sites)
 Données stockées dans leur environnement
 Possibilité d’annoter/Rechercher plein texte




Inconvénients :


Données ne sont pas mises à jour (nouveaux
commentaires, nouveaux fils)
6
7
8
9
Unité/homogénéité des données :
les forums
10



Corpus « fini »



Environnement stable (mêmes couleurs,
présentation, contraintes techno-discursives etc..)







Même début d’URL
Possibilité de récolter toutes les données (même
si nombreuses)
Réseaux sociaux ? (Twitter, Facebook…)
11
12
13
Problèmes d’unité (1)
14



Corpus de presse en ligne
Presse traditionnelle (articles version en ligne et
version papier)
 Blogs associés aux sites de presse
 Blogs indépendants
…




Continuum de contenus, de présentations, de
fonctionnements (les sites de presse utilisent les
plates-formes de blogs)




Nombre de données ++++

Impossible de finir le corpus
Le Monde Magazine
15
Les 400 culs (Libération)
16
Crêpe Georgette
17
Problèmes d’unité (2)
18



Pas de différence radicale entre presse et
blogs



Possible de récolter tous les articles de
quotidiens-hebdomadaires-magazines etc.
 Critères



du tirage/diffusion par ex.

Mais impossible de récolter tous les articles de
blogs…
 Sur

quels critères sélectionner les uns plutôt que
les autres?
Problèmes de représentativité
19



Infinité d’internet : corpus « infinis »






Comment finir des corpus dont la caractéristique est
d’être infinis ?
Limites du corpus viennent d’une impossibilité, d’une
mé-connaissance des autres données




Infinités de blogs, de sites, de pages…

Limites impossibles à justifier théoriquement

Question du biais :


Accès au corpus par mots-clés, réseaux sociaux 
orientation de la recherche (par ex : sur-représentation des
blogs féministes)
Hermaphrodite sex : Environ
8 610 000 résultats
20
Pornographie, VDS, corpus,
représentativité
21



Pas de site pornographique dédié aux
hermaphrodites/intersexes – pas de #tag
 Dispersion

+++ des données pornographiques
sur les VDS



Corpus d’une dizaine de sites
 Impossible

à justifier en dehors du fait que je les
ai trouvés dans les premiers résultats Google …
ce qui est un peu court.
 Impression d’aller « à la pêche »
22
Conclusion : « L’impossible
clôture » ?
23

Mais partir d’un corpus exploratoire qu’on élargit au fur et à mesure
des indices de contextualisation qui permettent de pister les discours
transverses porte ensuite à s’interroger sur les limites que l’on fixe à
cette recherche de corpus de travail complémentaires et de corpus
de référence qui interviennent dans l’interprétation sémantique des
données: tout discours transverse inscrit lui-même d’autres discours
transverses et ainsi à l’infini, et aucun traitement informatique de
corpus ne peut réellement venir à bout de cette épaisseur dialogique
qui s’est déposée en couches sémantiques successives dans les
mots, les énoncés et les discours, et qui peut même anticiper des
discours ultérieurs. Il faut donc accepter cette impossible clôture du
corpus (et donc sa non-exhaustivité constitutive). Lorsqu’on estime
que les corpus de référence recueillis en boule de neige permettent
d’expliquer les données des corpus de travail et de répondre aux
objectifs fixés à la recherche, on arrête alors cette quête de la
traçabilité des mots et des dires. Moirand (2004)

Disc doct 22 nov marignier

  • 1.
    DISCOURS ET DOCTORAT -ANALYSE DUDISCOURS NUMÉRIQUE CORPUS NUMERIQUES 1 Recueillir des données numériques sur les variations du développement sexuel : problèmes méthodologiques Noémie Marignier – 22 novembre 2013
  • 2.
    2  Les variations dudéveloppement sexuel  Scrapbook  Corpus numériques homogènes/hétérogènes ?  Problèmes d’unité  Problèmes de représentativité : corpus infinis
  • 3.
    Les variations dudéveloppement sexuel 3  Personnes nées avec des organes génitaux qui ne permettent pas de leur assigner le sexe mâle ou femelle (intersexes, « hermaphrodites »)  Discours des variations sexuelles : Discours militants (forums, sites d’association)  Discours médical (dossiers d’enfants, articles et ouvrages médicaux)  Discours du désir (sites pornographiques, d’exhibition…)  Presse – blogs 
  • 4.
    Problèmes de laconstitution d’un corpus sur les VDS 4  Sujet méconnu, tabou  Discours très dispersés     Les aspirateurs de sites (à partir d’une URL)   peu d’associations, peu de lieux numériques dédiés pas d’événement discursif (sauf C. Semenya en 2009) pas de dénomination stable Problème de la dispersion des données Diigo (social, en ligne):   Problème de la confidentialité des données Problème de la disparition des données/accès refusé
  • 5.
    Scrapbook 5    Add-on de Firefox Permetd’enregistrer pages web en HTML hors ligne Avantages : Corpus imperdable (même en cas d’accès refusé/disparition de sites)  Données stockées dans leur environnement  Possibilité d’annoter/Rechercher plein texte   Inconvénients :  Données ne sont pas mises à jour (nouveaux commentaires, nouveaux fils)
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
    Unité/homogénéité des données: les forums 10  Corpus « fini »  Environnement stable (mêmes couleurs, présentation, contraintes techno-discursives etc..)    Même début d’URL Possibilité de récolter toutes les données (même si nombreuses) Réseaux sociaux ? (Twitter, Facebook…)
  • 11.
  • 12.
  • 13.
  • 14.
    Problèmes d’unité (1) 14  Corpusde presse en ligne Presse traditionnelle (articles version en ligne et version papier)  Blogs associés aux sites de presse  Blogs indépendants …   Continuum de contenus, de présentations, de fonctionnements (les sites de presse utilisent les plates-formes de blogs)   Nombre de données ++++ Impossible de finir le corpus
  • 15.
  • 16.
    Les 400 culs(Libération) 16
  • 17.
  • 18.
    Problèmes d’unité (2) 18  Pasde différence radicale entre presse et blogs  Possible de récolter tous les articles de quotidiens-hebdomadaires-magazines etc.  Critères  du tirage/diffusion par ex. Mais impossible de récolter tous les articles de blogs…  Sur quels critères sélectionner les uns plutôt que les autres?
  • 19.
    Problèmes de représentativité 19  Infinitéd’internet : corpus « infinis »    Comment finir des corpus dont la caractéristique est d’être infinis ? Limites du corpus viennent d’une impossibilité, d’une mé-connaissance des autres données   Infinités de blogs, de sites, de pages… Limites impossibles à justifier théoriquement Question du biais :  Accès au corpus par mots-clés, réseaux sociaux  orientation de la recherche (par ex : sur-représentation des blogs féministes)
  • 20.
    Hermaphrodite sex :Environ 8 610 000 résultats 20
  • 21.
    Pornographie, VDS, corpus, représentativité 21  Pasde site pornographique dédié aux hermaphrodites/intersexes – pas de #tag  Dispersion +++ des données pornographiques sur les VDS  Corpus d’une dizaine de sites  Impossible à justifier en dehors du fait que je les ai trouvés dans les premiers résultats Google … ce qui est un peu court.  Impression d’aller « à la pêche »
  • 22.
  • 23.
    Conclusion : «L’impossible clôture » ? 23 Mais partir d’un corpus exploratoire qu’on élargit au fur et à mesure des indices de contextualisation qui permettent de pister les discours transverses porte ensuite à s’interroger sur les limites que l’on fixe à cette recherche de corpus de travail complémentaires et de corpus de référence qui interviennent dans l’interprétation sémantique des données: tout discours transverse inscrit lui-même d’autres discours transverses et ainsi à l’infini, et aucun traitement informatique de corpus ne peut réellement venir à bout de cette épaisseur dialogique qui s’est déposée en couches sémantiques successives dans les mots, les énoncés et les discours, et qui peut même anticiper des discours ultérieurs. Il faut donc accepter cette impossible clôture du corpus (et donc sa non-exhaustivité constitutive). Lorsqu’on estime que les corpus de référence recueillis en boule de neige permettent d’expliquer les données des corpus de travail et de répondre aux objectifs fixés à la recherche, on arrête alors cette quête de la traçabilité des mots et des dires. Moirand (2004)