DISCOURS ET
DOCTORAT -ANALYSE
DU DISCOURS
NUMÉRIQUE
CORPUS NUMERIQUES
1

Recueillir des données numériques sur les
variati...
2



Les variations du développement sexuel



Scrapbook



Corpus numériques homogènes/hétérogènes
?



Problèmes d’u...
Les variations du développement
sexuel
3



Personnes nées avec des organes génitaux qui
ne permettent pas de leur assign...
Problèmes de la constitution d’un
corpus sur les VDS
4



Sujet méconnu, tabou



Discours très dispersés






Les ...
Scrapbook
5







Add-on de Firefox
Permet d’enregistrer pages web en HTML hors
ligne
Avantages :
Corpus imperdable (m...
6
7
8
9
Unité/homogénéité des données :
les forums
10



Corpus « fini »



Environnement stable (mêmes couleurs,
présentation, ...
11
12
13
Problèmes d’unité (1)
14



Corpus de presse en ligne
Presse traditionnelle (articles version en ligne et
version papier)...
Le Monde Magazine
15
Les 400 culs (Libération)
16
Crêpe Georgette
17
Problèmes d’unité (2)
18



Pas de différence radicale entre presse et
blogs



Possible de récolter tous les articles d...
Problèmes de représentativité
19



Infinité d’internet : corpus « infinis »






Comment finir des corpus dont la ca...
Hermaphrodite sex : Environ
8 610 000 résultats
20
Pornographie, VDS, corpus,
représentativité
21



Pas de site pornographique dédié aux
hermaphrodites/intersexes – pas de...
22
Conclusion : « L’impossible
clôture » ?
23

Mais partir d’un corpus exploratoire qu’on élargit au fur et à mesure
des indi...
Prochain SlideShare
Chargement dans…5
×

Disc doct 22 nov marignier

710 vues

Publié le

Publié dans : Formation
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
710
Sur SlideShare
0
Issues des intégrations
0
Intégrations
252
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Disc doct 22 nov marignier

  1. 1. DISCOURS ET DOCTORAT -ANALYSE DU DISCOURS NUMÉRIQUE CORPUS NUMERIQUES 1 Recueillir des données numériques sur les variations du développement sexuel : problèmes méthodologiques Noémie Marignier – 22 novembre 2013
  2. 2. 2  Les variations du développement sexuel  Scrapbook  Corpus numériques homogènes/hétérogènes ?  Problèmes d’unité  Problèmes de représentativité : corpus infinis
  3. 3. Les variations du développement sexuel 3  Personnes nées avec des organes génitaux qui ne permettent pas de leur assigner le sexe mâle ou femelle (intersexes, « hermaphrodites »)  Discours des variations sexuelles : Discours militants (forums, sites d’association)  Discours médical (dossiers d’enfants, articles et ouvrages médicaux)  Discours du désir (sites pornographiques, d’exhibition…)  Presse – blogs 
  4. 4. Problèmes de la constitution d’un corpus sur les VDS 4  Sujet méconnu, tabou  Discours très dispersés     Les aspirateurs de sites (à partir d’une URL)   peu d’associations, peu de lieux numériques dédiés pas d’événement discursif (sauf C. Semenya en 2009) pas de dénomination stable Problème de la dispersion des données Diigo (social, en ligne):   Problème de la confidentialité des données Problème de la disparition des données/accès refusé
  5. 5. Scrapbook 5    Add-on de Firefox Permet d’enregistrer pages web en HTML hors ligne Avantages : Corpus imperdable (même en cas d’accès refusé/disparition de sites)  Données stockées dans leur environnement  Possibilité d’annoter/Rechercher plein texte   Inconvénients :  Données ne sont pas mises à jour (nouveaux commentaires, nouveaux fils)
  6. 6. 6
  7. 7. 7
  8. 8. 8
  9. 9. 9
  10. 10. Unité/homogénéité des données : les forums 10  Corpus « fini »  Environnement stable (mêmes couleurs, présentation, contraintes techno-discursives etc..)    Même début d’URL Possibilité de récolter toutes les données (même si nombreuses) Réseaux sociaux ? (Twitter, Facebook…)
  11. 11. 11
  12. 12. 12
  13. 13. 13
  14. 14. Problèmes d’unité (1) 14  Corpus de presse en ligne Presse traditionnelle (articles version en ligne et version papier)  Blogs associés aux sites de presse  Blogs indépendants …   Continuum de contenus, de présentations, de fonctionnements (les sites de presse utilisent les plates-formes de blogs)   Nombre de données ++++ Impossible de finir le corpus
  15. 15. Le Monde Magazine 15
  16. 16. Les 400 culs (Libération) 16
  17. 17. Crêpe Georgette 17
  18. 18. Problèmes d’unité (2) 18  Pas de différence radicale entre presse et blogs  Possible de récolter tous les articles de quotidiens-hebdomadaires-magazines etc.  Critères  du tirage/diffusion par ex. Mais impossible de récolter tous les articles de blogs…  Sur quels critères sélectionner les uns plutôt que les autres?
  19. 19. Problèmes de représentativité 19  Infinité d’internet : corpus « infinis »    Comment finir des corpus dont la caractéristique est d’être infinis ? Limites du corpus viennent d’une impossibilité, d’une mé-connaissance des autres données   Infinités de blogs, de sites, de pages… Limites impossibles à justifier théoriquement Question du biais :  Accès au corpus par mots-clés, réseaux sociaux  orientation de la recherche (par ex : sur-représentation des blogs féministes)
  20. 20. Hermaphrodite sex : Environ 8 610 000 résultats 20
  21. 21. Pornographie, VDS, corpus, représentativité 21  Pas de site pornographique dédié aux hermaphrodites/intersexes – pas de #tag  Dispersion +++ des données pornographiques sur les VDS  Corpus d’une dizaine de sites  Impossible à justifier en dehors du fait que je les ai trouvés dans les premiers résultats Google … ce qui est un peu court.  Impression d’aller « à la pêche »
  22. 22. 22
  23. 23. Conclusion : « L’impossible clôture » ? 23 Mais partir d’un corpus exploratoire qu’on élargit au fur et à mesure des indices de contextualisation qui permettent de pister les discours transverses porte ensuite à s’interroger sur les limites que l’on fixe à cette recherche de corpus de travail complémentaires et de corpus de référence qui interviennent dans l’interprétation sémantique des données: tout discours transverse inscrit lui-même d’autres discours transverses et ainsi à l’infini, et aucun traitement informatique de corpus ne peut réellement venir à bout de cette épaisseur dialogique qui s’est déposée en couches sémantiques successives dans les mots, les énoncés et les discours, et qui peut même anticiper des discours ultérieurs. Il faut donc accepter cette impossible clôture du corpus (et donc sa non-exhaustivité constitutive). Lorsqu’on estime que les corpus de référence recueillis en boule de neige permettent d’expliquer les données des corpus de travail et de répondre aux objectifs fixés à la recherche, on arrête alors cette quête de la traçabilité des mots et des dires. Moirand (2004)

×