L’analyse automatique de contenu automatisée appliquée aux
                            entretiens

                       ...
-   La pré-analyse. Cette phase permet au chercheur de définir le support de son analyse
           de contenu, le corpus ...
part il s’agit de se demander dans quelle mesure on peut recourir à l’analyse de contenu dans
le cadre de l’analyse d’entr...
Ceux-ci ont parfois été reçus avec une certaine crainte. Ainsi, Brossaud et Demazière6
montrent qu’en sociologie ces logic...
-   socio-sémantique, « par segmentation du corpus en unités de significations pertinentes
       et   par   catégorisatio...
certainement sur le choix, toutefois, il s’agit ici de se demander un peu plus
fondamentalement quels critères de choix pe...
Les facteurs de choix d’un type d’analyse de données textuelles selon Fallery et Rodhain10




Le second article11 est le ...
8
II) Un exemple de logiciel, lié à une méthode : TROPES et la « méthode des rafales »
dans le cadre de l’analyse chronologi...
Dans la liste de ces utilisations, nous nous intéressons particulièrement au cas de la
« localisation des séries chronolog...
texte donné12. Le repérage de « rafales » dans un texte suppose donc d’identifier, pour un
lemme donné, des segments du te...
constitue « un moment privilégié de l’intégration du récit ». Qu’entend-on par « intégration »
d’un discours ou d’un récit...
des logiciels d’analyse automatique de textes, travaille avec des formes graphiques comme
unités de base. Le problème vien...
Bibliographie :


Bardin, L’analyse de contenu, puf quadridge, 2007


Barthes, « Introduction à l’analyse structurale des ...
Prochain SlideShare
Chargement dans…5
×

Analyse automatique d'entretiens

6 575 vues

Publié le

Publié dans : Voyages, Business
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
6 575
Sur SlideShare
0
Issues des intégrations
0
Intégrations
18
Actions
Partages
0
Téléchargements
129
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Analyse automatique d'entretiens

  1. 1. L’analyse automatique de contenu automatisée appliquée aux entretiens Avril 2010 Essai de Méthodes Quantitatives, réalisé par Frédéric Garcias, Vincent Réveillère et Abdelouahab Yagoubi (Master GDO) L’analyse de contenu peut potentiellement intéresser toutes les sciences sociales. Historiquement, elle a été appliquée aux grandes œuvres littéraires (par exemple travaux de Muller), puis aux discours politique (avec notamment le laboratoire « lexicométrie et textes politiques » créé par Wagner à l’ENS Saint Cloud en 1967). Elle peut se définir comme « un ensemble de techniques d’analyse des communications visant, par des procédures systématiques et objectives de description du contenu des messages, à obtenir des indicateurs (quantitatifs ou non) permettant l’inférence de connaissances relatives aux conditions de production/réception (variables inférées) de ces messages. »1. Elle répond à la volonté de dépasser une approche intuitive du texte, « Content analysis should begin where traditional modes of research end. » (Lasswell, Lerner et Pool)2. Le but est d’arriver à une certaine objectivité, d’aller plus loin qu’une simple interprétation subjective du texte. Le chercheur veut se « faire méfiant », adopter une attitude de « vigilance critique » selon Laurence Bardin. « Dire non à la « simple lecture du réel », toujours réductrice, c’est forger des concepts opératoires, accepter le provisoire d’hypothèses, mettre en place des plans d’expériences ou d’investigations (afin de déconcerter les impressions premières, dirait P. H. Lasarsfeld). »3 Il existe de nombreuses méthodes d’analyse de contenu, qui reflètent les différents courants de pensée, toutefois, on peut distinguer quatre grandes étapes dans le déroulement d’une analyse : pré-analyse, catégorisation, codage et comptage, et interprétation (nous reprenons la présentation d’André Robert et Annick Bouillaguet4). 1 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 47 2 Laswell, Lerner, Pool, The comparative study of symbols, Standford, Standford University Press, 1952. Cité par Laurence Bardin, in Bardin, L’analyse de contenu, puf quadridge, 2007, p. 15 3 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31 4 Robert et Bouillaguet, L’analyse de contenu, puf, 2007 1
  2. 2. - La pré-analyse. Cette phase permet au chercheur de définir le support de son analyse de contenu, le corpus qu’il va utiliser. Il faut évidemment que celui-ci puisse apporter des éléments de réponse par rapport à sa problématique. Il faut ensuite que la recherche soit faisable, pratiquement. - La catégorisation : Il s’agit d’appliquer au corpus un traitement permettant d’accéder à une signification non immédiatement visible (par le biais de dénombrement par exemple). L’enjeu est de respecter une double exigence d’originalité (apport de l’application de la méthode) et de fidélité (ne pas dénaturer le contenu). Le point critique est alors l’élaboration d’une grille de catégories, c'est-à-dire de définir un classement. Les catégories obtenues doivent répondre à quatre qualités : la pertinence, l’exhaustivité, l’exclusivité et l’objectivité. - Codage et comptage des unités : l’application des catégories au corpus implique de délimiter des unités de découpage du contenu. On peut distinguer l’unité d’enregistrement (segment déterminé de contenu utilisé pour le faire entrer dans la grille d’analyse), l’unité de numération (manière dont l’analyste va compter lorsqu’il choisit de recourir à la quantification) et l’unité de contexte (unité immédiatement supérieure à l’unité d’enregistrement. - L’interprétation des résultats : en prenant appui sur une lecture originale et objective du corpus étudié, le but est d’évaluer les hypothèses formulées. A bien des égards, l’analyse de contenu peut apparaître fastidieuse. Deux visées sous tendent ce « travail de Pénélope »5 selon Laurence Bardin : dépasser l’incertitude (ce que je vois dans le message est-il effectivement contenu, ma lecture est-elle valide et généralisable ?) et enrichir la lecture (aller plus loin qu’une lecture immédiate et spontanée). Il y a donc à la fois un besoin de rigueur et une volonté de découvrir, que l’on peut considérer comme deux pôles de l’analyse de contenu, auxquels correspondent deux fonctions : une fonction heuristique et une fonction d’administration de la preuve. Nous nous interrogerons sur un cas spécifique de l’analyse de contenu, à deux égards. D’une 5 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31 2
  3. 3. part il s’agit de se demander dans quelle mesure on peut recourir à l’analyse de contenu dans le cadre de l’analyse d’entretiens. En effet, la méthode était initialement utilisée dans un cadre très différent, les textes littéraires ainsi que les discours politiques. L’entretien implique une relation d’interaction et une communication verbale ainsi que non verbale. D’autre part, nous considérerons plus particulièrement la possibilité de recourir à des outils automatiques d’analyse, les logiciels. Quels outils d’analyse automatique le chercheur peut-il utiliser pour analyser des entretiens ? Une présentation générale des différentes possibilités qui s’offrent au chercheur (I) sera suivie par la présentation critique d’une méthode, (la méthode des « rafales » dans le cadre de l’analyse chronologique d’entretiens) associée à un logiciel en particulier (TROPES) (II). I) Analyser automatiquement des entretiens Le développement des méthodes d’analyse automatique de contenu depuis quelques décennies permet au chercheur de disposer d’un éventail important de méthodes (A). La question du choix de l’outil n’en est que plus difficile (B). A) L’analyse de contenu et l’informatique La méfiance originelle des chercheurs en sciences sociales envers les outils automatisant leur travail (1) semble révolue au regard de la diversité des méthodes qui ont été développées pour analyser automatiquement des contenus (2). 1) Défiance du chercheur Deux phénomènes conjugués ont permis le développement important de l’analyse automatisée, recourant à l’informatique. D’une part, les corpus sont de plus en plus numérisés, ce qui permet leur traitement informatique. D’autre part, de nouvelles techniques d’analyse de contenu sont apparues avec le développement de logiciels. 3
  4. 4. Ceux-ci ont parfois été reçus avec une certaine crainte. Ainsi, Brossaud et Demazière6 montrent qu’en sociologie ces logiciels ont parfois été perçus comme risquant de fournir des solutions clés en mains pour le traitement de grands corpus, conduisant à une dérive vers un pilotage de la recherche par les outils techniques. Le logiciel, peut à certains égards être perçu comme une « boîte noire ». Pourtant, un usage réflexif de ces nouvelles méthodes est possible et ils constituent un nouvel outil pour le chercheur, au service du questionnement. Comme le remarque Emmanuel Le Roy Ladurie, dans le domaine de l’histoire « en historie comme ailleurs, ce qui compte ce n’est pas la machine, mais le problème. La machine n’a d’intérêt que dans la mesure où elle permet d’aborder des questions neuves, originales par les méthodes, les contenus et surtout l’ampleur »7. 2) Diversité des méthodes existantes L’existence même de nombreuses méthodes souligne que l’analyse de contenu, qu’elle soit automatisée ou non, implique une prise de position par le chercheur. Dans un article de 19978, qui reste la référence dans la classification des différents types de logiciels, Jenny remarquait que « le paysage de l’analyse textuelle française semble aussi varié et diversifié que nos paysages, nos vins et nos fromages ; aussi compartimenté que nos vieux cantons ; aussi séduisant par certains côtés que notre langue chérie. » Dans une tentative de classification, il distingue cinq grands types d’approches de « pratiques textuelles informatisées » : - lexicométrique, « qui consiste à comparer des profils lexicaux (distributions relatives des occurrences lexicales, sans nécessité de lecture préalable) » ; 6 Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière, Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes, usages, Presses Universitaires de Rennes, pp. 11-21 7 Le Roy Ladurie, Le territoire de l’historien, Gallimard, « Bibliothèque des histoires », 1973, cité par cité par Robert et Bouillaguet, in L’analyse de contenu, puf, 2007, p. 123 8 Jenny « Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification », Bulletin de Méthodologie Sociologique, 54, 1997. 4
  5. 5. - socio-sémantique, « par segmentation du corpus en unités de significations pertinentes et par catégorisation multidimensionnelle conforme aux grilles d’analyse conceptuelles spécifiques de chaque recherche (dans une optique classique de codage a posteriori » ; - par réseaux de mots associés « qui visent à re-présenter des configurations cognitives liées à un ou plusieurs thèmes, considérées comme cachées sous la surface textuelle » ; - propositionnelle et prédicative qui visent à décrire « les logiques de construction progressive de tout univers référentiel cohérent…ainsi que les finalités ou intentions de chaque mise en scène langagière particulière » ; - d’ingénierie textuelle, « à visée d’audit textuel ou à dominante de documentation- communication » et de systèmes experts « dédiés à des problématiques de recherche sociologique particulière ». Sans aller plus loin dans la description de chacune des méthodes, on peut souligner leur diversité et les différences de conceptions du langage et de posture méthodologique qu’elles sous tendent. Cette diversité apparaît comme un peu désarmante pour le novice. Quel logiciel choisir alors ? Doit-on apprendre à maîtriser l’ensemble des logiciels ou bien la connaissance de certains d’entre eux suffit-elle ? B) Choisir un logiciel pour analyser des entretiens en sciences de gestion Le choix du logiciel est donc très complexe et donner des critères de choix impliquerait une bonne connaissance des différents logiciels et une grande pratique de ceux-ci. Ce n’est évidemment pas notre cas. En revanche nous pouvons présenter deux propositions de classement faites par des chercheurs qui ont l’expérience de ce type de logiciels et qui travaillent dans le milieu de l’entreprise. Devant choisir un logiciel, l’analyste prend-il celui qu’il connait, dont il a une certaine pratique ? Ou tout simplement celui dont il possède une licence ? Ces facteurs influents 5
  6. 6. certainement sur le choix, toutefois, il s’agit ici de se demander un peu plus fondamentalement quels critères de choix peut-on dégager le chercheur. On peut imaginer que des questions comme la vision de la langue, le type de matériaux, la représentation du discours, le type de question posée vont jouer un rôle déterminant. Nous présenterons deux tentatives de classification des différentes méthodes d’analyse automatique de contenu, qui cherchent à se demander ce qui motive l’utilisateur dans le choix d’un logiciel. Ces classifications se recoupent en partie avec celle proposée par Jenny, toutefois la première propose une vision plus concrète. Le premier est adressé aux chercheurs en stratégie ; le second présente a posteriori les logiciels choisi par une équipe de recherche en entreprise. Falleru et Rodhain9 s’interrogent sur les facteurs de choix entre différentes méthodes. Ils distinguent quatre types d’analyses. - les analyses lexicales visent à décrire de quoi on parle, (ex de logiciels : Sphinx- Lexica, Spad-T, Alceste) ; - les analyses linguistiques cherchent à décrire comment on parle, (ex de logiciels : Tropes, MCA, Prospéro) ; - la cartographie cognitive permet de structurer une pensée, (les auteurs distinguent les outils utilisés dabs l’analyse de relations causales de ceux utilisés dans les associations sémantiques : Web Rain) ; - l’analyse thématique est utilisée pour interpréter un contenu, (ex de logiciels : N Vivo, Sato. 9 Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale de Management Stratégique, Montréal, 6- 9 Juin 2007 6
  7. 7. Les facteurs de choix d’un type d’analyse de données textuelles selon Fallery et Rodhain10 Le second article11 est le fruit des travaux du Groupe de Recherche Energie Technologie et Société (GRETS) qui est une équipe de recherche en entreprise (EDF) et qui a une assez grande expérience de l’utilisation de logiciels d’analyse automatique de contenu. En outre, l’équipe travail sur des questions très différentes et est composée de chercheurs d’appartenance disciplinaire variée. L’intérêt de l’article est de fournir un aperçu des types de méthodes qui ont été utilisés par une unité de recherche. 10 Fallery et Rodhain, ibid. p. 3 11 Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales d’Analyse Statistique de Données Textuelles. 7
  8. 8. 8
  9. 9. II) Un exemple de logiciel, lié à une méthode : TROPES et la « méthode des rafales » dans le cadre de l’analyse chronologique de récits et de discours Une application spécifique de l’analyse automatique de contenu susceptible de nous intéresser fortement, en tant qu’étudiants et futurs doctorants en gestion, est son utilisation dans le cas d’analyses d’entretiens, et particulièrement dans le cas d’entretiens non-directifs ou semi- directifs orientés vers les récits personnels, les « récits de vie ». C’est un matériau que nous serons éventuellement amenés à travailler en grande quantité. Dans cette perspective, le choix du logiciel TROPES offre des possibilités originales d’analyse sémantique (ou socio-sémantique, voir la classification de Jenny ci-dessus), s’appuyant sur des postulats théoriques forts, et que nous allons détailler. Pour mémoire, TROPES a été développé initialement par Pierre Molette, sur la base du groupe de recherche GRP (Groupe de Recherche sur la Parole) de l’Université de Paris VIII. Ses fonctionnalités sont multiples, ne se réduisant pas à la seule analyse chronologique de récits, et encore moins au seul cas des entretiens. Sur le site des développeurs, nous trouvons la liste des fonctions d’analyse sémantique offertes par TROPES : • La classification automatique des mots du texte ; • La contraction du texte (automatique et réglable) ; • La détection du contexte global du document ; • La catégorisation des mots-outils (analyse qualitative) ; • La localisation de séries chronologiques (analyse du discours) ; • Le calcul des relations entre thèmes (lexicométrie) ; • Des dictionnaires sémantiques personnalisables, appelés Scénarios, conçus pour fabriquer rapidement des outils d'interprétation ou des thesaurus automatiques ; • L'extraction terminologique (couplée à l'analyse sémantique) ; • L'affichage sélectif par thème ou par catégorie linguistique ; • Le filtrage des thèmes en fonction de leur pertinence ; • Des graphes hypertextes permettant d'analyser et de naviguer dans les documents. 9
  10. 10. Dans la liste de ces utilisations, nous nous intéressons particulièrement au cas de la « localisation des séries chronologiques (analyse du discours) ». Cette fonction repose sur la méthode d’analyse séquentielle en « rafales » et en « épisodes ». C’est une méthode particulièrement utilisée en sociologie : son utilisation est en effet pertinente lorsque le matériau du chercheur est composé d’entretiens dont le propos est essentiellement narratif, voire, le plus souvent, autobiographique. Dans de nombreux cas, l’entretien non-directif (voire semi-directif) est l’occasion, pour un locuteur, de raconter et de mettre en scène une histoire, sa propre histoire. Le parti-pris des créateurs de TROPES a été de postuler que de tels récits obéissent à des « règles » de structuration, de type littéraire, qui peuvent être mises en évidence par un travail automatisé. La logique de fonctionnement du logiciel est fondée sur une hypothèse principale : la dynamique du récit (de vie), lorsqu’il est exprimé oralement, repose sur le mécanisme de la répétition : afin d’exprimer un élément de signification, un locuteur est amené, inconsciemment, à insister sur l’emploi d’un terme, ou de termes de la même famille sémantique. Plus précisément, cette hypothèse émane du laboratoire de R. Ghiglione, qui a formulé une théorie psycho-socio-cognitive expliquant les mécanismes de distribution des propositions au sein d’un texte. L’enseignement principal qu’on retire de cette théorie est que « la répétition […] agit comme un moyen de pallier les insuffisances de la mémoire, et constitue un outil privilégié de la production de la cohérence interne et séquentielle du récit » (Bruguidou et Le Quéau). L’ensemble des répétitions d’un même terme forme ce que l’on appelle une « rafale ». Une rafale est définie comme « la redondance ‘remarquable’ de certains termes, essentiellement substantifs, qui organise le développement du discours. Dans ce contexte, est définie comme ‘remarquable’ une distribution irrégulière de ces mots ». C’est la juxtaposition de plusieurs rafales dans un espace anormalement ramassé du texte, qu’on appelle « épisode », qui constitue un « paquet de sens », une séquence de la progression narrative. C’est à ce niveau que l’utilisation de procédés automatiques d’analyse revêt un intérêt de premier ordre : l’identification des « rafales » repose sur la détection de phénomènes d’irrégularité dans la distribution des termes au sein du texte. Nous savons, et c’est l’un des outils de base de l’analyse de contenu, que les « lemmes » ont une certaine fréquence dans un 10
  11. 11. texte donné12. Le repérage de « rafales » dans un texte suppose donc d’identifier, pour un lemme donné, des segments du texte dans lesquels ce lemme obéit à une distribution « anormale », c’est-à-dire nettement supérieure à sa distribution globale. En clair, ce travail d’identification ne peut être fait que par le biais d’allers-retours permanents entre une zone locale du texte et la globalité de celui-ci. Bien que l’œil, à la lecture, soit capable de percevoir certaines de ces irrégularités, ruptures, variations, les algorithmes automatiques de TROPES présentent l’avantage d’être systématiques : quand notre œil, dans un passage donné d’un texte, va repérer une séquence de sens privilégiée, il peut en négliger une autre, moins immédiatement perceptible, précisément parce qu’elle est reléguée au second plan par l’autre, plus marquante. La systématicité des repérages opérés par TROPES permet d’éviter cet écueil de sélection inconsciente, et tend à l’exhaustivité de l’analyse. A quoi ressemble le résultat d’un tel travail ? A bien des égards, nous pouvons dire que TROPES fait apparaître le « squelette » du texte. Là où bien des logiciels d’analyse textuelle se contentent d’isoler les mots à forte récurrence, et de les classer selon leur importance relative dans le texte, TROPES apporte l’idée fondamentale selon laquelle la stylisation et l’épuration d’un texte gagnent à intégrer une dimension temporelle et spatiale. Ainsi, si certains logiciels écartent l’essentiel du « corps » du texte pour nous en livrer, en vrac, les « os », TROPES opère une sélection autrement plus fine, qui conserve et représente la disposition des unités fondamentales de sens. Le « produit fini » d’une analyse chronologique de discours opérée par TROPES (il ne s’agit pas, on le rappelle de sa seule fonctionnalité, loin de là) se présente donc comme la présentation d’une série de « séquences », représentées par des segments plus ou moins longs en fonction des « adresses » de début et de fin de la séquence. Cette succession séquentielle n’est cependant pas linéaire, et c’est là une des subtilités de la méthode : un passage donné du texte peut être inclus dans plusieurs rafales, et opérer la transition de l’une à l’autre. La réduction du texte à une série de rafales fournit un aperçu clair et synthétique du déroulement chronologique du récit. La juxtaposition de rafales renvoyant à un univers sémantique proche forme ce que l’on appelle un « épisode ». C’est au niveau des épisodes que va se jouer l’analyse sémantique proprement dite. D’après Bruguidou et Le Quéau, un épisode 12 La fréquence d’un lemme dans un texte donné est tout simplement donnée par le rapport de son nombre d’occurrences au nombre total d’unités graphiques présentes dans le texte. 11
  12. 12. constitue « un moment privilégié de l’intégration du récit ». Qu’entend-on par « intégration » d’un discours ou d’un récit ? Cette expression renvoie aux théories développées en analyse structurale par Roland Barthes, selon qui « la langue proprement dite peut être définie comme le concours de deux procès fondamentaux : l’articulation ou segmentation, qui produit des unités (c’est la forme, selon Benveniste), l’intégration, qui recueille ces unités dans des unités d’un rang supérieur (c’est le sens) »13. L’ « épisode » constitue, en quelque sorte, un espace où la répétition de certaines formes tire le texte de sa fragmentation en formes dispersées pour « coaguler » et créer du sens. Une des principales difficultés consiste dans le passage de la rafale à l’épisode, qui constitue l’élément clé de la représentation du récit. TROPES propose bien des « méta-algorithmes » analytiques visant à opérer un groupement des rafales, dans de « super-rafales » qui constitueraient les véritables séquences narratives du récit. Il semble néanmoins qu’à ce stade, l’automaticité du logiciel ait grandement besoin de l’assistance d’une main humaine pour produire un résultat intéressant, et ce pour plusieurs raisons. La première est que la langue orale comporte beaucoup de « déchet », se matérialisant par exemple par les « tics » de langage : le repérage et l’élimination de ce parasitage du sens par les béquilles orales que représentent ces tics ne peut être fait que par une main humaine. De façon plus générale, les répétitions interviennent de façon privilégiée pour les catégories grammaticales les moins porteuses de sens immédiat : adverbes, conjonctions, articles, pronoms… Or il se trouve que, d’après Bruguidou et Le Quéau, « l’intégration du récit décrite par Barthes s’exprime de manière privilégiée à travers les substantifs ». Bien que TROPES soit capable de repérer automatiquement la nature des lemmes employés dans le texte, et donc d’appuyer ce degré supplémentaire d’épuration du texte, cela suppose tout de même une intervention de l’intelligence humaine. Nous touchons ici à ce qui constitue une des « limites » de l’analyse sémantique assistée par ordinateur, et qui est la question de la marge de manœuvre laissée à l’intervention du chercheur, face à l’automaticité des processus. Nous ne l’avons pas précisé jusqu’ici (puisque cela porte sur des processus assez « techniques » et fastidieux), mais l’analyse chronologique visant à la représentation d’un texte en épisodes successifs ne peut se faire qu’une fois effectué un travail important de « nettoyage » du texte. En effet, TROPES, comme la plupart 13 R. Barthes, Introduction à l’analyse structurale des récits, 1966 12
  13. 13. des logiciels d’analyse automatique de textes, travaille avec des formes graphiques comme unités de base. Le problème vient du fait qu’un même mot peut se décliner sous des formes graphiques différentes, en se déclinant au pluriel, au féminin… Or, un épisode étant une unité de sens, et non de forme, il va de soi que le repérage de la distribution « anormale » d’un terme doit inclure le comptage des formes déclinées de ce terme. Il existe donc tout un travail préalable de « désambiguation » à opérer avant de lancer les procédures automatisées d’analyse. Travail qui inclut notamment le traitement des homonymes et des synonymes. TROPES propose, parmi ses fonctionnalités, la constitution de « classes d’équivalence » (sortes de familles sémantiques), qui sont un outil efficace de désambiguation en vue de l’intégration du sens. Mais là encore, le logiciel ne semble pas en mesure de répondre à toutes les subtilités que suppose une analyse fine. S’il semble utile de regrouper et de lier entre eux des termes d’une même famille dans une classe d’équivalence, ne prend-on pas le risque, en procédant de manière trop automatisée, d’appauvrir considérablement l’analyse ? Ne prenons qu’un exemple, qui est celui donné par Bruguidou et Le Quéau : « clope » et « cigarette » sont indiscutablement des synonymes, et pourraient en toute logique être rendus équivalents par le logiciel, qui les dénombrerait ensemble dans le repérage des rafales. Mais ce serait là se priver d’un niveau d’analyse supplémentaire, étant donné que le choix du mot « clope » ne recouvre pas, sémantiquement parlant, exactement la même intention que celui de « cigarette ». Ce simple exemple illustre que l’automatisation totale de l’analyse est encore loin d’être d’actualité, et n’est peut être pas réellement souhaitable. La plupart des logiciels, d’autant plus ceux comme SATO ou TROPES qui sont des structures « ouvertes », se présentent comme de simples outils, auxquels le chercheur « passe la main » pour les tâches les plus fastidieuses (ce qui est bien utile en présence de corpus de grande taille). Mais le chercheur, pour produire de véritables analyse, ne peut raisonnablement s’exonérer d’une intervention très forte dans les processus automatiques, qui ne sont finalement, le plus souvent, que semi-automatiques. 13
  14. 14. Bibliographie : Bardin, L’analyse de contenu, puf quadridge, 2007 Barthes, « Introduction à l’analyse structurale des récits », in L’analyse structurale du récit, Communications n°8, Paris, Seuil, 1981 Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière, Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes, usages, Presses Universitaires de Rennes, pp. 11-21 Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales d’Analyse Statistique de Données Textuelles. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2000/pdf/04/04.pdf Bruguidou, Le Quéau, « Les « rafales », une méthode pour identifier les différents épisodes du récit : contribution au traitement et à l’interprétation des entretiens non-directifs de recherche », Bulletin de Méthodologie sociologique, 1999. Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale de Management Stratégique, Montréal, 6-9 Juin 2007. http://www.aims2007.uqam.ca/actes- de-la-conference/Communications/falleryb300/at_download/article.pdf Mucchielli, L’analyse de contenu, ESF éditeur, 2006 Ghiglione, Landré, Bromberg et Molette, L’analyse automatique des contenus, Dunod, 1998 Robert et Bouillaguet, L’analyse de contenu, PUF, 2007 14

×