SlideShare une entreprise Scribd logo
1  sur  42
Télécharger pour lire hors ligne
Dépollu'on de la li.érature scien'fique :
traque d’expression torturées
et autres manipula'ons
17 février 2022
10es
rencontres Infocom
Guillaume Cabanac
guillaume.cabanac@univ-tlse3.fr
@gcabanac
2
La science : accumulation des connaissances
la science forme le mur de la connaissance
M
temps
qui
passe
:
sédimenta/on
c
i
t
e
1965
3
Processus d’auto-correc5on
publication corrigée ou rétractée
publication erronée = édifice fragilisé
M
temps
qui
passe
:
sédimenta/on
c
i
t
e
h"ps://www.youtube.com/watch?v=yeX_Zs7zztY
M
⟹ poli/ques d’austérité
4
Le serment des scientifiques
Évalua/on par les pairs
une revue :
5
Le champ (de bataille) scien5fique
6
Massifica5on et mondialisa5on
STM Global Brief 2021
1665 – 2022
16 000 / jour
Voir aussi : h<p://uis.unesco.org/apps/visualisaCons/research-and-development-spending
2,0 % PIB
2,7 % PIB
1,6 % PIB
2,3 % PIB
7
Un business et des oligopoles
Voir aussi : Larivière, V., Haustein, S., & Mongeon, P. (2015). The Oligopoly of Academic Publishers in the Digital Era. PLOS ONE, 10(6), h<ps://doi.org/10.1371/journal.pone.0127502
F = forecast
STM Global Brief 2021
STM Global Brief 2021
Deux fois plus de revues en 20 ans.
Deux fois plus d’experts mondiaux ?
Film “Paywall : the Business of Scholarship”
Financial Times
8
Les éditeurs prédateurs et leurs revues bidon
…
9
Pollu5on en science
MODUS OPERANDI
1. Génération algorithmique : SCIgen
2. Plagiat et expressions torturées
3. Peer Review hacking
4. Paper mills alias moulins à papier
5. Citation hacking
10
Article généré par SCIgen et … publié en 2005 🤪
11
Ar;cle SCIgen passant sous les radars
12
Le générateur SCIgen (Est. 2005)
https://pdos.csail.mit.edu/archive/scigen/
bidons
et
publiés
13
Notre contribution : passer la littérature au peigne fin
📄
📄
📄
📄
ID 7
ID 42
Opérateur
Booléen
Recherche
d’expression
14
Problema;c Paper Screener
h2ps://www.irit.fr/~Guillaume.Cabanac/problema>c-paper-screener
N = 262 ar/cles dont 197 pas rétractés,
publiés et souvent vendus !
15
Pollu5on en science
MODUS OPERANDI
1. Génération algorithmique : SCIgen
2. Plagiat et expressions torturées
3. Peer Review hacking
4. Paper mills alias moulins à papier
5. Citation hacking
16
Quizz des expressions torturées
sun oriented force
solar energy
counterfeit consciousness
artificial intelligence
pinnacle flag to clamor propor/on (PSNR)
peak signal to noise ratio (PSNR)
bosom malignancy/peril
breast cancer
man-made brainpower
credulous Bayes
Naive Bayes
Nucleic corrosive enhancement tests (NAAT)
Nucleic acid amplifica/on tests (NAAT)
Extreme intense respiratory disorder
Severe acute respiratory syndrome (SRAS)
😵💫
17
Notre preprint “Open Call for Inves;ga;on”
18
D’où viennent les expressions torturées ?
hps://translate.google.com
1. Traduction automatique
https://spinbot.com
2. Paraphrasage
19
😵💫
D’où viennent les expressions torturées ?
20
hps://transformer.huggingface.co/doc/arxiv-nlp
3. Génération de texte
😵💫
D’où viennent les expressions torturées ?
21
OpenAI GPT-2 Detector
72,1 % des résumés de MicroPro
publiés en 2021
ont un score GPT de 98.6%
‘Lazy Surveys’
état de l’art
du fainéant
😵💫
D’où viennent les expressions torturées ?
22
PPS : iden5fier et signaler les ar5cles probléma5ques
h$ps://www.20minutes.fr/monde/2643491-20191104-maree-noire-bresil-pire-venir-aver?t-president-jair-bolsonaro
23
Cons5tuer une communauté
🕵
Preprint : Open Call for Inves5ga5on
PPS : effet boule de neige avec PubPeer.org
Crowdsourcing de d’évalua5ons post-publica5on
24
Tortured Phrases et detectives sur PubPeer
😵💫
25
Focus sur la nanobiologie
Expressions torturées = indices
D’autres erreurs à iden;fier!
⚠ Exper;se mé;er nécessaire
😵💫
😵💫
😵💫
https://nanobubbles.hypotheses.org
26
Problema5c Paper Screener
Chiffres du 7 février 2022
3/10 000 ar/cles publiés en 2021 :
- 70 % d’Inde
- 6 % de Chine
27
Réac5ons : pollu5on inacceptable !
28
Réactions : pollution inacceptable !
29
“Sunlight as disinfectant”
…
30
Pollu5on en science
MODUS OPERANDI
1. Généra/on algorithmique : SCIgen
2. Plagiat et expressions torturées
3. Peer Review hacking
4. Paper mills alias moulins à papier
5. Cita<on hacking
31
Cas 1 : Microprocessors and Microsystems (Elsevier)
Signaux faibles de manipulaDon
bulle
32
h<ps://retracConwatch.com/2021/07/19/tortured-phrases-lost-in-translaCon-sleuths-find-even-more-problems-at-journal-that-just-flagged-400-papers/
Cas 1 : Microprocessors and Microsystems (Elsevier)
Cas 2 : Arabian Journal of Geosciences (Springer)
https://github.com/gcabanac/editorial-assessment
33
h"ps://retrac,onwatch.com/2021/09/28/springer-nature-slaps-more-than-400-papers-with-expressions-of-concern-all-at-once/
34
Pollu5on en science
MODUS OPERANDI
1. Généra/on algorithmique : SCIgen
2. Plagiat et expressions torturées
3. Peer Review hacking
4. Paper mills alias moulins à papier
5. Cita<on hacking
Le marché du fake : offre et demande
35
Description de la manipulation (février 2022) :
https://pubpeer.com/publications/940C291607CF03969C6A936F8BA5B9#2
Pollution scientifique
36
h$ps://forbe$erscience.com/2020/01/24/the-full-service-paper-mill-and-its-chinese-customers/
37
Pollu5on en science
MODUS OPERANDI
1. Généra/on algorithmique : SCIgen
2. Plagiat et expressions torturées
3. Peer Review hacking
4. Paper mills alias moulins à papier
5. Cita<on hacking
Cita;on hacking
38
https://pubpeer.com/publications/5BB17C4BD3F1EEA949058C2727810C
Cita;on hacking
39
hHps://doi.org/10.53053/MGSA7457
hHps://pubpeer.com/publicaNons/53A55C1EFF05FFABA62DA23350E770 hHps://pubpeer.com/publicaNons/0CDCB2AE2C5916CE5789987A4BAA4B
… … …
40
Pollution en science – Conclusion
Malfaiteurs : faussaires pseudo-auteurs
Mobile : promo;on, reconnaissance, capital symbolique
Modus operandi : plagiats, infiltra;on de revues, achats de cita;ons
Conséquences : pollu;on de la li[érature
érosion de la confiance que la société
place dans la science
Détec;ves : scien;fiques professionnels et amateurs
bénévoles et volontaires
Objec;f : cura;f → dépolluer la li[érature
préven;f → an;ciper les nouvelles fraudes
Moyen : Ré-évalua;on décentralisée soutenue par le
Problema)c Paper Screener
Il faut dépolluer la liérature scien/fique
h$ps://fr.wikipedia.org/wiki/Dépollu?on
Des bénévoles ne<oient les côtes après la catastrophe du PresCge (2002).
41
Crédits indiqués sur les diapos ou ci-dessous :
• Diapo 2 : hZps://www.facebook.com/hyperconsciousness/photos/if-i-have-seen-further-it-is-by-standing-on-the-shoulders-of-giants-isaac-
newton/3650241855102416/ hZps://www.canstockphoto.com/texture-of-old-brick-wall-with-broken-50415102.html
• Diapo 3 : hZps://www.istockphoto.com/fr/photo/trou-dans-le-mur-gm175183459-22041615
• Diapo 4 : hZps://sciencenorthwest.com/so-how-do-scien/sts-ensure-honest-and-truthful-results/
hZps://twiZer.com/h_sjastad/status/1207323854873473025
• Diapo 22 : hZps://www.20minutes.fr/monde/2643491-20191104-maree-noire-bresil-pire-venir-aver/t-president-jair-bolsonaro
42
Errors and frauds in human-genetics papers
doi:10.1007/s11192-021-03871-9
PublicaCon : h<ps://doi.org/10.26508/lsa.202101203

Contenu connexe

Plus de Guillaume Cabanac

Adoption de l’identifiant ORCID : le cas des universités toulousaines
Adoption de l’identifiant ORCID : le cas des universités toulousainesAdoption de l’identifiant ORCID : le cas des universités toulousaines
Adoption de l’identifiant ORCID : le cas des universités toulousainesGuillaume Cabanac
 
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...Guillaume Cabanac
 
Comment analyser une mobilisation collective dans les réseaux socionumériques...
Comment analyser une mobilisation collective dans les réseaux socionumériques...Comment analyser une mobilisation collective dans les réseaux socionumériques...
Comment analyser une mobilisation collective dans les réseaux socionumériques...Guillaume Cabanac
 
Gender as a Variable to Study Academic Writing
Gender as a Variable to Study Academic WritingGender as a Variable to Study Academic Writing
Gender as a Variable to Study Academic WritingGuillaume Cabanac
 
Prospection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospectiveProspection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospectiveGuillaume Cabanac
 
Questionner le texte scientifique pour caractériser la science et l'innovation
Questionner le texte scientifique pour caractériser la science et l'innovationQuestionner le texte scientifique pour caractériser la science et l'innovation
Questionner le texte scientifique pour caractériser la science et l'innovationGuillaume Cabanac
 
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...Guillaume Cabanac
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifiqueGuillaume Cabanac
 
The promises of web scrapping: Mining the web for relational data about artists
The promises of web scrapping: Mining the web for relational data about artistsThe promises of web scrapping: Mining the web for relational data about artists
The promises of web scrapping: Mining the web for relational data about artistsGuillaume Cabanac
 
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...Guillaume Cabanac
 
Confrontation à la perception humaine de mesures de similarité entre membres
Confrontation à la perception humaine de mesures de similarité entre membres Confrontation à la perception humaine de mesures de similarité entre membres
Confrontation à la perception humaine de mesures de similarité entre membres Guillaume Cabanac
 
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...Guillaume Cabanac
 
Émergence de l’open access « gris » : LibGen et Sci-Hub
Émergence de l’open access « gris » : LibGen et Sci-HubÉmergence de l’open access « gris » : LibGen et Sci-Hub
Émergence de l’open access « gris » : LibGen et Sci-HubGuillaume Cabanac
 
Sur les étagères des bibliothèques numériques clandestines:
Sur les étagères des bibliothèques numériques clandestines: Sur les étagères des bibliothèques numériques clandestines:
Sur les étagères des bibliothèques numériques clandestines: Guillaume Cabanac
 
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociaux
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociauxLes altmetrics : estimer l'engouement pour la recherche sur les médias sociaux
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociauxGuillaume Cabanac
 
A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...Guillaume Cabanac
 
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifique
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifiqueBibliogifts ? Les bibliothèques clandestines de l'édition scientifique
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifiqueGuillaume Cabanac
 
Le renfort des liens forts - dynamique relationnelle du coauthorship
Le renfort des liens forts - dynamique relationnelle du coauthorshipLe renfort des liens forts - dynamique relationnelle du coauthorship
Le renfort des liens forts - dynamique relationnelle du coauthorshipGuillaume Cabanac
 
Médias sociaux et visibilité des chercheurs
Médias sociaux et visibilité des chercheursMédias sociaux et visibilité des chercheurs
Médias sociaux et visibilité des chercheursGuillaume Cabanac
 

Plus de Guillaume Cabanac (20)

Adoption de l’identifiant ORCID : le cas des universités toulousaines
Adoption de l’identifiant ORCID : le cas des universités toulousainesAdoption de l’identifiant ORCID : le cas des universités toulousaines
Adoption de l’identifiant ORCID : le cas des universités toulousaines
 
Interroger la science
Interroger la scienceInterroger la science
Interroger la science
 
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...
Valoriser le capital documentaire (en sommeil) d’une organisation : exploitat...
 
Comment analyser une mobilisation collective dans les réseaux socionumériques...
Comment analyser une mobilisation collective dans les réseaux socionumériques...Comment analyser une mobilisation collective dans les réseaux socionumériques...
Comment analyser une mobilisation collective dans les réseaux socionumériques...
 
Gender as a Variable to Study Academic Writing
Gender as a Variable to Study Academic WritingGender as a Variable to Study Academic Writing
Gender as a Variable to Study Academic Writing
 
Prospection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospectiveProspection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospective
 
Questionner le texte scientifique pour caractériser la science et l'innovation
Questionner le texte scientifique pour caractériser la science et l'innovationQuestionner le texte scientifique pour caractériser la science et l'innovation
Questionner le texte scientifique pour caractériser la science et l'innovation
 
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...
Le carnet de l'avent de la sociologie francophone sur Twitter : réseaux et al...
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifique
 
The promises of web scrapping: Mining the web for relational data about artists
The promises of web scrapping: Mining the web for relational data about artistsThe promises of web scrapping: Mining the web for relational data about artists
The promises of web scrapping: Mining the web for relational data about artists
 
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...
Émergence de l’open access « gris » : LibGen et Sci-Hub comme filières clande...
 
Confrontation à la perception humaine de mesures de similarité entre membres
Confrontation à la perception humaine de mesures de similarité entre membres Confrontation à la perception humaine de mesures de similarité entre membres
Confrontation à la perception humaine de mesures de similarité entre membres
 
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...
« T'as pensé à retweeter mon article ? » Enjeux, limites et critique de la bi...
 
Émergence de l’open access « gris » : LibGen et Sci-Hub
Émergence de l’open access « gris » : LibGen et Sci-HubÉmergence de l’open access « gris » : LibGen et Sci-Hub
Émergence de l’open access « gris » : LibGen et Sci-Hub
 
Sur les étagères des bibliothèques numériques clandestines:
Sur les étagères des bibliothèques numériques clandestines: Sur les étagères des bibliothèques numériques clandestines:
Sur les étagères des bibliothèques numériques clandestines:
 
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociaux
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociauxLes altmetrics : estimer l'engouement pour la recherche sur les médias sociaux
Les altmetrics : estimer l'engouement pour la recherche sur les médias sociaux
 
A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...A Journey in Scientometrics: quantitative studies of science at the crossroad...
A Journey in Scientometrics: quantitative studies of science at the crossroad...
 
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifique
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifiqueBibliogifts ? Les bibliothèques clandestines de l'édition scientifique
Bibliogifts ? Les bibliothèques clandestines de l'édition scientifique
 
Le renfort des liens forts - dynamique relationnelle du coauthorship
Le renfort des liens forts - dynamique relationnelle du coauthorshipLe renfort des liens forts - dynamique relationnelle du coauthorship
Le renfort des liens forts - dynamique relationnelle du coauthorship
 
Médias sociaux et visibilité des chercheurs
Médias sociaux et visibilité des chercheursMédias sociaux et visibilité des chercheurs
Médias sociaux et visibilité des chercheurs
 

Dépollution de la littérature scientifique : traque d’expression torturées et autres manipulations