Réseaux de bibliothèques à l'ère du cloud : que partager ? comment travailler...
Text and Data Mining : modèles de licences et impacts sur les métiers ID par Patrick Ruch
1. 16 mars 2018
TEXT ET DATA MINING : MODÈLES DE
LICENCES ET IMPACTS SUR LES MÉTIERS ID
Patrick Ruch
Responsable de la filière Information Documentaire
HES-SO/HEG Genève
2. Définition et évolution récente
Cadre juridique
Impact sur les chercheurs
Impact sur les bibliothécaires
Sommaire
4. Quand un nouvel usage apparaît, plusieurs comportements
sont possibles:
1. ce qui n’est pas interdit est autorisé [~1998, avant le web]
2. ce qui n’est pas autorisé est interdit []
3. tout est interdit sauf si l’on paye [2018]
Text & Data Mining
5. Arguments
Pose un problème juridique car nécessite une copie du corpus
à fouiller ;
Il y a un besoin d’une solution pour garantir les intérêts des
ayants droits et l’accès aux données.
(Muller 2017)
Contre-arguments
L’Europe ne peut pas concurrencer l’Asie et l’Amérique du
Nord avec ses lois actuelles.
(Research Consulting 2016)
Pourquoi le TDM doit-il être réglementé ?
6. Arguments
Pose un problème juridique car réalisation d’une copie du corpus à
fouiller La lecture aussi
Il y a un besoin d’une solution pour garantir les intérêts des ayants
droits et l’accès aux données En quoi les intérêts des ayants
droits sont-ils violés si l’accès a été payé ?
(Muller 2017)
Contre-arguments
L’Europe ne peut pas concurrencer l’Asie et l’Amérique du Nord avec
ses lois actuelles En quoi violer un droit serait-il un avantage
(Research Consulting 2016)
Pourquoi le TDM doit-il être réglementé ?
7. Une étude menée en 2014 démontre que dans les pays où
les chercheurs académiques doivent obtenir une
autorisation préalable pour faire du TDM, le nombre des
travaux de recherche qui l’utilisent est significativement
moins élevé par rapport au nombre total des articles
produits.
Le nombre d’article publiés par des chercheurs constitue un
indicateur d’innovation.
Selon les auteurs, il y a une corrélation négative entre
protection par le droit d’auteur et la production de nouveaux
contenus scientifiques. (Handke et al., 2015)
Impact de la législation sur la recherche
8. Des usages légalement encadrés deviennent soudainement
illégaux par le fait de nouveaux contrats remettant en cause
les pratiques établies et contrats antérieurs
Quid de la réponse ? Les licences TDM « nationales » !
Pourquoi le TDM doit-il être réglementé ?
9. Régimes de copyright
Fair dealing
Exonération de demander
l’autorisation si :
L’usage de l’œuvre est
réalisé pour certains buts
listés dans la loi.
Traditionnellement dans le Royaume-Uni et
les pays du Common Wealth (Inde, Afrique
du Sud et Australie, sauf le Canada).
Fair use
Exonération de demander
l’autorisation si :
L’usage de l’œuvre est jugé
loyal selon des critères
généraux non listés dans la
loi.
Traditionnellement aux USA et dans les
pays qui s’inspirent de son copyright
(Taïwan, Singapour, Israël, Corée du Sud,
Chine, Canada)
(Maurel 2015)
10. Pas d’inscription dans la loi sur le copyright, mais autorisé en
pratique
USA :
La jurisprudence (Authors Guild vs. HathiTrust & Authors Guild vs.
Google) permet raisonnablement de penser que le TDM est soumis au fair
use.
Canada :
La jurisprudence et une nouvelle exception au fair dealing pour «purpose
of education» depuis 2012 font que le copyright canadien est très
semblable au fair use américain. Il est possible de penser
raisonnablement que le TDM est couvert par ce nouveau régime.
(Hargreaves et al. 2014, p.44, p.46)
USA (circa 2014) et Canada (circa 2012)
11. Premier pays au monde à adopter une exception spécifique, pour
booster l’économie liée à internet dans le pays ;
Analyse pour but commercial possible ;
TDM autorisé pour «l’analyse de l’information» définition assez
large de «analyse» («statistique, comparaison ou autres» et
d’«information» (œuvres et «langues, sons, images et autres») ;
«ordinateur» spécifiquement mentionné loi caduque avec une
autre technologie ;
Analyse des données «dans la mesure jugée nécessaire»
pourrait poser des problèmes d’interprétation ;
Bases de données exclues de l’exception : pas très clair. Semble
possible.
(Hargreaves et al. 2014 et Nagatsuka 2016)
Japon (2011)
12. La «copie technique» d’une œuvre lors d’une analyse
computationnelle n’est pas concernée par le droit d’auteur si
l’accès est légal ;
Copies réalisées : intransférables et inutilisables dans un autre
but que le TDM;
La recherche doit être non-commerciale ;
Champ d’application : textes, images, sons, audiovisuel ;
Aucune compensation financière n’est prévue pour les éditeurs;
Limitations techniques et contractuelles ne peuvent pas être
mises en place par les éditeurs ;
Loi insuffisante pour les technical protection measures (ex.
Captcha).
(Maurel 2014, Saunderson 2017 et Intellectual Property Office-UK 2014)
Royaume-Uni (2014)
13. Un projet de loi qui contient une exception pour le TDM a
été mis en consultation en 2013 ;
Le rapport de ce processus de consultation propose un
texte de loi modifié et plus précis. (Copyright Review Committee 2013)
Le projet de loi n’a jamais été promulgué. Le sera-t-il ?
Irlande – Projet de loi
14. Exception envisagée pour le TDM :
Réservée aux «organismes de recherche» ;
L’accès aux «œuvres ou autres objets protégés» doit être légitime et
« à des fins de recherche scientifique» ;
Mentionne explicitement que des clauses contractuelles contraires
seront caduques ;
Existence d’une marge de manœuvre des titulaires des droits pour
exercer des restrictions techniques, avec un appel aux Etats
membres à «définir d’un commun accord les bonnes pratiques»
concernant ces mesures avec les titulaires ;
Pas de limitation à une utilisation dans un cadre commercial.
(Maurel 2015)
Union Européenne – projet de directive (2016)
15. Loi pour une république numérique
Limitée «aux besoins de la recherche publique» ;
Ne concerne que les «textes et [les] données incluses ou associées
aux écrits scientifiques» ou les bases de données protégées qui les
contiennent ;
Accès licite nécessaire ;
Exception de toute finalité commerciale retenue ;
Un décret fixera les conditions de mise en œuvre, de conservation
et de communication des données de la recherche ;
Pas de positionnement sur la restriction via des clauses
contractuelles, ni par DRM.
France (2016)
(République française 2016 et Maurel 2015)
16. Interprétation d’articles de la LDA actuelle : TDM
probablement autorisé.
Projet de révision :
TDM autorisé pour but de recherche scientifique et quand l’accès
est légal ;
Recherche à but commercial autorisée ;
La conservation de la copie des œuvres après la recherche TDM est
autorisée «à des fins d’archivage et de sauvegarde» ;
Exception TDM ne s’applique pas pour les logiciels ;
Pas de mention des limitations contractuelles ou techniques que
peuvent mettre en œuvre les éditeurs.
(Conseil fédéral 2017)
Suisse – révision de la LDA (2017)
17. Japon (2011) USA (ca. 2014)
Royaume-Uni
(2014)
France (2016)
Proposition Comm.
européenne (2016)
Proposition CH
(2017)
Quels usages sont couverts ?
L’« analyse de
l’information » au moyen
d’un ordinateur
Tout usage couvert
par le fair use
La recherche
La recherche
scientifique
La recherche
scientifique
La recherche
scientifique
Une fin commerciale est-elle
explicitement écartée ?
Non
Non si fair use est
respecté
Oui Oui
Non, si recherche est
réalisée par un
« institut de
recherche »
Non
Qui est autorisé à fouiller du
contenu protégé ?
Quiconque pour un but
« d’analyse de
l’information »
Quiconque si fair use
respecté
Quiconque
Quiconque œuvrant
dans le cadre de la
recherche publique
Les organismes de
recherche à but non
lucratif / les missions
d’intérêt public
Quiconque œuvrant
pour la recherche
scientifique
Les titulaires du droit d'auteur
peuvent-ils limiter l'usage du
TDM ?
Peut-être. La mention
d’analyse des données
« dans la mesure où cela
est nécessaire » pourrait
poser des problèmes
d’interprétation.
Non, sauf si usage
abusif (ex. s’il met en
péril la viabilité
commerciale du
contenu fouillé)
Contractuellement
non.
Mais des cas de
mesures techniques
de protection (ex.
CAPTCHA), de
manière raisonnable,
oui (jurisprudence).
Non spécifié
Contractuellement,
non.
Mais « des mesures
destinées à assurer la
sécurité et l’intégrité
des réseaux et bases
de données », oui.
Non spécifié
Quels types de textes et données
peuvent-être fouillés ?
Les « œuvres ou d’autres
masses d’informations,
des éléments constitutifs
de ces information, tels
que langues, sons images
ou d’autres » + les bases
de données (?)
Tous, si fair use
respecté
Tous les types d’
œuvres
Tous types d’œuvres
textuelles protégées,
ainsi que les données
incluses ou associées
aux écrits
scientifiques ; toute
BDD protégée
contenant du texte
et/ou des données
incluses ou associées
aux écrits
scientifiques
Les œuvres ou autres
objets protégés
Les œuvres, mais pas
les logiciels, régis par
une autre loi
(Research Consulting 2016, tableau adapté et complété)
18. Recherches plus avancées
Normalisation réduction des ambiguités lexicales
Annotations: e.g. “relation”, “interactions”
Génération d’hypothèse (Literature-based discovery)
TDM: nouveaux services
23. Findable: normalization + moteurs de recherche
Accessible
Interoperable: normalization
Recycling
Aide à la curation pour les données de la recherche !
24. •“Search for gene expression and genetic deletion data that
mention CD69 in memory augmentation studies across all
databases”
•“Find data of all types on the regulation of DNA repair related to
the estrogen signaling pathway in breast cancer patients treated
with clopidogrel across all databases”
Requête complexes
28. Dépôts des données dans une archive
Accès Méta-données [descripteurs, formats…]
Gestion (locale) des référentiels terminologiques
Publication Open Access (Archive Ouverte)
Utilisé pour générer les méta-données des données de la
recherché !
Le bibliothécaire comme curateur
29. Création des équations Création d’étude comparées
Nouvelles algèbres, cf. euPMC [Booléen++]
Meta-analyse plus fines
Extension des pratiques au plein-texte
Analyse de tendance
Analyse de corrélation: Literature-based Discovery
Bibliothécaire comme recherchiste
30. 1. Favoriser l’usage du TDM cadre juridique clair et les
contrats et licences aussi ;
2. Faciliter l’accès pas de DRM, pas de pièges pour les
robots d’indexation, pas d’accès restreint aux APIs ;
3. Développer l’infrastructure avec une exception au droit
d’auteur, les éditeurs n’ont pas d’intérêt commercial à
développer des solutions de TDM investir des fonds
publics (ISTEX en France) ;
4. Mettre en place des mesures incitatives.
(Research Consulting 2016 et Muller 2017)
La législation ne fait pas tout !
31. CONSEIL FÉDÉRAL DE LA CONFÉDÉRATION SUISSE, 2017. Message relatif à la modification de la loi sur le
droit d’auteur, à l’approbation de deux traités de l’Organisation Mondiale de la Propriété Intellectuelle et à leur
mise en œuvre : du ... – version provisoire [en ligne]. 22 novembre 2017. [Consulté le 9 janvier 2018]. Disponible
à l’adresse : https://www.ejpd.admin.ch/dam/data/ejpd/aktuell/news/2017/2017-11-22/bot-f.pdf.
COPYRIGHT REVIEW COMMITTEE, 2013. Modernising Copyright : The Report of the Copyright Review
Commitee [en ligne]. Dublin : [s.n.]. [Consulté le 11 janvier 2018]. Disponible à l’adresse :
https://dbei.gov.ie/en/Publications/Publication-files/CRC-Report.pdf.
HANDKE, Christian, GUIBAULT, Lucie et VALLBÉ, Joan-Josep, 2015. Is Europe Falling Behind in Data Mining?
Copyright’s Impact on Data Mining in Academic Research [en ligne]. 7 juin 2015. [Consulté le 7 novembre 2017].
Disponible à l’adresse : https://papers.ssrn.com/abstract=2608513.
HARGREAVES, Ian, GUIBAULT, Lucie, HANDKE, Christian, VALCKE, Peggy et MARTENS, Bertin, 2014.
Standardisation in the area of innovation and technological development, notably in the field of Text and Data
Mining : Report from the Expert Group [en ligne]. Publications Office of the European Union. Luxembourg : [s.n.].
[Consulté le 9 janvier 2018]. ISBN 978-92-79- 36743-4. Disponible à l’adresse :
http://ec.europa.eu/research/innovation-union/pdf/TDM-report_from_the_expert_group-042014.pdf.
INTELLECTUAL PROPERTY OFFICE (UK), 2014. Exceptions to copyright : Research [en ligne]. Newport : The
Intellectual Property Office. [Consulté le 9 janvier 2018]. Disponible à l’adresse :
https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/375954/Research.pdf.
Bibliographie
32. MAUREL, Lionel, 2014. Le Royaume Uni sanctuarise les pratiques de data mining par une exception au droit d’auteur. -
S.I.Lex - : Carnet de veille et de réflexion d’un juriste et bibliothécaire [en ligne]. 1 avril 2014. [Consulté le 9 janvier 2018].
Disponible à l’adresse : https://scinfolex.com/2014/04/01/le-royaume-uni-sanctuarise-les-pratiques-de-data-mining-par-le-
biais-dune-exception-au-droit-dauteur/.
MAUREL, Lionel, 2015. Text et Data Mining : l’absence d’exception pénalise bien la recherche. - S.I.Lex - : Carnet de
veille et de réflexion d’un juriste et bibliothécaire [en ligne]. 2 juillet 2015. [Consulté le 7 novembre 2017]. Disponible à
l’adresse : https://scinfolex.com/2015/07/02/text-et-data-mining-labsence-dexception-penalise-bien-a-la-recherche/.
MULLER, Catherine, 2017. #TDM : Fouille de textes et de données dans le contexte de la loi pour une République
numérique - Journée d’étude ADBU du 13/12/16. Enssib [en ligne]. 27 mars 2017. [Consulté le 9 janvier 2018]. Disponible
à l’adresse : http://www.enssib.fr/recherche/enssiblab/les-billets-denssiblab/tdm-fouille-de-donnees-istex-ist-text-and-
data-mining-loi.
NAGATSUKA, Makoto, 2016. L’exception de data mining en droit d’auteur japonais. Revue Francophone de la Propriété
Intellectuelle. Décembre 2016. N° 3, p. 68-73. [Consulté le 7 février 2018]. Disponible à l’adresse :
https://www.association-afpi.org/presse/index.php/RFPI/article/view/10.
RÉPUBLIQUE FRANÇAISE, 2016. LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique - Article 38
[en ligne]. 7 octobre 2016. [Consulté le 9 janvier 2018]. Disponible à l’adresse :
https://www.legifrance.gouv.fr/eli/loi/2016/10/7/ECFI1524250L/jo/article_38.
RESEARCH CONSULTING, 2016. La fouille de textes et de données dans l’enseignement supérieur et la recherche
publique : une analyse d’études de cas menées au Royaume-Uni et en France [en ligne]. [S.l] : Association des
Directeurs et personnels de direction des Bibliothèques Universitaires et de la Documentation (ADBU).
[Consulté le 9 janvier 2018]. Disponible à l’adresse : http://adbu.fr/competplug/uploads/2016/12/v9-Designed-Exec-
Summary-ADBU-8pp_fra_final.pdf.
Bibliographie - suite
33. Remerciements
HEG + SIB TM
Anouk Santos
Emilie Pasche
Julien Gobeill
Luc Mottin
Douglas Teodoro
Pierre-André Michel
Anaïs Mottaz
Paul van Rijen
SIB CALIPHO
Pascale Gaudet
Amos Bairoch
Valentine Rech de Laval
Daniel Texeira
EBI Litterature services
Jo McEntyte
Aravind Venkatesan