Création de la banque de corpus CoMeRe : un partenariat Corpus-écrits – ORTO...Thierry Chanier
The document discusses building and annotating corpora of computer-mediated communication (CMC) according to established standards. It presents the goals of the TEI-CMC SIG consortium, which include developing standards for representing and processing CMC genres within the TEI framework. The challenges include the lack of standards for CMC and tools that can handle its peculiarities. The consortium aims to work on solutions and develop suggestions for standardizing the sharing and encoding of CMC corpora to make them interoperable resources for research.
Introduction sur les domaines scientifiques impliqués dans la fouille de textes
- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...
Panorama méthodologique de l'offre logicielle académique ou commerciale
- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs
Une présentation sur les questions relatives aux bibliothèques numériques : formats de fichiers, gestion de l'authentification, question des liseuses ...
Support 1 de la journée d'études du 9 déc. 2013 sur l'évolution des catalogues organisée par le CRFCB de Marseille et le groupe technique sur l'adoption de RDA en France.
Serveur web / Base de donnees Langages de développementLudovic REUS
Une présentation des outils et technologies de l'information et de la communication.
Les serveurs webs et leur marché à ce jour
Les base de données relationnelles et NoSQL
Les langages de développements informatiques
Création de la banque de corpus CoMeRe : un partenariat Corpus-écrits – ORTO...Thierry Chanier
The document discusses building and annotating corpora of computer-mediated communication (CMC) according to established standards. It presents the goals of the TEI-CMC SIG consortium, which include developing standards for representing and processing CMC genres within the TEI framework. The challenges include the lack of standards for CMC and tools that can handle its peculiarities. The consortium aims to work on solutions and develop suggestions for standardizing the sharing and encoding of CMC corpora to make them interoperable resources for research.
Introduction sur les domaines scientifiques impliqués dans la fouille de textes
- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...
Panorama méthodologique de l'offre logicielle académique ou commerciale
- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs
Une présentation sur les questions relatives aux bibliothèques numériques : formats de fichiers, gestion de l'authentification, question des liseuses ...
Support 1 de la journée d'études du 9 déc. 2013 sur l'évolution des catalogues organisée par le CRFCB de Marseille et le groupe technique sur l'adoption de RDA en France.
Serveur web / Base de donnees Langages de développementLudovic REUS
Une présentation des outils et technologies de l'information et de la communication.
Les serveurs webs et leur marché à ce jour
Les base de données relationnelles et NoSQL
Les langages de développements informatiques
Interopérabilité et échanges de données pour les archivesPauline Moirez
L'échange de données pour les institutions culturelles : le protocole OAI-PMH, le format Dublin Core, les portails de ressources culturelles et patrimoniales
« Le DDD est une manière de penser et de communiquer sur des problèmes et leurs solutions, entre les équipes techniques et fonctionnelles.
La conception est conduite par un modèle. Ce modèle est en partie constitué d’un langage de communication commun aux experts fonctionnels et aux équipes de développement.
Cette présentation revient sur la philosophie du Domain-Driven Design et de ses outils. Elle traite aussi du Langage Ubiquitaire au Value Object et les principaux patterns Stratégiques et Tactiques pouvant être utilisé dans le développement logiciel sont évoqués. »
La génération de code utilisée à bonne escient et un excellent moyen d’augmenter considérablement la productivité des développeurs dans de nombreux scenarii, particulièrement (mais pas uniquement) celui des applications de gestion orientée données. Si cette approche montrait vite ses limites à une époque, les choses ont bien évolué avec les versions récentes de C# ou VB.NET. Microsoft propose différents outils pour générer du code. Nous aborderons les T4 et les NuGet dans le cadre de cette session. En plus de la génération de code, la meta-programmation est englobe également l’analyse du code. Nous parlerons donc de Roslyn, l’API de Microsoft répondant à ce besoin. Dans le cadre de cette session, nous verrons comment la meta-programmation peut réellement révolutionner le travail d’une partie des développeurs, accroître de manière considérable la productivité des développeurs et réduire très fortement le risque sur les projets.
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
Première journée d'une série de deux sur l'informatique documentaire, médiation numérique ...
Dans cette première journée : formats, outils, rappels méthode projet
Virgile Prevosto, du CEA LIST, dirige les recherches du projet européen DECODER. Il présente la plateforme DECODER comme une boîte à outils collaborative pour extraire, comprendre et vérifier les logiciels à partir de leur code source, d'approches semi-formelles et formelles. L'objectif consiste à aider les développeurs, évaluateurs, testeurs et mainteneurs à fournir des logiciels de qualité.
Ce slideshow est issu de la contribution de CIO Informatique Industrielle à la conférence / débat Comment travailler avec les logiciels Open Source, qui s'est tenue en Avril 2008 sur le salon RTS Embedded Systems
Interopérabilité et échanges de données pour les archivesPauline Moirez
L'échange de données pour les institutions culturelles : le protocole OAI-PMH, le format Dublin Core, les portails de ressources culturelles et patrimoniales
« Le DDD est une manière de penser et de communiquer sur des problèmes et leurs solutions, entre les équipes techniques et fonctionnelles.
La conception est conduite par un modèle. Ce modèle est en partie constitué d’un langage de communication commun aux experts fonctionnels et aux équipes de développement.
Cette présentation revient sur la philosophie du Domain-Driven Design et de ses outils. Elle traite aussi du Langage Ubiquitaire au Value Object et les principaux patterns Stratégiques et Tactiques pouvant être utilisé dans le développement logiciel sont évoqués. »
La génération de code utilisée à bonne escient et un excellent moyen d’augmenter considérablement la productivité des développeurs dans de nombreux scenarii, particulièrement (mais pas uniquement) celui des applications de gestion orientée données. Si cette approche montrait vite ses limites à une époque, les choses ont bien évolué avec les versions récentes de C# ou VB.NET. Microsoft propose différents outils pour générer du code. Nous aborderons les T4 et les NuGet dans le cadre de cette session. En plus de la génération de code, la meta-programmation est englobe également l’analyse du code. Nous parlerons donc de Roslyn, l’API de Microsoft répondant à ce besoin. Dans le cadre de cette session, nous verrons comment la meta-programmation peut réellement révolutionner le travail d’une partie des développeurs, accroître de manière considérable la productivité des développeurs et réduire très fortement le risque sur les projets.
Informatique documentaire - Cours Licence pro bib 2013Sylvain Machefert
Première journée d'une série de deux sur l'informatique documentaire, médiation numérique ...
Dans cette première journée : formats, outils, rappels méthode projet
Virgile Prevosto, du CEA LIST, dirige les recherches du projet européen DECODER. Il présente la plateforme DECODER comme une boîte à outils collaborative pour extraire, comprendre et vérifier les logiciels à partir de leur code source, d'approches semi-formelles et formelles. L'objectif consiste à aider les développeurs, évaluateurs, testeurs et mainteneurs à fournir des logiciels de qualité.
Ce slideshow est issu de la contribution de CIO Informatique Industrielle à la conférence / débat Comment travailler avec les logiciels Open Source, qui s'est tenue en Avril 2008 sur le salon RTS Embedded Systems
M2i Webinar - « Participation Financière Obligatoire » et CPF : une opportuni...M2i Formation
Suite à l'entrée en vigueur de la « Participation Financière Obligatoire » le 2 mai dernier, les règles du jeu ont changé !
Pour les entreprises, cette révolution du dispositif est l'occasion de revoir sa stratégie de formation pour co-construire avec ses salariés un plan de formation alliant performance de l'organisation et engagement des équipes.
Au cours de ce webinar de 20 minutes, co-animé avec la Caisse des Dépôts et Consignations, découvrez tous les détails actualisés sur les dotations et les exonérations, les meilleures pratiques, et comment maximiser les avantages pour les entreprises et leurs salariés.
Au programme :
- Principe et détails de la « Participation Financière Obligatoire » entrée en vigueur
- La dotation : une opportunité à saisir pour co-construire sa stratégie de formation
- Mise en pratique : comment doter ?
- Quelles incidences pour les titulaires ?
Webinar exclusif animé à distance en coanimation avec la CDC
Impact des Critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les...mrelmejri
J'ai réalisé ce projet pour obtenir mon diplôme en licence en sciences de gestion, spécialité management, à l'ISCAE Manouba. Au cours de mon stage chez Attijari Bank, j'ai été particulièrement intéressé par l'impact des critères Environnementaux, Sociaux et de Gouvernance (ESG) sur les décisions d'investissement dans le secteur bancaire. Cette étude explore comment ces critères influencent les stratégies et les choix d'investissement des banques.
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La JeunesseOscar Smith
Besoin des conseils pour les Jeunes ? Le document suivant est plein des conseils de la Vie ! C’est vraiment un document conseil de la jeunesse que tout jeune devrait consulter.
Voir version video:
➡https://youtu.be/7ED4uTW0x1I
Sur la chaine:👇
👉https://youtube.com/@kbgestiondeprojets
Aimeriez-vous donc…
-réussir quand on est jeune ?
-avoir de meilleurs conseils pour réussir jeune ?
- qu’on vous offre des conseils de la vie ?
Ce document est une ressource qui met en évidence deux obstacles qui empêchent les jeunes de mener une vie épanouie : l'inaction et le pessimisme.
1) Découvrez comment l'inaction, c'est-à-dire le fait de ne pas agir ou d'agir alors qu'on le devrait ou qu'on est censé le faire, est un obstacle à une vie épanouie ;
> Comment l'inaction affecte-t-elle l'avenir du jeune ? Que devraient plutôt faire les jeunes pour se racheter et récupérer ce qui leur appartient ? A découvrir dans le document ;
2) Le pessimisme, c'est douter de tout ! Les jeunes doutent que la génération plus âgée ne soit jamais orientée vers la bonne volonté. Les jeunes se sentent toujours mal à l'aise face à la ruse et la volonté politique de la génération plus âgée ! Cet état de doute extrême empêche les jeunes de découvrir les opportunités offertes par les politiques et les dispositifs en faveur de la jeunesse. Voulez-vous en savoir plus sur ces opportunités que la plupart des jeunes ne découvrent pas à cause de leur pessimisme ? Consultez cette ressource gratuite et profitez-en !
En rapport avec les " conseils pour les jeunes, " cette ressource peut aussi aider les internautes cherchant :
➡les conseils pratiques pour les jeunes
➡conseils pour réussir
➡jeune investisseur conseil
➡comment investir son argent quand on est jeune
➡conseils d'écriture jeunes auteurs
➡conseils pour les jeunes auteurs
➡comment aller vers les jeunes
➡conseil des jeunes citoyens
➡les conseils municipaux des jeunes
➡conseils municipaux des jeunes
➡conseil des jeunes en mairie
➡qui sont les jeunes
➡projet pour les jeunes
➡conseil des jeunes paris
➡infos pour les jeunes
➡conseils pour les jeunes
➡Quels sont les bienfaits de la jeunesse ?
➡Quels sont les 3 qualités de la jeunesse ?
➡Comment gérer les problèmes des adolescents ?
➡les conseils de jeunes
➡guide de conseils de jeunes
Conseils pour Les Jeunes | Conseils de La Vie| Conseil de La Jeunesse
Corpus communication médiée par les réseaux en français et corpus allemand et hollandais
1. Corpus-écrits
GT7, nouv-com
https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/
Expériences d'élaboration des
corpus de référence du
hollandais et de l'allemand.
Projet de noyau de corpus CMC
en français
Thierry Chanier, Université Blaise Pascal
2ème journées : Corpus de référence
du français
28-29 mars 2013, Paris
2. 1
CORPUS EN ALLEMAND DWDS
DIGITALES WÖRTERBUCH DER
DEUTSCHEN SPRACHE
Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin-
Brandebourg)
2
4. Objectif DWDS Noyau
Construire un dictionnaire rendant
compte des usages de l’allemand moderne
à partir d’un corpus équilibré d’écrits
- 60% électronique
- 40% papier au départ
-Métadonnées pour tous les documents
4
5. DWDS-E étendu
Mais statistiques lexicales montrent qu’il
faut des tailles supérieures pour analyser
certains phénomènes (collocations, etc.)
Corpus étendu de type opportuniste
Base importante à partir de journaux et de
l’Internet (pb droits plus facile à régler)
Tous les corpus DWDS et DTA, ainsi que
les dictionnaires sont structurés en TEI/P5
5
6. Planification du projet DWDS
Dico DWDS basé sur dico WDG (1961-75) 6
Wörterbuch der deutschen Gegenwartssprache
7. BBAW AvH
Akademienunion
Patrons et ressources
Financé par “Akademienunion » sur 18 ans
7
10. Par décennies
et genres Les corpus
71% des textes en accès libre dans DWDS noyau
10
11. Statistiques en accès libres faites sur ensemble corpus
On voit plus de textes après identification 11
12. 2
CORPUS DE RÉFÉRENCE EN
HOLLANDAIS, SONAR
STEVIN Nederlandstalig Referentiecorpus
Merci à Nelleke Oostdijk (Radboud University Nijmegen)
12
13. Objectifs
Construire un corpus de référence de du
hollandais et du flamand moderne (post
1954) de grande taille (500 M tokens) qui
puissent servir à la fois à des analyses
linguistiques et au développement de
technologies du langage.
Inclure dès le début des écrits provenant
des médias traditionnels et de l’Internet
Auparavant corpus oral de 9 M tokens
(transcript + audio), collecte entre 1998 et2003
13
15. Du prévu à la réalité
prévu réalisé
Phase 1 Holland. Flamand NC
15
16. Du prévu à la réalité
Question de droits : grande variété,
chronophage
Grande variété de formats, délaisser
formats trop complexes (PDF)
Approche opportuniste avec Internet
– Collectes faciles (Tweets, forum, clav) ou difficile
(SMS)
– Droits difficiles (Sites, blogues) ou libres
(licences CC ou GPL)
Maintenir équilibre global, collecter plus que
ce qui sera intégré dans corpus référence 16
22. Ressources financières
+ 1 ETP par université pour tâche A et temps partiels des
autres pour début
Budget ne comprend pas les missions internes, ni conf.
22
23. 3 à
u e dcd
sq >c p
co
lut _4 r sa n?
Sa OM i
d p 2ma
<N 1 dv la
ht a
ep
ki
SMS / textos
Tweets
Blogues Projet de corpus CMC en français
Forums
Clavardage
Etc.
24. Rappel objectifs projet 2013-14
Créer un noyau (pas encore le corpus de
référence !) de corpus CMC en français
Ensembles de conversations intervenant sur
la Toile et les réseaux
Couvrir variété de systèmes de
communication synchrone ou asynchrone,
mono ou multimodaux (éventuellement) :
blogues, tweets, SMS / textos, courriels ,
clavardage, forums, etc.
24
25. Rappel objectifs projet 2013-14
Le faire suivant standard (TEI, CLARIN,
OLAC?)
Diffuser en accès libre ce corpus en 2014
sur Ortolang
Travailler en partenarait avec Europe (projet
consortium TEI, DARIAH)
Intégrer ce noyau au « Corpus de référence
du français »
25
28. Audio Clavardage
Multimodalité
(LETEC corpus Archi21 : archi21-slrefl-av-j2)
29. sms anonymisé
sms brut
Salut s que 2nis c dcd à anonymisation Salut s que <NOM_4> c
ht 1 dvd pr sa cop ki e dcd à ht 1 dvd pr sa cop
pa la 2main? ki e pa la 2main?
dage
sms transcodé co
tr ans
sms annoté
Salut est-ce que
<NOM_4> s'est décidé
Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est
à acheter 1 dvd pour sa <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD
copine qui est pas là <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui
<ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là
demain? <MOD_2main> demain <TYP_espace_avant_?_manquante> ?
annotation
Rachel Panckhurst, CÉNC, 31/5/12 29
30. Variability (orthographique)
• can only in part be explained in terms of errors, as a great deal of variation is
intentional
• is a research topic in itself
• complicates research as it hinders the processing of the data by means of standard
tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.)
Han & Baldwin (2012: 368):
“We found Twitter data to have an unsurprisingly long tail of OOV words,
suggesting that conventional supervised learning will not perform well due to data
sparsity. Additionally, many ill-formed words are ambiguous, and require context to
disambiguate.”
Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 8
2013
37. 1) Modelling CMC in TEI:
– brief overview of essential requirements concerning the
representation of CMC from the perspective of the four projects
[8 min],
– selected aspects from the DeRiK-TEI schema reviewed from the
perspective of the four projects (suggested focus: element
posting, user modelling, interaction signs) [15 min],
– problem sketches: (a) hypertext structures/“linked data“ (cf.
topical focus of the conference), (b) multimodal CMC [5 mins
each].
2) Challenges and perspectives in mapping features of
computer-mediated communication to elements in TEI-P5
3) Metadata for cmc documents: challenges & suggestions
37
38. Participants a u projet
Groupe GT7, corpus-écrits
Linda Hriba , corpus-écrits
Achille Falaise, LIG, Grenoble
Benoît Sagot, Alpage, INRIA , Univ. P7
Paul Lotin, ingénieur, LRL
Béatrice Turpin, CRTF, Univ. de Cergy Ingénieur à recruter (6
Céline Poudat, UMR LDI, Univ. Paris 13 mois/ETP, sur fonds
Ciara Wigham, LRL, Univ. Blaise Pascal Ortolang et corpus-écrits)
Fiammetta Namer, ATILF, Nancy
Georges Antoniadis, LIDILEM, Univ Grenoble 3
Georgeta Cislaru, CLESTHIA, Univ. Paris 3
Gudrun Ledegen , PREFics, Univ. de Rennes 2
Julien Longhi, CRTF, Univ. de Cergy
Mahé Ben Hamed, UMR BCL, Nice
Natalia Grabar, UMR STL, CNRS Univ. Lille 3
Paloque-Berges, Camille, DICEN, CNAM
Rachel Panckhurst, UMR Praxiling, CNRS Univ.
Montpellier 3
Thierry Chanier, LRL, Univ. Blaise Pascal
Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée
Virginie Zampa, LIDILEM, Univ Grenoble 3
38