Cours sur le topic modeling - UPEM - Master Méthode computationnelle et analyse de contenu
I: Topic Modeling
* Nature et applications
* Approche Deterministe: LSA
* Approche Probabiliste: LDA
* Quelques librairies en R et python
II: Le package STM en R
* Parametres
* Métriques: exclusivité et cohérence sémantique
* Appliqué a un corpus propre
LAB - R STM
* Le corpus: résumés d'articles tech, IEEE et Arstechnica
* Le package STM en R
* Comment determiner le nombre optimal de topics?
* Comment interpreter les résultats?
* Jupyter Notebook et Script R
III: forum Alt-right sur Facebook
* 500.000 commentaires provenant du forum alt-right God Trump Emperor
* De la nécessité de travailler le contenu
* Filtrer le bruit avec
* Lemmatization, tokenization
* Part of Speech tagging
* Named entity recognition
* Jupyter Notebook et Script R
IV: Application au Francais
* Quelles sont les librairies pour:
* Part of Speech
* Tokenization
* Lemmatization
V: Resources
* Articles et blogs
Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...Alexis Perrier
Dans cette presentation je montre comment appliquer des techniques de topic modeling a un fil twitter en utilisant gensim, python et en comparant certains algorithmes: LSA, LSA ...
(co)-création d’un corpus en linguistique : une étape à la portée des jeunes ...Thierry Chanier
"(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? ", séminaire "Recherches linguistiques et corpus" , STIH de l’Université Paris-Sorbonne, mercredi 8 avril 2015
Seminaire du Conseil Scientifique AFNIC: Introduction par Laurent Toutain - 1...Afnic
Introduction par Laurent Toutain le 10 Juin 2011 au Séminaire du conseil scientifique de l'AFNIC (Association Française pour la Nommage Internet en Coopération).
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
La production, la consommation et l'échange de données s'intensifient et le besoin d'interopérabilité n'a jamais été aussi prégnant. Mais a-t-on encore le temps de développer des interfaces ou de mettre au point une langue commune entre acteurs ? A-t-on encore besoin de telles interfaces qui ne serviront peut-être qu’une fois ? Ou bien la solution n’est pas plutôt dans une data interopérable ? Le linked data n'est plus un Eldorado incertain, il est devenu une réalité aux dimensions vastes et en expansion mais encore méconnue.
Datalift est une plateforme tout-en-un productrice de linked data qui apporte une solution concrète et aisée. Les données à traiter sont captées dans leurs structures d'origine (fichiers, bases de données, requêtes, données géographiques, etc.). A l'aide de vocabulaires (thesaurus, ontologies), elles sont transformées pour faciliter leurs liaisons. Les fusions obtenues enrichissent mutuellement les sources en même temps qu’elles forment un ensemble de données liées (linked data) exploitables de multiples façons : requêtes, data visualisation, extractions, exports dans de nombreux formats. Ces opérations peuvent être réalisées sans programmation sur un socle open source de façon interactive, elles peuvent aussi être automatisées. La richesse fonctionnelle et technologique de Datalift fait que ses utilisateurs vont des simples utilisateurs aux datascientistes, mais aussi au dialogue machine to machine.
Le développement de la plateforme et son utilisation permettent aujourd'hui de dresser un premier regard rétrospectif que nous nous proposons de présenter en trois temps. Nous commencerons notre exposé par la démonstration d’une interconnexion de jeux de données hétérogènes rendue possible par un alignement d’ontologies. Cette démo visibilisera le caractère « tout-en-un » d’une plateforme qui s’installe en un clic. Nous poursuivrons par un survol de l’architecture de la plateforme. Nous terminerons par un triple retour d’expérience : méthodologique, architectural et usages.
Cours sur le topic modeling - UPEM - Master Méthode computationnelle et analyse de contenu
I: Topic Modeling
* Nature et applications
* Approche Deterministe: LSA
* Approche Probabiliste: LDA
* Quelques librairies en R et python
II: Le package STM en R
* Parametres
* Métriques: exclusivité et cohérence sémantique
* Appliqué a un corpus propre
LAB - R STM
* Le corpus: résumés d'articles tech, IEEE et Arstechnica
* Le package STM en R
* Comment determiner le nombre optimal de topics?
* Comment interpreter les résultats?
* Jupyter Notebook et Script R
III: forum Alt-right sur Facebook
* 500.000 commentaires provenant du forum alt-right God Trump Emperor
* De la nécessité de travailler le contenu
* Filtrer le bruit avec
* Lemmatization, tokenization
* Part of Speech tagging
* Named entity recognition
* Jupyter Notebook et Script R
IV: Application au Francais
* Quelles sont les librairies pour:
* Part of Speech
* Tokenization
* Lemmatization
V: Resources
* Articles et blogs
Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...Alexis Perrier
Dans cette presentation je montre comment appliquer des techniques de topic modeling a un fil twitter en utilisant gensim, python et en comparant certains algorithmes: LSA, LSA ...
(co)-création d’un corpus en linguistique : une étape à la portée des jeunes ...Thierry Chanier
"(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? ", séminaire "Recherches linguistiques et corpus" , STIH de l’Université Paris-Sorbonne, mercredi 8 avril 2015
Seminaire du Conseil Scientifique AFNIC: Introduction par Laurent Toutain - 1...Afnic
Introduction par Laurent Toutain le 10 Juin 2011 au Séminaire du conseil scientifique de l'AFNIC (Association Française pour la Nommage Internet en Coopération).
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
La production, la consommation et l'échange de données s'intensifient et le besoin d'interopérabilité n'a jamais été aussi prégnant. Mais a-t-on encore le temps de développer des interfaces ou de mettre au point une langue commune entre acteurs ? A-t-on encore besoin de telles interfaces qui ne serviront peut-être qu’une fois ? Ou bien la solution n’est pas plutôt dans une data interopérable ? Le linked data n'est plus un Eldorado incertain, il est devenu une réalité aux dimensions vastes et en expansion mais encore méconnue.
Datalift est une plateforme tout-en-un productrice de linked data qui apporte une solution concrète et aisée. Les données à traiter sont captées dans leurs structures d'origine (fichiers, bases de données, requêtes, données géographiques, etc.). A l'aide de vocabulaires (thesaurus, ontologies), elles sont transformées pour faciliter leurs liaisons. Les fusions obtenues enrichissent mutuellement les sources en même temps qu’elles forment un ensemble de données liées (linked data) exploitables de multiples façons : requêtes, data visualisation, extractions, exports dans de nombreux formats. Ces opérations peuvent être réalisées sans programmation sur un socle open source de façon interactive, elles peuvent aussi être automatisées. La richesse fonctionnelle et technologique de Datalift fait que ses utilisateurs vont des simples utilisateurs aux datascientistes, mais aussi au dialogue machine to machine.
Le développement de la plateforme et son utilisation permettent aujourd'hui de dresser un premier regard rétrospectif que nous nous proposons de présenter en trois temps. Nous commencerons notre exposé par la démonstration d’une interconnexion de jeux de données hétérogènes rendue possible par un alignement d’ontologies. Cette démo visibilisera le caractère « tout-en-un » d’une plateforme qui s’installe en un clic. Nous poursuivrons par un survol de l’architecture de la plateforme. Nous terminerons par un triple retour d’expérience : méthodologique, architectural et usages.
Présentation donnée à l'occasion du workshop "La protection des données: de la fermeture à l’ouverture" organisé par l'eGov Innovation Center le 2 novembre 2016 : http://egovinnovation.ch/la-protection-des-donnees-de-la-fermeture-a-louverture/.
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Les experts de Bpifrance et du CNRS Innovation vous accompagnent dans l'accélération de vos projets deeptech en vous présentant de nouvelles ressources de financement et d'accompagnement.
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
Par Gilles Bertin (Ingénieur de recherche, CNAM).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Bessem Aamira
Depuis sa création, il a été confié au Centre National Universitaire de Documentation Scientifique et Technique la mission de valorisation de la production scientifique entreprise en Tunisie ou portant sur la Tunisie. En outre, il était appelé à favoriser un accès convivial à un fond documentaire couvrant une partie importante de la recherche scientifique à l’échelle mondiale. Ainsi et pour remplir ces missions, le CNUDST a mit en place des bases de données bibliographiques et des catalogues collectifs. Il a également participé à différents projets de coopération. Après ces expériences, le CNUDST est convaincu que le libre accès est la solution la plus adéquate à ses objectifs. Ces acquis permettent aujourd’hui au CNUDST, dans son environnement vital, de jouer le rôle de pionnier dans la promotion du mouvement du libre accès à l’échelle nationale. En effet, le centre s’est impliqué dans ce nouveau mode de communication de l’IST dès son émergence. L’exploitation des gisements en libre accès au profit de la communauté des chercheurs était alors en mire et son premier pas sur la voie du libre accès. Le concept a depuis atteint sa maturité particulièrement avec la succession dans le temps de projets qui affirmaient l’intérêt que renferme ce concept quant à la valorisation de la production scientifique nationale. C’est d’ailleurs et entre autres, la raison pour laquelle le centre a explicitement planifié dans son contrat programme des actions qui permettaient de préparer le terrain à un projet national d’archives ouvertes. A cet effet, le centre, en partenariat avec plusieurs universités tunisiennes, est aujourd’hui au cœur d’un chantier pour réussir la mise en place, non seulement d’une plateforme nationale d’archives ouvertes, mais aussi d’une stratégie nationale pour le libre accès.
présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/
Présentation donnée à l'occasion du workshop "La protection des données: de la fermeture à l’ouverture" organisé par l'eGov Innovation Center le 2 novembre 2016 : http://egovinnovation.ch/la-protection-des-donnees-de-la-fermeture-a-louverture/.
Par Régis Robineau (Ingénieur d'études, coordinateur de l'équipe Biblissima, membre du Technical Review Committee de IIIF).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Les experts de Bpifrance et du CNRS Innovation vous accompagnent dans l'accélération de vos projets deeptech en vous présentant de nouvelles ressources de financement et d'accompagnement.
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...Equipex Biblissima
Par Gilles Bertin (Ingénieur de recherche, CNAM).
Rendez-vous IIIF360, un événément en ligne autour des standards et technologies IIIF organisé par le consortium IIIF360 (Biblissima, Campus Condorcet, Huma-Num) le 24 mars 2021 : https://projet.biblissima.fr/fr/evenements/rendez-vous-iiif360-2021
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Bessem Aamira
Depuis sa création, il a été confié au Centre National Universitaire de Documentation Scientifique et Technique la mission de valorisation de la production scientifique entreprise en Tunisie ou portant sur la Tunisie. En outre, il était appelé à favoriser un accès convivial à un fond documentaire couvrant une partie importante de la recherche scientifique à l’échelle mondiale. Ainsi et pour remplir ces missions, le CNUDST a mit en place des bases de données bibliographiques et des catalogues collectifs. Il a également participé à différents projets de coopération. Après ces expériences, le CNUDST est convaincu que le libre accès est la solution la plus adéquate à ses objectifs. Ces acquis permettent aujourd’hui au CNUDST, dans son environnement vital, de jouer le rôle de pionnier dans la promotion du mouvement du libre accès à l’échelle nationale. En effet, le centre s’est impliqué dans ce nouveau mode de communication de l’IST dès son émergence. L’exploitation des gisements en libre accès au profit de la communauté des chercheurs était alors en mire et son premier pas sur la voie du libre accès. Le concept a depuis atteint sa maturité particulièrement avec la succession dans le temps de projets qui affirmaient l’intérêt que renferme ce concept quant à la valorisation de la production scientifique nationale. C’est d’ailleurs et entre autres, la raison pour laquelle le centre a explicitement planifié dans son contrat programme des actions qui permettaient de préparer le terrain à un projet national d’archives ouvertes. A cet effet, le centre, en partenariat avec plusieurs universités tunisiennes, est aujourd’hui au cœur d’un chantier pour réussir la mise en place, non seulement d’une plateforme nationale d’archives ouvertes, mais aussi d’une stratégie nationale pour le libre accès.
présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/
Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche
1. Analyse linguistique de grands corpus d’écrits scolaires
problèmes de transcription, d’annotation et de traitement
Journée d’études organisée par le groupe Ecriture Scolaire du laboratoire Clesthia (EA 7345)
Mercredi 18 mars 2015
Consortium Corpus-écrits
SIG
TEI-CMC
Open Resources and
TOols for LANGuage
http://comere.org
http://hdl.handle.net/11403/comere
Thierry Chanier
2. Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang (French
correspondant to DARIAH)
Variety + Standards + Open Access
Consortium Corpus-écrits
10. 10
l'utilisateur est autorisé à télécharger une copie du corpus […]
• la réutilisation (reproduction, diffusion) de parties non substantielles du corpus XXX est
autorisée […]
• la réutilisation est soumise à la condition de citer in extenso, à titre de crédits : […]
• la réutilisation (reproduction, diffusion) de parties substantielles du corpus XXX n'est pas
permise sur le fondement de la présente licence d'utilisation.
Je consens aux présentes conditions d'utilisation (obligatoire pour avoir accès au corpus)
Ce corpus, diffusé par Huma-Num, est présenté comme étant en accès libre (OA)
Regarder sans pouvoir
réutiliser?
There exist 3 main criteria that research data should follow in order to be considered OpenData.
Besides being obviously available, the interesting perspective is the fact that data can be access in order to be reuse and mix with other data and licence should explicitly mention this.
Second interesting point is that the constraints for reuse should be reduced to a minimum, then the definition stipulate that non-commercial’ restrictions that would prevent ‘commercial’ use, or restrictions of use for certain purposes are not allowed
V1 prend du temps et pourra servir pendant des années aux autres chercheurs
Sinon inutilisable après une recherche, adhoc
Marie-Laure Elalouf, « Constitution d’un grand corpus de textes d’élèves. Problèmes méthodologiques et premiers
résultats », Linx [En ligne], 51 | 2004, mis en ligne le 28 janvier 2011, consulté le 17 octobre 2012. URL : http://
linx.revues.org/205 ; DOI : 10.4000/linx.205