Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Cours sur le topic modeling - UPEM - Master Méthode computationnelle et analyse de contenu I: Topic Modeling * Nature et applications * Approche Deterministe: LSA * Approche Probabiliste: LDA * Quelques librairies en R et python II: Le package STM en R * Parametres * Métriques: exclusivité et cohérence sémantique * Appliqué a un corpus propre LAB - R STM * Le corpus: résumés d'articles tech, IEEE et Arstechnica * Le package STM en R * Comment determiner le nombre optimal de topics? * Comment interpreter les résultats? * Jupyter Notebook et Script R III: forum Alt-right sur Facebook * 500.000 commentaires provenant du forum alt-right God Trump Emperor * De la nécessité de travailler le contenu * Filtrer le bruit avec * Lemmatization, tokenization * Part of Speech tagging * Named entity recognition * Jupyter Notebook et Script R IV: Application au Francais * Quelles sont les librairies pour: * Part of Speech * Tokenization * Lemmatization V: Resources * Articles et blogs

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes ...

Thierry Chanier

Seminaire du Conseil Scientifique AFNIC: Introduction par Laurent Toutain - 1...

Afnic

Datalift, une plateforme Linked Data, Retour d'expériences

SemWebPro

La production, la consommation et l'échange de données s'intensifient et le besoin d'interopérabilité n'a jamais été aussi prégnant. Mais a-t-on encore le temps de développer des interfaces ou de mettre au point une langue commune entre acteurs ? A-t-on encore besoin de telles interfaces qui ne serviront peut-être qu’une fois ? Ou bien la solution n’est pas plutôt dans une data interopérable ? Le linked data n'est plus un Eldorado incertain, il est devenu une réalité aux dimensions vastes et en expansion mais encore méconnue. Datalift est une plateforme tout-en-un productrice de linked data qui apporte une solution concrète et aisée. Les données à traiter sont captées dans leurs structures d'origine (fichiers, bases de données, requêtes, données géographiques, etc.). A l'aide de vocabulaires (thesaurus, ontologies), elles sont transformées pour faciliter leurs liaisons. Les fusions obtenues enrichissent mutuellement les sources en même temps qu’elles forment un ensemble de données liées (linked data) exploitables de multiples façons : requêtes, data visualisation, extractions, exports dans de nombreux formats. Ces opérations peuvent être réalisées sans programmation sur un socle open source de façon interactive, elles peuvent aussi être automatisées. La richesse fonctionnelle et technologique de Datalift fait que ses utilisateurs vont des simples utilisateurs aux datascientistes, mais aussi au dialogue machine to machine. Le développement de la plateforme et son utilisation permettent aujourd'hui de dresser un premier regard rétrospectif que nous nous proposons de présenter en trois temps. Nous commencerons notre exposé par la démonstration d’une interconnexion de jeux de données hétérogènes rendue possible par un alignement d’ontologies. Cette démo visibilisera le caractère « tout-en-un » d’une plateforme qui s’installe en un clic. Nous poursuivrons par un survol de l’architecture de la plateforme. Nous terminerons par un triple retour d’expérience : méthodologique, architectural et usages.

Présentation sur les ressources ouvertes et les licences Creative Commons

Archivage numérique audiovisuel

Kawther Thabet

Oif atelier rel - moncton 4-8.02.13

Recommandé

Cours de topic modeling

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes ...

Thierry Chanier

Seminaire du Conseil Scientifique AFNIC: Introduction par Laurent Toutain - 1...

Afnic

Datalift, une plateforme Linked Data, Retour d'expériences

SemWebPro

Présentation sur les ressources ouvertes et les licences Creative Commons

Archivage numérique audiovisuel

Kawther Thabet

Oif atelier rel - moncton 4-8.02.13

Françoise gouzi digitalhumanities

AgatheR

Préservation et accès aux données du CERN - Jean-Yves Le Meur

eGov Innovation Center

Actualités et perspectives de IIIF

Traduction des extensions et du core de TYPO3 CMS avec XLIFF

dfeyer

Le projet NEEOJean-François Lutz

[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation

FrenchTechCentral

Archives ouvertes tarek-hamdiHAMDI TAREK

Développement Noyau Et Driver Sous Gnu LinuxThierry Gayet

Vsst 2010 le_semiopole_26102010

Marguerite Leenhardt

Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...

Institut National Polytechnique de Toulouse

Cartographie des marchés Open Source belges et françaisRobert Viseur

OATAO, archive ouverte institutionnelle

Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...

Bessem Aamira

Depuis sa création, il a été confié au Centre National Universitaire de Documentation Scientifique et Technique la mission de valorisation de la production scientifique entreprise en Tunisie ou portant sur la Tunisie. En outre, il était appelé à favoriser un accès convivial à un fond documentaire couvrant une partie importante de la recherche scientifique à l’échelle mondiale. Ainsi et pour remplir ces missions, le CNUDST a mit en place des bases de données bibliographiques et des catalogues collectifs. Il a également participé à différents projets de coopération. Après ces expériences, le CNUDST est convaincu que le libre accès est la solution la plus adéquate à ses objectifs. Ces acquis permettent aujourd’hui au CNUDST, dans son environnement vital, de jouer le rôle de pionnier dans la promotion du mouvement du libre accès à l’échelle nationale. En effet, le centre s’est impliqué dans ce nouveau mode de communication de l’IST dès son émergence. L’exploitation des gisements en libre accès au profit de la communauté des chercheurs était alors en mire et son premier pas sur la voie du libre accès. Le concept a depuis atteint sa maturité particulièrement avec la succession dans le temps de projets qui affirmaient l’intérêt que renferme ce concept quant à la valorisation de la production scientifique nationale. C’est d’ailleurs et entre autres, la raison pour laquelle le centre a explicitement planifié dans son contrat programme des actions qui permettaient de préparer le terrain à un projet national d’archives ouvertes. A cet effet, le centre, en partenariat avec plusieurs universités tunisiennes, est aujourd’hui au cœur d’un chantier pour réussir la mise en place, non seulement d’une plateforme nationale d’archives ouvertes, mais aussi d’une stratégie nationale pour le libre accès.

Tralogy 2013-ttc platform

hblanca

#AAFSaintÉ19 : Une transformation numérique au service de l’usage : évolution...

AssociationAF

Agenda 2ème réunion TTFx Breizh 2011-06-20

Christophe Keromen

Nouvelles méthodes de développement web avec les technologies centrées doc...

stsire

Mag Jll2009Mohamed Ben Bouzid

infrastructure numerique_focusweb_cnfpt2011Fleury Christine

Présentation de GénériquesAssociationAF

Contenu connexe

Similaire à Concevoir la diffusion d’une banque de corpus dès le début du projet de recherche

Françoise gouzi digitalhumanities

AgatheR

Préservation et accès aux données du CERN - Jean-Yves Le Meur

eGov Innovation Center

Actualités et perspectives de IIIF

Traduction des extensions et du core de TYPO3 CMS avec XLIFF

dfeyer

Le projet NEEOJean-François Lutz

[Webinar] Deeptech : financement & accompagnement @Bpifrance @CNRSinnovation

FrenchTechCentral

Archives ouvertes tarek-hamdiHAMDI TAREK

Développement Noyau Et Driver Sous Gnu LinuxThierry Gayet

Vsst 2010 le_semiopole_26102010

Marguerite Leenhardt

Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...