présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/
Veille Economie Numérique du 14.06.2010Agence Elan
Cette veille hebdomadaire vous propose un condensé de l’actualité sur l’économique numérique à la fois française et internationale ainsi que les grandes tendances qui feront le futur du secteur.
Par l'Agence Elan : http://www.facebook.com/AgenceElan
Veille Economie Numérique du 14.06.2010Agence Elan
Cette veille hebdomadaire vous propose un condensé de l’actualité sur l’économique numérique à la fois française et internationale ainsi que les grandes tendances qui feront le futur du secteur.
Par l'Agence Elan : http://www.facebook.com/AgenceElan
De plus en plus d’applications installées jadis sur poste de travail basculent aujourd’hui en mode SaaS (Software-as-a-Service) et s’utilisent directement depuis le navigateur sans installation locale. Ce mode de mise à disposition a suscité la polémique dans la communauté du logiciel libre, à l’image de Richard Stallman assimilant le cloud computing à une "campagne marketing branchée".
Cette conférence passera en revue quelques enjeux liés au cloud computing (e.g. vie privée, propriété des données et liberté), développera en particulier la question du lock-in et passera en revue les initiatives existantes d’open cloud (e.g. TIO).
De plus en plus d’applications installées jadis sur poste de travail basculent aujourd’hui en mode SaaS (Software-as-a-Service) et s’utilisent directement depuis le navigateur sans installation locale. Ce mode de mise à disposition a suscité la polémique dans la communauté du logiciel libre, à l’image de Richard Stallman assimilant le cloud computing à une "campagne marketing branchée".
Cette conférence passera en revue quelques enjeux liés au cloud computing (e.g. vie privée, propriété des données et liberté), développera en particulier la question du lock-in et passera en revue les initiatives existantes d’open cloud (e.g. TIO).
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusSylvie Dalbin
Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche. A commenter avant mars 2010. (http://dossierdoc.typepad.com/descripteurs/2009/10/parution-de-la-norme-iso-dis-25964-th%C3%A9saurus.html)
NP 25964, Future norme sur les thésaurusSylvie Dalbin
Point d'avancement au 7 novembre 2008 des travaux portant sur la future norme Thésaurus NP 2595, remplaçant les normes ISO 2788:1986 (monolingue) et 5964:1985 (multilingue).
Projet de norme paru en novembre 2009 - http://www.slideshare.net/Dalb/presentation-du-projet-de-norme-iso-dis-259641-sur-les-thsaurus
Comment récupérer un projet Web pourri ... et réussir à travailler dessus.Guillaume RICHARD
Présentation pour Blendwebmix 2017, sur le thème de la récupération de projet Web.
Je présente les principales raisons de fails de projets, et comment réussir quand même à travailler dessus.
JFTL 2015 : Choix et déploiement d’un outil de test : Retours d’expérience su...Squash Test
Co-animée par MMA, Euronext, Vallourec et Henix, spécialiste des solutions open source de test, la présentation proposée s’articule autour de trois retours d’expérience couvrant la démarche de choix, l’intégration et le déploiement d’un outillage de test open source. L’exposé s’est attaché à présenter selon trois regards différents les démarches mises en œuvre, les bénéfices, les limites et les points de vigilance rencontrés ainsi que les résultats obtenus.
Créer un moteur de recherche avec des logiciels libresRobert Viseur
Lorsque l’on parle de moteur de recherche, les noms de Google, Bing ou Yahoo! viennent immédiatement à l’esprit. La taille de ces moteurs (plusieurs milliards de pages indexées), l’importance des infrastructures (grands centres de données) et la pertinence des résultats de recherche peuvent donner l’impression que les développements spécifiques sont devenus impossibles ou sans intérêt.
La création de moteurs de recherche spécialisés reste cependant possible, et utile pour certains usages particuliers (ex.: moteurs de recherche d’entreprise, mise en place de systèmes de veille, etc.). Pour ce faire, le développeur peut s’appuyer sur les interfaces de programmation (API) généralement mises à disposition par les moteurs de recherche commerciaux mais aussi sur les très nombreux composants et logiciels libres existants. Ces derniers couvrent la collecte des données textuelles, leur analyse, leur indexation et leur présentation.
La présentation détaille les différentes étapes de création d’un moteur de recherche. Les outils libres disponibles, ainsi que leurs limites et cadres d’utilisation privilégiés, sont ensuite présentés.
Développement et gestion de Logiciel Libre et Ouvert (LLO)
Tralogy 2013-ttc platform
1. Plateforme Web TTC: de la compilation de
corpus à l’alignement bilingue
Helena Blancafort (1)
Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3),
(1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität
Stuttgart
TRALOGY II
18 Janvier 2013, Paris
The research leading to these results has received funding from the European Community's
Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.
18/01/2013 Tralogy II 1
2. Projet TTC
Traduction, Terminologies et
Corpus Comparables
Objectifs :
1) compilation de terminologies bilingues à partir des corpus
comparables pour la traduction automatique et assistée
3) Démonstrateur de toute la chaîne en ligne atelier
utilisateurs fin projet (Octobre 2012, Stuttgart)
• 7 langues: FR, EN, DE, ES, LV, RU, ZH
• 7 partenaires, Leader du projet : LINA - Université de
Nantes
18/01/2013 Tralogy II 2
3. Chaîne TTC
Compilation
de Corpus
Extraction T
Monolingue E
CORPORA & R
Alignement Bilingue M
E
S
Outil de
Gestion
18/01/2013 Tralogy II Terminologique 3
5. Chaîne TTC
Module 1
Compilation de Corpus
18/01/2013 Tralogy II 5
6. 1. Compilation de Corpus
Qu’est-ce qu’un crawler ?
Outil pour récupérer de l’information du Web
Crawler thématique: un domaine précis
18/01/2013 Tralogy II 6
7. Entrée et sortie
En entrée: 4-5 mots clés, termes du domaine recherchés
En sortie:
1) Fichiers textes, utf8, nettoyés
2) Fichiers originaux (pdf, doc, html)
3) Fichiers métadata
18/01/2013 Tralogy II 7
8. Retour utilisateur – Crawler
Utile pour la création de
terminologies ?
Avantages
permet de collecter un grand volume de données rapidement
un atout lors que le traducteur n’a pas de documents, terminologies
du domaine
outil facil à prendre en main
Options avancées : plusieurs filtres
Type de site: officiel (.gouv)
Filtres : exclure wikipedia
18/01/2013 Tralogy II 8
9. Retour utilisateur – Crawler
Utile pour la création de
terminologies ?
Désavantages liées au Web
• surreprésentation de données commerciales ou peu scientifiques, degré de
spécialisation faible
• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex:
articles scientifiques).
• Corpus final composé de données très hétérogènes, difficile à évaluer
• Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL
• Dépendance des langues
• Letton : moins de données sur le web
• Russe : moins de crawl possible (blocage BING)
• Dépendance des moteurs de recherche : services payants
• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT
18/01/2013 Tralogy II 9
11. Extraction Terminologique
Monolingue
• En entrée: corpus monolingue
output Babouk
• En sortie
format : tabulation (TSV), format terminologique
standard (TBX), format compatible UIMA (XMI)
• Extraction de termes simples et complexes
• Innovation des outils TTC
TTC Term Suite variation terminologique, détection des
élements néoclassiques
méthodes Knowledge-rich vs. knowledge-poor
18/01/2013 Tralogy II 11
12. Retour utilisateurs
Extraction monolingue
Points forts
• Résultats propres et de qualité, bien présentés
• Utile pour découvrir la terminologie d’un corpus ou d’un
nouveau domaine
Points discutables
• Avis partagé sur les formats: TBX vs. TSV.
• Avis partagé sur la lemmatisation vs. formes
• Avis partagés sur outil via plateforme ou installation.
• Variantes Terminologiques: moins d’intérêt qu’attendu
(plutôt pour filtrer variantes non voulues selon client)
18/01/2013 Tralogy II 12
13. Demandes des utilisateurs
Extraction monolingue
• Focus sur les abréviations
• Fournir le terme en contexte : montrer plusieurs phrases,
autrement difficile de juger la pertinence du terme par
rapport à un domaine.
• Possibilité de fournir les patrons terminologiques
• Disponible avec Term Suite (à installer)
• Indisponible via la plateforme
18/01/2013 Tralogy II 13
15. Alignement bilingue des
terminologies
Pour un terme, plusieurs candidats
Conditions: lexique bilingue, disponible pour certaines
pairs de langues
18/01/2013 Tralogy II 15
16. Retour Utilisateurs
Alignement Bilingue
Points forts
1) Outil très utile (pas d’autres disponibles)
Points abordés
1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)
2) Contexte: Montrer les termes en contexte, lien avec les
phrases, autrement difficile d’évaluer une traduction.
3) Fonctions avancées: fonction par défaut suffit.
18/01/2013 Tralogy II 16
17. Chaîne TTC
Connexion avec
MyETB
(EuroTermBank)
Plateforme Terminologique
18/01/2013 Tralogy II 17
18. Editing TTC Output with MyETB
• Envoi des résultats terminologiques à la plateforme
• Possibilité de gérer différentes collections terminologiques
• Permet l’édition et gestion des terminologies TTC
Validation des termes et informations correspondantes
Suppresion des termes
Édition (ajout d’informations)
18/01/2013 Tralogy II 18
19. Retour Utilisateurs
MyETB
Avantages
• Utile d’avoir une plateforme web collaborative pour éditer
les résultats
• Gestion de plusieurs terminologies
Améliorations proposées
• Editer les résultats monolingues TTC et renvoyer à la
plateforme pour alignement bilingue
• Export des résultats format tabulaire simple
18/01/2013 Tralogy II 19
20. Conclusions
Retour Plateforme Web TTC
Evaluation globale très positive
Points forts
1) Illustration de toute la chaîne sous 1 seule plateforme
2) Interface agréable, prise en main facile
3) Architecture modulaire et possibilité paramétrage des
outils
Différents profils, différents usages
Points délicats
1) Le web comme ressource pour le travail terminologique
18/01/2013 Tralogy II 20