SlideShare une entreprise Scribd logo
1  sur  59
Télécharger pour lire hors ligne
TRADUCTION AUTOMATIQUE EN
LANGUE DES SIGNES BASÉE
SUR UNE APPROCHE STATISTIQUE
Présentée et soutenue publiquement le 10/03/2017 par :
Achraf Othman
Dirigée par :
Prof. Mohamed JEMNI
Jury:
Président: Prof. Faiez GARGOURI
Rapporteur: Prof. Mounir ZRIGUI
Rapporteur: Prof. Chiraz LATIRI
Examinateur: Prof. Kais HADDAR
THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE
10/03/2017
10/03/2017 2
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 3
• Projet WebSign du laboratoire de recherche LaTICE : mettre en
œuvre un outil de communication pour les malentendants à travers
le web, en utilisant un personnage virtuel 3D
• Langue des signes  communauté des personnes sourdes
• Interprétation et accès à l’information
• Le Traitement automatique du langage naturel (TALN)
• Le traitement automatique des langues de signes (TALS)
• Traduction automatique vers et à partir des LS
Introduction
www.latice.rnu.tn/websign
10/03/2017 4
• Le travail effectué s’articule autour de 4 axes :
Introduction (suite…)
1. L’étude des spécificités de la traduction de la langue des signes transcrite
manuellement ou bien automatiquement ;
2. Le développement d’un système de transcription ;
3. La génération d’un corpus parallèle artificiel en utilisant des approches
linguistiques.
4. La traduction automatique en utilisant une approche statistique.
10/03/2017 5
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 6
• Langue des signes  Langue naturelle
• Système de communication :
– Flexible
– Transmission
• Composition :
– Configuration
– Emplacement
– Orientation
– Mouvement
– Expression du visage
Etat de l’art
La langue des signes (LS)
10/03/2017 7
• L’universalité
• Les langues vocales
• L’iconicité
• Les standards d’écriture:
– Notation
– Annotation
Etat de l’art
Les langues de signes (suite…)
10/03/2017 8
• Forme écrite des LS:
– Utilisation
– Accès à l’information et au
contenu multimédia
• Spécificités :
– Mots et phrases ;
– Configuration des deux mains
– Gestes non-manuels
– Iconicité
– Possibilités descriptives
Etat de l’art
Systèmes de transcription des langues des signes
ASL Lexicon Video Dataset ASLLVD
10/03/2017 9
1. Système de notation de "Stokoe"
2. Système de notation "SignWriting"
3. Système de notation "HamNoSys"
4. Système de notation "SiGML"
5. Système de notation "SML"
6. Système de notation "Gloss"
Etat de l’art
Les systèmes de notation
10/03/2017 10
• Etiquettes en majuscules
• Une glose = Un signe en ASL
• Exemple :
Etat de l’art
Système de notation "Gloss"
"What is your name ?"
"NAME YOU WHATWH"
10/03/2017 11
• Nécessité
• Spécification à un domaine particulier
 Traitement automatique des LS :
– Traduction
– Visualisation
• Gestes manuels
• Gestion non-manuels
Etat de l’art
Systèmes de transcription: Problématiques
10/03/2017 12
• Collection de données  TALS
• Projets nationaux ou internationaux
• Caractéristiques
– Objectifs
– Taux des données
– Politique d'accessibilité
– Nombre des participants
– Système de transcription
– Outils d'annotation
– Les mouvements et les postules
– La qualité des vidéos enregistrées
Etat de l’art
Les ressources linguistiques
10/03/2017 13
• Ressources pour chaque LS
• Corpus vidéo  Outil d’annotation
• Définir les structures lexicales, syntaxiques, morphologiques etc.
• Dictionnaires
• Les problématiques qu'on peut extraire :
–  Absence d'une grande base de données textuelle pour le TALS
–  Spécification à un domaine
–  Coût
Etat de l’art
Les ressources linguistiques : Problématiques
10/03/2017 14
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 15
• Le TALS : la traduction automatique, la synthèse 3D, la modélisation, la génération de
discours automatique etc…
• La synthèse des langues des signes :
– basée sur la vidéo
– l’animation de personnages de synthèse ou agent conversationnel
• Plusieurs travaux sur le TALS:
– WebSign du laboratoire LaTICE
– VisiCast
– eSIGN
– TESSA
– Vcom3D
Traitement automatique des LS : TALS
10/03/2017 16
Traitement automatique des langues des signes
Aperçu
•  Plusieurs approches
•  Absence d’une métrique de mesure de la qualité de traduction
•  Efficacité des systèmes d’annotation
•  Evaluation.
10/03/2017 17
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 18
• Le système de transcription : Les conventions de Liddell.
• Représentation en gloses.
• Gestes non-manuels.
Modélisation d’un système de transcription en XML pour l’ASL
La représentation en XML
"His aunt lived in Turkey. There had no contact with the aunt.
She died and left something to him in her will”
10/03/2017 19
• Soit la phrase en anglais suivante "I don't like chocolate".
Modélisation d’un système de transcription en XML pour l’ASL
API de création de XML-Gloss : Exemple
10/03/2017 20
•  Aspect sémantique entre les signes
•  La mise en scène
•  La géométrie spatiale.
Modélisation d’un système de transcription en XML pour l’ASL
Discussions
10/03/2017 21
• Taux de précision = 97%
• Les étapes d'évaluation :
– Préparation de la liste des phrases en Anglais avec leurs transcriptions
correspondantes.
– Pour chaque phrase, on suit une liste d'instructions pour générer le XML-Gloss.
– Rendu final en utilisant les feuilles de style XSLT.
– Comparer la transcription avec la transcription générée. Si le rendu est identique, on
valide la phrase et sa transcription
Modélisation d’un système de transcription en XML pour l’ASL
API de création de XML-Gloss : Evaluation
10/03/2017 22
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 23
• Approche
• 52 relations de dépendances grammaticales
• Taux de précision proche de 100% et un rappel (recall) proche de 90%
•  Notre approche :
– Traitement automatique du texte donné en entrée et le représenter sous forme d'un
graphe sémantique
– Génération automatique de la transcription XML-Gloss
Génération de discours en ASL à partir des règles de dépendances
Motivations et Contributions
10/03/2017 24
• Noyau verbal
• Classificateurs
• Le temps
• Types de phrases:
– les questions de type "yes/no"
– les questions de type "wh"
– les phrases négatives
– Coordinations et subordination
– Emotions
Génération de discours en ASL à partir des règles de dépendances
Motivations et Contributions (suite…)
"I ASK YOU ‘YOU ASK ME’.
BOOK:flat BOOK:thick
"John doesn't buy the house"
10/03/2017 25
• Les approches existantes :
– l’approche directe (approche de première génération)
– les approches de deuxième génération :
• la méthode de transfert
• la méthode interlingua
• La méthode de la traduction par transfert  la traduction automatique de
l‘Anglais vers l’ASL
Génération de discours en ASL à partir des règles de dépendances
Approche proposée
10/03/2017 26
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé
Identification de langues
Analyse syntaxique  Arbre syntaxique
Analyseur de dépendances
Matrice d’adjacence
Lemmatisation et mise en forme
Reconnaissance des entités nommées
Corpus textuel
Règles de segmentation
Modèle d’étiquetage
Grammaire de chunk
Grammaire de dépendances
Règles de transferts
Etiquetage des catégories grammaticales
Découpage en phrases et en mots
Résolution de coréférence
Génération d’une transcription XML-Gloss
Texte brut
Transcription en XML-Gloss
10/03/2017 27
• Prétraitement et analyse lexicale
• Analyse grammaticale (96,72% / 84%)
• Analyse de dépendances
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé (exemple (suite…))
NNP("kate",NNP) → kate
VBD("gave",VBD) → gave
NN("chocolate",NN)→ chocolate
IN("for",IN) → for
DT("each",DT) → each
NN("boy",NN) → boy
SYM(",",SYM) → ,
NN("yesterday",NN)→ yesterday
SYM(".",SYM) → .
Kate gave chocolate for each boy .yesterday,
10/03/2017 28
• Matrice d’adjacence
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé (exemple (suite…))
Graphe de dépendance de la phrase
"Kate gave chocolate for each boy, yesterday"
28
19
40
50
49
18
10/03/2017 29
• Génération de l'énoncé en ASL :
temps → sujet → verbe → objet → complément d'objet
• Matrice d’adjacence :
tmod → nsubj → root → dobj → prep_for
• Sous-composantes :
tmod → nsubj → root → dobj → prep_for+det
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé (exemple (suite…))
"yesterday kate{t} gave chocolate each-boy"
10/03/2017 30
• Lemmatisation et mise en forme
• Post-processing
– Reconnaissance des entités nommées
– Résolution des coréférences
– Génération de la transcription XML-Gloss
• Rendu final
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé (exemple (suite…))
"YESTERDAY KATE{t} GIVE CHOCOLATE EACH-BOY"
10/03/2017 31
• Nombre de phrases !
• Evaluation des règles de transfert entre les deux langues (Anglais et ASL)
règle de transfert ( ⇒ ) par :
"tmod + nsubj + root + dobj + prep_for-det" ⇒ "T + S + V + O + CO"
• 820 règles de transfert
• Taux de précision 82% pour 6720 phrases
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé : Evaluation
é =
( )
( )
×
10/03/2017 32
Génération de discours en ASL à partir des règles de dépendances
Génération d'un corpus parallèle Anglais-ASL
Statistiques des données extraites à partir du corpus Gutenberg
Nombre de mots Nombre de phrases
Corpus Anglais 1 595 579 658 79 611 533
Anglais A.S.L
# Phrases # Jetons # Phrases # Jetons
Corpus pour apprentissage
Corpus pour raffinement
Corpus pour évaluation
79907
26636
13317
669045
223522
111658
79907
26636
13317
370030
123816
61773
10/03/2017 33
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 34
• Limites:
– Non-Bijectivité
– Evaluation manuelle.
• Les modèles
statistiques (les
modèles IBM)
• Alignement des mots
et phrases (PBMT)
Architecture du système de traduction automatique
Recherche d’une traduction possible
post-traitement
pré-traitement
Modèle lexical
Modèle d’alignement
Modèle de langage
Texte en
anglais
Transcription
en ASL
Texte en
anglais
Transcription
en ASL
10/03/2017 35
• Modèle probabiliste de Brown et al. : |
• Une traduction possible de = max de la probabilité | :
• Deux composantes :
– un modèle de traduction p T|P
– un modèle de langage p(T)
•  Mémoires de traduction
Architecture du système de traduction automatique
Principes de la traduction automatique statistique
= max ( | ) = max ( | ) ( )
10/03/2017 36
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Génération d’une mémoire de traduction lexicale
Traduction
de 'REVIEW'
Nombre
d'occurrences
Probabilité
d'alignement
reviewed 1 1.0000000
reviews 3 0.6666667
review 9 0.4000000
for 7216 0.0001840
- 0.0001261
of 10854 0.0001064
the 32608 0.0000326
: →
∑ = 1 et ∀ : 0 ≤ ≤ 1
=
1.0000000
0.6666667
0.4000000
0.0001840
0.0001261
0.0001064
0.0000326
si e=′reviewed′
si e=′reviews′
si e=′review′
si e=′for′
si e=∅
si e=′of′
si e=′the′
10/03/2017 37
• Modèle IBM-1
• La probabilité de traduction d’une phrase source :
• Exemple :
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Alignement : Modèle d’alignement IBM 1
, | =
+
|
10/03/2017 38
• T-tables :
• Exemple :
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Alignement
Diagramme d'alignement de la
phrase 'YOU BLUE CAR' en ASL
10/03/2017 39
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Apprentissage des modèles de traductions lexicales
• Alignement à partir d’une grande quantité de données.
• Problème de données incomplètes !
• L’algorithme EM :
i. Initialiser le modèle avec une distribution probabiliste uniforme.
ii. Appliquer le modèle sur les données existantes (Espérance).
iii. Apprendre le modèle à partir des données (Maximisation).
iv. Itérer les étapes 2 et 3 jusqu’à la convergence (généralement vers 1).
• Les probabilités de traductions lexicales et de la Théorème de dérivation des
fonctions :
10/03/2017 40
0 1 2 3 4 5 6 7 10 15 20
YOU car 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315
YOU name 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000
YOU my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
YOU your 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000
NAME your 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000
NAME car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
NAME my 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315
NAME name 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000
PRO-1st name 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000
PRO-1st car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
PRO-1st your 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
PRO-1st my 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685
CAR my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
CAR your 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000
CAR name 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
CAR car 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Application de l’algorithme EM sur le modèle IBM 1
10/03/2017 41
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Application de l’algorithme EM sur le modèle IBM 1
10/03/2017 42
• Similarité des chaînes de caractères.
• La distance de Jaro-Winkler :
• distribution probabiliste d'une traduction lexicale :
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Optimisation à base des chaînes de caractères similaires
= + ℓ 1 −
=
1
3
+ +
−
= ⋅ + ⋅ ,
10/03/2017 43
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Optimisation à base des chaînes de caractères similaires
10/03/2017 44
• Modèles IBM :
– Modèle IBM 2: il supporte la traduction lexicale du modèle IBM 1 et rajoute un
nouveau paramètre dans l’équation de l’alignement a(i|j,l_f,l_e ).
– Modèle IBM 3: il supporte toute les caractéristiques du modèle IBM 2 et rajoute un
modèle de richesse n(∅,f).
– Modèle IBM 4: En plus du modèle IBM 3, ce modèle supporte le modèle probabiliste
de la distorsion lors de la traduction. Il formalise l’ajout d’un NULL.
– Modèle IBM 5: Ce modèle est le plus avancé, il permet de calculer la défaillance de la
traduction lors de la phase de l’apprentissage.
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Modèles d’alignements
10/03/2017 45
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Modèles d’alignements
what is your
DESC-YOURTEACHER NAME
1 2 3
23 4
teacher
4
‘s name
5 6
?
7
‘HUH’ ?
5 6
NULL
HEY
1
your teacher name ??
your teacher name ??
HEY DESC-YOUR TEACHER NAME ?‘HUH’
Etape de
Richesse
Insertion du
jeton NULL
Traduction
lexicale
Alignement
10/03/2017 46
• Alignement des phrases :
Construction d'une mémoire de traductions
lexicales "Anglais-ASL"
 YOU SEE | you see
 the new clothing store | NEW CLOTHES STORE
 put in | PUT IN
10/03/2017 47
• Formulation :
• La formulation est identique à celle du modèle IBM (alignement mot-à-mot), pour
l'alignement à segments, on décompose ( | ) en :
– est la phrase cible (la traduction).
– est la langue source.
– ( ) est le modèle du langage de la langue cible.
•  Efficacité.
•  Traduction proche de la traduction humaine.
•  Aussi, la traduction à partir des segments nous permet de résoudre les problèmes
d'ambigüités.
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Alignement à base de segments (suite…)
| = ∅ | − −
10/03/2017 48
• Le décodage : recherche des hypothèses t ayant les plus grandes probabilités suivant le
modèle de traduction ( | ).
• Le modèle ( | ) est une combinaison log-linéaire de quatre composants :
– un ou plusieurs modèles trigramme de la langue cible,
– un ou plusieurs modèles de traduction basés sur les segments
– un modèle de distorsion
– et un modèle de longueur qui rend compte des différences de longueur entre les deux langues.
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Décodage
= ∅ | − −
10/03/2017 49
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Décodage : Exemple
YOU WHATNAME
name .
‘s name .
‘s name
name
you
you .
your
you are
what
what is
what he says
what he
‘s names
named
name ?
you
are you
you ?
, you
what are you
what you say
you what you
tell you what
what i
what you
what is the
YOU WHATNAME
-0.563
-0.564
-0.566
-0.566
-0.229
-0.422
-0.433
-0.550
-0.387
-0.572
-0.653
-0.679
-0.766
-0.805
-0.931
-1.076
-0.588
-0.666
-0.669
-0.644
-0.650
-0.791
-0.898
-0.695
-0.695
-0.728
10/03/2017 50
• Taux d’Erreur de l’Alignement ‘Alignment Error Rate AER)’ :
• La mesure de précision :
• Le rappel :
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Evaluation
, ; =
∩ + ∩
+
10/03/2017 51
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 52
• Implémentation du traducteur automatique statistique basé sur une approche
sous-phrastique.
• Moses
• GIZA++ : implémente les algorithmes des modèles IBM 1-5.
• SRI-LM : implémente les algorithmes de génération des modèles de langage (n-
gram).
Expérimentations et évaluation
www.statmt.org/moses
10/03/2017 53
• BLEU (BiLangual Evaluation Understudy en anglais) : algorithme pour l'évaluation de la
qualité d'un texte traduit par un traducteur automatique. La qualité est déterminée à partir
de la traduction générée automatiquement et sa référence traduite par un être humain.
• Corpus :
Expérimentations et évaluation (suite…)
Nombre de mots Nombre de phrases
Corpus Anglais
10/03/2017 54
Variation du score BLEU selon la taille du corpus d'évaluation
Expérimentations et évaluation (suite…)
10/03/2017 55
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de transcription en XML pour l’ASL
• Génération de discours en ASL à partir des règles de dépendances
• Architecture du système de traduction automatique
• Expérimentations et évaluation
• Conclusion et perspectives
10/03/2017 56
• La traduction automatique vers l’ASL : Accessibilité aux contenus
numériques
• Contributions :
– Systèmes de transcription
– Génération des corpus artificiels à partir des graphes de dépendances
grammaticales.
– Apprentissage automatique.
– Modèles d’alignement IBM
– Décodage
Conclusion et perspectives
10/03/2017 57
• Optimisation et intégration d’autres algorithmes d’apprentissage
• Comparaison à d’autres approches de traduction
• Langues des signes Arabes , Langues des signes Françaises etc…
Conclusion et perspectives
10/03/2017 58
1. Achraf Othman, Mohamed Jemni. “A Novel Approach for
Translating English Statements to American Sign Language
Gloss”. 14thICCHP 2014, Paris, France, July 9-11, 2014,
Proceedings, Part II. LNCS 8548, Springer 2014, ISBN 978-
3-319-08598-2, pp 431-438.
2. Mohamed Jemni, Sameer Semreen, Achraf Othman,
Zouhour Tmar, Nadia Aouiti. “Toward the creation of an
Arab Gloss for arabic Sign Language annotation”. 4th
ICTA13, October 21-23, 2013, Hammamet, Tunisia.
3. Achraf Othman, Raouia Hamdoun. “Toward a new
transcription model in XML for Sign Language Processing
based on gloss annotation system”. 4th ICTA13, October
21-23, 2013, Hammamet, Tunisia.
4. Zouhour Tmar, Achraf Othman, Mohamed Jemni. “A Rule-
Based Approach for Building an Artificial English-ASL
Corpus”. International Conference on Electrical
Engineering and Software Applications ICEESA, March 21-
23, 2013, Hammamet, Tunisia.
5. Achraf Othman, Mohamed Jemni. “A probabilistic model
for Sign Language Translation Memory”. The 1st
International Symposium on Intelligent Informatics,
ISI’12, August, Chennai, India, 4-5, 2012.
6. Achraf Othman, Zouhour Tmar, Mohamed Jemni. “Toward
developing a very big Sign Language Parallel Corpus”. The
13th ICCHP, Lecture Note in Computer Science LNCS
Springer, July 11-13, 2012, University of Linz, Austria.
7. Achraf Othman, Mohamed Jemni. “English-ASL Gloss
Parallel Corpus 2012: ASLG-PC12”. LREC 2012, 5th
Workshop on the Representation and Processing of Sign
Languages: Interactions between Corpus and Lexicon, May
51-27, 2012, Istanbul Turkey.
8. Achraf Othman, Mohamed Jemni, “La traduction
automatique à base de statistiques au service de la langue
des signes”. 4ème édition du colloque INFOL@NGUES 2012,
April 5-7, 2012, Béjà, Tunisia.
9. Achraf Othman, Mohamed Jemni. “Statistical Sign
Language Machine Translation: from English written text
to American Sign Language Gloss”. International Journal
of Computer Science Issues, Vol 8, Issue 5, September 30,
2011.
Publications
Merci pour votre attention
10/03/2017

Contenu connexe

Tendances

Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...
Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...
Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...Databricks
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Neural Architectures for Named Entity Recognition
Neural Architectures for Named Entity RecognitionNeural Architectures for Named Entity Recognition
Neural Architectures for Named Entity RecognitionRrubaa Panchendrarajan
 
Vectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for SearchVectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for SearchBhaskar Mitra
 
bilinguisme et plurilinguisme
bilinguisme et plurilinguismebilinguisme et plurilinguisme
bilinguisme et plurilinguismecryxsilva
 
音声認識技術の変遷
音声認識技術の変遷音声認識技術の変遷
音声認識技術の変遷emonosuke
 
Module 8: Natural language processing Pt 1
Module 8:  Natural language processing Pt 1Module 8:  Natural language processing Pt 1
Module 8: Natural language processing Pt 1Sara Hooker
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
A Practical Guide to Multi-Layered Media Campaigns
A Practical Guide to Multi-Layered Media CampaignsA Practical Guide to Multi-Layered Media Campaigns
A Practical Guide to Multi-Layered Media CampaignsRichardson Media Group
 
Introduction to Tree-LSTMs
Introduction to Tree-LSTMsIntroduction to Tree-LSTMs
Introduction to Tree-LSTMsDaniel Perez
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherchePhilippe YONNET
 
0.0 Introduction to theory of computation
0.0 Introduction to theory of computation0.0 Introduction to theory of computation
0.0 Introduction to theory of computationSampath Kumar S
 
Présentation E-Learning
Présentation   E-LearningPrésentation   E-Learning
Présentation E-LearningGhribi Achref
 

Tendances (20)

Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...
Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...
Building a Pipeline for State-of-the-Art Natural Language Processing Using Hu...
 
clustering
clusteringclustering
clustering
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Neural Architectures for Named Entity Recognition
Neural Architectures for Named Entity RecognitionNeural Architectures for Named Entity Recognition
Neural Architectures for Named Entity Recognition
 
Vectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for SearchVectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for Search
 
bilinguisme et plurilinguisme
bilinguisme et plurilinguismebilinguisme et plurilinguisme
bilinguisme et plurilinguisme
 
Au fait, c'est quoi un MOOC ?
Au fait, c'est quoi un MOOC ?Au fait, c'est quoi un MOOC ?
Au fait, c'est quoi un MOOC ?
 
Clustering
ClusteringClustering
Clustering
 
音声認識技術の変遷
音声認識技術の変遷音声認識技術の変遷
音声認識技術の変遷
 
Module 8: Natural language processing Pt 1
Module 8:  Natural language processing Pt 1Module 8:  Natural language processing Pt 1
Module 8: Natural language processing Pt 1
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
A Practical Guide to Multi-Layered Media Campaigns
A Practical Guide to Multi-Layered Media CampaignsA Practical Guide to Multi-Layered Media Campaigns
A Practical Guide to Multi-Layered Media Campaigns
 
Powerpoint soutenance 07 11 13 Rebecca Dahm
Powerpoint soutenance 07 11 13 Rebecca DahmPowerpoint soutenance 07 11 13 Rebecca Dahm
Powerpoint soutenance 07 11 13 Rebecca Dahm
 
Introduction to Tree-LSTMs
Introduction to Tree-LSTMsIntroduction to Tree-LSTMs
Introduction to Tree-LSTMs
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Machine-learning-FR.pdf
Machine-learning-FR.pdfMachine-learning-FR.pdf
Machine-learning-FR.pdf
 
Word embedding
Word embedding Word embedding
Word embedding
 
Wordnet
WordnetWordnet
Wordnet
 
0.0 Introduction to theory of computation
0.0 Introduction to theory of computation0.0 Introduction to theory of computation
0.0 Introduction to theory of computation
 
Présentation E-Learning
Présentation   E-LearningPrésentation   E-Learning
Présentation E-Learning
 

Similaire à TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022François-Xavier Boffy
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Stefane Fermigier
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotInria
 
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal DependenciesMultilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal DependenciesChristophe Moor
 
Service sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesService sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesACSG Section Montréal
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Antoine Isaac
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et éditionEquipex Biblissima
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsEquipex Biblissima
 
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...Les technologies du web, les standards de l'innovation ouverte : état de l'ar...
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...Fabien Gandon
 
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)rchbeir
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementLudovic REUS
 
Alphorm.com Formation le langage SQL
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQLAlphorm
 
Quand utiliser MongoDB … Et quand vous en passer…
Quand utiliser MongoDB	… Et quand vous en passer…Quand utiliser MongoDB	… Et quand vous en passer…
Quand utiliser MongoDB … Et quand vous en passer…MongoDB
 
intégration du Tifinaghe dans un Ocr OpenSource
intégration du Tifinaghe dans un Ocr OpenSourceintégration du Tifinaghe dans un Ocr OpenSource
intégration du Tifinaghe dans un Ocr OpenSourceYoussef Ouguengay
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueAntidot
 
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...Michel Héon PhD
 

Similaire à TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE (20)

Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Seo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite LeenhardtSeo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite Leenhardt
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010
 
Machine Translation
Machine TranslationMachine Translation
Machine Translation
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale Sébillot
 
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal DependenciesMultilingual Dependency Parsing from Raw Text to Universal Dependencies
Multilingual Dependency Parsing from Raw Text to Universal Dependencies
 
Service sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesService sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatiales
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
 
Structuration de données, recherche et édition
Structuration de données, recherche et éditionStructuration de données, recherche et édition
Structuration de données, recherche et édition
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latins
 
Rapport Tal Master 1
Rapport Tal Master 1Rapport Tal Master 1
Rapport Tal Master 1
 
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...Les technologies du web, les standards de l'innovation ouverte : état de l'ar...
Les technologies du web, les standards de l'innovation ouverte : état de l'ar...
 
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
 
Serveur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développementServeur web / Base de donnees Langages de développement
Serveur web / Base de donnees Langages de développement
 
Alphorm.com Formation le langage SQL
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQL
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Quand utiliser MongoDB … Et quand vous en passer…
Quand utiliser MongoDB	… Et quand vous en passer…Quand utiliser MongoDB	… Et quand vous en passer…
Quand utiliser MongoDB … Et quand vous en passer…
 
intégration du Tifinaghe dans un Ocr OpenSource
intégration du Tifinaghe dans un Ocr OpenSourceintégration du Tifinaghe dans un Ocr OpenSource
intégration du Tifinaghe dans un Ocr OpenSource
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
 
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
 

Dernier

666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeBenamraneMarwa
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipM2i Formation
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxMartin M Flynn
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptxrababouerdighi
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxrababouerdighi
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxAsmaa105193
 

Dernier (15)

666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Guide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étudeGuide Final de rédaction de mémoire de fin d'étude
Guide Final de rédaction de mémoire de fin d'étude
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Formation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadershipFormation M2i - Comprendre les neurosciences pour développer son leadership
Formation M2i - Comprendre les neurosciences pour développer son leadership
 
Saint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptxSaint Georges, martyr, et la lègend du dragon.pptx
Saint Georges, martyr, et la lègend du dragon.pptx
 
7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx7 PPT sue le project de fin d'étude.pptx
7 PPT sue le project de fin d'étude.pptx
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
Présentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptxPrésentation_ Didactique 1_SVT (S4) complet.pptx
Présentation_ Didactique 1_SVT (S4) complet.pptx
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
Evaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. MarocpptxEvaluation du systeme d'Education. Marocpptx
Evaluation du systeme d'Education. Marocpptx
 

TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

  • 1. TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE Présentée et soutenue publiquement le 10/03/2017 par : Achraf Othman Dirigée par : Prof. Mohamed JEMNI Jury: Président: Prof. Faiez GARGOURI Rapporteur: Prof. Mounir ZRIGUI Rapporteur: Prof. Chiraz LATIRI Examinateur: Prof. Kais HADDAR THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE 10/03/2017
  • 2. 10/03/2017 2 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 3. 10/03/2017 3 • Projet WebSign du laboratoire de recherche LaTICE : mettre en œuvre un outil de communication pour les malentendants à travers le web, en utilisant un personnage virtuel 3D • Langue des signes  communauté des personnes sourdes • Interprétation et accès à l’information • Le Traitement automatique du langage naturel (TALN) • Le traitement automatique des langues de signes (TALS) • Traduction automatique vers et à partir des LS Introduction www.latice.rnu.tn/websign
  • 4. 10/03/2017 4 • Le travail effectué s’articule autour de 4 axes : Introduction (suite…) 1. L’étude des spécificités de la traduction de la langue des signes transcrite manuellement ou bien automatiquement ; 2. Le développement d’un système de transcription ; 3. La génération d’un corpus parallèle artificiel en utilisant des approches linguistiques. 4. La traduction automatique en utilisant une approche statistique.
  • 5. 10/03/2017 5 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 6. 10/03/2017 6 • Langue des signes  Langue naturelle • Système de communication : – Flexible – Transmission • Composition : – Configuration – Emplacement – Orientation – Mouvement – Expression du visage Etat de l’art La langue des signes (LS)
  • 7. 10/03/2017 7 • L’universalité • Les langues vocales • L’iconicité • Les standards d’écriture: – Notation – Annotation Etat de l’art Les langues de signes (suite…)
  • 8. 10/03/2017 8 • Forme écrite des LS: – Utilisation – Accès à l’information et au contenu multimédia • Spécificités : – Mots et phrases ; – Configuration des deux mains – Gestes non-manuels – Iconicité – Possibilités descriptives Etat de l’art Systèmes de transcription des langues des signes ASL Lexicon Video Dataset ASLLVD
  • 9. 10/03/2017 9 1. Système de notation de "Stokoe" 2. Système de notation "SignWriting" 3. Système de notation "HamNoSys" 4. Système de notation "SiGML" 5. Système de notation "SML" 6. Système de notation "Gloss" Etat de l’art Les systèmes de notation
  • 10. 10/03/2017 10 • Etiquettes en majuscules • Une glose = Un signe en ASL • Exemple : Etat de l’art Système de notation "Gloss" "What is your name ?" "NAME YOU WHATWH"
  • 11. 10/03/2017 11 • Nécessité • Spécification à un domaine particulier  Traitement automatique des LS : – Traduction – Visualisation • Gestes manuels • Gestion non-manuels Etat de l’art Systèmes de transcription: Problématiques
  • 12. 10/03/2017 12 • Collection de données  TALS • Projets nationaux ou internationaux • Caractéristiques – Objectifs – Taux des données – Politique d'accessibilité – Nombre des participants – Système de transcription – Outils d'annotation – Les mouvements et les postules – La qualité des vidéos enregistrées Etat de l’art Les ressources linguistiques
  • 13. 10/03/2017 13 • Ressources pour chaque LS • Corpus vidéo  Outil d’annotation • Définir les structures lexicales, syntaxiques, morphologiques etc. • Dictionnaires • Les problématiques qu'on peut extraire : –  Absence d'une grande base de données textuelle pour le TALS –  Spécification à un domaine –  Coût Etat de l’art Les ressources linguistiques : Problématiques
  • 14. 10/03/2017 14 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 15. 10/03/2017 15 • Le TALS : la traduction automatique, la synthèse 3D, la modélisation, la génération de discours automatique etc… • La synthèse des langues des signes : – basée sur la vidéo – l’animation de personnages de synthèse ou agent conversationnel • Plusieurs travaux sur le TALS: – WebSign du laboratoire LaTICE – VisiCast – eSIGN – TESSA – Vcom3D Traitement automatique des LS : TALS
  • 16. 10/03/2017 16 Traitement automatique des langues des signes Aperçu •  Plusieurs approches •  Absence d’une métrique de mesure de la qualité de traduction •  Efficacité des systèmes d’annotation •  Evaluation.
  • 17. 10/03/2017 17 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 18. 10/03/2017 18 • Le système de transcription : Les conventions de Liddell. • Représentation en gloses. • Gestes non-manuels. Modélisation d’un système de transcription en XML pour l’ASL La représentation en XML "His aunt lived in Turkey. There had no contact with the aunt. She died and left something to him in her will”
  • 19. 10/03/2017 19 • Soit la phrase en anglais suivante "I don't like chocolate". Modélisation d’un système de transcription en XML pour l’ASL API de création de XML-Gloss : Exemple
  • 20. 10/03/2017 20 •  Aspect sémantique entre les signes •  La mise en scène •  La géométrie spatiale. Modélisation d’un système de transcription en XML pour l’ASL Discussions
  • 21. 10/03/2017 21 • Taux de précision = 97% • Les étapes d'évaluation : – Préparation de la liste des phrases en Anglais avec leurs transcriptions correspondantes. – Pour chaque phrase, on suit une liste d'instructions pour générer le XML-Gloss. – Rendu final en utilisant les feuilles de style XSLT. – Comparer la transcription avec la transcription générée. Si le rendu est identique, on valide la phrase et sa transcription Modélisation d’un système de transcription en XML pour l’ASL API de création de XML-Gloss : Evaluation
  • 22. 10/03/2017 22 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 23. 10/03/2017 23 • Approche • 52 relations de dépendances grammaticales • Taux de précision proche de 100% et un rappel (recall) proche de 90% •  Notre approche : – Traitement automatique du texte donné en entrée et le représenter sous forme d'un graphe sémantique – Génération automatique de la transcription XML-Gloss Génération de discours en ASL à partir des règles de dépendances Motivations et Contributions
  • 24. 10/03/2017 24 • Noyau verbal • Classificateurs • Le temps • Types de phrases: – les questions de type "yes/no" – les questions de type "wh" – les phrases négatives – Coordinations et subordination – Emotions Génération de discours en ASL à partir des règles de dépendances Motivations et Contributions (suite…) "I ASK YOU ‘YOU ASK ME’. BOOK:flat BOOK:thick "John doesn't buy the house"
  • 25. 10/03/2017 25 • Les approches existantes : – l’approche directe (approche de première génération) – les approches de deuxième génération : • la méthode de transfert • la méthode interlingua • La méthode de la traduction par transfert  la traduction automatique de l‘Anglais vers l’ASL Génération de discours en ASL à partir des règles de dépendances Approche proposée
  • 26. 10/03/2017 26 Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé Identification de langues Analyse syntaxique  Arbre syntaxique Analyseur de dépendances Matrice d’adjacence Lemmatisation et mise en forme Reconnaissance des entités nommées Corpus textuel Règles de segmentation Modèle d’étiquetage Grammaire de chunk Grammaire de dépendances Règles de transferts Etiquetage des catégories grammaticales Découpage en phrases et en mots Résolution de coréférence Génération d’une transcription XML-Gloss Texte brut Transcription en XML-Gloss
  • 27. 10/03/2017 27 • Prétraitement et analyse lexicale • Analyse grammaticale (96,72% / 84%) • Analyse de dépendances Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) NNP("kate",NNP) → kate VBD("gave",VBD) → gave NN("chocolate",NN)→ chocolate IN("for",IN) → for DT("each",DT) → each NN("boy",NN) → boy SYM(",",SYM) → , NN("yesterday",NN)→ yesterday SYM(".",SYM) → . Kate gave chocolate for each boy .yesterday,
  • 28. 10/03/2017 28 • Matrice d’adjacence Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) Graphe de dépendance de la phrase "Kate gave chocolate for each boy, yesterday" 28 19 40 50 49 18
  • 29. 10/03/2017 29 • Génération de l'énoncé en ASL : temps → sujet → verbe → objet → complément d'objet • Matrice d’adjacence : tmod → nsubj → root → dobj → prep_for • Sous-composantes : tmod → nsubj → root → dobj → prep_for+det Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) "yesterday kate{t} gave chocolate each-boy"
  • 30. 10/03/2017 30 • Lemmatisation et mise en forme • Post-processing – Reconnaissance des entités nommées – Résolution des coréférences – Génération de la transcription XML-Gloss • Rendu final Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) "YESTERDAY KATE{t} GIVE CHOCOLATE EACH-BOY"
  • 31. 10/03/2017 31 • Nombre de phrases ! • Evaluation des règles de transfert entre les deux langues (Anglais et ASL) règle de transfert ( ⇒ ) par : "tmod + nsubj + root + dobj + prep_for-det" ⇒ "T + S + V + O + CO" • 820 règles de transfert • Taux de précision 82% pour 6720 phrases Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé : Evaluation é = ( ) ( ) ×
  • 32. 10/03/2017 32 Génération de discours en ASL à partir des règles de dépendances Génération d'un corpus parallèle Anglais-ASL Statistiques des données extraites à partir du corpus Gutenberg Nombre de mots Nombre de phrases Corpus Anglais 1 595 579 658 79 611 533 Anglais A.S.L # Phrases # Jetons # Phrases # Jetons Corpus pour apprentissage Corpus pour raffinement Corpus pour évaluation 79907 26636 13317 669045 223522 111658 79907 26636 13317 370030 123816 61773
  • 33. 10/03/2017 33 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 34. 10/03/2017 34 • Limites: – Non-Bijectivité – Evaluation manuelle. • Les modèles statistiques (les modèles IBM) • Alignement des mots et phrases (PBMT) Architecture du système de traduction automatique Recherche d’une traduction possible post-traitement pré-traitement Modèle lexical Modèle d’alignement Modèle de langage Texte en anglais Transcription en ASL Texte en anglais Transcription en ASL
  • 35. 10/03/2017 35 • Modèle probabiliste de Brown et al. : | • Une traduction possible de = max de la probabilité | : • Deux composantes : – un modèle de traduction p T|P – un modèle de langage p(T) •  Mémoires de traduction Architecture du système de traduction automatique Principes de la traduction automatique statistique = max ( | ) = max ( | ) ( )
  • 36. 10/03/2017 36 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Génération d’une mémoire de traduction lexicale Traduction de 'REVIEW' Nombre d'occurrences Probabilité d'alignement reviewed 1 1.0000000 reviews 3 0.6666667 review 9 0.4000000 for 7216 0.0001840 - 0.0001261 of 10854 0.0001064 the 32608 0.0000326 : → ∑ = 1 et ∀ : 0 ≤ ≤ 1 = 1.0000000 0.6666667 0.4000000 0.0001840 0.0001261 0.0001064 0.0000326 si e=′reviewed′ si e=′reviews′ si e=′review′ si e=′for′ si e=∅ si e=′of′ si e=′the′
  • 37. 10/03/2017 37 • Modèle IBM-1 • La probabilité de traduction d’une phrase source : • Exemple : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement : Modèle d’alignement IBM 1 , | = + |
  • 38. 10/03/2017 38 • T-tables : • Exemple : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement Diagramme d'alignement de la phrase 'YOU BLUE CAR' en ASL
  • 39. 10/03/2017 39 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Apprentissage des modèles de traductions lexicales • Alignement à partir d’une grande quantité de données. • Problème de données incomplètes ! • L’algorithme EM : i. Initialiser le modèle avec une distribution probabiliste uniforme. ii. Appliquer le modèle sur les données existantes (Espérance). iii. Apprendre le modèle à partir des données (Maximisation). iv. Itérer les étapes 2 et 3 jusqu’à la convergence (généralement vers 1). • Les probabilités de traductions lexicales et de la Théorème de dérivation des fonctions :
  • 40. 10/03/2017 40 0 1 2 3 4 5 6 7 10 15 20 YOU car 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315 YOU name 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000 YOU my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 YOU your 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000 NAME your 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000 NAME car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 NAME my 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315 NAME name 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000 PRO-1st name 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000 PRO-1st car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 PRO-1st your 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 PRO-1st my 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685 CAR my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 CAR your 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000 CAR name 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 CAR car 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Application de l’algorithme EM sur le modèle IBM 1
  • 41. 10/03/2017 41 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Application de l’algorithme EM sur le modèle IBM 1
  • 42. 10/03/2017 42 • Similarité des chaînes de caractères. • La distance de Jaro-Winkler : • distribution probabiliste d'une traduction lexicale : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Optimisation à base des chaînes de caractères similaires = + ℓ 1 − = 1 3 + + − = ⋅ + ⋅ ,
  • 43. 10/03/2017 43 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Optimisation à base des chaînes de caractères similaires
  • 44. 10/03/2017 44 • Modèles IBM : – Modèle IBM 2: il supporte la traduction lexicale du modèle IBM 1 et rajoute un nouveau paramètre dans l’équation de l’alignement a(i|j,l_f,l_e ). – Modèle IBM 3: il supporte toute les caractéristiques du modèle IBM 2 et rajoute un modèle de richesse n(∅,f). – Modèle IBM 4: En plus du modèle IBM 3, ce modèle supporte le modèle probabiliste de la distorsion lors de la traduction. Il formalise l’ajout d’un NULL. – Modèle IBM 5: Ce modèle est le plus avancé, il permet de calculer la défaillance de la traduction lors de la phase de l’apprentissage. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Modèles d’alignements
  • 45. 10/03/2017 45 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Modèles d’alignements what is your DESC-YOURTEACHER NAME 1 2 3 23 4 teacher 4 ‘s name 5 6 ? 7 ‘HUH’ ? 5 6 NULL HEY 1 your teacher name ?? your teacher name ?? HEY DESC-YOUR TEACHER NAME ?‘HUH’ Etape de Richesse Insertion du jeton NULL Traduction lexicale Alignement
  • 46. 10/03/2017 46 • Alignement des phrases : Construction d'une mémoire de traductions lexicales "Anglais-ASL"  YOU SEE | you see  the new clothing store | NEW CLOTHES STORE  put in | PUT IN
  • 47. 10/03/2017 47 • Formulation : • La formulation est identique à celle du modèle IBM (alignement mot-à-mot), pour l'alignement à segments, on décompose ( | ) en : – est la phrase cible (la traduction). – est la langue source. – ( ) est le modèle du langage de la langue cible. •  Efficacité. •  Traduction proche de la traduction humaine. •  Aussi, la traduction à partir des segments nous permet de résoudre les problèmes d'ambigüités. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement à base de segments (suite…) | = ∅ | − −
  • 48. 10/03/2017 48 • Le décodage : recherche des hypothèses t ayant les plus grandes probabilités suivant le modèle de traduction ( | ). • Le modèle ( | ) est une combinaison log-linéaire de quatre composants : – un ou plusieurs modèles trigramme de la langue cible, – un ou plusieurs modèles de traduction basés sur les segments – un modèle de distorsion – et un modèle de longueur qui rend compte des différences de longueur entre les deux langues. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Décodage = ∅ | − −
  • 49. 10/03/2017 49 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Décodage : Exemple YOU WHATNAME name . ‘s name . ‘s name name you you . your you are what what is what he says what he ‘s names named name ? you are you you ? , you what are you what you say you what you tell you what what i what you what is the YOU WHATNAME -0.563 -0.564 -0.566 -0.566 -0.229 -0.422 -0.433 -0.550 -0.387 -0.572 -0.653 -0.679 -0.766 -0.805 -0.931 -1.076 -0.588 -0.666 -0.669 -0.644 -0.650 -0.791 -0.898 -0.695 -0.695 -0.728
  • 50. 10/03/2017 50 • Taux d’Erreur de l’Alignement ‘Alignment Error Rate AER)’ : • La mesure de précision : • Le rappel : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Evaluation , ; = ∩ + ∩ +
  • 51. 10/03/2017 51 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 52. 10/03/2017 52 • Implémentation du traducteur automatique statistique basé sur une approche sous-phrastique. • Moses • GIZA++ : implémente les algorithmes des modèles IBM 1-5. • SRI-LM : implémente les algorithmes de génération des modèles de langage (n- gram). Expérimentations et évaluation www.statmt.org/moses
  • 53. 10/03/2017 53 • BLEU (BiLangual Evaluation Understudy en anglais) : algorithme pour l'évaluation de la qualité d'un texte traduit par un traducteur automatique. La qualité est déterminée à partir de la traduction générée automatiquement et sa référence traduite par un être humain. • Corpus : Expérimentations et évaluation (suite…) Nombre de mots Nombre de phrases Corpus Anglais
  • 54. 10/03/2017 54 Variation du score BLEU selon la taille du corpus d'évaluation Expérimentations et évaluation (suite…)
  • 55. 10/03/2017 55 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  • 56. 10/03/2017 56 • La traduction automatique vers l’ASL : Accessibilité aux contenus numériques • Contributions : – Systèmes de transcription – Génération des corpus artificiels à partir des graphes de dépendances grammaticales. – Apprentissage automatique. – Modèles d’alignement IBM – Décodage Conclusion et perspectives
  • 57. 10/03/2017 57 • Optimisation et intégration d’autres algorithmes d’apprentissage • Comparaison à d’autres approches de traduction • Langues des signes Arabes , Langues des signes Françaises etc… Conclusion et perspectives
  • 58. 10/03/2017 58 1. Achraf Othman, Mohamed Jemni. “A Novel Approach for Translating English Statements to American Sign Language Gloss”. 14thICCHP 2014, Paris, France, July 9-11, 2014, Proceedings, Part II. LNCS 8548, Springer 2014, ISBN 978- 3-319-08598-2, pp 431-438. 2. Mohamed Jemni, Sameer Semreen, Achraf Othman, Zouhour Tmar, Nadia Aouiti. “Toward the creation of an Arab Gloss for arabic Sign Language annotation”. 4th ICTA13, October 21-23, 2013, Hammamet, Tunisia. 3. Achraf Othman, Raouia Hamdoun. “Toward a new transcription model in XML for Sign Language Processing based on gloss annotation system”. 4th ICTA13, October 21-23, 2013, Hammamet, Tunisia. 4. Zouhour Tmar, Achraf Othman, Mohamed Jemni. “A Rule- Based Approach for Building an Artificial English-ASL Corpus”. International Conference on Electrical Engineering and Software Applications ICEESA, March 21- 23, 2013, Hammamet, Tunisia. 5. Achraf Othman, Mohamed Jemni. “A probabilistic model for Sign Language Translation Memory”. The 1st International Symposium on Intelligent Informatics, ISI’12, August, Chennai, India, 4-5, 2012. 6. Achraf Othman, Zouhour Tmar, Mohamed Jemni. “Toward developing a very big Sign Language Parallel Corpus”. The 13th ICCHP, Lecture Note in Computer Science LNCS Springer, July 11-13, 2012, University of Linz, Austria. 7. Achraf Othman, Mohamed Jemni. “English-ASL Gloss Parallel Corpus 2012: ASLG-PC12”. LREC 2012, 5th Workshop on the Representation and Processing of Sign Languages: Interactions between Corpus and Lexicon, May 51-27, 2012, Istanbul Turkey. 8. Achraf Othman, Mohamed Jemni, “La traduction automatique à base de statistiques au service de la langue des signes”. 4ème édition du colloque INFOL@NGUES 2012, April 5-7, 2012, Béjà, Tunisia. 9. Achraf Othman, Mohamed Jemni. “Statistical Sign Language Machine Translation: from English written text to American Sign Language Gloss”. International Journal of Computer Science Issues, Vol 8, Issue 5, September 30, 2011. Publications
  • 59. Merci pour votre attention 10/03/2017