SlideShare une entreprise Scribd logo
Apprentissage des langues
1
Verdenet Valérie
Othman Dhiffallah
M2 IDL
TAL et apprentissage des langues
Enrichissement
De la base
Games of words
Sommaire
I. Besoin :...........................................................................................................................................3
II. Enjeu du programme......................................................................................................................3
III. L’existant ....................................................................................................................................4
A. Les outils à la disposition des apprenants ..................................................................................4
B. Limites de l’existant :..................................................................................................................6
1. Différents outils connus..........................................................................................................6
2. Notre application....................................................................................................................6
IV. Les solutions envisagées.............................................................................................................8
V. Difficultés .......................................................................................................................................8
VI. Intérêt du TAL dans notre projet ................................................................................................9
A. Les ressources lexicales ..............................................................................................................9
1. Wordnet .................................................................................................................................9
2. Diko ......................................................................................................................................10
3. Leur utilité ............................................................................................................................11
VII. Application ...............................................................................................................................13
A. Stratégie de programmation ....................................................................................................13
1. Définition générale,..............................................................................................................13
2. Les différentes possibilités ...................................................................................................13
3. Notre choix...........................................................................................................................14
4. Qu’est-ce qu’une bonne carte tabou ?.................................................................................15
5. Qu’est-ce qu’un bon mot interdit ? ......................................................................................15
6. Qu’est-ce qu’un mot qui nous vient facilement à l’esprit ?..................................................15
7. Questions supplémentaires à se poser :...............................................................................17
B. L’algorithme idéale envisagée pour un apprenant A1-A2 ........................................................17
VIII. Conclusion : Bilan sur notre réalisation et perspectives...........................................................18
A. Notre réalisation.......................................................................................................................18
B. Perspectives .............................................................................................................................18
Apprentissage des langues
3
I. Besoin :
Sur le jeu « Game of Words », permettre la génération automatique de nouvelles cartes à partir de
ressources sémantiques.
II. Enjeu du programme
Ce jeu repose sur le principe du jeu du « Tabou » : faire deviner un mot sans utiliser une liste de mots
prédéfinie. Le but de « Game of Words » étant de favoriser la production et la compréhension orale.
Le nombre de mots interdits peut varier en fonction du niveau de l’apprenant.
L’interaction se passe de manière asynchrone :
- Un locuteur, nommé Oracle, s’enregistre entrain de définir le terme sans utiliser ceux qui lui
sont interdits
o 1 pour le niveau débutant
o 3 pour le niveau intermédiaire
o 6 pour le niveau expérimenté.
- Un locuteur, nommé Devin, qui écoutera la description et devra deviner en tapant ses
proposition dans un formulaire.
- On peut être soit l’un soit l’autre.
- Un autre rôle existe, Druide, qui permet à l’utilisateur de créer ses propres cartes. Il a
également une fonction d’arbitrage. Sans lui, on ne peut savoir si l’Oracle n’a pas prononcé
un des mots interdits ou celui à faire deviner.
Avec ces trois possibilités, on offre aux apprenants d’accroître leurs compétences
communicationnelles de manière ludique et en autonomie. Via la fonction Oracle, ils pourront
s’entraîner à l’oral sans passer par des textes appris et des dialogues artificiels. Ils pourront
approcher un peu plus une communication orale plus spontanée qui permettrait de véritables
échanges avec des natifs. En effet, les non natifs sont souvent gênés par certaines locutions qui
nécessitent un bagage culturel. Permettre d’avoir une élocution et une compréhension plus fluide
aiderait à approcher cet aspect de la langue. Le problème est que les apprenants d’une langue ne
font pas forcément dans le but de communiquer avec des natifs :
« Already many people who learn English do so with little or no intention of conversing with its native
users »
De plus, il devient nécessaire de maîtriser une langue étrangère pour être intégré au sein des
entreprises. Dans le cas de l’anglais, les entreprises britanniques se trouvent confrontées à ce
problème pour exporter. On prédit que d’ici quelques années, les compétences en anglais ne seront
plus un facteur de compétitivité dans les pays non anglophones.
« Moreover, there is a chance that a command of English will within twenty or thirty years be
regarded as a basic skill for business, and native speakers of the language will no longer enjoy any
competitive advantage ».
Apprentissage des langues
4
Il devient donc essentiel de pouvoir développer d’avantages de compétences linguistiques, autres
que l’anglais des affaires1
.
Cette application fait partie du projet Innovalangues2
dont le but est de « doter les institutions
d’enseignements supérieures de moyens fédérant et amplifiant les actions de formations en langues
destinées à porter le degré de maîtrise en langues des publics à un niveau B2 certifié ». L’apprenant
doit pouvoir acquérir un certain niveau d’aisance dans la langue étrangère. Développer cette
application s’inscrit dans l’objectif d’innovation en termes de pédagogie, pour s’adapter aux
différentes techniques d’apprentissages.
III. L’existant
A. Les outils à la disposition des apprenants
Nous pouvons observer qu’un apprenant a déjà la possibilité d’utiliser l’informatique pour progresser
en langue. Voici une liste non exhaustive de ce que nous pouvons trouver.
- Anglais facile http://www.anglaisfacile.com/
o Propose des cours en ligne
o Des petits exercices basés sur un système de questions-réponses
o Pas d’explications sur les erreurs
o Possibilité de créer des tests
 Demande l’intervention des utilisateurs pour enrichir la base de données
o Existe dans d’autres langues
- http://www.didieraccord.com/exercices/index.php?ex=4.3.5
o Cours en lignes
1
http://www.salon.com/2011/11/06/whats_the_language_of_the_future/
2
www.researchgate.net/publication/271852910
Apprentissage des langues
5
o Exercices
o Pas d’explication pour les erreurs
- https://francais.lingolia.com/fr/grammaire/les-temps/le-present/exercices
o Propose des cours thématiques
o Propose des exercices
o Explique les erreurs
o Pas de renouvellement des exercices qui pourrait conduire à la mémorisation des
bonnes réponses plus que des explications.
- Conjugueurs en ligne
o Bescherelle
 Exercices et conjugueurs en ligne
 Les erreurs ne sont pas expliquées. La bonne réponse est simplement
donnée sans redirection possible vers la règle à appliquer. L’apprenant ne
peut pas l’utiliser pour progresser.
 Ce site reste une vitrine commerciale pour diffuser ses ouvrages.
- Dictionnaires en ligne
 Ne proposent pas d’exercices interactifs
- Projet Voltaire
o Site proposant une solution pour améliorer l’expression écrite dans les entreprises
Apprentissage des langues
6
o Le test d’évaluation que les utilisateurs peuvent faire avant de s’inscrire ne propose
pas une explication des erreurs. Il s’agit d’un simple formulaire avec une note.
o Pas de réelle correction sur cette première approche.
B. Limites de l’existant :
1. Différents outils connus
Tous ces sites ont leur utilité et peuvent être un excellent support pour améliorer ses compétences
linguistiques. Cependant, ils n’utilisent pas des ressources du TAL qui pourraient permettre d’enrichir
les bases de données en termes de ressources lexicales et renouveler les exercices pour en proposer
de nouveau et éviter le phénomène du par cœur dans des situations artificielles.
2. Notre application3
Dans ce jeu, la création de cartes reste limitée.
En effet, l’apprenant, selon son niveau, ne dispose pas obligatoirement de toutes les ressources
sémantiques nécessaires. Pour générer ce qu’on peut considérer comme une bonne carte de Tabou ;
c’est à dire une carte qui permettra d’élaborer des stratégies de communication4
. Il pourrait être
intéressant de bénéficier d’une génération automatique des cartes afin de ne pas rester limiter à
quelques mots seulement. Il en va de même pour les enseignants.
A terme la base de données qui contient les cartes à générer risque de s’épuiser. Nous devons
trouver une solution pour proposer une aide pour le renouvellement de cette partie du programme.
Les utilisateurs doivent pouvoir continuellement enrichir la plateforme. Les liens sémantiques qui
permettent d’accéder aux lexiques ne sont pas forcément ceux que nous attendons.
Le programme est lié à la rubrique diko du site jeuxdemots.org pour pouvoir générer des cartes en
fonction de la fréquence d’utilisation des mots. Le site en question est un moyen ludique pour
collecter et hiérarchiser les liens que nous faisons entre les mots. Ils sont classés selon leur lien
sémantique avec les mots recherchés (synonyme, antonyme, hyperonyme, association d’idée…).
Cependant, ce dictionnaire est enrichi par des natifs du français et leur propositions peuvent être liés
avec leur culture. Par exemple pour le mot chien nous retrouvons Milou qui n’est pas forcément
connu par des non-natifs :
3
http://gamer.innovalangues.net/gameofwords
4
Cadre Européen Commun de Référence pour les Langues
Apprentissage des langues
7
- Les races de chiens sont très peu évoquées contrairement à d’autres animaux proches
comme chat.
Nous pouvons constater le même phénomène pour l’anglais :
- Il ne s’agit pas forcément des mêmes associations d’idées en anglais qu’en français. (mot
familiers, diminutif d’un autre mot…). C’est d’ailleurs le problème rencontré dans le cas de la
conception de traducteurs automatiques. Les expressions idiomatiques ne sont pas toujours
bien prises en compte.
o En anglais, les expressions françaises « tartempion » ou « untel » sont traduites par
« John Doe » qui est également le nom d’un personnage de série.
o Quand un locuteur non natif de l’anglais se retrouve confronté à ce mot, il ne
pensera pas obligatoirement à « Tartempion » ou l’équivalent dans sa langue
maternelle. Il y a un risque que cela lui évoque la série éponyme.
Dans le programme nous devons tenir compte de ces différents éléments qui sont liés à la culture de
la langue, au contexte de communication et aux besoins des apprenants.
De plus la génération automatique telle qu’elle est conçue peut donner des réponses énigmatiques, y
compris pour un locuteur natif du français.
Nous pouvons le constater dans cet exemple de génération automatique
Le mot à trouver a été choisi de manière aléatoire en utilisant les identifiants numériques attribués à
chaque mot du diko. Avec la commande mt_rand(0, 100000) qui est une fonciton mathématique qui
Apprentissage des langues
8
permet de choisir au hasard un nombre. Seulement, l’apprenant peut se retrouver avec des mots
dont il n’aura pas nécessairement l’utilité et qu’il pourra difficilement définir, comme dans l’exemple
ci-dessus, à moins qu’il ne suive une formation spécialisée en zoologie le soit déjà dans sa propre
langue.
IV. Les solutions envisagées
Nous pouvons déjà envisager différentes possibilités :
- La redirection vers des dictionnaires en ligne où il existe une forme de hiérarchisation avec
un guide d’utilisation
o Le risque est de perdre l’utilisateur dans toute la documentation et de le démotiver
dans son acte langagier.
- La mise en place un programme qui fait des suggestions par rapport à ces ressources en
ligne.
o l’utilisateur serait guider et un premier tri serait fait dans ses options pour choisir les
mots tabous adéquats.
V. Difficultés
Le problème vient de la gestion des ressources sémantiques à disposition. Elles sont variées selon les
langues. Il n’y a pas non plus les mêmes nuances d’une langue l’autre, voire d’un pays à l’autre d’une
même langue.
- Exemple quatre-vingt en français de France et octante ou huitante en français de Suisse
selon la région.
Nous devons nous poser la question du choix à faire en ce qui concerne la prise en compte des
variantes linguistiques. Il faudra se demander si nous nous basons sur la norme du pays « source »
(France pour français, Grande Bretagne pour l’anglais…), sachant que certains vocabulaires sont plus
présents (est-ce que l’anglais US et plus populaire que l’anglais UK?). En général, les enseignants font
des choix selon des critères qu’ils doivent pouvoir justifier et qui répond à une logique
d’apprentissage. Nous devrons aussi le faire appliquer à la machine. Dans un premier temps nous
partirons du postulat que les équivalences régionales ne sont pas majoritaires, que les ressources
dont nous disposons sont suffisamment complètes et nous utiliserons un système en rapport à la
fréquence d’utilisation des mots. Nous envisagerons la possibilité aux utilisateurs les plus avancés de
proposer leurs propres mots tabous.
L’idéal serait d’utiliser wordnet qui commence à créer des ressources autres qu’en anglais (arabe),
mais seule la version anglaise est consultable en ligne, les autres doivent être téléchargées et
certaines sous conditions. IL faudra toujours être en veille de mise à jour de la base qu’il faudra
régulièrement re-télécharger, contrairement à une ressource en ligne, pour pouvoir générer de
nouvelles cartes.
Apprentissage des langues
9
VI. Intérêt du TAL dans notre projet
Notre tâche sera de déterminer quelles ressources utiliser, dans quel but et comment. Nous
envisagerons la meilleure manière d’utiliser le TAL pour automatiser la plupart des tâches et fournir
le meilleur confort d’apprentissage.
A. Les ressources lexicales
1. Wordnet
Même si dans un premier temps nous nous focaliserons sur le français, il est intéressant d’étudier les
ressources dont nous disposons en anglais, d’autant plus que le projet de wornet semble de s’élargir
à d’autres langue.
c’est une base de données lexicale créée manuellement par des linguistes dans le but d’accéder à des
ressources sémantiques. L’utilisateur à la possibilité de sélectionner la manière dont les entrées
seront affichées, (fréquence d’utilisation…). Cela permet d’avoir une vue d’ensemble pour pouvoir
étudier les liens sémantiques et de les classer selon leur utilisation.
L’organisation repose sur les « synset » (synonym set)5
: Il y a autant d’entrées lexicales qu’il y a de
mots. Ce système s’utilise comme une ontologie grâce aux relations sémantique existantes.
Exemple : sens le plus commun du mot « car » dans une relation d’hyperonymie
5
https://fr.wikipedia.org/wiki/WordNet
Illustration 1: code de l'interface wordnet pour le classement des relations
sémantiques
Apprentissage des langues
10
Dans cet exemple, le dernier concept, « entité, quelque chose », est le plus général, le plus abstrait. Il
pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés
Wordnet existe dans d’autres langues. En ce qui concerne le français, il s’agit d’une traduction
automatique de Wordnet 3 et fait l’objet d’une validation manuelle partielle. Nous pouvons nous
interroger sur la fiabilité de cette version.
En ce qui concerne les autres langues, il s’agit de produits payants.
2. Diko
Utilise la coopération des utilisateurs à travers un jeu d’associations d’idées autour d’un mot
proposé. Dans l’application en ligne jeudemots.org
1proposition d'un mot
Apprentissage des langues
11
2mise en place des résultats avec un système de points pour encourager les utilisateurs à
jouer
3 classement dans le diko en fonction de la relation sémantique et de la fréquence
d'utilisation
4 exemple avec les associations d'idées
On peut observer que les termes sont classés pas importance d’utilisation et que plus le mot est
fréquent, plus la taille de la police de caractère est grande.
3. Leur utilité
Ces ressources sont prévues, dans notre cas, pour permettre d’enrichir les bases de données
d’applications comme celles de « game of word ». Les développeurs peuvent créer des liens vers ces
plateformes tout dépendra de la manière dont ils prévoient l’utilisation du logiciel.
Le but initial du projet est de ne pas faire de distinctions entre les stauts (enseignants, apprenants)
pour conserver le caractère informel du jeu. Néanmoins cette différence existe et nous devons en
tenir compte pour adapter les aides en fonction des niveaux et des objectifs propres à chacun. Nous
pourrions envisager, dans notre application, de donner des accès à la génération de cartes selon le
Apprentissage des langues
12
statut et le niveau de langue selon le classement du CECR6
. Plusieurs options sont envisageables. Il
nous appartiendra de les lister afin d’envisager la meilleure solution.
a) Création pour les enseignants
L’aspect lexical n’est pas au centre du projet, il s’agit surtout d’inciter les apprenants à développer
des stratégies communicatives lors des enregistrements. Ils ne pourront ni prononcer le mot à faire
deviner, ni la liste de mots tabous. Il est important que les enseignants connaissent les mots les plus
utilisés pour pouvoir les interdire et rendre les parties plus intéressantes pour les élèves.
Nous partons du principe que l’enseignant maîtrise la langue étrangère qu’il enseigne et que pour lui
il faudra surtout une aide complémentaire à ses enseignements pour le conforter dans ses objectifs.
Nous pourrions lui proposer de simples liens vers des dictionnaires en ligne où il pourrait avoir accès
à l’ensemble du champ lexical du thème abordé.
Il faut tenir compte du fait que les mots ne sont pas obligatoirement associés au vocabulaire attendu.
Exemple :
- En cherchant les termes associés à « chien » dans www.jeuxdemots.org/diko.php on observe
que ceux-ci n’ont pas obligatoirement un lien sémantique7
fort avec le mot à faire deviner.
o Canidé est un hyperonyme. Nous pouvons considérer que le lien est fort car chien
appartient à la race des canidés et ont une racine latine commune.
o Milou (noté en plus gros et donc avec une fréquence plus forte que canidé) est une
association d’idée. Nous pouvons considérer que le lien sémantique est faible car il
fait appelle aux connaissances du locuteurs, plus qu’à la sémantique. Si un français
connaît la référence, il n’est sera pas obligatoirement de même pour un non-natif
Nous ne pourrons donc pas nous contenter de poser des liens thématiques pour cette section. Il
serait judicieux de proposer une manière de relier ses dictionnaires thématiques à un outil d’analyse
statistiques pour travailler en priorité le vocabulaire utilisé le plus souvent.
6
Cadre Européen Commun de Référence
7 Relation mettant en évidence les liens de signification entre les termes ou les classes d'un
langage documentaire. http://www.adbs.fr/relation-semantique-18448.htm?RH=OUTILS_VOC
Apprentissage des langues
13
b) Création pour les apprenants
Les apprenants auront certainement besoin d’être un peu plus aidés que les enseignants. Nous
devrons tenir compte de son niveau de langue selon les normes établies par le CECR pour définir
comment les orienter dans la création des cartes sans que cela soit trop facile ou trop complexe.
Par exemple, devons-nous autoriser un étudiant de niveau A1 (au tout début de l’apprentissage) à
créer une carte et dans quelle mesure ? Ne devons-nous pas laisser plus de liberté à un étudiant de
niveau C1/C2 qui pourrait être proche de celui de l’enseignant et avec une plus grande autonomie
linguistique ?
Tous apprennent les langues étrangères avec des aptitudes et des objectifs différents. Il faudra en
tenir compte puisque le but est accéder à des compétences linguistiques avec une notion de plaisir.
Pour cette partie de la génération de cartes, il faudra prévoir plus que de simples liens vers des
dictionnaires en ligne avec des outils statistiques. Dans l’idéal, il serait opportun de pouvoir importer
directement la liste des mots réellement intéressants à intégrer dans les cartes selon le thème
choisis.
- Un étudiant de niveau A1 veut créer une carte où on fera deviner le mot « banane ».
- Nous estimons qu’il doit être guidé par le programme pour introduire les bons mots interdits.
- Plutôt que d’être orienté vers des dictionnaires, le programme affichera une liste de mots
selon leur ordre d’importance que le créateur de carte devra choisir.
o Cet ordre sera déterminé selon des critères de fréquence et en fonctions des liens
sémantiques les plus utilisés.
- De cette manière, l’apprenant ne fera pas de contre sens et pourra également engranger du
vocabulaire et progresser de cette manière également sans être perdu dans la polysémie.
Nous devrons nous diriger vers ce scénario qui peut être possible grâce au TAL.
VII. Application
A. Stratégie de programmation
1. Définition générale,
Nous devrons prévoir :
- des dictionnaires de références en ligne et un moyen d’y accéder.
- Des manuels d’utilisation pour la création des cartes avec des copies d’écran annotées dans
la langue de l’apprenant pour lui faciliter la tâche.
2. Les différentes possibilités
Pour programmer la génération automatique de cartes différentes possibilités s’offrent à nous :
- Créer une base de données qui reliera des thèmes (pays, voyage, médecine…) à des
dictionnaires spécifiques
Apprentissage des langues
14
o wikipédia, disponible en plusieurs langues, est essentiellement une encyclopédie qui
peut fournir des indications sur les thèmes abordés
o lexilogos est une plate-forme qui réunit différents dictionnaires
 thématiques (commercial, informatique, maritime, médecine, nature,
philosophie et sport)
 de langues
- Utiliser des robots qui récupéreront les bonnes informations pour incrémenter notre base de
données.
- Créer une fonction spécifique à notre programme qui, à partir du thème choisi, analysera les
ressources lexicales en ligne, et permettra de faire les bonnes propositions.
Il existe d’autres solutions à envisager. Les choix seront fait en fonctions des besoins, des
compétences et de l’existant qui peut être soit à récupérer en l’état, soit à améliorer et à adapter à
notre système de traitement.
3. Notre choix
Pour notre programme nous nous concentrerons sur la partie le plus automatisée de notre
application, c’est-à-dire la génération des cartes pour les niveaux A1 et A2. Le but est, quand il tape
un mot à faire deviner, de lancer un robot qui ira récupérer sur le site www.jeuxdemots.org/diko.php
une liste de termes associés.
Pour la mise en place des instructions à donner à notre « robot », nous déterminerons, de manière
générale, les termes à proposer en priorité en tenant compte de différents paramètres :
- Les objectifs des enseignants qui proposeront à leurs étudiants de créer des cartes
o Est-ce qu’ils veulent travailler sur les relations sémantiques (synonymes,
hyperonymes…) ? Dans ce cas-là, il faudra orienter sur ses types de termes
o Est-ce qu’ils veulent travailler sur des thèmes ? Dans ce cas, il faudra orienter vers les
termes associés.
- La dimension culturelle
o Nous n’avons pas tous les mêmes références culturelles.
 Dans l’exemple du chien, nous trouvons dans les termes associés « Milou »,
si cela peut paraître évident pour un français, est-ce que cela le sera pour un
apprenant de langue étrangère ?
 Est-ce que voir ses propositions de mots peut lui faire développer des
stratégies avec ses propres références ? (Bethoveen…)
- Les mots dérivés du mot à faire deviner
o Ils ne doivent pas apparaître dans la lites des mots tabous, puisque par essence, ils
sont interdits.
o On pourra régler ceci, en partie, par une expression régulière
Apprentissage des langues
15
Dans tous les cas, le plus judicieux est d’utiliser l’outil statistique du « diko » pour éviter à l’apprenant
de se retrouver avec des mots dont il n’aura que rarement l’utilité comme « anatidaephobie8
». Peut-
être, dans les évolutions futures, pourrons-nous envisager un lexique associés aux mots proposés
pour la génération de cartes.
Avant d’aller plus loin dans la programmation, nous devons nous poser quelques questions qui
dérivent les unes des autres.
4. Qu’est-ce qu’une bonne carte tabou ?
Afin de déterminer comment construire notre crawler, nous devons déterminer ce qui forme une
bonne carte tabou.
Elle est composée de :
• 1 mot à faire deviner : nous devrons nous poser la question du doublon. Peut-on faire
deviner le même mot deux fois ?
• Le refuser pour les niveaux A1 et A2
• Solution à explorer pour les autres niveaux
• Entre 1 et 6 mots interdits selon le niveau.
• La carte devra être générée automatiquement avec 6 mots
5. Qu’est-ce qu’un bon mot interdit ?
• Il est différent du mot à trouver
• Ce n’est pas un mot dérivé du mot interdit (ils le sont automatiquement)
• C’est un mot qui devrait nous venir facilement à l’esprit pour nous obliger à chercher
d’autres manières de faire deviner le mot et développer des stratégies de communication.
6. Qu’est-ce qu’un mot qui nous vient facilement à l’esprit ?
• Il a une relation particulière avec le mot à faire deviner (association d’idée, synonyme,
antonyme…)
• Une forte fréquence d’apparition.
• Il est en relation avec le milieu de l’apprenant.
Pour déterminer quel type de relation privilégier, nous avons mené une petite enquête auprès de 3
personnes d’âges et de catégories sociaux professionnelles différentes(CSP). Nous leur avons donné
10 mots. Pour chaque mot, elles ont dû nous donner les 10 premiers qui leur venaient à l’esprit.
Selon, leur âge, CSP ou culture, elles nous ont énumérés des termes plus ou moins spécifiques.
8
Gary Larson est un auteur de dessins humoristiques et de bande dessinée américain, né le 14 ...
L'anatidaephobie, maladie de son invention, est « la peur que quelque part, d'une façon ou d'une
autre, un canard (un anatidé) vous observe. (source wikipédia)
Apprentissage des langues
16
a) Constat général
total asso d'idée total autres relation
chien 73% 27%
Grenoble 55% 27%
chaise 55% 36%
gâteau 46% 54%
ordinateur 38% 62%
shampoing 80% 20%
sport 70% 30%
permis 95% 5%
café 64% 36%
nez 38% 62%
moyenne
des
réponses 61% 36%
b) Constat plus spécifique
(1) Moyenne des résultats
Enquêté 1 Enquêté 2 Enquêté 3
Age 31 70 23
CSP Animatrice périscolaire Puéricultrice retraitée Etudiant étranger
Niveau de français Langue maternelle Langue maternelle Langue étrangère
Relation sémantique
prédominante
56% association
d’idées
55% association
d’idées
70% association
d’idées
(2) Moyenne par mot
asso autre asso autre asso autre
chien 63% 38% 89% 11% 60% 40%
grenoble 50% 30% 80% 20% 60% 40%
chaise 50% 50% 25% 75% 100% 0%
gateau 40% 60% 33% 67% 80% 20%
ordinateur 15% 85% 50% 50% 64% 36%
shampoing 75% 25% 100% 0% 67% 40%
sport 73% 27% 0% 0% 60% 40%
permis 100% 0% 67% 33% 100% 0%
café 55% 45% 75% 25% 70% 30%
nez 38% 62% 33% 67% 40% 60%
moyenne
des
réponses 56% 42% 55% 35% 70% 31%
Apprentissage des langues
17
Nous pouvons constater que les résultats varient en fonction du milieu lequel évolue la personne et
son âge d’un mot à l’autre. Nous avons choisi de nous référer au score des étudiants étrangers,
public qui nous intéresse.
7. Questions supplémentaires à se poser :
La hiérarchisation des mots proposés :
• Est-ce qu’on les place du plus fort au moins fort ?
• Est-ce qu’on les place de manière aléatoire ?
Est-ce qu’on accepte les verbes conjugués ? Cette question conduit aux problèmes des ambiguïtés.
Certains participes passés et présents peuvent être également des adjectifs.
Doit-on renvoyer vers un dictionnaire en ligne pour expliquer les mots proposés ?
Comment pouvons-nous intégrer un correcteur orthographique ?
B. L’algorithme idéale envisagée pour un apprenant A1-A2
L’apprenant valide son mot via un formulaire. Il sera stocké dans une variable.
Nous initialisons un compteur de mots Tabous à 0. Il nous permettra de stocker dans un tableau les
mots tabous.
Ensuite nous l’envoyons vers l’url en format XML de diko9
que nous allons parcourir en effectuant le
tri suivant :
- Classement selon la fréquence d’utilisation par ordre décroissant.
- Suppression des lignes n’ayant aucun rapport avec les relations sémantiques
- Suppression des mots dérivés
Nous faisons une boucle qui lira ligne par ligne et qui s’arrêtera quand nous aurons proposé 10 mots :
- Les mots seront donnés selon si
o Il y a une association d’idée et une autre relation
o Une seule association d’idées
o Il n’y a pas d’association d’idées.
- Le chargement ne fonctionnera pas s’il y a moins de 10 mots.
Une fois ce formulaire de choix créé, l’utilisateur devra en sélectionner 6. Si tout est correct, la carte
sera validée.
9
http://www.jeuxdemots.org/rezo-xml.php?gotermsubmit=Chercher&gotermrel=
Apprentissage des langues
18
VIII. Conclusion : Bilan sur notre réalisation et perspectives
A. Notre réalisation
Avant de réaliser notre programme, nous avons pris le temps d’étudier ce qui avait été élaboré
antérieurement, afin de bien comprendre comment se réalise le système et éventuellement
l’améliorer. Nous avons finalement opté pour la création d’un nouveau crawler plus simple que nous
pourrons faire évoluer au fur et à mesure, d’autant plus que nous n’avions pas accès à la base de
données du jeu.
Nous avons privilégiés un premier robot très restrictif par rapport à notre projet initial. La seule
action possible de l’utilisateur sera de proposer un mot à faire deviner.
Seules les relations sémantiques type associations d’idées sont prises en compte pour le moment. Le
poids des mots semble automatiquement trié, dans le dictionnaire, comme nous pouvons le voir
dans le diko. Cependant, certains mots sont refusés car il y a moins de 10 mots dans les relations
sémantiques. Il n’est pas nécessaire de se préoccuper de supprimer les lignes puisque le fait
d’imposer une relation sémantique dans la condition de sélection nettoie naturellement le fichier. Il
nous manque la base de données à créer et incrémenter. Il s’agit d’une base que nous allons pouvoir
faire évoluer.
B. Perspectives
Les prochaines étapes seront de :
- Proposer l’assemblage association d’idée et autre relation sémantique, ainsi que la possibilité
de prendre toutes les relations sémantiques quand le nombre d’associations d’idées est
insuffisant.
- Prévoir une expression régulière pour qu’il n’y ait pas de dérivé
o Du mot à faire deviner
o Des mots tabous
- Faire évoluer le crawler et le formulaire d’arriver pour pouvoir proposer une liste de mots
plutôt que d’imposer 6 mots d’offices.
- Proposer des solutions pour les apprenants de niveau supérieurs à A2.
o Il s’agira d’utiliser les hypothèses proposées plus haut.
Apprentissage des langues
19
Références
!Apprendre l’anglais:Cours d’anglais,jeux,exercices,grammaire,tests-Enseigner
l’anglais. (s. d.). Consulté 2 janvier 2017, à l’adresse http://www.anglaisfacile.com/
Cadre Européen Commun de Reférence. (s. d.). Consulté à l’adresse
http://www.coe.int/t/dg4/linguistic/Source/Framework_FR.pdf
Cours 3 : sémantique lexicale - coursWordnet.pdf. (s. d.). Consulté à l’adresse http://www-
lipn.univ-paris13.fr/~gayral/CoursMaster/coursWordnet.pdf
Editions Didier - exercices autocorrectifs de FLE - Accord niveau 1 - Dossier 4 - Unité 3.
(s. d.). Consulté 2 janvier 2017, à l’adresse
http://www.didieraccord.com/exercices/index.php?ex=4.3.5
Hitchings, H. (s. d.). What’s the language of the future? Consulté 1 janvier 2017, à
l’adresse http://www.salon.com/2011/11/06/whats_the_language_of_the_future/
Lafourcade, L., Mathieu. (s. d.-a). Diko : Consulté 1 janvier 2017, à l’adresse
http://jeuxdemots.org/diko.php
Lafourcade, L., Mathieu. (s. d.-b). JeuxDeMots : accueil. Consulté 1 janvier 2017, à
l’adresse http://www.jeuxdemots.org/jdm-accueil.php
Lafourcade, L., Mathieu. (s. d.-c). Le Rézo sous forme XML. Consulté 2 janvier 2017, à
l’adresse http://www.jeuxdemots.org/rezo-
xml.php?gotermsubmit=Chercher&gotermrel=
Le Conjugueur | Bescherelle. (s. d.). Consulté 2 janvier 2017, à l’adresse
http://bescherelle.com/le-conjugueur-bescherelle
Le présent – exercices - Lingolia Français. (s. d.). Consulté 2 janvier 2017, à l’adresse
https://francais.lingolia.com/fr/grammaire/les-temps/le-present/exercices
Masperi, M., & Quintin, J.-J. (2014). Enseigner à l’université en France, à l’ère du
numérique : l’apport de dispositifs innovants dans la forma­tion en langues.
Apprentissage des langues
20
Consulté à l’adresse
https://www.researchgate.net/publication/271852910_Enseigner_a_l’universite_en_Fr
ance_a_l’ere_du_numerique_l’apport_de_dispositifs_innovants_dans_la_forma-
tion_en_langues
Projet Voltaire. (s. d.). Consulté 2 janvier 2017, à l’adresse http://www.projet-voltaire.fr/
Game of words. (s. d.). Consulté 1 janvier 2017, à l’adresse
http://gamer.innovalangues.net/gameofwords/
WordNet Search - 3.1. (s. d.). Consulté 1 janvier 2017, à l’adresse
http://wordnetweb.princeton.edu/perl/webwn

Contenu connexe

Similaire à Enrichissement de la base de game of words

LE MULTIMEDIA EN CLASSE DE FLE
LE MULTIMEDIA EN CLASSE DE FLELE MULTIMEDIA EN CLASSE DE FLE
LE MULTIMEDIA EN CLASSE DE FLEHabib SOUMAHORO
 
Guide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissageGuide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissage
Cri - Greta du Velay
 
Guide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissageGuide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissage
Cri - Greta du Velay
 
AIDES PEDAGOGIQUES D Particiapnt.doc
AIDES PEDAGOGIQUES D Particiapnt.docAIDES PEDAGOGIQUES D Particiapnt.doc
AIDES PEDAGOGIQUES D Particiapnt.doc
HananeTounsi2
 
Carnet de route pour élaborer un projet d'échange à distance eTwinning
Carnet de route pour élaborer  un projet d'échange à distance eTwinningCarnet de route pour élaborer  un projet d'échange à distance eTwinning
Carnet de route pour élaborer un projet d'échange à distance eTwinningBen Larbi Wajih
 
Guide des apprentissages informels
Guide des apprentissages informelsGuide des apprentissages informels
Guide des apprentissages informels
Cri - Greta du Velay
 
Apprendre une langue sur le net
Apprendre une langue sur le netApprendre une langue sur le net
Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Jeff Van de Poël
 
Etre pro en anglais
Etre pro en anglaisEtre pro en anglais
Etre pro en anglais
IkramBd1
 
11111111111111111Être pro en anglais.pdf
11111111111111111Être pro en anglais.pdf11111111111111111Être pro en anglais.pdf
11111111111111111Être pro en anglais.pdf
LoubnaAitTalleb
 
Programme des cours d'anglais 2013-2014
Programme des cours d'anglais 2013-2014Programme des cours d'anglais 2013-2014
Programme des cours d'anglais 2013-2014
Dojolinguistique
 
Webcollaboration valence2013springer
Webcollaboration valence2013springerWebcollaboration valence2013springer
Webcollaboration valence2013springer
Claudespringer
 
Formation en alphabétisation
Formation en alphabétisationFormation en alphabétisation
Formation en alphabétisation
adreena
 
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classePrésentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
Martine Paquet
 
Catalogue de formations en langue en immersion
Catalogue de formations en langue en immersionCatalogue de formations en langue en immersion
Catalogue de formations en langue en immersion
You're Welcome Séjours Linguistiques
 
Rapport de stage IV-Version finale
Rapport de stage IV-Version finaleRapport de stage IV-Version finale
Rapport de stage IV-Version finalegubre18
 
Etwin4
Etwin4Etwin4

Similaire à Enrichissement de la base de game of words (20)

LE MULTIMEDIA EN CLASSE DE FLE
LE MULTIMEDIA EN CLASSE DE FLELE MULTIMEDIA EN CLASSE DE FLE
LE MULTIMEDIA EN CLASSE DE FLE
 
Guide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissageGuide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissage
 
Guide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissageGuide d'évaluation des préférences d'apprentissage
Guide d'évaluation des préférences d'apprentissage
 
Baby2011 2tome
Baby2011 2tomeBaby2011 2tome
Baby2011 2tome
 
Madrid
MadridMadrid
Madrid
 
AIDES PEDAGOGIQUES D Particiapnt.doc
AIDES PEDAGOGIQUES D Particiapnt.docAIDES PEDAGOGIQUES D Particiapnt.doc
AIDES PEDAGOGIQUES D Particiapnt.doc
 
Carnet de route pour élaborer un projet d'échange à distance eTwinning
Carnet de route pour élaborer  un projet d'échange à distance eTwinningCarnet de route pour élaborer  un projet d'échange à distance eTwinning
Carnet de route pour élaborer un projet d'échange à distance eTwinning
 
Guide des apprentissages informels
Guide des apprentissages informelsGuide des apprentissages informels
Guide des apprentissages informels
 
Referentiel
ReferentielReferentiel
Referentiel
 
Apprendre une langue sur le net
Apprendre une langue sur le netApprendre une langue sur le net
Apprendre une langue sur le net
 
Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC Formation IFC - Plus-values des TIC
Formation IFC - Plus-values des TIC
 
Etre pro en anglais
Etre pro en anglaisEtre pro en anglais
Etre pro en anglais
 
11111111111111111Être pro en anglais.pdf
11111111111111111Être pro en anglais.pdf11111111111111111Être pro en anglais.pdf
11111111111111111Être pro en anglais.pdf
 
Programme des cours d'anglais 2013-2014
Programme des cours d'anglais 2013-2014Programme des cours d'anglais 2013-2014
Programme des cours d'anglais 2013-2014
 
Webcollaboration valence2013springer
Webcollaboration valence2013springerWebcollaboration valence2013springer
Webcollaboration valence2013springer
 
Formation en alphabétisation
Formation en alphabétisationFormation en alphabétisation
Formation en alphabétisation
 
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classePrésentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
Présentation Webinaire Partie 2: Comment utiliser vizwik en salle de classe
 
Catalogue de formations en langue en immersion
Catalogue de formations en langue en immersionCatalogue de formations en langue en immersion
Catalogue de formations en langue en immersion
 
Rapport de stage IV-Version finale
Rapport de stage IV-Version finaleRapport de stage IV-Version finale
Rapport de stage IV-Version finale
 
Etwin4
Etwin4Etwin4
Etwin4
 

Enrichissement de la base de game of words

  • 1. Apprentissage des langues 1 Verdenet Valérie Othman Dhiffallah M2 IDL TAL et apprentissage des langues Enrichissement De la base Games of words
  • 2. Sommaire I. Besoin :...........................................................................................................................................3 II. Enjeu du programme......................................................................................................................3 III. L’existant ....................................................................................................................................4 A. Les outils à la disposition des apprenants ..................................................................................4 B. Limites de l’existant :..................................................................................................................6 1. Différents outils connus..........................................................................................................6 2. Notre application....................................................................................................................6 IV. Les solutions envisagées.............................................................................................................8 V. Difficultés .......................................................................................................................................8 VI. Intérêt du TAL dans notre projet ................................................................................................9 A. Les ressources lexicales ..............................................................................................................9 1. Wordnet .................................................................................................................................9 2. Diko ......................................................................................................................................10 3. Leur utilité ............................................................................................................................11 VII. Application ...............................................................................................................................13 A. Stratégie de programmation ....................................................................................................13 1. Définition générale,..............................................................................................................13 2. Les différentes possibilités ...................................................................................................13 3. Notre choix...........................................................................................................................14 4. Qu’est-ce qu’une bonne carte tabou ?.................................................................................15 5. Qu’est-ce qu’un bon mot interdit ? ......................................................................................15 6. Qu’est-ce qu’un mot qui nous vient facilement à l’esprit ?..................................................15 7. Questions supplémentaires à se poser :...............................................................................17 B. L’algorithme idéale envisagée pour un apprenant A1-A2 ........................................................17 VIII. Conclusion : Bilan sur notre réalisation et perspectives...........................................................18 A. Notre réalisation.......................................................................................................................18 B. Perspectives .............................................................................................................................18
  • 3. Apprentissage des langues 3 I. Besoin : Sur le jeu « Game of Words », permettre la génération automatique de nouvelles cartes à partir de ressources sémantiques. II. Enjeu du programme Ce jeu repose sur le principe du jeu du « Tabou » : faire deviner un mot sans utiliser une liste de mots prédéfinie. Le but de « Game of Words » étant de favoriser la production et la compréhension orale. Le nombre de mots interdits peut varier en fonction du niveau de l’apprenant. L’interaction se passe de manière asynchrone : - Un locuteur, nommé Oracle, s’enregistre entrain de définir le terme sans utiliser ceux qui lui sont interdits o 1 pour le niveau débutant o 3 pour le niveau intermédiaire o 6 pour le niveau expérimenté. - Un locuteur, nommé Devin, qui écoutera la description et devra deviner en tapant ses proposition dans un formulaire. - On peut être soit l’un soit l’autre. - Un autre rôle existe, Druide, qui permet à l’utilisateur de créer ses propres cartes. Il a également une fonction d’arbitrage. Sans lui, on ne peut savoir si l’Oracle n’a pas prononcé un des mots interdits ou celui à faire deviner. Avec ces trois possibilités, on offre aux apprenants d’accroître leurs compétences communicationnelles de manière ludique et en autonomie. Via la fonction Oracle, ils pourront s’entraîner à l’oral sans passer par des textes appris et des dialogues artificiels. Ils pourront approcher un peu plus une communication orale plus spontanée qui permettrait de véritables échanges avec des natifs. En effet, les non natifs sont souvent gênés par certaines locutions qui nécessitent un bagage culturel. Permettre d’avoir une élocution et une compréhension plus fluide aiderait à approcher cet aspect de la langue. Le problème est que les apprenants d’une langue ne font pas forcément dans le but de communiquer avec des natifs : « Already many people who learn English do so with little or no intention of conversing with its native users » De plus, il devient nécessaire de maîtriser une langue étrangère pour être intégré au sein des entreprises. Dans le cas de l’anglais, les entreprises britanniques se trouvent confrontées à ce problème pour exporter. On prédit que d’ici quelques années, les compétences en anglais ne seront plus un facteur de compétitivité dans les pays non anglophones. « Moreover, there is a chance that a command of English will within twenty or thirty years be regarded as a basic skill for business, and native speakers of the language will no longer enjoy any competitive advantage ».
  • 4. Apprentissage des langues 4 Il devient donc essentiel de pouvoir développer d’avantages de compétences linguistiques, autres que l’anglais des affaires1 . Cette application fait partie du projet Innovalangues2 dont le but est de « doter les institutions d’enseignements supérieures de moyens fédérant et amplifiant les actions de formations en langues destinées à porter le degré de maîtrise en langues des publics à un niveau B2 certifié ». L’apprenant doit pouvoir acquérir un certain niveau d’aisance dans la langue étrangère. Développer cette application s’inscrit dans l’objectif d’innovation en termes de pédagogie, pour s’adapter aux différentes techniques d’apprentissages. III. L’existant A. Les outils à la disposition des apprenants Nous pouvons observer qu’un apprenant a déjà la possibilité d’utiliser l’informatique pour progresser en langue. Voici une liste non exhaustive de ce que nous pouvons trouver. - Anglais facile http://www.anglaisfacile.com/ o Propose des cours en ligne o Des petits exercices basés sur un système de questions-réponses o Pas d’explications sur les erreurs o Possibilité de créer des tests  Demande l’intervention des utilisateurs pour enrichir la base de données o Existe dans d’autres langues - http://www.didieraccord.com/exercices/index.php?ex=4.3.5 o Cours en lignes 1 http://www.salon.com/2011/11/06/whats_the_language_of_the_future/ 2 www.researchgate.net/publication/271852910
  • 5. Apprentissage des langues 5 o Exercices o Pas d’explication pour les erreurs - https://francais.lingolia.com/fr/grammaire/les-temps/le-present/exercices o Propose des cours thématiques o Propose des exercices o Explique les erreurs o Pas de renouvellement des exercices qui pourrait conduire à la mémorisation des bonnes réponses plus que des explications. - Conjugueurs en ligne o Bescherelle  Exercices et conjugueurs en ligne  Les erreurs ne sont pas expliquées. La bonne réponse est simplement donnée sans redirection possible vers la règle à appliquer. L’apprenant ne peut pas l’utiliser pour progresser.  Ce site reste une vitrine commerciale pour diffuser ses ouvrages. - Dictionnaires en ligne  Ne proposent pas d’exercices interactifs - Projet Voltaire o Site proposant une solution pour améliorer l’expression écrite dans les entreprises
  • 6. Apprentissage des langues 6 o Le test d’évaluation que les utilisateurs peuvent faire avant de s’inscrire ne propose pas une explication des erreurs. Il s’agit d’un simple formulaire avec une note. o Pas de réelle correction sur cette première approche. B. Limites de l’existant : 1. Différents outils connus Tous ces sites ont leur utilité et peuvent être un excellent support pour améliorer ses compétences linguistiques. Cependant, ils n’utilisent pas des ressources du TAL qui pourraient permettre d’enrichir les bases de données en termes de ressources lexicales et renouveler les exercices pour en proposer de nouveau et éviter le phénomène du par cœur dans des situations artificielles. 2. Notre application3 Dans ce jeu, la création de cartes reste limitée. En effet, l’apprenant, selon son niveau, ne dispose pas obligatoirement de toutes les ressources sémantiques nécessaires. Pour générer ce qu’on peut considérer comme une bonne carte de Tabou ; c’est à dire une carte qui permettra d’élaborer des stratégies de communication4 . Il pourrait être intéressant de bénéficier d’une génération automatique des cartes afin de ne pas rester limiter à quelques mots seulement. Il en va de même pour les enseignants. A terme la base de données qui contient les cartes à générer risque de s’épuiser. Nous devons trouver une solution pour proposer une aide pour le renouvellement de cette partie du programme. Les utilisateurs doivent pouvoir continuellement enrichir la plateforme. Les liens sémantiques qui permettent d’accéder aux lexiques ne sont pas forcément ceux que nous attendons. Le programme est lié à la rubrique diko du site jeuxdemots.org pour pouvoir générer des cartes en fonction de la fréquence d’utilisation des mots. Le site en question est un moyen ludique pour collecter et hiérarchiser les liens que nous faisons entre les mots. Ils sont classés selon leur lien sémantique avec les mots recherchés (synonyme, antonyme, hyperonyme, association d’idée…). Cependant, ce dictionnaire est enrichi par des natifs du français et leur propositions peuvent être liés avec leur culture. Par exemple pour le mot chien nous retrouvons Milou qui n’est pas forcément connu par des non-natifs : 3 http://gamer.innovalangues.net/gameofwords 4 Cadre Européen Commun de Référence pour les Langues
  • 7. Apprentissage des langues 7 - Les races de chiens sont très peu évoquées contrairement à d’autres animaux proches comme chat. Nous pouvons constater le même phénomène pour l’anglais : - Il ne s’agit pas forcément des mêmes associations d’idées en anglais qu’en français. (mot familiers, diminutif d’un autre mot…). C’est d’ailleurs le problème rencontré dans le cas de la conception de traducteurs automatiques. Les expressions idiomatiques ne sont pas toujours bien prises en compte. o En anglais, les expressions françaises « tartempion » ou « untel » sont traduites par « John Doe » qui est également le nom d’un personnage de série. o Quand un locuteur non natif de l’anglais se retrouve confronté à ce mot, il ne pensera pas obligatoirement à « Tartempion » ou l’équivalent dans sa langue maternelle. Il y a un risque que cela lui évoque la série éponyme. Dans le programme nous devons tenir compte de ces différents éléments qui sont liés à la culture de la langue, au contexte de communication et aux besoins des apprenants. De plus la génération automatique telle qu’elle est conçue peut donner des réponses énigmatiques, y compris pour un locuteur natif du français. Nous pouvons le constater dans cet exemple de génération automatique Le mot à trouver a été choisi de manière aléatoire en utilisant les identifiants numériques attribués à chaque mot du diko. Avec la commande mt_rand(0, 100000) qui est une fonciton mathématique qui
  • 8. Apprentissage des langues 8 permet de choisir au hasard un nombre. Seulement, l’apprenant peut se retrouver avec des mots dont il n’aura pas nécessairement l’utilité et qu’il pourra difficilement définir, comme dans l’exemple ci-dessus, à moins qu’il ne suive une formation spécialisée en zoologie le soit déjà dans sa propre langue. IV. Les solutions envisagées Nous pouvons déjà envisager différentes possibilités : - La redirection vers des dictionnaires en ligne où il existe une forme de hiérarchisation avec un guide d’utilisation o Le risque est de perdre l’utilisateur dans toute la documentation et de le démotiver dans son acte langagier. - La mise en place un programme qui fait des suggestions par rapport à ces ressources en ligne. o l’utilisateur serait guider et un premier tri serait fait dans ses options pour choisir les mots tabous adéquats. V. Difficultés Le problème vient de la gestion des ressources sémantiques à disposition. Elles sont variées selon les langues. Il n’y a pas non plus les mêmes nuances d’une langue l’autre, voire d’un pays à l’autre d’une même langue. - Exemple quatre-vingt en français de France et octante ou huitante en français de Suisse selon la région. Nous devons nous poser la question du choix à faire en ce qui concerne la prise en compte des variantes linguistiques. Il faudra se demander si nous nous basons sur la norme du pays « source » (France pour français, Grande Bretagne pour l’anglais…), sachant que certains vocabulaires sont plus présents (est-ce que l’anglais US et plus populaire que l’anglais UK?). En général, les enseignants font des choix selon des critères qu’ils doivent pouvoir justifier et qui répond à une logique d’apprentissage. Nous devrons aussi le faire appliquer à la machine. Dans un premier temps nous partirons du postulat que les équivalences régionales ne sont pas majoritaires, que les ressources dont nous disposons sont suffisamment complètes et nous utiliserons un système en rapport à la fréquence d’utilisation des mots. Nous envisagerons la possibilité aux utilisateurs les plus avancés de proposer leurs propres mots tabous. L’idéal serait d’utiliser wordnet qui commence à créer des ressources autres qu’en anglais (arabe), mais seule la version anglaise est consultable en ligne, les autres doivent être téléchargées et certaines sous conditions. IL faudra toujours être en veille de mise à jour de la base qu’il faudra régulièrement re-télécharger, contrairement à une ressource en ligne, pour pouvoir générer de nouvelles cartes.
  • 9. Apprentissage des langues 9 VI. Intérêt du TAL dans notre projet Notre tâche sera de déterminer quelles ressources utiliser, dans quel but et comment. Nous envisagerons la meilleure manière d’utiliser le TAL pour automatiser la plupart des tâches et fournir le meilleur confort d’apprentissage. A. Les ressources lexicales 1. Wordnet Même si dans un premier temps nous nous focaliserons sur le français, il est intéressant d’étudier les ressources dont nous disposons en anglais, d’autant plus que le projet de wornet semble de s’élargir à d’autres langue. c’est une base de données lexicale créée manuellement par des linguistes dans le but d’accéder à des ressources sémantiques. L’utilisateur à la possibilité de sélectionner la manière dont les entrées seront affichées, (fréquence d’utilisation…). Cela permet d’avoir une vue d’ensemble pour pouvoir étudier les liens sémantiques et de les classer selon leur utilisation. L’organisation repose sur les « synset » (synonym set)5 : Il y a autant d’entrées lexicales qu’il y a de mots. Ce système s’utilise comme une ontologie grâce aux relations sémantique existantes. Exemple : sens le plus commun du mot « car » dans une relation d’hyperonymie 5 https://fr.wikipedia.org/wiki/WordNet Illustration 1: code de l'interface wordnet pour le classement des relations sémantiques
  • 10. Apprentissage des langues 10 Dans cet exemple, le dernier concept, « entité, quelque chose », est le plus général, le plus abstrait. Il pourrait ainsi être le super-concept d'une multitude de concepts plus spécialisés Wordnet existe dans d’autres langues. En ce qui concerne le français, il s’agit d’une traduction automatique de Wordnet 3 et fait l’objet d’une validation manuelle partielle. Nous pouvons nous interroger sur la fiabilité de cette version. En ce qui concerne les autres langues, il s’agit de produits payants. 2. Diko Utilise la coopération des utilisateurs à travers un jeu d’associations d’idées autour d’un mot proposé. Dans l’application en ligne jeudemots.org 1proposition d'un mot
  • 11. Apprentissage des langues 11 2mise en place des résultats avec un système de points pour encourager les utilisateurs à jouer 3 classement dans le diko en fonction de la relation sémantique et de la fréquence d'utilisation 4 exemple avec les associations d'idées On peut observer que les termes sont classés pas importance d’utilisation et que plus le mot est fréquent, plus la taille de la police de caractère est grande. 3. Leur utilité Ces ressources sont prévues, dans notre cas, pour permettre d’enrichir les bases de données d’applications comme celles de « game of word ». Les développeurs peuvent créer des liens vers ces plateformes tout dépendra de la manière dont ils prévoient l’utilisation du logiciel. Le but initial du projet est de ne pas faire de distinctions entre les stauts (enseignants, apprenants) pour conserver le caractère informel du jeu. Néanmoins cette différence existe et nous devons en tenir compte pour adapter les aides en fonction des niveaux et des objectifs propres à chacun. Nous pourrions envisager, dans notre application, de donner des accès à la génération de cartes selon le
  • 12. Apprentissage des langues 12 statut et le niveau de langue selon le classement du CECR6 . Plusieurs options sont envisageables. Il nous appartiendra de les lister afin d’envisager la meilleure solution. a) Création pour les enseignants L’aspect lexical n’est pas au centre du projet, il s’agit surtout d’inciter les apprenants à développer des stratégies communicatives lors des enregistrements. Ils ne pourront ni prononcer le mot à faire deviner, ni la liste de mots tabous. Il est important que les enseignants connaissent les mots les plus utilisés pour pouvoir les interdire et rendre les parties plus intéressantes pour les élèves. Nous partons du principe que l’enseignant maîtrise la langue étrangère qu’il enseigne et que pour lui il faudra surtout une aide complémentaire à ses enseignements pour le conforter dans ses objectifs. Nous pourrions lui proposer de simples liens vers des dictionnaires en ligne où il pourrait avoir accès à l’ensemble du champ lexical du thème abordé. Il faut tenir compte du fait que les mots ne sont pas obligatoirement associés au vocabulaire attendu. Exemple : - En cherchant les termes associés à « chien » dans www.jeuxdemots.org/diko.php on observe que ceux-ci n’ont pas obligatoirement un lien sémantique7 fort avec le mot à faire deviner. o Canidé est un hyperonyme. Nous pouvons considérer que le lien est fort car chien appartient à la race des canidés et ont une racine latine commune. o Milou (noté en plus gros et donc avec une fréquence plus forte que canidé) est une association d’idée. Nous pouvons considérer que le lien sémantique est faible car il fait appelle aux connaissances du locuteurs, plus qu’à la sémantique. Si un français connaît la référence, il n’est sera pas obligatoirement de même pour un non-natif Nous ne pourrons donc pas nous contenter de poser des liens thématiques pour cette section. Il serait judicieux de proposer une manière de relier ses dictionnaires thématiques à un outil d’analyse statistiques pour travailler en priorité le vocabulaire utilisé le plus souvent. 6 Cadre Européen Commun de Référence 7 Relation mettant en évidence les liens de signification entre les termes ou les classes d'un langage documentaire. http://www.adbs.fr/relation-semantique-18448.htm?RH=OUTILS_VOC
  • 13. Apprentissage des langues 13 b) Création pour les apprenants Les apprenants auront certainement besoin d’être un peu plus aidés que les enseignants. Nous devrons tenir compte de son niveau de langue selon les normes établies par le CECR pour définir comment les orienter dans la création des cartes sans que cela soit trop facile ou trop complexe. Par exemple, devons-nous autoriser un étudiant de niveau A1 (au tout début de l’apprentissage) à créer une carte et dans quelle mesure ? Ne devons-nous pas laisser plus de liberté à un étudiant de niveau C1/C2 qui pourrait être proche de celui de l’enseignant et avec une plus grande autonomie linguistique ? Tous apprennent les langues étrangères avec des aptitudes et des objectifs différents. Il faudra en tenir compte puisque le but est accéder à des compétences linguistiques avec une notion de plaisir. Pour cette partie de la génération de cartes, il faudra prévoir plus que de simples liens vers des dictionnaires en ligne avec des outils statistiques. Dans l’idéal, il serait opportun de pouvoir importer directement la liste des mots réellement intéressants à intégrer dans les cartes selon le thème choisis. - Un étudiant de niveau A1 veut créer une carte où on fera deviner le mot « banane ». - Nous estimons qu’il doit être guidé par le programme pour introduire les bons mots interdits. - Plutôt que d’être orienté vers des dictionnaires, le programme affichera une liste de mots selon leur ordre d’importance que le créateur de carte devra choisir. o Cet ordre sera déterminé selon des critères de fréquence et en fonctions des liens sémantiques les plus utilisés. - De cette manière, l’apprenant ne fera pas de contre sens et pourra également engranger du vocabulaire et progresser de cette manière également sans être perdu dans la polysémie. Nous devrons nous diriger vers ce scénario qui peut être possible grâce au TAL. VII. Application A. Stratégie de programmation 1. Définition générale, Nous devrons prévoir : - des dictionnaires de références en ligne et un moyen d’y accéder. - Des manuels d’utilisation pour la création des cartes avec des copies d’écran annotées dans la langue de l’apprenant pour lui faciliter la tâche. 2. Les différentes possibilités Pour programmer la génération automatique de cartes différentes possibilités s’offrent à nous : - Créer une base de données qui reliera des thèmes (pays, voyage, médecine…) à des dictionnaires spécifiques
  • 14. Apprentissage des langues 14 o wikipédia, disponible en plusieurs langues, est essentiellement une encyclopédie qui peut fournir des indications sur les thèmes abordés o lexilogos est une plate-forme qui réunit différents dictionnaires  thématiques (commercial, informatique, maritime, médecine, nature, philosophie et sport)  de langues - Utiliser des robots qui récupéreront les bonnes informations pour incrémenter notre base de données. - Créer une fonction spécifique à notre programme qui, à partir du thème choisi, analysera les ressources lexicales en ligne, et permettra de faire les bonnes propositions. Il existe d’autres solutions à envisager. Les choix seront fait en fonctions des besoins, des compétences et de l’existant qui peut être soit à récupérer en l’état, soit à améliorer et à adapter à notre système de traitement. 3. Notre choix Pour notre programme nous nous concentrerons sur la partie le plus automatisée de notre application, c’est-à-dire la génération des cartes pour les niveaux A1 et A2. Le but est, quand il tape un mot à faire deviner, de lancer un robot qui ira récupérer sur le site www.jeuxdemots.org/diko.php une liste de termes associés. Pour la mise en place des instructions à donner à notre « robot », nous déterminerons, de manière générale, les termes à proposer en priorité en tenant compte de différents paramètres : - Les objectifs des enseignants qui proposeront à leurs étudiants de créer des cartes o Est-ce qu’ils veulent travailler sur les relations sémantiques (synonymes, hyperonymes…) ? Dans ce cas-là, il faudra orienter sur ses types de termes o Est-ce qu’ils veulent travailler sur des thèmes ? Dans ce cas, il faudra orienter vers les termes associés. - La dimension culturelle o Nous n’avons pas tous les mêmes références culturelles.  Dans l’exemple du chien, nous trouvons dans les termes associés « Milou », si cela peut paraître évident pour un français, est-ce que cela le sera pour un apprenant de langue étrangère ?  Est-ce que voir ses propositions de mots peut lui faire développer des stratégies avec ses propres références ? (Bethoveen…) - Les mots dérivés du mot à faire deviner o Ils ne doivent pas apparaître dans la lites des mots tabous, puisque par essence, ils sont interdits. o On pourra régler ceci, en partie, par une expression régulière
  • 15. Apprentissage des langues 15 Dans tous les cas, le plus judicieux est d’utiliser l’outil statistique du « diko » pour éviter à l’apprenant de se retrouver avec des mots dont il n’aura que rarement l’utilité comme « anatidaephobie8 ». Peut- être, dans les évolutions futures, pourrons-nous envisager un lexique associés aux mots proposés pour la génération de cartes. Avant d’aller plus loin dans la programmation, nous devons nous poser quelques questions qui dérivent les unes des autres. 4. Qu’est-ce qu’une bonne carte tabou ? Afin de déterminer comment construire notre crawler, nous devons déterminer ce qui forme une bonne carte tabou. Elle est composée de : • 1 mot à faire deviner : nous devrons nous poser la question du doublon. Peut-on faire deviner le même mot deux fois ? • Le refuser pour les niveaux A1 et A2 • Solution à explorer pour les autres niveaux • Entre 1 et 6 mots interdits selon le niveau. • La carte devra être générée automatiquement avec 6 mots 5. Qu’est-ce qu’un bon mot interdit ? • Il est différent du mot à trouver • Ce n’est pas un mot dérivé du mot interdit (ils le sont automatiquement) • C’est un mot qui devrait nous venir facilement à l’esprit pour nous obliger à chercher d’autres manières de faire deviner le mot et développer des stratégies de communication. 6. Qu’est-ce qu’un mot qui nous vient facilement à l’esprit ? • Il a une relation particulière avec le mot à faire deviner (association d’idée, synonyme, antonyme…) • Une forte fréquence d’apparition. • Il est en relation avec le milieu de l’apprenant. Pour déterminer quel type de relation privilégier, nous avons mené une petite enquête auprès de 3 personnes d’âges et de catégories sociaux professionnelles différentes(CSP). Nous leur avons donné 10 mots. Pour chaque mot, elles ont dû nous donner les 10 premiers qui leur venaient à l’esprit. Selon, leur âge, CSP ou culture, elles nous ont énumérés des termes plus ou moins spécifiques. 8 Gary Larson est un auteur de dessins humoristiques et de bande dessinée américain, né le 14 ... L'anatidaephobie, maladie de son invention, est « la peur que quelque part, d'une façon ou d'une autre, un canard (un anatidé) vous observe. (source wikipédia)
  • 16. Apprentissage des langues 16 a) Constat général total asso d'idée total autres relation chien 73% 27% Grenoble 55% 27% chaise 55% 36% gâteau 46% 54% ordinateur 38% 62% shampoing 80% 20% sport 70% 30% permis 95% 5% café 64% 36% nez 38% 62% moyenne des réponses 61% 36% b) Constat plus spécifique (1) Moyenne des résultats Enquêté 1 Enquêté 2 Enquêté 3 Age 31 70 23 CSP Animatrice périscolaire Puéricultrice retraitée Etudiant étranger Niveau de français Langue maternelle Langue maternelle Langue étrangère Relation sémantique prédominante 56% association d’idées 55% association d’idées 70% association d’idées (2) Moyenne par mot asso autre asso autre asso autre chien 63% 38% 89% 11% 60% 40% grenoble 50% 30% 80% 20% 60% 40% chaise 50% 50% 25% 75% 100% 0% gateau 40% 60% 33% 67% 80% 20% ordinateur 15% 85% 50% 50% 64% 36% shampoing 75% 25% 100% 0% 67% 40% sport 73% 27% 0% 0% 60% 40% permis 100% 0% 67% 33% 100% 0% café 55% 45% 75% 25% 70% 30% nez 38% 62% 33% 67% 40% 60% moyenne des réponses 56% 42% 55% 35% 70% 31%
  • 17. Apprentissage des langues 17 Nous pouvons constater que les résultats varient en fonction du milieu lequel évolue la personne et son âge d’un mot à l’autre. Nous avons choisi de nous référer au score des étudiants étrangers, public qui nous intéresse. 7. Questions supplémentaires à se poser : La hiérarchisation des mots proposés : • Est-ce qu’on les place du plus fort au moins fort ? • Est-ce qu’on les place de manière aléatoire ? Est-ce qu’on accepte les verbes conjugués ? Cette question conduit aux problèmes des ambiguïtés. Certains participes passés et présents peuvent être également des adjectifs. Doit-on renvoyer vers un dictionnaire en ligne pour expliquer les mots proposés ? Comment pouvons-nous intégrer un correcteur orthographique ? B. L’algorithme idéale envisagée pour un apprenant A1-A2 L’apprenant valide son mot via un formulaire. Il sera stocké dans une variable. Nous initialisons un compteur de mots Tabous à 0. Il nous permettra de stocker dans un tableau les mots tabous. Ensuite nous l’envoyons vers l’url en format XML de diko9 que nous allons parcourir en effectuant le tri suivant : - Classement selon la fréquence d’utilisation par ordre décroissant. - Suppression des lignes n’ayant aucun rapport avec les relations sémantiques - Suppression des mots dérivés Nous faisons une boucle qui lira ligne par ligne et qui s’arrêtera quand nous aurons proposé 10 mots : - Les mots seront donnés selon si o Il y a une association d’idée et une autre relation o Une seule association d’idées o Il n’y a pas d’association d’idées. - Le chargement ne fonctionnera pas s’il y a moins de 10 mots. Une fois ce formulaire de choix créé, l’utilisateur devra en sélectionner 6. Si tout est correct, la carte sera validée. 9 http://www.jeuxdemots.org/rezo-xml.php?gotermsubmit=Chercher&gotermrel=
  • 18. Apprentissage des langues 18 VIII. Conclusion : Bilan sur notre réalisation et perspectives A. Notre réalisation Avant de réaliser notre programme, nous avons pris le temps d’étudier ce qui avait été élaboré antérieurement, afin de bien comprendre comment se réalise le système et éventuellement l’améliorer. Nous avons finalement opté pour la création d’un nouveau crawler plus simple que nous pourrons faire évoluer au fur et à mesure, d’autant plus que nous n’avions pas accès à la base de données du jeu. Nous avons privilégiés un premier robot très restrictif par rapport à notre projet initial. La seule action possible de l’utilisateur sera de proposer un mot à faire deviner. Seules les relations sémantiques type associations d’idées sont prises en compte pour le moment. Le poids des mots semble automatiquement trié, dans le dictionnaire, comme nous pouvons le voir dans le diko. Cependant, certains mots sont refusés car il y a moins de 10 mots dans les relations sémantiques. Il n’est pas nécessaire de se préoccuper de supprimer les lignes puisque le fait d’imposer une relation sémantique dans la condition de sélection nettoie naturellement le fichier. Il nous manque la base de données à créer et incrémenter. Il s’agit d’une base que nous allons pouvoir faire évoluer. B. Perspectives Les prochaines étapes seront de : - Proposer l’assemblage association d’idée et autre relation sémantique, ainsi que la possibilité de prendre toutes les relations sémantiques quand le nombre d’associations d’idées est insuffisant. - Prévoir une expression régulière pour qu’il n’y ait pas de dérivé o Du mot à faire deviner o Des mots tabous - Faire évoluer le crawler et le formulaire d’arriver pour pouvoir proposer une liste de mots plutôt que d’imposer 6 mots d’offices. - Proposer des solutions pour les apprenants de niveau supérieurs à A2. o Il s’agira d’utiliser les hypothèses proposées plus haut.
  • 19. Apprentissage des langues 19 Références !Apprendre l’anglais:Cours d’anglais,jeux,exercices,grammaire,tests-Enseigner l’anglais. (s. d.). Consulté 2 janvier 2017, à l’adresse http://www.anglaisfacile.com/ Cadre Européen Commun de Reférence. (s. d.). Consulté à l’adresse http://www.coe.int/t/dg4/linguistic/Source/Framework_FR.pdf Cours 3 : sémantique lexicale - coursWordnet.pdf. (s. d.). Consulté à l’adresse http://www- lipn.univ-paris13.fr/~gayral/CoursMaster/coursWordnet.pdf Editions Didier - exercices autocorrectifs de FLE - Accord niveau 1 - Dossier 4 - Unité 3. (s. d.). Consulté 2 janvier 2017, à l’adresse http://www.didieraccord.com/exercices/index.php?ex=4.3.5 Hitchings, H. (s. d.). What’s the language of the future? Consulté 1 janvier 2017, à l’adresse http://www.salon.com/2011/11/06/whats_the_language_of_the_future/ Lafourcade, L., Mathieu. (s. d.-a). Diko : Consulté 1 janvier 2017, à l’adresse http://jeuxdemots.org/diko.php Lafourcade, L., Mathieu. (s. d.-b). JeuxDeMots : accueil. Consulté 1 janvier 2017, à l’adresse http://www.jeuxdemots.org/jdm-accueil.php Lafourcade, L., Mathieu. (s. d.-c). Le Rézo sous forme XML. Consulté 2 janvier 2017, à l’adresse http://www.jeuxdemots.org/rezo- xml.php?gotermsubmit=Chercher&gotermrel= Le Conjugueur | Bescherelle. (s. d.). Consulté 2 janvier 2017, à l’adresse http://bescherelle.com/le-conjugueur-bescherelle Le présent – exercices - Lingolia Français. (s. d.). Consulté 2 janvier 2017, à l’adresse https://francais.lingolia.com/fr/grammaire/les-temps/le-present/exercices Masperi, M., & Quintin, J.-J. (2014). Enseigner à l’université en France, à l’ère du numérique : l’apport de dispositifs innovants dans la forma­tion en langues.
  • 20. Apprentissage des langues 20 Consulté à l’adresse https://www.researchgate.net/publication/271852910_Enseigner_a_l’universite_en_Fr ance_a_l’ere_du_numerique_l’apport_de_dispositifs_innovants_dans_la_forma- tion_en_langues Projet Voltaire. (s. d.). Consulté 2 janvier 2017, à l’adresse http://www.projet-voltaire.fr/ Game of words. (s. d.). Consulté 1 janvier 2017, à l’adresse http://gamer.innovalangues.net/gameofwords/ WordNet Search - 3.1. (s. d.). Consulté 1 janvier 2017, à l’adresse http://wordnetweb.princeton.edu/perl/webwn