Présentation effectuée au Geek Faëries 2019 (9 juin 2019) par Alexandre Lissy et Christophe Villeneuve sur "Common Voice".
Vous allez voir l'avancé de ce projet libre, le moyen de participer et de contribuer
Consulter le site officiel https://voice.mozilla.org
1. Common Voice
Produire des données vocales libres
Alexandre Lissy – Christophe Villeneuve
alissy@mozilla.com – hellosct1@mozfr.org
Alexandre Lissy – Christophe Villeneuve | Common Voice 1/22
2. Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 2/22
3. Assistant numérique et voix
Impacts de la navigation Web vocale
Assistant numérique : au service de l’utilisateur
Smartphone
Enceinte connectée
Mixed Reality
Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer
Traitement de la voix
Entrainement et transcription gourmands en calculs
Souvent laissé à des services tiers en-ligne
Nécessite beaucoup de données audio avec texte associé
Voix personnelle, mais enregistrement parfois constant
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 3/22
4. Assistant numérique et voix
L’utilisation de la recherche vocale aujourd’hui et demain
2016 2020
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 4/22
5. Assistant numérique et voix
Verrous de l’écosystème
L’écosystème vocal, aujourd’hui
Entre les mains de 4-5 gros acteurs, dominé par les géants du Web d’aujourd’hui
Difficile d’accès pour les petits acteurs
Développeurs logiciel
Langues et marchés « minoritaires »
Mozilla doit aider à l’émergence d’outils vocaux en outillant la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 5/22
6. Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 6/22
7. Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 7/22
11. Common Voice
Objectifs
Cassons les barrières de la voix
Accès : peu de gros jeux de données publiquement accessibles
Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des
complexités légales
Biais : seuls certains marchés sont bien pourvus
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 11/22
12. Common Voice
Objectifs
Collecte de données ouvertes pour l’apprentissage machine
Données : audio et texte correspondant
Diversité
Langues
Accents
Ages
Genres
Qualité sonore
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 12/22
14. Common Voice
Données ouvertes
Décentraliser les données : plus de pouvoir
aux utilisateurs et contributeurs
Facile à obtenir, exploiter
Partage des données
Intégration dans d’autres jeux de
données
Outiller les communautés
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 14/22
15. Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 15/22
16. Accompagner la communauté
Construit avec la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 16/22
17. Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Qui est un contributeur ?
Tout le monde !
Sociétés et startups
Institutions et chercheurs
Hobbyistes individuels
Utiliser c’est déjà contribuer : télémétrie dans Firefox
Commencer à contribuer est un jeu d’enfants : enregistrez votre voix et écoutez celles
des autres.
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 17/22
18. Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Le cas du kabyle
Région d’Algérie, avec sa propre langue, ≈ 5M locuteurs localement (≈ 25 − 30M
dans le monde)
Forte culture locale
Déjà des contributeurs qui traduisent Firefox
Implication forte : ≈ 300 contributeurs, et plus de 95 heures déjà collectées
Chercheurs et institutions
Contributions de gouvernements pour leur langue
Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires
Benchmark non biaisé : Speech Advisory Group
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 18/22
19. Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Contributions par les faits
30 langues actives, dont l’anglais, l’allemand, le kabyle, le français, le catalan, le
breton, le basque.
1200 heures validées en novembre 2018 au total, 2100 heures validées en juin
2019, 2700 heures enregistrées ; contributeurs de 112 pays.
Dont 202 heures enregistrées et 190 validées en français.
Plus de 110000 contributeurs individuels ont enregistré et/ou validé.
Plus de 200 développeurs ont participé.
Mycroft et Snips (assistants numériques), Université de Bangor (Pays de Galles).
Jeu de données téléchargé des centaines de fois tous les mois.
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 19/22
20. Première version du jeu de données Common Voice
Sortie officielle en plusieurs langues : février 2019
Données accumulées depuis la mise en place (juin) jusqu’à fin décembre : 18
langues disponibles
Quelques statistiques
Accents : 74% france ; 2% belgique ; 1% suisse ; 1% canada
Genres : 72% masculin ; 7% féminin
Âges : 6% < 19 ans ; 23% 19-29 ans ; 20% 30-39 ans ; 25% 40-49 ans ; 2% 50-59
ans ; 2% 60-69 ans
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 20/22
21. Comment pouvez-vous aider ?
Ce n’est pas fini !
Impliquez-vous !
Parlez-en ; partagez votre voix et validez des échantillons
Utilisez le jeu de données, et donnez nous votre point de vue
Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile
Construisez des outils innovants avec Common Voice et Deep Speech
un assistant numérique local ?
de l’identification de locuteur ?
de la domotique avec contrôle vocal 100% local ?
Alexandre Lissy – Christophe Villeneuve | Common Voice | Comment pouvez-vous aider ? 21/22
22. Aller plus loin
Site officiel Common Voice https://voice.mozilla.org
Dépôt Github Francophone Common Voice / DeepSpeech
https://github.com/Common-Voice/commonvoice-fr
Forum Discourse Francophone https ://discourse.mozilla.org/c/voice/fr
Merci.
Alexandre Lissy – Christophe Villeneuve | Common Voice | 22/22