SlideShare une entreprise Scribd logo
1  sur  22
Télécharger pour lire hors ligne
Common Voice
Produire des données vocales libres
Alexandre Lissy – Christophe Villeneuve
alissy@mozilla.com – hellosct1@mozfr.org
Alexandre Lissy – Christophe Villeneuve | Common Voice 1/22
Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 2/22
Assistant numérique et voix
Impacts de la navigation Web vocale
Assistant numérique : au service de l’utilisateur
Smartphone
Enceinte connectée
Mixed Reality
Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer
Traitement de la voix
Entrainement et transcription gourmands en calculs
Souvent laissé à des services tiers en-ligne
Nécessite beaucoup de données audio avec texte associé
Voix personnelle, mais enregistrement parfois constant
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 3/22
Assistant numérique et voix
L’utilisation de la recherche vocale aujourd’hui et demain
2016 2020
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 4/22
Assistant numérique et voix
Verrous de l’écosystème
L’écosystème vocal, aujourd’hui
Entre les mains de 4-5 gros acteurs, dominé par les géants du Web d’aujourd’hui
Difficile d’accès pour les petits acteurs
Développeurs logiciel
Langues et marchés « minoritaires »
Mozilla doit aider à l’émergence d’outils vocaux en outillant la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 5/22
Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 6/22
Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 7/22
https://voice.mozilla.org/speak – Comment ça marche
Parler
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 8/22
https://voice.mozilla.org/listen – Comment ça marche
Écouter
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 9/22
https://common-voice.github.io/sentence-collector/ –
Comment ça marche
Ajouter du texte
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 10/22
Common Voice
Objectifs
Cassons les barrières de la voix
Accès : peu de gros jeux de données publiquement accessibles
Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des
complexités légales
Biais : seuls certains marchés sont bien pourvus
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 11/22
Common Voice
Objectifs
Collecte de données ouvertes pour l’apprentissage machine
Données : audio et texte correspondant
Diversité
Langues
Accents
Ages
Genres
Qualité sonore
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 12/22
Common Voice
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 13/22
Common Voice
Données ouvertes
Décentraliser les données : plus de pouvoir
aux utilisateurs et contributeurs
Facile à obtenir, exploiter
Partage des données
Intégration dans d’autres jeux de
données
Outiller les communautés
Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 14/22
Sommaire
1 Assistant numérique et voix
2 Projet Common Voice
3 Accompagner la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 15/22
Accompagner la communauté
Construit avec la communauté
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 16/22
Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Qui est un contributeur ?
Tout le monde !
Sociétés et startups
Institutions et chercheurs
Hobbyistes individuels
Utiliser c’est déjà contribuer : télémétrie dans Firefox
Commencer à contribuer est un jeu d’enfants : enregistrez votre voix et écoutez celles
des autres.
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 17/22
Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Le cas du kabyle
Région d’Algérie, avec sa propre langue, ≈ 5M locuteurs localement (≈ 25 − 30M
dans le monde)
Forte culture locale
Déjà des contributeurs qui traduisent Firefox
Implication forte : ≈ 300 contributeurs, et plus de 95 heures déjà collectées
Chercheurs et institutions
Contributions de gouvernements pour leur langue
Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires
Benchmark non biaisé : Speech Advisory Group
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 18/22
Accompagner la communauté
Mozilla ne serait rien sans sa communauté
Contributions par les faits
30 langues actives, dont l’anglais, l’allemand, le kabyle, le français, le catalan, le
breton, le basque.
1200 heures validées en novembre 2018 au total, 2100 heures validées en juin
2019, 2700 heures enregistrées ; contributeurs de 112 pays.
Dont 202 heures enregistrées et 190 validées en français.
Plus de 110000 contributeurs individuels ont enregistré et/ou validé.
Plus de 200 développeurs ont participé.
Mycroft et Snips (assistants numériques), Université de Bangor (Pays de Galles).
Jeu de données téléchargé des centaines de fois tous les mois.
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 19/22
Première version du jeu de données Common Voice
Sortie officielle en plusieurs langues : février 2019
Données accumulées depuis la mise en place (juin) jusqu’à fin décembre : 18
langues disponibles
Quelques statistiques
Accents : 74% france ; 2% belgique ; 1% suisse ; 1% canada
Genres : 72% masculin ; 7% féminin
Âges : 6% < 19 ans ; 23% 19-29 ans ; 20% 30-39 ans ; 25% 40-49 ans ; 2% 50-59
ans ; 2% 60-69 ans
Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 20/22
Comment pouvez-vous aider ?
Ce n’est pas fini !
Impliquez-vous !
Parlez-en ; partagez votre voix et validez des échantillons
Utilisez le jeu de données, et donnez nous votre point de vue
Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile
Construisez des outils innovants avec Common Voice et Deep Speech
un assistant numérique local ?
de l’identification de locuteur ?
de la domotique avec contrôle vocal 100% local ?
Alexandre Lissy – Christophe Villeneuve | Common Voice | Comment pouvez-vous aider ? 21/22
Aller plus loin
Site officiel Common Voice https://voice.mozilla.org
Dépôt Github Francophone Common Voice / DeepSpeech
https://github.com/Common-Voice/commonvoice-fr
Forum Discourse Francophone https ://discourse.mozilla.org/c/voice/fr
Merci.
Alexandre Lissy – Christophe Villeneuve | Common Voice | 22/22

Contenu connexe

Similaire à Common voice

13 octobre 2015 ENSSIB FIBE
13 octobre 2015 ENSSIB FIBE13 octobre 2015 ENSSIB FIBE
13 octobre 2015 ENSSIB FIBElucmaumet
 
AC4 Réhabiliter l’action publique avec le numérique
AC4 Réhabiliter l’action publique avec le numériqueAC4 Réhabiliter l’action publique avec le numérique
AC4 Réhabiliter l’action publique avec le numériqueCap'Com
 
Webcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieWebcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieFrédéric Neau
 
Bibliotheque dans la cité
Bibliotheque dans la citéBibliotheque dans la cité
Bibliotheque dans la citéXavier Galaup
 
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...Laurette Uzan
 
Dofus à M Arseille Le 19 FéVrier 2009
Dofus à M Arseille Le 19 FéVrier 2009Dofus à M Arseille Le 19 FéVrier 2009
Dofus à M Arseille Le 19 FéVrier 2009Franck Queyraud
 
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligneLess bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligneXavier Galaup
 
Mettre en place une Webradio scolaire
Mettre en place une Webradio scolaire Mettre en place une Webradio scolaire
Mettre en place une Webradio scolaire Jean-Paul Fillit
 
Les réseaux sociaux : panoramas et solutions
Les réseaux sociaux : panoramas et solutionsLes réseaux sociaux : panoramas et solutions
Les réseaux sociaux : panoramas et solutionsCap'Com
 
Wikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveWikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveFlorence Devouard
 
Grand débat « Nantes, la Loire et nous » - Nantes Métropole
Grand débat « Nantes, la Loire et nous » - Nantes MétropoleGrand débat « Nantes, la Loire et nous » - Nantes Métropole
Grand débat « Nantes, la Loire et nous » - Nantes MétropoleLes Interconnectés
 
La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3cspirin
 
Créer une Webradio scolaire
Créer une Webradio scolaireCréer une Webradio scolaire
Créer une Webradio scolaireJean-Paul Fillit
 
Le podcast : un outil au service de l'accessibilité des contenus ?
Le podcast : un outil au service de l'accessibilité des contenus ?Le podcast : un outil au service de l'accessibilité des contenus ?
Le podcast : un outil au service de l'accessibilité des contenus ?Cap'Com
 
Synthèse enquête bde 2011
Synthèse enquête bde 2011Synthèse enquête bde 2011
Synthèse enquête bde 2011BDP_ESSONNE
 
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèquesLaurette Uzan
 
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...Sylvia Fredriksson
 
Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...mediathequepasdecalais
 
Les nouveaux services conversationnels
Les nouveaux services conversationnelsLes nouveaux services conversationnels
Les nouveaux services conversationnelsCap'Com
 
TEDxLaRochelle_lieux_relais
TEDxLaRochelle_lieux_relaisTEDxLaRochelle_lieux_relais
TEDxLaRochelle_lieux_relaisJocelyn Niget
 

Similaire à Common voice (20)

13 octobre 2015 ENSSIB FIBE
13 octobre 2015 ENSSIB FIBE13 octobre 2015 ENSSIB FIBE
13 octobre 2015 ENSSIB FIBE
 
AC4 Réhabiliter l’action publique avec le numérique
AC4 Réhabiliter l’action publique avec le numériqueAC4 Réhabiliter l’action publique avec le numérique
AC4 Réhabiliter l’action publique avec le numérique
 
Webcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe EcologieWebcampagne européennes 2009 Europe Ecologie
Webcampagne européennes 2009 Europe Ecologie
 
Bibliotheque dans la cité
Bibliotheque dans la citéBibliotheque dans la cité
Bibliotheque dans la cité
 
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...
EPUB et publics handicapés empêchés de lire : vers une édition nativement acc...
 
Dofus à M Arseille Le 19 FéVrier 2009
Dofus à M Arseille Le 19 FéVrier 2009Dofus à M Arseille Le 19 FéVrier 2009
Dofus à M Arseille Le 19 FéVrier 2009
 
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligneLess bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
 
Mettre en place une Webradio scolaire
Mettre en place une Webradio scolaire Mettre en place une Webradio scolaire
Mettre en place une Webradio scolaire
 
Les réseaux sociaux : panoramas et solutions
Les réseaux sociaux : panoramas et solutionsLes réseaux sociaux : panoramas et solutions
Les réseaux sociaux : panoramas et solutions
 
Wikipedia et Intelligence Collective
Wikipedia et Intelligence CollectiveWikipedia et Intelligence Collective
Wikipedia et Intelligence Collective
 
Grand débat « Nantes, la Loire et nous » - Nantes Métropole
Grand débat « Nantes, la Loire et nous » - Nantes MétropoleGrand débat « Nantes, la Loire et nous » - Nantes Métropole
Grand débat « Nantes, la Loire et nous » - Nantes Métropole
 
La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3La politique documentaire à l'heure du numérique 2/3
La politique documentaire à l'heure du numérique 2/3
 
Créer une Webradio scolaire
Créer une Webradio scolaireCréer une Webradio scolaire
Créer une Webradio scolaire
 
Le podcast : un outil au service de l'accessibilité des contenus ?
Le podcast : un outil au service de l'accessibilité des contenus ?Le podcast : un outil au service de l'accessibilité des contenus ?
Le podcast : un outil au service de l'accessibilité des contenus ?
 
Synthèse enquête bde 2011
Synthèse enquête bde 2011Synthèse enquête bde 2011
Synthèse enquête bde 2011
 
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques
16/09/14 : Mettre en oeuvre une offre Daisy dans vos bibliothèques
 
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...
Observatoire citoyen de la donnée dans le quartier Marx Dormoy La Chapelle (P...
 
Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...
 
Les nouveaux services conversationnels
Les nouveaux services conversationnelsLes nouveaux services conversationnels
Les nouveaux services conversationnels
 
TEDxLaRochelle_lieux_relais
TEDxLaRochelle_lieux_relaisTEDxLaRochelle_lieux_relais
TEDxLaRochelle_lieux_relais
 

Plus de Christophe Villeneuve

La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxChristophe Villeneuve
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webChristophe Villeneuve
 
Open Source et contribution : Une association gagnante
Open Source et contribution : Une association gagnanteOpen Source et contribution : Une association gagnante
Open Source et contribution : Une association gagnanteChristophe Villeneuve
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Christophe Villeneuve
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le designChristophe Villeneuve
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activitesChristophe Villeneuve
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftChristophe Villeneuve
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthnChristophe Villeneuve
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueChristophe Villeneuve
 

Plus de Christophe Villeneuve (20)

MariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQLMariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQL
 
La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans Firefox
 
pister les pisteurs
pister les pisteurspister les pisteurs
pister les pisteurs
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le web
 
Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
Mariadb une base de données NewSQL
Mariadb une base de données NewSQLMariadb une base de données NewSQL
Mariadb une base de données NewSQL
 
Open Source et contribution : Une association gagnante
Open Source et contribution : Une association gagnanteOpen Source et contribution : Une association gagnante
Open Source et contribution : Une association gagnante
 
Pentest bus pirate
Pentest bus piratePentest bus pirate
Pentest bus pirate
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le design
 
Foxfooding semaine 3
Foxfooding semaine 3Foxfooding semaine 3
Foxfooding semaine 3
 
Foxfooding
FoxfoodingFoxfooding
Foxfooding
 
Accessibilite web wcag rgaa
Accessibilite web wcag rgaaAccessibilite web wcag rgaa
Accessibilite web wcag rgaa
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activites
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et Microsoft
 
Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthn
 
Send large files with addons
Send large files with addonsSend large files with addons
Send large files with addons
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratique
 
Donnez la voix aux machines
Donnez la voix aux machinesDonnez la voix aux machines
Donnez la voix aux machines
 

Common voice

  • 1. Common Voice Produire des données vocales libres Alexandre Lissy – Christophe Villeneuve alissy@mozilla.com – hellosct1@mozfr.org Alexandre Lissy – Christophe Villeneuve | Common Voice 1/22
  • 2. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice 3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 2/22
  • 3. Assistant numérique et voix Impacts de la navigation Web vocale Assistant numérique : au service de l’utilisateur Smartphone Enceinte connectée Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer Traitement de la voix Entrainement et transcription gourmands en calculs Souvent laissé à des services tiers en-ligne Nécessite beaucoup de données audio avec texte associé Voix personnelle, mais enregistrement parfois constant Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 3/22
  • 4. Assistant numérique et voix L’utilisation de la recherche vocale aujourd’hui et demain 2016 2020 Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 4/22
  • 5. Assistant numérique et voix Verrous de l’écosystème L’écosystème vocal, aujourd’hui Entre les mains de 4-5 gros acteurs, dominé par les géants du Web d’aujourd’hui Difficile d’accès pour les petits acteurs Développeurs logiciel Langues et marchés « minoritaires » Mozilla doit aider à l’émergence d’outils vocaux en outillant la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 5/22
  • 6. Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 6/22
  • 7. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice 3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 7/22
  • 8. https://voice.mozilla.org/speak – Comment ça marche Parler Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 8/22
  • 9. https://voice.mozilla.org/listen – Comment ça marche Écouter Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 9/22
  • 10. https://common-voice.github.io/sentence-collector/ – Comment ça marche Ajouter du texte Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 10/22
  • 11. Common Voice Objectifs Cassons les barrières de la voix Accès : peu de gros jeux de données publiquement accessibles Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales Biais : seuls certains marchés sont bien pourvus Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 11/22
  • 12. Common Voice Objectifs Collecte de données ouvertes pour l’apprentissage machine Données : audio et texte correspondant Diversité Langues Accents Ages Genres Qualité sonore Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 12/22
  • 13. Common Voice Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 13/22
  • 14. Common Voice Données ouvertes Décentraliser les données : plus de pouvoir aux utilisateurs et contributeurs Facile à obtenir, exploiter Partage des données Intégration dans d’autres jeux de données Outiller les communautés Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 14/22
  • 15. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice 3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 15/22
  • 16. Accompagner la communauté Construit avec la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 16/22
  • 17. Accompagner la communauté Mozilla ne serait rien sans sa communauté Qui est un contributeur ? Tout le monde ! Sociétés et startups Institutions et chercheurs Hobbyistes individuels Utiliser c’est déjà contribuer : télémétrie dans Firefox Commencer à contribuer est un jeu d’enfants : enregistrez votre voix et écoutez celles des autres. Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 17/22
  • 18. Accompagner la communauté Mozilla ne serait rien sans sa communauté Le cas du kabyle Région d’Algérie, avec sa propre langue, ≈ 5M locuteurs localement (≈ 25 − 30M dans le monde) Forte culture locale Déjà des contributeurs qui traduisent Firefox Implication forte : ≈ 300 contributeurs, et plus de 95 heures déjà collectées Chercheurs et institutions Contributions de gouvernements pour leur langue Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires Benchmark non biaisé : Speech Advisory Group Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 18/22
  • 19. Accompagner la communauté Mozilla ne serait rien sans sa communauté Contributions par les faits 30 langues actives, dont l’anglais, l’allemand, le kabyle, le français, le catalan, le breton, le basque. 1200 heures validées en novembre 2018 au total, 2100 heures validées en juin 2019, 2700 heures enregistrées ; contributeurs de 112 pays. Dont 202 heures enregistrées et 190 validées en français. Plus de 110000 contributeurs individuels ont enregistré et/ou validé. Plus de 200 développeurs ont participé. Mycroft et Snips (assistants numériques), Université de Bangor (Pays de Galles). Jeu de données téléchargé des centaines de fois tous les mois. Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 19/22
  • 20. Première version du jeu de données Common Voice Sortie officielle en plusieurs langues : février 2019 Données accumulées depuis la mise en place (juin) jusqu’à fin décembre : 18 langues disponibles Quelques statistiques Accents : 74% france ; 2% belgique ; 1% suisse ; 1% canada Genres : 72% masculin ; 7% féminin Âges : 6% < 19 ans ; 23% 19-29 ans ; 20% 30-39 ans ; 25% 40-49 ans ; 2% 50-59 ans ; 2% 60-69 ans Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 20/22
  • 21. Comment pouvez-vous aider ? Ce n’est pas fini ! Impliquez-vous ! Parlez-en ; partagez votre voix et validez des échantillons Utilisez le jeu de données, et donnez nous votre point de vue Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile Construisez des outils innovants avec Common Voice et Deep Speech un assistant numérique local ? de l’identification de locuteur ? de la domotique avec contrôle vocal 100% local ? Alexandre Lissy – Christophe Villeneuve | Common Voice | Comment pouvez-vous aider ? 21/22
  • 22. Aller plus loin Site officiel Common Voice https://voice.mozilla.org Dépôt Github Francophone Common Voice / DeepSpeech https://github.com/Common-Voice/commonvoice-fr Forum Discourse Francophone https ://discourse.mozilla.org/c/voice/fr Merci. Alexandre Lissy – Christophe Villeneuve | Common Voice | 22/22