Section 4.4 : Estimation de la fréquence fondamentale                                                                     ...
72                                     CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


Contrainte de continuité

    La mét...
Section 4.4 : Estimation de la fréquence fondamentale                                                                     ...
74                                      CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


               6000



            ...
Section 4.4 : Estimation de la fréquence fondamentale                                          75


               5000


...
76                                          CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


                               ...
Prochain SlideShare
Chargement dans…5
×

Doc

441 vues

Publié le

Publié dans : Voyages, Business
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
441
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2
Actions
Partages
0
Téléchargements
6
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Doc

  1. 1. Section 4.4 : Estimation de la fréquence fondamentale 71 3 5 CMNDF log10(CMNDF) MHNDF log10(MHNDF) 4 2.5 3 2 2 1.5 1 0 1 −1 0.5 −2 0 −3 0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200 Délai en échantillons Périodes en échantillons (a) Distances sur une échelle linéaire (b) Distances sur une échelle logarithmique Figure 4.12 — Comparaison entre la distance CMNDF et la nouvelle distance MHNDF sur un signal de parole réel 4.4.2 Description des modifications proposées Définition de la distance Pour lever l’ambiguïté du choix de la période fondamentale qui existait lors de l’utilisa- tion de la distance dCMNDF (plus précisément le choix entre T0 et les sous-harmoniques mT0 ), la distance d1 , pour un délai τ donné, ne sera plus uniquement comparée à sa moyenne sur des délais plus courts mais sera aussi pondérée par le minimum de la distance d1 au voisi- nage de τ , périodes qui correspondent aux harmoniques de τ . Ceci permet d’augmenter le l contraste entre la fonction évaluée en T0 et en lT0 et ainsi d’éviter des divisions par l de f0 . Formellement, cette nouvelle distance notée dMHNDF (n, τ )5 est définie par d1 (t, τ ) dMHNDF (t, τ ) = 1−α . (4.11) 1 τ α τ k=1 d1 (t, k) minl minu∈[β τ ; 1 τ ] d1 (t, u) l β l Le facteur α est un facteur de pondération qui permet de satisfaire un compromis entre la comparaison par rapport à la moyenne et la comparaison par rapport aux harmoniques : la distance CMNDF est obtenue avec α = 1. Nous avons choisi une valeur de 0.7 pour α : une valeur de α trop faible fournit uniquement une mesure de discrimination entre harmoniques. En pratique, le signal de parole n’est pas strictement périodique et les minima ne sont donc pas forcément situés en des multiples de la période fondamentale : le facteur β dont la valeur est proche de 1 (en pratique β = 0.95) permet d’en tenir compte. Comme illustré sur la Figure 4.12 obtenue sur un signal de parole échantillonné à 8kHz, cette nouvelle distance pénalise les périodes multiples de la période fondamentale. En pratique, pour des signaux de parole dont la durée de stationnarité n’est pas très élevée (de l’ordre de 20ms), il y a rarement ambiguïté entre la période fondamentale T0 et des multiples lT0 d’ordre l ≥ 4. La minimisation introduite dans le calcul de la distance MHNDF n’est donc réalisée que pour des ordres l égaux à 2 ou 3. 5 Mean and Harmonic Normalized Difference Function
  2. 2. 72 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF Contrainte de continuité La méthode du YIN se veut indépendante du domaine d’application et n’introduit donc pas de contrainte de continuité sur la courbe de fréquence fondamentale spécifique aux si- gnaux de parole. Afin d’améliorer les performances de l’estimation de la fréquence fonda- mentale, des contraintes de continuité sur la fréquence fondamentale sont ajoutées par le biais d’un algorithme de programmation dynamique. Nous supposerons que, pour la parole, la variation relative de la fréquence fondamentale définie par f1 − f2 c(f1 , f2 ) = 0.5(f1 + f2 ) ne peut dépasser 15% toutes les 20ms. Cette hypothèse correspond à un doublement ou une division par 2 (plus exactement 1.155 ≈ 2) toutes les 100ms. Pour de plus amples détails, les études [XS00, OE73] décrivent précisément les mesures utilisées pour quantifier les varia- tions de fréquence fondamentale et donne les résultats sur différentes langues et locuteurs. En définitive, des variations relatives inférieures à 15% ne sont pas pénalisées, tandis qu’un coût Cr (c(f1 , f2 )) non nul (défini sur la Figure 4.13) est attribué pour des variations supérieures à 15% :   0 si c(f1 , f2 ) < 0.15 Cr (c(f1 , f2 )) = 10(c(f1 , f2 ) − 0.15) si c(f1 , f2 ) ∈ [0.15, 0.25] .  1 si c(f1 , f2 ) > 0.25 Ainsi, on définit un coût de continuité Ccontinuite entre deux trames n − 1 et n distantes de 20ms : fs fs Ccontinuite (T0 (n), T0 (n − 1)) = Cr ◦ c , . T0 (n − 1) T0 (n) La période fondamentale T0 doit aussi correspondre autant que possible à des valeurs peu élevées de la distance MHNDF ; ce qui conduit à l’utilisation d’un coût cible Ccible : Ccible (tn , T0 ) = max log10 dMHNDF (tn , T0 ) , −2 . L’utilisation de la distance MHNDF sur l’échelle logarithmique permet de donner davantage de poids aux trames quasi périodiques tandis que la saturation à −2 permet de ne pas accorder une confiance totale à une composante sinusoïdale de très faible amplitude située sur une zone de silence et qui peut tout simplement correspondre à un artefact. L’estimation de la fréquence fondamentale est ainsi réalisée en minimisant à l’aide d’un algorithme de Viterbi le coût global suivant : N N C= kn Ccible (tn , T0 ) + γ Ccontinuite (T0 (n), T0 (n − 1)) , n=0 n=1 où γ est un facteur de pondération entre le coût cible et le coût de continuité. Il faut noter la présence d’un facteur de pondération kn appliqué sur le coût cible. Des expériences ont révélé que prendre ∀n : kn = 1 pouvait introduire des erreurs d’estimation. En effet, le coût cible étant normalisé par rapport à l’amplitude du signal de parole, la même importance au
  3. 3. Section 4.4 : Estimation de la fréquence fondamentale 73 1 Cout de concatenation 0.8 0.6 0.4 0.2 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Variation relative de f0 Figure 4.13 — Fonction de coût en fonction de la variation relative de la fréquence fonda- mentale niveau du coût global sera accordée à une trame de parole et à une composante sinusoïdale de très faible amplitude présente sur une zone de silence qui peut tout simplement être le résultat d’un artefact. Le facteur kn permet donc de privilégier les trames d’énergie élevée par rapport aux trames environnantes. Formellement, il est défini par : “ ” Einst (tn ) 10.0 log10 /3.0 kn = λ Emean (tn ) (4.12) où Einst (tn ) correspond à l’énergie de la trame calculée en prenant une fenêtre de 25ms et Emean (tn ) à l’énergie moyenne du signal autour de cette trame calculée en utilisant une fenêtre de largeur 500ms. Une trame deux fois plus énergétique (gain de 3 dB) est donc λ fois plus importante au niveau du coût cible. 4.4.3 Résultats Calcul des périodes fondamentales de référence Les tests sont effectués sur la base Arctic (plus précisément sur la voix masculine de la base cmu_us_bdl_artic) qui fournit les signaux de parole et les signaux DEGG. Pour un signal de parole donné, les instants de fermeture tc (n) peuvent être extraits à partir du si- gnal DEGG par la méthode décrite dans la section 2.3. A chaque instant de fermeture tc (n) g peuvent être définies une période à gauche par T0 (n) = tc (n) − tc (n − 1) et une période à d droite par T0 (n) = tc (n + 1) − tc (n). Cependant, comme illustré sur la Figure 4.14, certaines zones du signal de parole peuvent présenter des instants de fermeture espacés irrégulière- ment, cette situation arrive le plus souvent sur des voix d’homme ou pour une qualité de voix g d creaky. Dans ce cas, les périodes fondamentales T0 et T0 ne sont plus reliées à la période
  4. 4. 74 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF 6000 5000 4000 3000 2000 1000 0 −1000 −2000 1.5 1.52 1.54 1.56 1.58 1.6 1.62 4 x 10 (a) Signal DEGG 3000 2000 1000 0 −1000 −2000 −3000 −4000 1.5 1.52 1.54 1.56 1.58 1.6 1.62 4 x 10 (b) Signal de parole Figure 4.14 — Segment de parole où les instants de fermeture sont irrégulièrement espacés fondamentale perçue. Pour obtenir une période fondamentale qui a un sens sur ces zones irrégulières et qui ne soit pas éloignée de la période fondamentale réelle pour des signaux quasi-périodiques, nous allons définir une période fondamentale moyenne de référence par r tc (n + 2) − tc (n − 2) T0 (n) = . (4.13) 4 De manière formelle, les zones irrégulièrement voisées incluent tous les instants de fermeture g d r dont une des trois périodes fondamentales T0 , T0 et T0 est trop différente des deux autres. Le critère exact correspond à un seuil à 20% sur la variation relative de fréquence fondamentale. Il faut toutefois noter que des intervalles peuvent être considérés comme irrégulièrement voisés à la suite d’une mauvaise détection d’un instant de fermeture sur le signal DEGG. Ce cas est illustré sur la Figure 4.15 où les deux instants de fermeture précédant et suivant l’instant de fermeture non détecté seront ainsi considérés à tort comme étant irrégulièrement espacés. Validation de l’hypothèse de continuité A partir des périodes fondamentales de référence, il est possible de vérifier l’hypothèse de continuité réalisée sur la fréquence fondamentale. Sur les 400 premières phrases de la base cmu_us_bdl_arctic, l’hypothèse stipulant que le pitch ne peut doubler ou être divisé par deux en moins de 100ms n’est mis en défaut que dans 0.03% des cas, i.e. : card{t ∈ F tel que f0 (t) > 2f0 (t + 100ms) ou f0 (t) < 0.5f0 (t + 100ms)} = 0.03% card F
  5. 5. Section 4.4 : Estimation de la fréquence fondamentale 75 5000 4000 Instant de fermeture non détecté 3000 2000 1000 0 −1000 −2000 −3000 5000 5050 5100 5150 5200 5250 5300 5350 5400 (a) Signal DEGG 6000 4000 2000 0 −2000 −4000 −6000 5000 5050 5100 5150 5200 5250 5300 5350 5400 (b) Signal de parole Figure 4.15 — Segment de parole présentant un instant de fermeture non détecté par la méthode proposée où f0 est la fréquence fondamentale de référence et F est l’ensemble des instants considé- rés. Pour ces quelques cas où l’hypothèse est contredite, le facteur de multiplication ou de division du pitch de référence est cependant proche de 2, d’où une faible pénalisation par le coût de continuité de la courbe de fréquence fondamentale réelle. Autrement dit, la fonction de coût de continuité ne pénalise quasiment jamais les courbes de fréquence fondamentale réelles, mais a pour objet de pénaliser des valeurs erratiques de f0 . Performances de l’estimation La méthode proposée a été comparée à la méthode du YIN (l’implémentation est celle des auteurs du YIN). Nous avons repris la même mesure de qualité que celle exposée dans ˆ la méthode du YIN [dCK02] à savoir le taux d’erreur grossière : une estimée f0 est consi- ˆ dérée comme une erreur grossière si la déviation relative de f0 par rapport à la fréquence fondamentale de référence f0 est d’au moins 20%. Deux types de tests ont été réalisés sui- vant que les instants de fermeture sur les zones irrégulières ont été inclus ou non dans les résultats. Le Tableau 4.1 montre que l’utilisation d’une mesure plus discriminante couplée à des contraintes de continuité permet de réduire significativement le taux d’erreur grossière. Notre méthode conduit globalement à une division par deux du taux d’erreur grossière. Ce taux est même divisé par trois si l’on considère uniquement les portions de signal où les GCI sont régulièrement espacés. La méthode proposée ne commet des erreurs d’octave que très rarement. Ces erreurs d’octave peuvent encore subsister sur des segments de parole dont le voisement est plutôt
  6. 6. 76 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF Algorithme TEG-1 TEG-2 YIN 3.19 1.78 Méthode proposée 1.52 0.59 Tableau 4.1 — Taux d’erreur grossière (TEG) de l’algorithme proposé et de la méthode du YIN pour les deux configurations : en incluant tous les GCI dans les résultats (TEG-1) et en excluant les GCI irrégulièrement espacés (TEG-2). irrégulier et qui sont entourés de segments non voisés (Figure 4.16). Sur de tels segments, il n’existe pas de zone fiable permettant, grâce à la contrainte de continuité, d’améliorer l’estimation sur le segment voisé. 1.85 1.9 1.95 2 2.05 Temps en secondes Figure 4.16 — Exemple de signal de parole où la fréquence fondamentale f0 estimée par la méthode proposée correspond à une division par 2 de la fréquence fondamentale réelle. Signal extrait de la phrase arctic_a0024. 4.5 Localisation des instants de fermeture La détection des instants de fermeture est nécessaire non seulement dans le cadre présent d’inversion du signal de parole afin d’obtenir l’onde de débit glottique mais aussi dans le cadre de la synthèse de la parole basée sur des concaténations d’unités acoustiques effectuées par la méthode TD-PSOLA6 [ML95]. Cette méthode nécessite un marquage pitch-synchrone du signal de parole. De plus, les marques apposées doivent se situer au voisinage de l’ins- tant de fermeture de glotte. En effet, ce faisant, l’opération d’addition-recouvrement (OLA) garantit une reproduction fidèle du signal de parole au voisinage de l’instant de fermeture de glotte, zone particulièrement énergétique et donc très importante sur le plan de la perception. La méthode PSOLA étant très utilisée, le problème d’estimation des GCI a suscité un certain intérêt. Différentes méthodes d’estimation ont ainsi été mises au point, toutes reposant sur le fait que l’instant de fermeture correspond en général à l’instant d’excitation principal du cycle glottique : 6 Time Domain Pitch Synchronous OverLap Add

×