Publicité

hirai23slp03.pdf

28 Feb 2023
Publicité

Contenu connexe

Présentations pour vous(20)

Similaire à hirai23slp03.pdf(20)

Publicité

Dernier(20)

Publicité

hirai23slp03.pdf

  1. 第146回音声言語情報処理研究発表会 Fed-StarGANv2-VC: 連合学習を用いた多対多声質変換 平井龍之介,齋藤佑樹,猿渡洋(東大)
  2. 目次 - 声質変換の概説 - 連合学習の概説 - 提案手法とその評価 - まとめと今後の課題 要約 - 連合学習を用いてプライバシーを保護したまま声質変換を実現する手法の提案 01/19
  3. 研究分野: 声質変換 (Voice Conversion: VC) X Y 「こんにちは」 「こんにちは」 変換器 男声 落ち着いた 女声 溌剌 発話内容 発話内容 音響的特徴 音響的特徴 そのまま 変化する 多対多声質変換の利用例 - ユーザ→プロ声優の声質変換 - ユーザ同士の声質変換 02/19
  4. 既存手法: StarGANv2-VC[1] 生成システム 識別システム 話者性の ベクトル表現 03/19
  5. 一方向的/双方向的な機械学習アプローチ 04/19 双方向的アプローチが望ましい
  6. 双方向的アプローチの問題点: 個人情報漏洩リスク 音声データには個人情報が含まれる - 発話内容 等 集約には個人情報漏洩のリスクがある - 通信時の漏洩 - サーバへの不正アクセス 等 データを集約しない学習システムの構築が必要 05/19
  7. 関連研究: 連合学習[2] 2.学習 2.学習 1.配布 3.統合 選ばれなかった クライアント パラメータ ローカルなデータ クライアント サーバ 各Round(反復の単位)の処理 1.選択したクライアントにモデルを配布 2.各クライアントは所有する データでモデルを学習 3.サーバはモデルを統合 本実験では統合手法にFedAvg[3]を採用 06/19
  8. 連合学習の統合処理 データ数で重み付き平均を取る 統合: Federated Averaging 統合 配布・更新 07/19
  9. 連合学習の適用例(先行研究) - 画風変換 - Federated CycleGAN - Joonyoung Song and Jong Chul Ye. Federated CycleGAN for privacy-preserving image-to- image translation, 2021. - テキスト音声合成 - FedSpeech - Ziyue Jiang, Yi Ren, Ming Lei, and Zhou Zhao. FedSpeech: Federated text-to-speech with continual learning. In Proc. IJCAI, pp. 3829–3835, Montreal, Canada, Aug. 2021. - 声質変換 - ???(まだ無い) 本研究の主眼: 声質変換技術への連合学習の適用とその影響の調査 08/19
  10. StarGANv2-VCを構成するモデル全てに対し,連合学習を適用する手法 提案手法: Fed-StarGANv2-VC 既存手法(一方向的) 提案手法(双方向的) 09/19
  11. nonIIDデータセット - 変換対象をClient話者とAnchor話者に分類 - 1Client話者は連合学習の1クライアントに対応 - Client話者→クライアント端末のユーザの利用データ - Anchor話者→サーバから供与される音声データ - Anchor話者のデータ数とClient話者のデータ数が一致 するようにデータ数を調整 データセットに 含まれない変換ペア 10/19
  12. 連合学習におけるClient話者間の変換の間接的学習 11/19
  13. - ただし, はクライアントのモデルパラメータ, はサーバのモデルパラメ ータ, は影響度を決定するハイパーパラメータ 連合学習の課題: データ分布の非同一性 - クライアントの持つデータが異なる分布に従う→収束速度の低下 - 各クライアントのデータセットに過適合 - データ非同一性に起因する過適合への対策: FedProx[4] - パラメータの更新式にサーバ側の(統合済み)モデルに引き戻す項を導入 統合済みモデルとの二乗誤差 12/19
  14. 実験 比較手法: Baseline (StarGANv2-VC) vs Proposed (Fed-StarGANv2-VC) 実験条件 Proposed間の比較: {200,400}Round学習,{1,3}Client選択,FedProx{なし,あり} BaselineとProposedの比較: Baseline(700Epoch),Proposed(3Client選択,800Round,FedProx) 客観評価: 変換先話者との類似度(x-vector[9]コサイン類似度) 主観評価: 変換先話者との類似度(ABXテスト),音質(ABテスト) 実装 オープンソース実装[5] データセット JVS[6] parallel100サブセット 有音部を結合→5秒毎に分割 {訓練/検証/評価}データ {3284,411,411}点 {Anchor,Client}話者 {10,30}話者(男女均等) Optimizer AdamW[7] BatchSize 10 Epoch/Round (Proposedのみ) 10 x-vector 抽出器 x-vector extractor for Japanese speech[8] 13/19
  15. 客観評価: 条件を変化させた際のProposedのx-vectorコサイン類似度 学習期間(Round数)が長い程性能が良い 各Roundで選択するクライアントの数が 多い方が性能が良い FedProxを導入した方が性能が良い 学習期間(Round)を変化させた場合 各Roundで選択するクライアント数を変化させた場合 FedProxの導入の有無を変化させた場合 14/19
  16. 客観評価結果: 学習期間に対する x-vector コサイン類似度の変化 Client話者への変換 提案手法ではClient話者同士の変換も間接的に学習出来る 200Epoch時点でほぼ収束 Baseline Proposed Anchor話者への変換 15/19
  17. 主観評価 BaselineとProposedは同等 or Proposedの方が優越 Anchorへの変換→Baselineが優越 Clientへの変換→Proposedが優越 クライアントへのデータ分割手法が学習に影響している可能性を示唆 類似度(ABXテスト) 音質(ABテスト) 被験者は各基準,変換ペア毎に50人 16/19
  18. 音質評価: nonIIDデータセットが学習に与える影響 Anchor話者への変換 Anchor話者10人のデータとClient話者1人の データが同じ量 →Anchor話者一人あたりのデータが少ない Client話者への変換 Baselineが40人の声質変換を学習するのに 対して、Proposedでは各クライアントで 11人の声質変換を学習 →小さい課題への分割が学習を促進 Anchorへの変換→Baselineが優越 Clientへの変換→Proposedが優越 音質(ABテスト) 17/19
  19. サンプル音声 Client話者→Anchor話者 Client話者→Client話者 入力音声 変換先サンプル Baselineでの変換 Proposedでの変換 入力音声 変換先サンプル Baselineでの変換 Proposedでの変換 音声サンプルリンク及びQRコード https://drive.google.com/drive/folders/1QcCFnjuu39lv9sKbVFLnsORpOf0_VVI_?usp=sharing 18/19 A A B 1
  20. まとめ 目的: 声質変換モデルにおけるプライバシーを保護した状態での双方向的な学習の実現 提案法: 多対多声質変換モデルStarGANv2-VCに連合学習を適用 結果: Client話者のデータを各クライアントに分散させたまま,Client同士の声質変換の学 習を達成 今後の課題 - データ分布の非同一性の影響に対する更なる対策の導入 - 実環境での実験 19/19
  21. 参考文献 [1]Yinghao Aaron Li, Ali Asghar Zare, and Nima Mesgarani. StarGANv2-VC: A diverse, unsupervised, non-parallel framework for natural-sounding voice conversion. In Proc. INTERSPEECH, pp. 1349–1353, Brno, Czechia, Sep. 2021. [2]Jakub Koneˇcn´y, H. Brendan McMahan, Felix X. Yu, Peter Richtarik, Ananda Theertha Suresh, and Dave Bacon. Federated learning: strategies for improving communication efficiency. In NIPS Workshop on Private Multi-Party Machine Learning, Barcelona, Spain, Dec. 2016. [3]Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks from decentralized data. In Artificial Intelligence and Statistics, pp. 1273–1282, 2017. [4]Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks. In Proc. AMTL,Long Beach, USA, Apr. 2019. [5]https://github.com/yl4579/StarGANv2-VC [6]Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari. JSUT and JVS: Free Japanese voicecorpora for accelerating speech synthesis research. Acoustical Science and Technology,Vol. 41, No. 5, pp. 761–768, Sep. 2020. [7]Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In Proc.ICLR, Palais des Congr`es Neptune, Toulon, France, Apr. 2017. [8]Takaki Hamada and Shinnosuke Takamichi. x-vector extractor for Japanese speech,2022.https://github.com/sarulab-speech/xvector_jtubespeech. [9]D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur. X-vectors:Robust DNN embeddings for speaker recognition. In Proc. ICASSP, pp. 5329–5333,Calgary, Alberta, Canada, Apr. 2018.
Publicité