hirai23slp03.pdf

第146回音声言語情報処理研究発表会
Fed-StarGANv2-VC:
連合学習を用いた多対多声質変換
平井龍之介，齋藤佑樹，猿渡洋（東大）

目次
- 声質変換の概説
- 連合学習の概説
- 提案手法とその評価
- まとめと今後の課題
要約
- 連合学習を用いてプライバシーを保護したまま声質変換を実現する手法の提案
01/19

研究分野: 声質変換 (Voice Conversion: VC)
X Y
「こんにちは」「こんにちは」
変換器
男声
落ち着いた
女声
溌剌
発話内容発話内容
音響的特徴音響的特徴
そのまま
変化する
多対多声質変換の利用例
- ユーザ→プロ声優の声質変換
- ユーザ同士の声質変換
02/19

既存手法: StarGANv2-VC[1]
生成システム識別システム
話者性の
ベクトル表現
03/19

一方向的/双方向的な機械学習アプローチ
04/19
双方向的アプローチが望ましい

双方向的アプローチの問題点: 個人情報漏洩リスク
音声データには個人情報が含まれる
- 発話内容等
集約には個人情報漏洩のリスクがある
- 通信時の漏洩
- サーバへの不正アクセス等
データを集約しない学習システムの構築が必要
05/19

関連研究: 連合学習[2]
2.学習
2.学習
1.配布
3.統合
選ばれなかった
クライアントパラメータ
ローカルなデータクライアント
サーバ
各Round（反復の単位）の処理
1.選択したクライアントにモデルを配布
2.各クライアントは所有する
データでモデルを学習
3.サーバはモデルを統合
本実験では統合手法にFedAvg[3]を採用
06/19

連合学習の統合処理
データ数で重み付き平均を取る
統合: Federated Averaging
統合
配布・更新
07/19

連合学習の適用例（先行研究）
- 画風変換
- Federated CycleGAN
- Joonyoung Song and Jong Chul Ye. Federated CycleGAN for privacy-preserving image-to-
image translation, 2021.
- テキスト音声合成
- FedSpeech
- Ziyue Jiang, Yi Ren, Ming Lei, and Zhou Zhao. FedSpeech: Federated text-to-speech with
continual learning. In Proc. IJCAI, pp. 3829–3835, Montreal, Canada, Aug. 2021.
- 声質変換
- ???（まだ無い）
本研究の主眼: 声質変換技術への連合学習の適用とその影響の調査
08/19

StarGANv2-VCを構成するモデル全てに対し，連合学習を適用する手法
提案手法: Fed-StarGANv2-VC
既存手法（一方向的）提案手法（双方向的）
09/19

nonIIDデータセット
- 変換対象をClient話者とAnchor話者に分類
- 1Client話者は連合学習の1クライアントに対応
- Client話者→クライアント端末のユーザの利用データ
- Anchor話者→サーバから供与される音声データ
- Anchor話者のデータ数とClient話者のデータ数が一致
するようにデータ数を調整
データセットに
含まれない変換ペア
10/19

連合学習におけるClient話者間の変換の間接的学習
11/19

- ただし，はクライアントのモデルパラメータ，はサーバのモデルパラメ
ータ，は影響度を決定するハイパーパラメータ
連合学習の課題: データ分布の非同一性
- クライアントの持つデータが異なる分布に従う→収束速度の低下
- 各クライアントのデータセットに過適合
- データ非同一性に起因する過適合への対策: FedProx[4]
- パラメータの更新式にサーバ側の（統合済み）モデルに引き戻す項を導入
統合済みモデルとの二乗誤差
12/19

実験
比較手法: Baseline (StarGANv2-VC) vs Proposed (Fed-StarGANv2-VC)
実験条件
Proposed間の比較: {200,400}Round学習，{1,3}Client選択，FedProx{なし，あり}
BaselineとProposedの比較: Baseline(700Epoch)，Proposed(3Client選択,800Round,FedProx)
客観評価: 変換先話者との類似度（x-vector[9]コサイン類似度）
主観評価: 変換先話者との類似度（ABXテスト），音質（ABテスト）
実装オープンソース実装[5]
データセット JVS[6] parallel100サブセット
有音部を結合→5秒毎に分割
{訓練/検証/評価}データ {3284,411,411}点
{Anchor,Client}話者 {10,30}話者（男女均等）
Optimizer AdamW[7]
BatchSize 10
Epoch/Round
(Proposedのみ)
10
x-vector
抽出器
x-vector extractor for Japanese
speech[8]
13/19

客観評価: 条件を変化させた際のProposedのx-vectorコサイン類似度
学習期間(Round数)が長い程性能が良い
各Roundで選択するクライアントの数が
多い方が性能が良い
FedProxを導入した方が性能が良い
学習期間(Round)を変化させた場合
各Roundで選択するクライアント数を変化させた場合
FedProxの導入の有無を変化させた場合
14/19

客観評価結果: 学習期間に対する x-vector コサイン類似度の変化
Client話者への変換
提案手法ではClient話者同士の変換も間接的に学習出来る
200Epoch時点でほぼ収束
Baseline Proposed
Anchor話者への変換
15/19

主観評価
BaselineとProposedは同等
or Proposedの方が優越
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
クライアントへのデータ分割手法が学習に影響している可能性を示唆
類似度（ABXテスト）音質（ABテスト）
被験者は各基準，変換ペア毎に50人
16/19

音質評価: nonIIDデータセットが学習に与える影響
Anchor話者への変換
Anchor話者10人のデータとClient話者1人の
データが同じ量
→Anchor話者一人あたりのデータが少ない
Client話者への変換
Baselineが40人の声質変換を学習するのに
対して、Proposedでは各クライアントで
11人の声質変換を学習
→小さい課題への分割が学習を促進
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
音質（ABテスト）
17/19

サンプル音声
Client話者→Anchor話者
Client話者→Client話者
入力音声変換先サンプル Baselineでの変換 Proposedでの変換
入力音声変換先サンプル Baselineでの変換 Proposedでの変換
音声サンプルリンク及びQRコード
https://drive.google.com/drive/folders/1QcCFnjuu39lv9sKbVFLnsORpOf0_VVI_?usp=sharing
18/19
A
A B
1

まとめ
目的: 声質変換モデルにおけるプライバシーを保護した状態での双方向的な学習の実現
提案法: 多対多声質変換モデルStarGANv2-VCに連合学習を適用
結果: Client話者のデータを各クライアントに分散させたまま，Client同士の声質変換の学
習を達成
今後の課題
- データ分布の非同一性の影響に対する更なる対策の導入
- 実環境での実験
19/19

参考文献
[1]Yinghao Aaron Li, Ali Asghar Zare, and Nima Mesgarani. StarGANv2-VC: A diverse, unsupervised, non-parallel framework for natural-sounding
voice conversion. In Proc. INTERSPEECH, pp. 1349–1353, Brno, Czechia, Sep. 2021.
[2]Jakub Koneˇcn´y, H. Brendan McMahan, Felix X. Yu, Peter Richtarik, Ananda Theertha Suresh, and Dave Bacon. Federated learning: strategies
for improving communication efficiency. In NIPS Workshop on Private Multi-Party Machine Learning, Barcelona, Spain, Dec. 2016.
[3]Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks
from decentralized data. In Artificial Intelligence and Statistics, pp. 1273–1282, 2017.
[4]Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks.
In Proc. AMTL,Long Beach, USA, Apr. 2019.
[5]https://github.com/yl4579/StarGANv2-VC
[6]Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama,
Naoko Tanji, and Hiroshi Saruwatari. JSUT and JVS: Free Japanese voicecorpora for accelerating speech synthesis research. Acoustical Science
and Technology,Vol. 41, No. 5, pp. 761–768, Sep. 2020.
[7]Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In Proc.ICLR, Palais des Congr`es Neptune, Toulon, France, Apr. 2017.
[8]Takaki Hamada and Shinnosuke Takamichi. x-vector extractor for Japanese speech,2022.https://github.com/sarulab-speech/xvector_jtubespeech.
[9]D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur. X-vectors:Robust DNN embeddings for speaker recognition. In Proc. ICASSP,
pp. 5329–5333,Calgary, Alberta, Canada, Apr. 2018.

hirai23slp03.pdf

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à hirai23slp03.pdf

Similaire à hirai23slp03.pdf (20)

Plus de Yuki Saito

Plus de Yuki Saito (20)

hirai23slp03.pdf