Soumettre la recherche
Mettre en ligne
Tokyo BISH bash presentation
•
1 j'aime
•
311 vues
S
Sayaka Shiota
Suivre
Tokyo BISH bash #6 の発表資料です。
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 22
Recommandé
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開
Shogo Muramatsu
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術
Shogo Muramatsu
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
Recommandé
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開
Shogo Muramatsu
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
多次元信号処理の基礎と画像処理のための二次元変換技術
多次元信号処理の基礎と画像処理のための二次元変換技術
Shogo Muramatsu
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Daichi Kitamura
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
guest797b90
Contenu connexe
Tendances
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
NU_I_TODALAB
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
Tendances
(20)
Asj2017 3invited
Asj2017 3invited
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Nakai22sp03 presentation
Nakai22sp03 presentation
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
深層学習を利用した音声強調
深層学習を利用した音声強調
関数データ解析の概要とその方法
関数データ解析の概要とその方法
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Similaire à Tokyo BISH bash presentation
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
guest797b90
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
Takuya Nishimoto
可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化
hasegawamakoto
卒業研究詳細
卒業研究詳細
Masato Nakajima
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
Tom Kelly
Similaire à Tokyo BISH bash presentation
(7)
Kameoka2016 miru08
Kameoka2016 miru08
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
なぜ標準化技術は使われないか
可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化
卒業研究詳細
卒業研究詳細
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
Tokyo BISH bash presentation
1.
声の生体認証技術と なりすまし音声攻撃の現状と課題 東京都立大学 塩田 さやか
2.
自己紹介 名前 塩田さやか 所属 東京都立大学システムデザイン学部 助教 経歴 名古屋工業大学→統計数理研究所→首都大学東京(現:東京都立大学) 主な研究内容 音声認識 話者認識・なりすまし音声検出 2
3.
目次 1. そもそも声の生体認証技術とは 2. 話者照合技術の紹介 3.
なりすまし音声攻撃と検出 3
4.
そもそも声の生体認証技術とは 4
5.
生体認証(バイオメトリクス) 本人認証に生体情報(テンプレート)を用いた認証技術 誰もが持っている特徴 全員が異なる特徴 実用化例 5 生体認証という観点での音声 センサ
受容性 導入コスト 問題点 指紋 静電容量形 感圧式、光学式 中 (高?) 安 乾燥指、水濡れの影響 特徴量の互換性 顔 CCDカメラ 高 中 化粧、メガネ、照明 加齢、双生児 虹彩 CCDカメラ 中 高 まつ毛の影響、装置 静脈 赤外線CCDカメラ 中 中 装置 音声 マイクロホン 高 安 体調、双生児、経時変化 他にもDNAや署名、掌形など 身体的 特徴 行動的特徴
6.
音声の認識タスクのカテゴリー分け 7 話者認識 (Speaker recognition) 話している人に関するタスク 話者照合(Speaker verification)
話者識別(Speaker identification) 声を使った認識タスク 音声認識 (Speech recognition) 話している内容に関するタスク not Aさん 登録されている誰かから一番近い人を選択 声の生体認証=話者照合 Aさん(登録者) 2値分類 ・・・ Aさん Bさん Zさん
7.
8 話者照合の実用化イメージ 機械が話した人が誰かを認識した上で その人に適したサービスを提供 入力された音声がAさん本人かを確認し スマートフォンのロックを解除 お米買って おいて 明後日 届きます あのゲームが ほしい! 権限があ りません ロック解除 Aさんおかえりなさい コールセンターでオペレータに繋ぐ前に 顧客情報確認 ZZ様、いつもご利用 ありがとうございます
8.
テキスト依存型(text-dependent) 登録と照合で同じ発話内容を使用 音声対話の普及で重要度が向上
音声認識との組み合わせ手法も多い テキスト指定型(text-prompted) 発話内容をシステムから提示(指定) 依存型と独立型の中間 テキスト独立型(text-independent) 登録と照合で発話内容は指定や限定をしない 話者認識の世界的なコンペィションでのタスク 音声合成や話者ダイアリゼーションなど他タスクとの組み合わせにも活用 9 話者照合タスクの分類 高 低 安全性 手軽さ 低 高 Clova Alexa Wake up ワードのイメージ XXXと話してください XXX
9.
話者照合技術の紹介 11
10.
話者照合技術の最近の考え方 話者照合でやりたいこと 登録データとクエリがどれくらいにているか(類似度) 考えないといけないこと 何人くらいを識別可能なのか
どれくらいの精度なのか 実現するために 話者を表現するためのベクトルを用いる SVM-GMM, i-vector, JFA, x-vector 13
11.
x-vectorを用いた話者照合(D. Snyder; 2018) 学習部 学習データ … … … 大量の話者を識別可能なネットワーク (話者識別) 大量の話者を識別するための 話者性を埋め込まれた層 =
話者情報埋め込みベクトル 14
12.
x-vectorを用いた話者照合(D. Snyder; 2018) 登録部(Enrollment) クエリ … 話者埋込み層の出力 =話者表現 登録発話 … テスト発話 登録された話者表現と クエリから得られた話者表現の距離を計算 15
13.
どのようなシステムが適切か もちろん本人を受理し、他人を拒否してくれるシステム 本人を拒否する確率: False
rejection rate (FRR) 他人を受け入れる確率: False acceptance rate (FAR) 等価エラー率(Equal Error Rate) FARとFRRが等しくなる点 FARとFRRはトレードオフの関係 = どちらも低くなることが理想 MinDCF(Minimum Detection Cost Function) EERと合わせて表示することが多い 本人棄却誤り(FRR)より他人受理誤り(FAR)に大きい重みを課す NIST SRE(話者認識のコンペティション)で採用 年度により重みが変更 16 性能評価について 閾値 エラー率 EER
14.
ベースラインを作りたい! Kaldi ASR(ツールキット)とVoxCeleb(データベース)で実現可能 Kaldiの中に各データベース毎のレシピが公開
i-vector(以前のSOTA) x-vector(現在のSOTA) SiTWというデータベースも主流 現状 話者埋め込みの方法や特徴量の検討などの発表が多数 注意機構やRaw音声を使うネットワークなども 学習データ量や発話長など実用化に向けた難しいタスクも 17
15.
なりすまし音声攻撃と検出 18
16.
話者照合の普及の期待が高まってきている! でも世の中は悪い人もいる… セキュリティに関わるものはより慎重に設計すべし 話者照合へのなりすまし攻撃の種類
ものまね ⇒ 音響的特徴の不一致 音声再生 ⇒ テキスト非依存型で対応可能 ⇒ でもWake upワードでやりたい… 音声合成 声質変換 背景 19
17.
① センサへの偽の身体情報の提示 ② 蓄積された身体情報の再入力 ③
特徴抽出処理の置き換え ④ 身体特徴を示す情報の不正変換 ⑤ 照合処理への攻撃 ⑥ 蓄積されたテンプレートの改ざん 生体認証システムの構成と攻撃箇所(1/2) 登録部 照合部 登録DB 閾値 照合判定 身体情報 データ 入力 前処理+特徴抽出 判定ポリシー 身体情報 データ 入力 前処理+特徴抽出 ① ② ③ ④ ⑤ ⑥ データの暗号化や 電子透かしなどデータの 経路や保管場所の安全性を 確保することで対処 20
18.
① センサへの偽の身体情報の提示(Physical Access;
PA) データ入力部がマイク 録音再生攻撃(音声合成や声質変換を含む) ② センサを介さずに情報を直接入力(Logical Access; LA) 特に音声合成や声質変換を想定 生体認証システムの構成と攻撃箇所(2/2) 登録部 照合部 登録DB 閾値 照合判定 身体情報 データ 入力 前処理+特徴抽出 判定ポリシー 身体情報 データ 入力 前処理+特徴抽出 ① ② ③ ④ ⑤ ⑥ 21
19.
なりすまし攻撃検出のコンペティション ASVspoof 2015〜2021への変動(隔年開催) 2015年:
声質変換や音声合成による攻撃(LA) 2017年: 録音再生による攻撃(PA) 2019年: LA & PA (ただしPAはシミュレーション) 2021年: LA & PA & Deep fake 録音再生 収録 PA 合成音声入力 LA なりすまし検出 話者照合 受理 棄却 22
20.
なりすまし攻撃への対処 For PA 録音再生の工程で発生する歪みに着目
録音、再生、再収録と工程が多くデータを十分に用意することが難しい シミュレーションによって機械学習可能なデータ量に ただし、シミュレーションは再現をできているのか…? 攻撃のバリエーションは少ないが収録環境のバリエーションが多い For LA 合成音声特有の不連続性などに着目 データが作りやすいため機械学習が可能なデータ量を用意可能 機械学習ベースの手法 攻撃のバリエーションが多いが収録環境の影響は少ない 23
21.
課題 データの問題 ASVspoofのchallegeで公開されている以外の公開データがない
データの整備、シミュレーションの調整 言語依存性など他の要素も取り除けていない モデルに対する信頼性 評価の問題 システム単体の性能 ASVシステムとの連結を前提とした性能 まだまだ考えるべきことがたくさんある分野! 24
22.
Thank you! 26
Notes de l'éditeur
携帯電話の普及やSiriやgoogle認識で機械に向かって声を発することは抵抗がほぼない 非接触
なぜ抜本的である必要があるかをもう少し説明