SlideShare une entreprise Scribd logo
1  sur  22
声の生体認証技術と
なりすまし音声攻撃の現状と課題
東京都立大学 塩田 さやか
自己紹介
名前
塩田さやか
所属
東京都立大学システムデザイン学部 助教
経歴
名古屋工業大学→統計数理研究所→首都大学東京(現:東京都立大学)
主な研究内容
音声認識
話者認識・なりすまし音声検出
2
目次
1. そもそも声の生体認証技術とは
2. 話者照合技術の紹介
3. なりすまし音声攻撃と検出
3
そもそも声の生体認証技術とは
4
生体認証(バイオメトリクス)
本人認証に生体情報(テンプレート)を用いた認証技術
 誰もが持っている特徴
 全員が異なる特徴
実用化例
5
生体認証という観点での音声
センサ 受容性 導入コスト 問題点
指紋
静電容量形
感圧式、光学式
中
(高?)
安
乾燥指、水濡れの影響
特徴量の互換性
顔 CCDカメラ 高 中
化粧、メガネ、照明
加齢、双生児
虹彩 CCDカメラ 中 高 まつ毛の影響、装置
静脈 赤外線CCDカメラ 中 中 装置
音声 マイクロホン 高 安 体調、双生児、経時変化
他にもDNAや署名、掌形など
身体的
特徴
行動的特徴
音声の認識タスクのカテゴリー分け
7
話者認識
(Speaker recognition)
話している人に関するタスク
話者照合(Speaker verification) 話者識別(Speaker identification)
声を使った認識タスク
音声認識
(Speech recognition)
話している内容に関するタスク
not Aさん
登録されている誰かから一番近い人を選択
声の生体認証=話者照合
Aさん(登録者)
2値分類
・・・
Aさん Bさん Zさん
8
話者照合の実用化イメージ
機械が話した人が誰かを認識した上で
その人に適したサービスを提供
入力された音声がAさん本人かを確認し
スマートフォンのロックを解除
お米買って
おいて
明後日
届きます
あのゲームが
ほしい!
権限があ
りません
ロック解除
Aさんおかえりなさい
コールセンターでオペレータに繋ぐ前に
顧客情報確認
ZZ様、いつもご利用
ありがとうございます
テキスト依存型(text-dependent)
 登録と照合で同じ発話内容を使用
 音声対話の普及で重要度が向上
 音声認識との組み合わせ手法も多い
テキスト指定型(text-prompted)
 発話内容をシステムから提示(指定)
 依存型と独立型の中間
テキスト独立型(text-independent)
 登録と照合で発話内容は指定や限定をしない
 話者認識の世界的なコンペィションでのタスク
 音声合成や話者ダイアリゼーションなど他タスクとの組み合わせにも活用 9
話者照合タスクの分類
高
低
安全性
手軽さ
低
高
Clova Alexa
Wake up ワードのイメージ
XXXと話してください
XXX
話者照合技術の紹介
11
話者照合技術の最近の考え方
話者照合でやりたいこと
 登録データとクエリがどれくらいにているか(類似度)
考えないといけないこと
 何人くらいを識別可能なのか
 どれくらいの精度なのか
実現するために
 話者を表現するためのベクトルを用いる
 SVM-GMM, i-vector, JFA, x-vector
13
x-vectorを用いた話者照合(D. Snyder; 2018)
学習部
学習データ
…
…
…
大量の話者を識別可能なネットワーク
(話者識別)
大量の話者を識別するための
話者性を埋め込まれた層
= 話者情報埋め込みベクトル
14
x-vectorを用いた話者照合(D. Snyder; 2018)
登録部(Enrollment)
クエリ
…
話者埋込み層の出力
=話者表現
登録発話
…
テスト発話
登録された話者表現と
クエリから得られた話者表現の距離を計算
15
どのようなシステムが適切か
もちろん本人を受理し、他人を拒否してくれるシステム
 本人を拒否する確率: False rejection rate (FRR)
 他人を受け入れる確率: False acceptance rate (FAR)
等価エラー率(Equal Error Rate)
 FARとFRRが等しくなる点
 FARとFRRはトレードオフの関係 = どちらも低くなることが理想
MinDCF(Minimum Detection Cost Function)
 EERと合わせて表示することが多い
 本人棄却誤り(FRR)より他人受理誤り(FAR)に大きい重みを課す
 NIST SRE(話者認識のコンペティション)で採用
 年度により重みが変更
16
性能評価について
閾値
エラー率
EER
ベースラインを作りたい!
Kaldi ASR(ツールキット)とVoxCeleb(データベース)で実現可能
 Kaldiの中に各データベース毎のレシピが公開
 i-vector(以前のSOTA)
 x-vector(現在のSOTA)
 SiTWというデータベースも主流
現状
 話者埋め込みの方法や特徴量の検討などの発表が多数
 注意機構やRaw音声を使うネットワークなども
 学習データ量や発話長など実用化に向けた難しいタスクも
17
なりすまし音声攻撃と検出
18
話者照合の普及の期待が高まってきている!
 でも世の中は悪い人もいる…
 セキュリティに関わるものはより慎重に設計すべし
話者照合へのなりすまし攻撃の種類
 ものまね ⇒ 音響的特徴の不一致
 音声再生
⇒ テキスト非依存型で対応可能 ⇒ でもWake upワードでやりたい…
 音声合成
 声質変換
背景
19
① センサへの偽の身体情報の提示
② 蓄積された身体情報の再入力
③ 特徴抽出処理の置き換え
④ 身体特徴を示す情報の不正変換
⑤ 照合処理への攻撃
⑥ 蓄積されたテンプレートの改ざん
生体認証システムの構成と攻撃箇所(1/2)
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
前処理+特徴抽出
判定ポリシー
身体情報
データ
入力
前処理+特徴抽出
① ② ③
④
⑤
⑥
データの暗号化や
電子透かしなどデータの
経路や保管場所の安全性を
確保することで対処
20
① センサへの偽の身体情報の提示(Physical Access; PA)
 データ入力部がマイク
 録音再生攻撃(音声合成や声質変換を含む)
② センサを介さずに情報を直接入力(Logical Access; LA)
 特に音声合成や声質変換を想定
生体認証システムの構成と攻撃箇所(2/2)
登録部
照合部
登録DB
閾値
照合判定
身体情報
データ
入力
前処理+特徴抽出
判定ポリシー
身体情報
データ
入力
前処理+特徴抽出
① ② ③
④
⑤
⑥
21
なりすまし攻撃検出のコンペティション
ASVspoof 2015〜2021への変動(隔年開催)
 2015年: 声質変換や音声合成による攻撃(LA)
 2017年: 録音再生による攻撃(PA)
 2019年: LA & PA (ただしPAはシミュレーション)
 2021年: LA & PA & Deep fake
録音再生 収録
PA
合成音声入力
LA
なりすまし検出 話者照合
受理
棄却
22
なりすまし攻撃への対処
For PA
 録音再生の工程で発生する歪みに着目
 録音、再生、再収録と工程が多くデータを十分に用意することが難しい
 シミュレーションによって機械学習可能なデータ量に
 ただし、シミュレーションは再現をできているのか…?
 攻撃のバリエーションは少ないが収録環境のバリエーションが多い
For LA
 合成音声特有の不連続性などに着目
 データが作りやすいため機械学習が可能なデータ量を用意可能
 機械学習ベースの手法
 攻撃のバリエーションが多いが収録環境の影響は少ない
23
課題
 データの問題
 ASVspoofのchallegeで公開されている以外の公開データがない
 データの整備、シミュレーションの調整
 言語依存性など他の要素も取り除けていない
 モデルに対する信頼性
 評価の問題
 システム単体の性能
 ASVシステムとの連結を前提とした性能
まだまだ考えるべきことがたくさんある分野!
24
Thank you!
26

Contenu connexe

Tendances

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にRyosuke Tachibana
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析Seiichi Uchida
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 

Tendances (20)

Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 

Similaire à Tokyo BISH bash presentation

なぜ標準化技術は使われないか
なぜ標準化技術は使われないかなぜ標準化技術は使われないか
なぜ標準化技術は使われないかguest797b90
 
なぜ標準化技術は使われないか
なぜ標準化技術は使われないかなぜ標準化技術は使われないか
なぜ標準化技術は使われないかTakuya Nishimoto
 
可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化hasegawamakoto
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo rTom Kelly
 

Similaire à Tokyo BISH bash presentation (7)

Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
なぜ標準化技術は使われないか
なぜ標準化技術は使われないかなぜ標準化技術は使われないか
なぜ標準化技術は使われないか
 
なぜ標準化技術は使われないか
なぜ標準化技術は使われないかなぜ標準化技術は使われないか
なぜ標準化技術は使われないか
 
可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化可視光で撮影された静脈画像の鮮明化
可視光で撮影された静脈画像の鮮明化
 
卒業研究詳細
卒業研究詳細卒業研究詳細
卒業研究詳細
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
 

Tokyo BISH bash presentation

Notes de l'éditeur

  1. 携帯電話の普及やSiriやgoogle認識で機械に向かって声を発することは抵抗がほぼない 非接触
  2. なぜ抜本的である必要があるかをもう少し説明