SlideShare a Scribd company logo
1 of 32
Download to read offline
Signing at Scale: Learning to Co-Articulate
Signs for Large-Scale Photo-Realistic Sign
Language Production(CVPR 2022)
ARISE analytics 近藤 真暉
特に注釈ない限り、画像は論文からの引用です
論文URL:
https://openaccess.thecvf.com/content/CVPR2022/html/Saunders_Signing_at_Scale_Learning_t
o_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.html
今、手話xCVがアツい?
1
手話に関する論文がまとめられたリポジトリ : https://github.com/ycmin95/awesome-Gesture-Sign-Language-
Recognition
CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向
ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催
©2022 ARISE analytics Reserved.
CVPR ECCV ICCV 合計
2018 1 0 - 1
2019 1 - 0 1
2020 2 4 - 6
2021 4 - 5 9
2022 5 ? - 5
0
1
2
3
4
5
6
7
8
9
10
2018 2019 2020 2021 2022
件数
年
ICCV
ECCV
CVPR
CV系トップカンファレンス採択論文のうち、
タイトルに“Sign Language”が含まれる論文の件数
(ECCV,ICCVは隔年開催
ECCVの採択論文は資料作成視点でまだ未公開)
↑
BERT
(ArXiv 2018)
↑
ViT
(ArXiv 2020,
ICLR 2021)
手話xCV @ CVPR 2022
©2022 ARISE analytics Reserved. 2
"A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation"
手話認識向け転移学習の提案
"Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic
Sign Language Production"
語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】
"C2SLR: Consistency-Enhanced Continuous Sign Language Recognition"
表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上
"MLSLT: Towards Multilingual Sign Language Translation"
多言語手話データセットの収集とマルチリンガルな手話認識の提案
"Sign Language Video Retrieval With Free-Form Textual Queries"
テキストを用いた手話映像検索システムの提案
本論文の概要
©2022 ARISE analytics Reserved. 3
https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
なぜ機械手話動画生成のニーズがあるのか?
©2022 ARISE analytics Reserved. 4
聴覚障害者と書記言語
手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書記言語を
習得することはハードルが高い
そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカバーできない
手話通訳者と機械手話生成
手話通訳者(interpreter)による通訳はそれをカバーする手段だが、大きな手間がかかるため手軽な機
械手話動画生成のニーズが高い
特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手話生成が
求められる
なぜ手話分析は難しいのか?①
©2022 ARISE analytics Reserved. 5
画像引用:https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2
複数モダリティの統合が必要
手形状・動き・口形に加え、CL(Classifire:相対的な位置情報)・NMS(Non-manual Signals:
表情等を用いた感情・文法表現)といった手話特有の要素が存在
→ CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タスク
NHKの手話CG(手話話者のモーションをキャプチャしCG変換)
なぜ手話分析は難しいのか?②
©2022 ARISE analytics Reserved. 6
画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus(LREC 2012)
大規模な汎用手話コーパスが存在しない
手話に対応した書記言語(※)が一般的に普及しておらず、手話動画へのアノテーションが困難→ 機械学習
に活用できる大規模コーパスが構築されていない
天気予報のコーパス
(大規模コーパスは存在するものの、シーンが限定的)
※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では
ない
先行研究
©2022 ARISE analytics Reserved. 7
手話スケルトンの生成が中心で、写実的な手話生成までは行われていない
加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある
単語と単語の接続が無視されているため理解が難しい
画像引用:Neural Sign Language Synthesis: Words Are Our Glosses(WACV 2020)
単語と単語の接続を意識しているが、スケルトンのため写実的ではない
画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
本論文の概要・貢献
©2022 ARISE analytics Reserved. 8
https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
【本論文の貢献】
①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案
②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
③写実的な連続手話動画を生成するSignGANの提案
④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
全体のアーキテクチャ
©2022 ARISE analytics Reserved. 9
全体のアーキテクチャ
©2022 ARISE analytics Reserved. 10
①Text to Gloss ②Gloss to Pose ③Pose to Video
Text to Gloss
©2022 ARISE analytics Reserved. 11
https://www.lifeprint.com/asl101/topics/gloss.htm
テキストをGloss(ここではトークン)に変換
テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある
今回は系列長U→系列長Zへの変換問題として扱う
𝑓𝑢 = 𝐸𝑛𝑐(𝑥𝑢)
𝑥𝑢 𝑧𝑤
:
:
:
:
𝑥𝑈
𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1)
Encoder Decoder
𝑧𝑤+1
:
:
:
:
𝑧𝑊
𝑧0
<EOS>
<BOS>
系列長Uのテキスト 系列長ZのGloss
RNNのように前ステップの出力を再入力
することで異なる系列長を扱えるように
する
※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。
Gloss to Pose①(手話単語映像辞書の取り出し)
©2022 ARISE analytics Reserved. 12
※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and
Mixture Density Networks. 2021.】を用いてスケルトン情報を取得
Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し
Glossの系列長がWであれば、手話単語映像辞書の系列長もW
【手話単語辞書について】
・辞書ごとに異なる系列長Pのスケルトン情報を格納※
・人物はまちまち
・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
Gloss to Pose②(手話単語映像辞書の結合)
©2022 ARISE analytics Reserved. 13
辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完
事前に設定したフレーム長 で線形補完
最終的に長さQの系列 が得られる
𝑁𝐿𝐼
I = 𝐼1, 𝐼2, … , 𝐼𝑄
𝑁𝐿𝐼は今回の実験設定では5
Gloss to Pose③(手話辞書系列の埋め込み表現獲得)
©2022 ARISE analytics Reserved. 14
Counter Embedding は 筆者の先行研究参照 Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
手話辞書系列の埋め込み特徴を獲得する
手話辞書ごとに異なるGloss Embedding
手話辞書ごとに異なるLocal Counter Embedding
全辞書で共通のGlobal Counter Embedding
【Counter Embedding】
各フレームI(スケルトン)が手話
単語映像辞書のどの位置にあるかを
示す特徴。テキストとは異なり、手
話表現は要素ごとに表現の長さが異
なるためこの特徴が必要
例:https://youtu.be/d5Res5POg10?t=475
Gloss to Pose④(FS-Netを用いたフレーム選択)
©2022 ARISE analytics Reserved. 15
FS-Net(Frame Selection Network)を用いたフレーム選択を行う
冗長なフレームを除去し、映像を滑らかにする効果がある
ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる
Pose to Video① SignGAN概要
©2022 ARISE analytics Reserved. 16
スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換
StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入
単純なPose to Videoだと手話単語ごとに
人物が異なり違和感が生じる
スタイル画像を用い人物指定することで
同一人物による手話映像系列が生成される
Pose to Video② Hand keypoint loss
©2022 ARISE analytics Reserved. 17
適切な手指表現になるようHand keypoint lossを導入
生成画像ごとに手指表現がぶれないようにする効果がある
手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出
実画像のHand
Keypoint
生成画像のHand
Keypoint
Keypointを対象
に
GANと同等の
損失関数を設計
Pose to Video③ Hand keypoint loss がないとどうなる?
©2022 ARISE analytics Reserved. 18
画像生成でよくある例
指がない
引用)
https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900
指のスキマから指が生えている
引用)
https://pbs.twimg.com/media/
FcaQJUFaIAEQngZ?format=jpg
&name=large
手がふたつある
引用)
https://pbs.twimg.com/media/Fc
GgCT_aMAQi-
7T?format=png&name=900x900
Pose to Video④ 全体のLoss設計
©2022 ARISE analytics Reserved. 19
GAN Loss
マルチスケールに対応した以外はGANのいつもの損
失関数
これがなければGANではない
VGG Loss
学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を
lossとする
鮮明な画像を生成する効果がある
Hand Key Point Loss
手指のボーン情報が本物かニセモノかを判定する
指の本数が変動しない一貫した手指画像を生成する効果がある
Feature-Matching loss
生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ
うに設計
同一画像が大量に生成されるモード崩壊を防ぐ効果がある
生成結果
©2022 ARISE analytics Reserved. 20
実験
©2022 ARISE analytics Reserved. 21
DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT 2010)
データセット
Meine DGS (mDGS) コーパス
人数:330人のろう者
形式:自由形式の手話
言語:ドイツ手話
語彙数:10042語
フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割
同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意
追加データセット
RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報
CSL-Daily:スタジオで収録された中国手話の日常会話
C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う
こんな感じのところで対面で座り、
フリートークで撮影
実験
©2022 ARISE analytics Reserved. 22
実験パラメタ
Text to Gloss:2層・隠れ層128次元・4ヘッドのNN
FS-Net:2層・隠れ層64次元・4ヘッドのNN
補完フレーム数𝑁𝐿𝐼:5
学習率:10^-3
評価指標
BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision)
ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)
実験① Text to Gloss
©2022 ARISE analytics Reserved. 23
ドメインが限定的なPHOENIX14T(天気予報)データセットでは、Data Augmentationを使わない既
存手法に対し優位性を確認
ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への対応の必要性
が示唆されている
ベースライン:
BLEU-4 : 20.23(PHOENIX14T)
BLEU-4 : 23.17(PHOENIX14T + Data Augmentation)
実験② Gloss to Pose – 定量評価
©2022 ARISE analytics Reserved. 24
生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する(Back
Translation)。
手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価
既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認
FS-Netによる
冗長フレームの除去を
行わないケース
生成スケルトンを
使って
モデル学習
実験② Gloss to Pose – 定性評価①
©2022 ARISE analytics Reserved. 25
手話ユーザ10名(うち2名は聴覚障害者)による相対評価
スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを
確認
両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど
動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率
実験② Gloss to Pose – 定性評価②
©2022 ARISE analytics Reserved. 26
手話単語のつなぎがどれくらい自然かを評価
FS-Netにより生成された動画と、孤立した辞書シーケンス動画(Isolated)を比較
トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果
実験③ Pose to Video – 定量評価
©2022 ARISE analytics Reserved. 27
以下の評価指標を用いてSignGANを評価
1) SSIM: 画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較することで算出。
2) Hand SSIM: SSIMを手に対して算出したもの。
3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。
4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。
C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand
Keypoint Loss が効いた
実験③ Pose to Video – 定性評価
©2022 ARISE analytics Reserved. 28
生成動画を48人の被験者(うち28%が手話話者)に視聴してもらい、写実性を評価
SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上の被験者が
SignGANのほうが写実性が高いと評価
実験③ Pose to Video – 定性評価②
©2022 ARISE analytics Reserved. 29
スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認
スケルトン動画:3.2
生成動画:3.9
今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された
まとめ
©2022 ARISE analytics Reserved. 30
https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
GANを用いた自由文からの写実的な連続手話動画の生成・翻訳
【本論文の貢献】
①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案
②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
③写実的な連続手話動画を生成するSignGANの提案
④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
Best Partner for innovation, Best Creator for the future.

More Related Content

What's hot

What's hot (20)

SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
20191030 AWS Black Belt Online Seminar AWS IoT Analytics Deep Dive
20191030 AWS Black Belt Online Seminar AWS IoT Analytics Deep Dive 20191030 AWS Black Belt Online Seminar AWS IoT Analytics Deep Dive
20191030 AWS Black Belt Online Seminar AWS IoT Analytics Deep Dive
 
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
 
[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
AWS IoTにおけるデバイスへの認証情報のプロビジョニング
AWS IoTにおけるデバイスへの認証情報のプロビジョニングAWS IoTにおけるデバイスへの認証情報のプロビジョニング
AWS IoTにおけるデバイスへの認証情報のプロビジョニング
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
AWS Black Belt Techシリーズ AWS Management Console
AWS Black Belt Techシリーズ AWS Management ConsoleAWS Black Belt Techシリーズ AWS Management Console
AWS Black Belt Techシリーズ AWS Management Console
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
BLS署名の実装とその応用
BLS署名の実装とその応用BLS署名の実装とその応用
BLS署名の実装とその応用
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
ailia SDK ハンズオン ~1時間で体感するAIを使ったコンピュータビジョン~
ailia SDK ハンズオン ~1時間で体感するAIを使ったコンピュータビジョン~ailia SDK ハンズオン ~1時間で体感するAIを使ったコンピュータビジョン~
ailia SDK ハンズオン ~1時間で体感するAIを使ったコンピュータビジョン~
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
 

Similar to 【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022)

「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
Teruo Adachi
 
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD PatternApplication Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Atsushi Kambara
 
Java scriptの進化
Java scriptの進化Java scriptの進化
Java scriptの進化
maruyama097
 

Similar to 【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022) (20)

Ecsとlambdaのバッチ処理
Ecsとlambdaのバッチ処理Ecsとlambdaのバッチ処理
Ecsとlambdaのバッチ処理
 
なぜあなたのプロジェクトのDevSecOpsは形骸化するのか(CloudNative Security Conference 2022)
なぜあなたのプロジェクトのDevSecOpsは形骸化するのか(CloudNative Security Conference 2022)なぜあなたのプロジェクトのDevSecOpsは形骸化するのか(CloudNative Security Conference 2022)
なぜあなたのプロジェクトのDevSecOpsは形骸化するのか(CloudNative Security Conference 2022)
 
「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
「AWSを活用して少人数で複数のサービスを運用するコツ」〜jawsug in nagoya〜
 
SWFバージョン4においての テキスト形式による コンパイル結果の違い及び JavaScriptでの その描画方法に関する考察
SWFバージョン4においての テキスト形式による コンパイル結果の違い及び JavaScriptでの その描画方法に関する考察SWFバージョン4においての テキスト形式による コンパイル結果の違い及び JavaScriptでの その描画方法に関する考察
SWFバージョン4においての テキスト形式による コンパイル結果の違い及び JavaScriptでの その描画方法に関する考察
 
リクルートにおけるFirefox OSアプリへの取り組み ~0.8人月でできるアプリ!?~
リクルートにおけるFirefox OSアプリへの取り組み ~0.8人月でできるアプリ!?~リクルートにおけるFirefox OSアプリへの取り組み ~0.8人月でできるアプリ!?~
リクルートにおけるFirefox OSアプリへの取り組み ~0.8人月でできるアプリ!?~
 
SWFバージョン4においてのテキスト形式によるコンパイル結果の違い及びJavaScriptでのその描画方法に関する考察
SWFバージョン4においてのテキスト形式によるコンパイル結果の違い及びJavaScriptでのその描画方法に関する考察SWFバージョン4においてのテキスト形式によるコンパイル結果の違い及びJavaScriptでのその描画方法に関する考察
SWFバージョン4においてのテキスト形式によるコンパイル結果の違い及びJavaScriptでのその描画方法に関する考察
 
ゲームだけじゃないHTML5
ゲームだけじゃないHTML5ゲームだけじゃないHTML5
ゲームだけじゃないHTML5
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Application Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD PatternApplication Architecture for Enterprise Win Store Apps with DDD Pattern
Application Architecture for Enterprise Win Store Apps with DDD Pattern
 
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回すこれ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
 
サービス開発における工程
サービス開発における工程サービス開発における工程
サービス開発における工程
 
[関東Firefox OS 勉強会10th 講演資料] リクルートにおけるFirefox osアプリへの取り組み
[関東Firefox OS 勉強会10th 講演資料] リクルートにおけるFirefox osアプリへの取り組み[関東Firefox OS 勉強会10th 講演資料] リクルートにおけるFirefox osアプリへの取り組み
[関東Firefox OS 勉強会10th 講演資料] リクルートにおけるFirefox osアプリへの取り組み
 
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
 
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
C#でのクロスプラットフォーム モバイル開発環境 Xamarin のご紹介
 
Java scriptの進化
Java scriptの進化Java scriptの進化
Java scriptの進化
 
【18-C-5】C# で iOS/Androidアプリ開発 - Visual Studio 2015 + Xamarin + MVVMCross -
【18-C-5】C# で iOS/Androidアプリ開発 - Visual Studio 2015 + Xamarin + MVVMCross -【18-C-5】C# で iOS/Androidアプリ開発 - Visual Studio 2015 + Xamarin + MVVMCross -
【18-C-5】C# で iOS/Androidアプリ開発 - Visual Studio 2015 + Xamarin + MVVMCross -
 
Japan elasticusergroup01 Acroquest
Japan elasticusergroup01 AcroquestJapan elasticusergroup01 Acroquest
Japan elasticusergroup01 Acroquest
 
Interop2017
Interop2017Interop2017
Interop2017
 
Introducing microsoft learn
 Introducing microsoft learn Introducing microsoft learn
Introducing microsoft learn
 
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイルVisual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
 

More from ARISE analytics

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

Recently uploaded

Recently uploaded (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022)

  • 1. Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production(CVPR 2022) ARISE analytics 近藤 真暉 特に注釈ない限り、画像は論文からの引用です 論文URL: https://openaccess.thecvf.com/content/CVPR2022/html/Saunders_Signing_at_Scale_Learning_t o_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.html
  • 2. 今、手話xCVがアツい? 1 手話に関する論文がまとめられたリポジトリ : https://github.com/ycmin95/awesome-Gesture-Sign-Language- Recognition CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向 ECCVではSLRTP(Sign Language Recognition,Translation&Production) Workshopも開催 ©2022 ARISE analytics Reserved. CVPR ECCV ICCV 合計 2018 1 0 - 1 2019 1 - 0 1 2020 2 4 - 6 2021 4 - 5 9 2022 5 ? - 5 0 1 2 3 4 5 6 7 8 9 10 2018 2019 2020 2021 2022 件数 年 ICCV ECCV CVPR CV系トップカンファレンス採択論文のうち、 タイトルに“Sign Language”が含まれる論文の件数 (ECCV,ICCVは隔年開催 ECCVの採択論文は資料作成視点でまだ未公開) ↑ BERT (ArXiv 2018) ↑ ViT (ArXiv 2020, ICLR 2021)
  • 3. 手話xCV @ CVPR 2022 ©2022 ARISE analytics Reserved. 2 "A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation" 手話認識向け転移学習の提案 "Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production" 語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】 "C2SLR: Consistency-Enhanced Continuous Sign Language Recognition" 表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上 "MLSLT: Towards Multilingual Sign Language Translation" 多言語手話データセットの収集とマルチリンガルな手話認識の提案 "Sign Language Video Retrieval With Free-Form Textual Queries" テキストを用いた手話映像検索システムの提案
  • 4. 本論文の概要 ©2022 ARISE analytics Reserved. 3 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
  • 5. なぜ機械手話動画生成のニーズがあるのか? ©2022 ARISE analytics Reserved. 4 聴覚障害者と書記言語 手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書記言語を 習得することはハードルが高い そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカバーできない 手話通訳者と機械手話生成 手話通訳者(interpreter)による通訳はそれをカバーする手段だが、大きな手間がかかるため手軽な機 械手話動画生成のニーズが高い 特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手話生成が 求められる
  • 6. なぜ手話分析は難しいのか?① ©2022 ARISE analytics Reserved. 5 画像引用:https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2 複数モダリティの統合が必要 手形状・動き・口形に加え、CL(Classifire:相対的な位置情報)・NMS(Non-manual Signals: 表情等を用いた感情・文法表現)といった手話特有の要素が存在 → CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タスク NHKの手話CG(手話話者のモーションをキャプチャしCG変換)
  • 7. なぜ手話分析は難しいのか?② ©2022 ARISE analytics Reserved. 6 画像引用:RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus(LREC 2012) 大規模な汎用手話コーパスが存在しない 手話に対応した書記言語(※)が一般的に普及しておらず、手話動画へのアノテーションが困難→ 機械学習 に活用できる大規模コーパスが構築されていない 天気予報のコーパス (大規模コーパスは存在するものの、シーンが限定的) ※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では ない
  • 8. 先行研究 ©2022 ARISE analytics Reserved. 7 手話スケルトンの生成が中心で、写実的な手話生成までは行われていない 加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある 単語と単語の接続が無視されているため理解が難しい 画像引用:Neural Sign Language Synthesis: Words Are Our Glosses(WACV 2020) 単語と単語の接続を意識しているが、スケルトンのため写実的ではない 画像引用:Progressive Transformers for End-to-End Sign Language Production(ECCV 2020)
  • 9. 本論文の概要・貢献 ©2022 ARISE analytics Reserved. 8 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
  • 11. 全体のアーキテクチャ ©2022 ARISE analytics Reserved. 10 ①Text to Gloss ②Gloss to Pose ③Pose to Video
  • 12. Text to Gloss ©2022 ARISE analytics Reserved. 11 https://www.lifeprint.com/asl101/topics/gloss.htm テキストをGloss(ここではトークン)に変換 テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある 今回は系列長U→系列長Zへの変換問題として扱う 𝑓𝑢 = 𝐸𝑛𝑐(𝑥𝑢) 𝑥𝑢 𝑧𝑤 : : : : 𝑥𝑈 𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1) Encoder Decoder 𝑧𝑤+1 : : : : 𝑧𝑊 𝑧0 <EOS> <BOS> 系列長Uのテキスト 系列長ZのGloss RNNのように前ステップの出力を再入力 することで異なる系列長を扱えるように する ※Gloss:手話言語を(無理やり)文字表現で表したもの。書記言語ではない。
  • 13. Gloss to Pose①(手話単語映像辞書の取り出し) ©2022 ARISE analytics Reserved. 12 ※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and Mixture Density Networks. 2021.】を用いてスケルトン情報を取得 Gloss(トークン)をもとに、対応付けられた手話単語映像辞書を取り出し Glossの系列長がWであれば、手話単語映像辞書の系列長もW 【手話単語辞書について】 ・辞書ごとに異なる系列長Pのスケルトン情報を格納※ ・人物はまちまち ・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能
  • 14. Gloss to Pose②(手話単語映像辞書の結合) ©2022 ARISE analytics Reserved. 13 辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完 事前に設定したフレーム長 で線形補完 最終的に長さQの系列 が得られる 𝑁𝐿𝐼 I = 𝐼1, 𝐼2, … , 𝐼𝑄 𝑁𝐿𝐼は今回の実験設定では5
  • 15. Gloss to Pose③(手話辞書系列の埋め込み表現獲得) ©2022 ARISE analytics Reserved. 14 Counter Embedding は 筆者の先行研究参照 Progressive Transformers for End-to-End Sign Language Production(ECCV 2020) 手話辞書系列の埋め込み特徴を獲得する 手話辞書ごとに異なるGloss Embedding 手話辞書ごとに異なるLocal Counter Embedding 全辞書で共通のGlobal Counter Embedding 【Counter Embedding】 各フレームI(スケルトン)が手話 単語映像辞書のどの位置にあるかを 示す特徴。テキストとは異なり、手 話表現は要素ごとに表現の長さが異 なるためこの特徴が必要 例:https://youtu.be/d5Res5POg10?t=475
  • 16. Gloss to Pose④(FS-Netを用いたフレーム選択) ©2022 ARISE analytics Reserved. 15 FS-Net(Frame Selection Network)を用いたフレーム選択を行う 冗長なフレームを除去し、映像を滑らかにする効果がある ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる
  • 17. Pose to Video① SignGAN概要 ©2022 ARISE analytics Reserved. 16 スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換 StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入 単純なPose to Videoだと手話単語ごとに 人物が異なり違和感が生じる スタイル画像を用い人物指定することで 同一人物による手話映像系列が生成される
  • 18. Pose to Video② Hand keypoint loss ©2022 ARISE analytics Reserved. 17 適切な手指表現になるようHand keypoint lossを導入 生成画像ごとに手指表現がぶれないようにする効果がある 手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出 実画像のHand Keypoint 生成画像のHand Keypoint Keypointを対象 に GANと同等の 損失関数を設計
  • 19. Pose to Video③ Hand keypoint loss がないとどうなる? ©2022 ARISE analytics Reserved. 18 画像生成でよくある例 指がない 引用) https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900 指のスキマから指が生えている 引用) https://pbs.twimg.com/media/ FcaQJUFaIAEQngZ?format=jpg &name=large 手がふたつある 引用) https://pbs.twimg.com/media/Fc GgCT_aMAQi- 7T?format=png&name=900x900
  • 20. Pose to Video④ 全体のLoss設計 ©2022 ARISE analytics Reserved. 19 GAN Loss マルチスケールに対応した以外はGANのいつもの損 失関数 これがなければGANではない VGG Loss 学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を lossとする 鮮明な画像を生成する効果がある Hand Key Point Loss 手指のボーン情報が本物かニセモノかを判定する 指の本数が変動しない一貫した手指画像を生成する効果がある Feature-Matching loss 生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ うに設計 同一画像が大量に生成されるモード崩壊を防ぐ効果がある
  • 22. 実験 ©2022 ARISE analytics Reserved. 21 DGS Corpus & Dicta-Sign: The Hamburg Studio Setup(CSLT 2010) データセット Meine DGS (mDGS) コーパス 人数:330人のろう者 形式:自由形式の手話 言語:ドイツ手話 語彙数:10042語 フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割 同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意 追加データセット RWTH-PHOENIX-Weather 2014 T:ドイツの手話通訳付きニュース・天気予報 CSL-Daily:スタジオで収録された中国手話の日常会話 C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う こんな感じのところで対面で座り、 フリートークで撮影
  • 23. 実験 ©2022 ARISE analytics Reserved. 22 実験パラメタ Text to Gloss:2層・隠れ層128次元・4ヘッドのNN FS-Net:2層・隠れ層64次元・4ヘッドのNN 補完フレーム数𝑁𝐿𝐼:5 学習率:10^-3 評価指標 BLEU-4:生成結果のN-Gramが正解に含まれる割合(Precision) ROUGE:正解のN-Gramが生成結果に含まれる割合(Recall)
  • 24. 実験① Text to Gloss ©2022 ARISE analytics Reserved. 23 ドメインが限定的なPHOENIX14T(天気予報)データセットでは、Data Augmentationを使わない既 存手法に対し優位性を確認 ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への対応の必要性 が示唆されている ベースライン: BLEU-4 : 20.23(PHOENIX14T) BLEU-4 : 23.17(PHOENIX14T + Data Augmentation)
  • 25. 実験② Gloss to Pose – 定量評価 ©2022 ARISE analytics Reserved. 24 生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する(Back Translation)。 手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価 既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認 FS-Netによる 冗長フレームの除去を 行わないケース 生成スケルトンを 使って モデル学習
  • 26. 実験② Gloss to Pose – 定性評価① ©2022 ARISE analytics Reserved. 25 手話ユーザ10名(うち2名は聴覚障害者)による相対評価 スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを 確認 両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど 動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率
  • 27. 実験② Gloss to Pose – 定性評価② ©2022 ARISE analytics Reserved. 26 手話単語のつなぎがどれくらい自然かを評価 FS-Netにより生成された動画と、孤立した辞書シーケンス動画(Isolated)を比較 トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果
  • 28. 実験③ Pose to Video – 定量評価 ©2022 ARISE analytics Reserved. 27 以下の評価指標を用いてSignGANを評価 1) SSIM: 画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較することで算出。 2) Hand SSIM: SSIMを手に対して算出したもの。 3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。 4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。 C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand Keypoint Loss が効いた
  • 29. 実験③ Pose to Video – 定性評価 ©2022 ARISE analytics Reserved. 28 生成動画を48人の被験者(うち28%が手話話者)に視聴してもらい、写実性を評価 SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上の被験者が SignGANのほうが写実性が高いと評価
  • 30. 実験③ Pose to Video – 定性評価② ©2022 ARISE analytics Reserved. 29 スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認 スケルトン動画:3.2 生成動画:3.9 今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された
  • 31. まとめ ©2022 ARISE analytics Reserved. 30 https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf GANを用いた自由文からの写実的な連続手話動画の生成・翻訳 【本論文の貢献】 ①制約がなく、ネイティブが理解できる大規模手話動画生成(翻訳)モデルの提案 ②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案 ③写実的な連続手話動画を生成するSignGANの提案 ④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認
  • 32. Best Partner for innovation, Best Creator for the future.