【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production（CVPR 2022）

Signing at Scale: Learning to Co-Articulate
Signs for Large-Scale Photo-Realistic Sign
Language Production（CVPR 2022）
ARISE analytics 近藤真暉
特に注釈ない限り、画像は論文からの引用です
論文URL：
https://openaccess.thecvf.com/content/CVPR2022/html/Saunders_Signing_at_Scale_Learning_t
o_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.html

今、手話xCVがアツい？
1
手話に関する論文がまとめられたリポジトリ： https://github.com/ycmin95/awesome-Gesture-Sign-Language-
Recognition
CV系トップカンファレンスにおいて、手話を扱った論文が増加傾向
ECCVではSLRTP（Sign Language Recognition,Translation＆Production） Workshopも開催
©2022 ARISE analytics Reserved.
CVPR ECCV ICCV 合計
2018 1 0 - 1
2019 1 - 0 1
2020 2 4 - 6
2021 4 - 5 9
2022 5 ? - 5
0
1
2
3
4
5
6
7
8
9
10
2018 2019 2020 2021 2022
件数
年
ICCV
ECCV
CVPR
CV系トップカンファレンス採択論文のうち、
タイトルに“Sign Language”が含まれる論文の件数
（ECCV,ICCVは隔年開催
ECCVの採択論文は資料作成視点でまだ未公開）
↑
BERT
(ArXiv 2018)
↑
ViT
(ArXiv 2020,
ICLR 2021)

手話xCV @ CVPR 2022
©2022 ARISE analytics Reserved. 2
"A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation"
手話認識向け転移学習の提案
"Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic
Sign Language Production"
語彙制約のない写実的な連続手話動画の生成・翻訳【本日の紹介論文】
"C2SLR: Consistency-Enhanced Continuous Sign Language Recognition"
表情と手形状に注目した視覚特徴と系列特徴の組み合わせによる手話認識の性能向上
"MLSLT: Towards Multilingual Sign Language Translation"
多言語手話データセットの収集とマルチリンガルな手話認識の提案
"Sign Language Video Retrieval With Free-Form Textual Queries"
テキストを用いた手話映像検索システムの提案

本論文の概要
https://openaccess.thecvf.com/content/CVPR2022/papers/Saunders_Signing_at_Scale_Learning_to_Co-Articulate_Signs_for_Large-Scale_Photo-Realistic_CVPR_2022_paper.pdf
GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳

なぜ機械手話動画生成のニーズがあるのか？
聴覚障害者と書記言語
手話と書記言語は文法・表現方法が大きく異なるため、手話を第一言語とする聴覚障害者が書記言語を
習得することはハードルが高い
そのため「音声言語を書記言語に変換する」だけでは手話を第一言語とする聴覚障害者をカバーできない
手話通訳者と機械手話生成
手話通訳者（interpreter）による通訳はそれをカバーする手段だが、大きな手間がかかるため手軽な機
械手話動画生成のニーズが高い
特に緊急地震速報など手話通訳者が存在しない状況では、速報性を優先するため機械による手話生成が
求められる

なぜ手話分析は難しいのか？①
画像引用：https://www2.nhk.or.jp/signlanguage/wenquete.cgi?gid=2
複数モダリティの統合が必要
手形状・動き・口形に加え、CL（Classifire：相対的な位置情報）・NMS（Non-manual Signals：
表情等を用いた感情・文法表現）といった手話特有の要素が存在
→ CV・NLP・3次元空間解析といった複数のML技術を統合しなければ処理できない高度タスク
NHKの手話CG（手話話者のモーションをキャプチャしCG変換）

なぜ手話分析は難しいのか？②
画像引用：RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus（LREC 2012）
大規模な汎用手話コーパスが存在しない
手話に対応した書記言語（※）が一般的に普及しておらず、手話動画へのアノテーションが困難→ 機械学習
に活用できる大規模コーパスが構築されていない
天気予報のコーパス
（大規模コーパスは存在するものの、シーンが限定的）
※Glossと呼ばれる手話言語を文字表現で表したものは存在するが、書記言語では
ない

先行研究
手話スケルトンの生成が中心で、写実的な手話生成までは行われていない
加えて、天気予報ドメインの文章が中心であり、ドメイン制約がある
単語と単語の接続が無視されているため理解が難しい
画像引用：Neural Sign Language Synthesis: Words Are Our Glosses（WACV 2020）
単語と単語の接続を意識しているが、スケルトンのため写実的ではない
画像引用：Progressive Transformers for End-to-End Sign Language Production（ECCV 2020）

本論文の概要・貢献
GANを用いた自由文からの語彙制約のない写実的な連続手話動画の生成・翻訳
【本論文の貢献】
①制約がなく、ネイティブが理解できる大規模手話動画生成（翻訳）モデルの提案
②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
③写実的な連続手話動画を生成するSignGANの提案
④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

全体のアーキテクチャ

全体のアーキテクチャ
①Text to Gloss ②Gloss to Pose ③Pose to Video

Text to Gloss
https://www.lifeprint.com/asl101/topics/gloss.htm
テキストをGloss（ここではトークン）に変換
テキストと手話は文法が異なるため、異なる系列長への変換問題として扱う必要がある
今回は系列長U→系列長Zへの変換問題として扱う
𝑓𝑢 = 𝐸𝑛𝑐(𝑥𝑢)
𝑥𝑢 𝑧𝑤
:
:
:
:
𝑥𝑈
𝑥𝑢+1 𝑓𝑢+1 = 𝐸𝑛𝑐(𝑥𝑢+1)
Encoder Decoder
𝑧𝑤+1
:
:
:
:
𝑧𝑊
𝑧0
<EOS>
<BOS>
系列長Uのテキスト系列長ZのGloss
RNNのように前ステップの出力を再入力
することで異なる系列長を扱えるように
する
※Gloss：手話言語を（無理やり）文字表現で表したもの。書記言語ではない。

Gloss to Pose①（手話単語映像辞書の取り出し）
※筆者の先行研究【Continuous 3D Multi-Channel Sign Language Production via Progressive Transformers and
Mixture Density Networks. 2021.】を用いてスケルトン情報を取得
Gloss（トークン）をもとに、対応付けられた手話単語映像辞書を取り出し
Glossの系列長がWであれば、手話単語映像辞書の系列長もW
【手話単語辞書について】
・辞書ごとに異なる系列長Pのスケルトン情報を格納※
・人物はまちまち
・辞書の拡張により、生成対象手話単語の語彙を増やすことが可能

Gloss to Pose②（手話単語映像辞書の結合）
辞書と辞書を結合し、連続した系列に変換するため隣接辞書の間を線形補完
事前に設定したフレーム長で線形補完
最終的に長さQの系列が得られる
𝑁𝐿𝐼
I = 𝐼1, 𝐼2, … , 𝐼𝑄
𝑁𝐿𝐼は今回の実験設定では５

Gloss to Pose③（手話辞書系列の埋め込み表現獲得）
Counter Embedding は筆者の先行研究参照 Progressive Transformers for End-to-End Sign Language Production（ECCV 2020）
手話辞書系列の埋め込み特徴を獲得する
手話辞書ごとに異なるGloss Embedding
手話辞書ごとに異なるLocal Counter Embedding
全辞書で共通のGlobal Counter Embedding
【Counter Embedding】
各フレームI（スケルトン）が手話
単語映像辞書のどの位置にあるかを
示す特徴。テキストとは異なり、手
話表現は要素ごとに表現の長さが異
なるためこの特徴が必要
例：https://youtu.be/d5Res5POg10?t=475

Gloss to Pose④（FS-Netを用いたフレーム選択）
FS-Net（Frame Selection Network）を用いたフレーム選択を行う
冗長なフレームを除去し、映像を滑らかにする効果がある
ここまでの処理により、なめらかな連続手話のスケルトン系列が得られる

Pose to Video① SignGAN概要
スケルトン系列では人間が見ても理解できないため、写実的な手話映像系列に変換
StyleGANをベースにSkip ConnectionおよびMulti-Scale Discriminatorを導入
単純なPose to Videoだと手話単語ごとに
人物が異なり違和感が生じる
スタイル画像を用い人物指定することで
同一人物による手話映像系列が生成される

Pose to Video② Hand keypoint loss
適切な手指表現になるようHand keypoint lossを導入
生成画像ごとに手指表現がぶれないようにする効果がある
手話は手指の動きが多くぶれやすいため、手指画像をHand Keypointに変換し損失を算出
実画像のHand
Keypoint
生成画像のHand
Keypoint
Keypointを対象
に
GANと同等の
損失関数を設計

Pose to Video③ Hand keypoint loss がないとどうなる？
画像生成でよくある例
指がない
引用）
https://pbs.twimg.com/media/FcSVAruakAAIxGq?format=jpg&name=900x900
指のスキマから指が生えている
引用）
https://pbs.twimg.com/media/
FcaQJUFaIAEQngZ?format=jpg
&name=large
手がふたつある
引用）
https://pbs.twimg.com/media/Fc
GgCT_aMAQi-
7T?format=png&name=900x900

Pose to Video④ 全体のLoss設計
GAN Loss
マルチスケールに対応した以外はGANのいつもの損
失関数
これがなければGANではない
VGG Loss
学習済みのVGGモデルのレイヤーを通して得られた特徴量の平均を
lossとする
鮮明な画像を生成する効果がある
Hand Key Point Loss
手指のボーン情報が本物かニセモノかを判定する
指の本数が変動しない一貫した手指画像を生成する効果がある
Feature-Matching loss
生成画像をDiscriminatorに入力したときの中間層が実画像と同様になるよ
うに設計
同一画像が大量に生成されるモード崩壊を防ぐ効果がある

生成結果

実験
DGS Corpus & Dicta-Sign: The Hamburg Studio Setup（CSLT 2010）
データセット
Meine DGS (mDGS) コーパス
人数：330人のろう者
形式：自由形式の手話
言語：ドイツ手話
語彙数：10042語
フリートークを①ドイツ語の文章、②Gloss、③手話動画で構成される40,230のセグメントに分割
同一意味の異なる表現を含む mDGS-V と、同一意味の異なる表現を含まない mDGS を用意
追加データセット
RWTH-PHOENIX-Weather 2014 T：ドイツの手話通訳付きニュース・天気予報
CSL-Daily：スタジオで収録された中国手話の日常会話
C4A dataset : 多様な手話通訳者が含まれる高画質データセット。写実画像生成に使う
こんな感じのところで対面で座り、
フリートークで撮影

実験
実験パラメタ
Text to Gloss：2層・隠れ層128次元・4ヘッドのNN
FS-Net：2層・隠れ層64次元・4ヘッドのNN
補完フレーム数𝑁𝐿𝐼：5
学習率：10^-3
評価指標
BLEU-4：生成結果のN-Gramが正解に含まれる割合（Precision）
ROUGE：正解のN-Gramが生成結果に含まれる割合（Recall）

実験① Text to Gloss
ドメインが限定的なPHOENIX14T（天気予報）データセットでは、Data Augmentationを使わない既
存手法に対し優位性を確認
ドメインの制約がないmDGS-VおよびmDGSデータセットではスコアが低く、大規模語彙への対応の必要性
が示唆されている
ベースライン：
BLEU-4 : 20.23（PHOENIX14T）
BLEU-4 : 23.17（PHOENIX14T + Data Augmentation）

実験② Gloss to Pose – 定量評価
生成されたスケルトン情報を用いて学習した手話翻訳モデルを用い、生成スケルトンを評価する（Back
Translation）。
手話翻訳モデルの翻訳結果を用い、BLEU-4とROUGEで評価
既存手法に対する有効性とFS-Netによる冗長フレーム除去の有効性を確認
FS-Netによる
冗長フレームの除去を
行わないケース
生成スケルトンを
使って
モデル学習

実験② Gloss to Pose – 定性評価①
手話ユーザ10名（うち2名は聴覚障害者）による相対評価
スケルトン生成方法だけが異なる同一シーケンスから生成した写実映像を視聴し、どちらが理解しやすいかを
確認
両方のデータセットで、FS-Netのほうが理解しやすいと答えた人がほとんど
動画中で用いられている5つの手話単語を当てるタスクでも、平均4.8個の正解率

実験② Gloss to Pose – 定性評価②
手話単語のつなぎがどれくらい自然かを評価
FS-Netにより生成された動画と、孤立した辞書シーケンス動画（Isolated）を比較
トリムしない場合はFS-Netのほうが自然、トリムした場合は同程度という結果

実験③ Pose to Video – 定量評価
以下の評価指標を用いてSignGANを評価
1) SSIM: 画像の品質評価に用いる指標。生成画像と正解画像の輝度・コントラスト・構造を比較することで算出。
2) Hand SSIM: SSIMを手に対して算出したもの。
3) Hand Pose: 生成画像と正解画像の Hand Keypoint の距離差。手位置のずれを評価する。
4) FID:画像の品質評価に用いる指標。生成画像の分布と実画像の分布の差を示す。
C4Aデータセットを用いた評価において有効性を確認。特にHand SSIMとHand PoseはHand
Keypoint Loss が効いた

実験③ Pose to Video – 定性評価
生成動画を48人の被験者（うち28％が手話話者）に視聴してもらい、写実性を評価
SignGANのほうが良いと答えた被験者の割合を測定。すべてのベースラインに対し、8割以上の被験者が
SignGANのほうが写実性が高いと評価

実験③ Pose to Video – 定性評価②
スケルトン動画と生成動画を聴覚障害者に視聴してもらい、どちらが理解しやすいかを5段階で確認
スケルトン動画：3.2
生成動画：3.9
今回生成した写実的な動画は、スケルトン動画よりも理解度が向上することが示された

まとめ
GANを用いた自由文からの写実的な連続手話動画の生成・翻訳
【本論文の貢献】
①制約がなく、ネイティブが理解できる大規模手話動画生成（翻訳）モデルの提案
②連続手話動画生成時に手話単語動画から適切なフレームを選択するFS-Netの提案
③写実的な連続手話動画を生成するSignGANの提案
④手話ネイティブによる評価を実施し、既存手法に比べ自然な翻訳であることを確認

Best Partner for innovation, Best Creator for the future.

【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production（CVPR 2022）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production（CVPR 2022）

Similar to 【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production（CVPR 2022） (20)

More from ARISE analytics

More from ARISE analytics (20)

Recently uploaded

Recently uploaded (10)

【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production（CVPR 2022）