第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf
- 4. 3
ざっくり言うとどんな論文?
[1] Ahmed Nassar (IBM Research) et al., “TableFormer: Table Structure
Understanding with Transformers.,” CVPR, 2022.
[1]
n どんな論⽂か︖
• テーブル検出(table-location)と
テーブル構造分解(table-structure
decomposition)をEnd-2-Endで同
時に予測するTransformerベースのネ
ットワークを提案
TableFormer は、表の画像が与えられると以下を予測するこ
とができる
• 1)表の構造を表すトークン列
• 2)それらのトークンのサブセットに結合されたバウン
ディングボックス
- 7. 6
背景・目的
1. テーブルロケーション(table-location)
2. テーブル構造分解(table-structure decomposition)
表を扱う上での2つのタスク
→ ⼗分データがあれば物体検出(YOLO, Mask-RCNN)で対処可能
→ ⼀般的なアプローチがなく⽂書理解のコミュニティで⻑く続いている問題
近年いくつか新しいモデルが提案されている
• Image-to-Text networks: PubTabNet, FinTabNet
→LaTeX/HTMLタグなどで出⼒することで複雑な表にも対応できる
• GCNʼs
→複雑な表にも対応できるがほかアプローチと⽐べて再構成された表の品質が悪い
• Hybrid Deep Learning-Rule-Based approach
→E2Eな⼿法でない&異なるタイプへの汎⽤性がなく複雑な表に対応できない
→他にも共通して以下の弱点がある
• テキスト特徴に依存している
• 元画像の各テーブルセルのBBoxを出⼒できない
- 10. 9
手法の説明
“image-encoder → text-decoder” (IETD)
“image-encoder → dual decoder” (IEDD)
・エンコーダ︓画像をエンコーディング
・デコーダ︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・エンコーダ︓画像をエンコーディング
・デコーダ︓
・tag-decoder︓空の表を構成するLaTeX/HTML⽂字列を⽣成
・contents-decoder︓画像のエンコーディングとtag-decoderの各セルタグをエンコー
ディングした出⼒を組み合わせて各テーブルセルのテキストコンテンツを⽣成
Image-to-Text networksなアプローチの従来⼿法
Image Captioningのアーキテクチャのようなもの
これらのアプローチにおける課題
従来アプローチでは
暗黙的にカスタムされたOCRモデルを必要とする
・IETD: デコーダにOCRが含まれる
・IEDD: contents-decoderにOCRが含まれる
E2EネットワークにOCRが入るデメリット:
→元のPDFに文字が埋め込まれていればそちらを使えるようにしたい or OCRは別で処理したい
・ほぼ英語の表のデータセットなので英語以外では
カスタムトレーニングが必要となる
・OCRはそもそもタスクとして学習困難
- 12. 11
手法の説明
モデルアーキテクチャは以下の3つから構成される
• ① CNN Backbone Network
• ② Structure Decoder(Transformerベース [2])
• ③ Cell BBox Decoder(DETRインスパイア)
• 各テーブルセルのHTMLタグとバウンディングボックスを端から端まで個別のオブジ
ェクト検出器を必要とせずに同時に予測
手順
• 入力画像をあらかじめ定義された長さの特徴ベクトルとして符号化(ResNet18)
• 符号化された画像の入力特徴ベクトルが構造デコーダ(Structure Decoder)に渡さ
れ、表の構造を表すHTMLタグの列が生成される
• Structure Decoder がHTML標準データセル('< td> ')を予測するたびに、そのセル
の隠された状態(the hidden states)がCell BBox Decoderに渡される
• 行や列のスパンのようなスパンセルについては、タグはスパンセルの数(属性)と'< ',
'rowspan=' または 'colspan=', '>' に分解される
• < ' に付けられた隠された状態(the hidden states)は、Cell BBox Decoder に渡さ
れる
• MLPから構成される共有フィードフォワードネットワーク(FFN)は構造デコーダ
(Structure Decoder)から隠された状態(the hidden states)を受け取り、バウンディ
ングボックス座標とその分類の最終的な検出予測を提供する
①
②
③
[2] Ashish Vaswani (Google) et al., “Attention Is All You Need,” NIPS, 2017.
②はほとんどTransformer
(上下逆転してるだけ)
- 13. 12
手法の説明
• マルチタスクLoss
• 𝑙!: Cross-Entropy loss
• →トークンを予測するStructure Decoderの学習に使用
• 𝑙"#$:
• →セルのBBoxを検出するCell Bbox Decoderの学習に使用
• →物体検出で一般使用される𝑙!とスケール不変な𝑙"#$から構成される
- 14. 13
結果
• 評価指標The Tree-Edit-Distance-Based
Similarity (TEDS) において全てのデータセ
ットでSOTA
HTMLフォーマットのずれを見る指標
Ta, Tb: 木構造 HTML形式のテーブル
EditDist: 木と編集の距離
|T|: Tのノードの数
言及:
大きな表(例えば、ページの半分以上を占める表)は予測精度が低い
この問題は、前処理段階での画像サイズ変更により、区別できない特徴を持つダウンサンプリングされた画像が生成されるためと考えられるが、
大きな入力画像サイズを処理できるCNNモデルを変えることで対処可能(ResNet-18からより大きなモデルへ変更)
EDD: Encoder-Dual-Decoder
GTE: Global Table Encoder
- 19. 18
手法の説明(SynthTabNetデータセット)
学習と評価にPubTabNet, FinTabNet, TableBank などの大規模データセットを利用
• PubTabNetデータセット:
• 509kの表が含まれ、アノテーション付きのPNG画像として提供
• アノテーションはHTML形式で表現された表構造、トークン化されたテキスト、表セルごとのバウンディングボックス
で構成される
• FinTabNetデータセット:
• 表構造とテキストコンテンツが混在した1ページのPDFドキュメントとして配信された112k個の表が含まれている
• PubTabNetと同様に、FinTabNetのアノテーションには、HTMLのテーブル構造、トークン化されたテキスト、テーブ
ルセルベースのバウンディングボックスが含まれている
• TableBankデータセット:
• JPEG画像として提供された145k個の表から構成されている。後者は表の構造に関するアノテーションを持つが、
表セルのバウンディングボックスを持つものはほとんどない
• データセット全体は単純な表で構成される