7. Learning to Guide Decoding for Image Captioning (Tencent)
https://arxiv.org/abs/1804.00887 AAAI18
• 画像キャプション生成のdecoderを入力側から"guide"する.ガイド
情報には,encoder(CNN)のsubregion表現+global表現+画像中に含
まれる予測単語表現を利用.Enc-Review-Dec構成に適用してさら
に性能向上.
8. Deep k-Nearest Neighbors: Towards Confident, Interpretable
and Robust Deep Learning (ペンシルバニア州立大)
https://arxiv.org/abs/1803.04765
• 学習済ネットワークを使って,層毎に訓練データに対するk-NNを
実施.解釈性が高く,敵対的サンプルにも強い.学習未利用の
データを用意して出力の信頼度も計算
9. PackNet: Adding Multiple Tasks to a Single Network by
Iterative Pruning (イリノイ大)
https://arxiv.org/abs/1711.05769 CVPR18
• 1つのNNで複数タスクを学習.畳込と全結合層の小さい重みを削
除→残りを再訓練して固定.削除した重みを次タスクの学習に利
用.単純で強力.
10. Self-Attention with Relative Position Representations
(Google)
https://arxiv.org/abs/1803.02155 NAACL18
• Transformer (Attention is all you need) のself-attentionに相対位置の表
現を加えると,絶対位置の表現の場合よりもWAT 2014 のBLEU向上.
一定以上離れた位置については同じ距離として扱う.
11. Learning Longer-term Dependencies in RNNs with Auxiliary
Losses (Google)
https://arxiv.org/abs/1803.00144
• 長期依存の系列の学習について.ランダムに決定した点から,過
去の部分系列を再構成する損失と,未来の部分系列を予測する損
失を,タスク用の教師あり損失と一緒に減らす.各種分類タスク
で評価
15. Actor and Action Video Segmentation from a Sentence (ア
ムステルダム大)
https://arxiv.org/abs/1803.07485 CVPR18(oral)
• 自然文により動画から動作主&動作をピクセルレベルで抽出.テ
キストは1D CNN,動画は時間次元を追加したInflated 3D
CNN https://arxiv.org/abs/1705.07750 を利用.複数解像度で教師有
学習.
16. Guide Me: Interacting with Deep Networks (ミュンヘン工
科大)
https://arxiv.org/abs/1803.11544
• 画像セグメンテーションの品質を自然言語の指示(ヒント)によ
り改善可能なモデル.ヒントのクエリは正解と予測の差分を基に
スロットフィリング的に自動生成して学習.汎用的に使えそうな
アイデア.CVPR18
17. Finding beans in burgers: Deep semantic-visual embedding
with localization (Sorbonne大)
https://arxiv.org/abs/1804.01720 CVPR18
• 画像とテキストを同じベクトル空間に埋込.正しい(画像,テキス
ト)の組合と誤った組合のランキングlossで学習.テキストによる
画像検索/画像中の物体位置の理解が可能.
18. Learning a Text-Video Embedding from Incomplete and
Heterogeneous Data (ENS)
https://arxiv.org/abs/1804.02516
• テキストと動画の同空間埋込.動画の画像,動き,顔,音声をマ
ルチモーダルに考慮.全モーダルが揃ってないデータからも学習
可.コード https://github.com/antoine77340/Mixture-of-Embedding-
Experts デモ http://willow-demo.inria.fr/
20. Multi-Oriented Scene Text Detection via Corner Localization
and Region Segmentation (Huazhong大)
https://arxiv.org/abs/1802.08948
• シーン画像からのテキスト抽出.テキスト領域の4コーナーの点
および領域を個別に予測.抽出点をグルーピングして候補領域の
スコア算出.COCO-Textや多言語のMLTで良い精度
21. Rotation-Sensitive Regression for Oriented Scene Text
Detection (Huazhong大)
https://arxiv.org/abs/1803.05265 CVPR18
• シーン画像からの任意角度なテキスト抽出.
ARF https://arxiv.org/abs/1701.01833 を使って複数角度に回転させ
た特徴から抽出領域の回帰.特徴をプーリングして回転を無視し
た分類も実施
22. Detecting Multi-Oriented Text with Corner-based Region
Proposals (電子科技大)
https://arxiv.org/abs/1804.02690
• これもテキスト抽出をコーナー点予測で実施.点の予測はテキス
ト方向にロバスト.候補領域抽出にはRotation ROI
pooling https://arxiv.org/abs/1703.01086 を使う.コー
ド https://github.com/xhzdeng/crpn
23. Two can play this Game: Visual Dialog with Discriminative
Question Generation and Answering (UIUC)
https://arxiv.org/abs/1803.11186 CVPR18
• 画像に関する対話的QAと次質問の生成(QG).VisDial
http://openaccess.thecvf.com/content_cvpr_2017/papers/Das_Visual_
Dialog_CVPR_2017_paper.pdf を基に,QG用のVisDial-Qを作成.100
候補の中から正解を選択する識別モデルの提案.
24. Differential Attention for Visual Question Answering (IIT)
https://arxiv.org/abs/1804.00298 CVPR18
• VQAを実例により改善.別のVQAシステム https://github.com/GT-
Vision-Lab/VQA_LSTM_CNN を使って画像-質問の埋込空間で入力画
像に近い/遠い画像を利用.入力と近い(遠い)画像のattention loss
を小さく(大きく)するように学習.
30. Can Neural Machine Translation be Improved with User
Feedback? (eBay)
https://arxiv.org/abs/1804.05958 NAACL18 industrial
• eBayの商品タイトルの英⇔スペイン翻訳を強化学習で改善.報酬
はユーザの5つ星評価と,クロスリンガル検索時のクリックログ
を利用.星評価は品質が悪く失敗,クリックログは成功.
31. Deep contextualized word representations (AI2)
https://arxiv.org/abs/1802.05365 NAACL18
• 言語モデルを使ったコンテキスト考慮型埋め込みELMoの提案.入
力をL層の双方向LMに通した際の,各単語に対する隠れ状態を加
重平均した物.基本は通常の単語ベクトルとELMoを連結して使う.
読解,含意など6タスクでSOTA.
33. A Discourse-Aware Attention Model for Abstractive
Summarization of Long Documents (Georgetown大)
https://arxiv.org/abs/1804.05685 NAACL18
• 長い単一の文書の生成要約.arxivやpubmedで実験.セクション
(=discourse)・単語の階層的なアテンション付きエンコーダを
利用.デコーダではコピー機構も利用.
34. Deep Communicating Agents for Abstractive Summarization
https://arxiv.org/abs/1803.10357 NAACL18
• 長文に対する生成型要約.長文を段落に分割して,協調的エン
コーダが各段落を担当.各エンコーダの同じ層の最終状態をメッ
セージとしてやり取り.エージェントに対するアテンション,コ
ピー機構など工夫.
35. SHAPED: Shared-Private Encoder-Decoder for Text Style
Adaptation (Google AI)
https://arxiv.org/abs/1804.04093 NAACL18
• 文書要約のスタイル適応.入力文書のスタイルを判別して,スタ
イルに沿った要約を実現.スタイル個別/共有のEncDecを学習.
実験はニュース配信社をスタイルとしてヘッドライン要約.
60. SO-Net: Self-Organizing Network for Point Cloud Analysis
(NUS)
https://arxiv.org/abs/1803.04249 CVPR18
• SOMを使って点群を表現.点群の分類,セグメンテーション,検
索などいろいろ使えるSO-Netを提案.
61. Continuous Adaptation via Meta-Learning in Nonstationary
and Competitive Environments (OpenAI)
https://openreview.net/forum?id=Sk2u1g-0- ICLR18ベスト
• 少サンプルしか得られない動的環境に適応するためのメタ学習モ
デル.RoboSumo環境(4/6/8本足エージェントによる相撲)での
実験動画 https://sites.google.com/view/adaptation-via-metalearning
62. DBPal: An End-to-end Neural Natural Language Interface for
Databases (ブラウン大)
https://arxiv.org/abs/1804.00401
• 自然言語からSQLへの変換.新しいDBに対してスロットフィリン
グ,言い換えを利用して*自動で*訓練データを生成(Join,
Nestedも対応)してseq2seqで学習.動作
例 https://vimeo.com/251178010
63. Model-Free Control for Distributed Stream Data Processing
using Deep Reinforcement Learning (Syracuse Univ)
https://arxiv.org/abs/1803.01016 VLDB18
• 分散データストリーム処理のスケジューリングを深層強化学習で
実現.Apache Stormのデフォルト設定,3タスクでSOTAモデルベー
ス手法より高性能.
64. A Capsule Network-based Embedding Model for Search
Personalization (Deakin大)
https://arxiv.org/abs/1804.04266
• CapsNetによる検索結果パーソナライズ.(クエリ,ユーザ,文書)を
同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNet
で3つ組のスコア算出.通常の検索結果やグラフ埋込に比べて高
精度
65. Neural Voice Cloning with a Few Samples (Baidu)
https://arxiv.org/abs/1802.06006
• 少サンプル(1~100)でその人の音声を合成.複数話者の生成モデル
と,話者の音声特徴から話者embeddingに変換するencoderを別に
学習.英国男性 + 平均女性 − 平均男性 = 英国女性が可能.
サンプル https://audiodemos.github.io/