SlideShare une entreprise Scribd logo
1  sur  66
Télécharger pour lire hors ligne
2018/03-04
読んだ深層学習論文まとめ
トピック:汎用技術、言語処理、マルチモーダ
ル(言語+ビジョン、音声、etc.)
Arxiv26, NAACL 14, CVPR12, AAAI 4, ICLR 2, ICASSP 1,
KDD 1
汎用技術
Group Normalization (Facebook)
https://arxiv.org/abs/1803.08494
• Batch Normが小さいバッチで不安定な問題を解決.畳込のチャネ
ルをグループに分割して,グループ内で正規化.ImageNetを
ResNet-50,バッチサイズ2で学習した際,BNのエラーを10.6%改善.
Layer / Instance Normよりも高精度.RNNは今後の課題.
Adafactor (Google)
https://arxiv.org/abs/1804.04235
• 少メモリ最適化.AxBの行列の場合,AdamならAB個の2次モーメ
ント項を保持する所,AdafactorはA+B個でOK.さらに,勾配の代
わりに更新量を抑えるupdate clippingを提案.Adamと同程度の性
能を少メモリで実現.tensor2tensorで公
開 https://github.com/tensorflow/tensor2tensor/blob/master/tensor2t
ensor/utils/adafactor.py
Associative Compression Networks (DeepMind; Graves,
Menick, van den Oord)
https://arxiv.org/abs/1804.02476
• 新VAE.潜在zのpriorを入力のk近傍点の条件付にすることで表現
能力を上げる.近傍計算はzの期待値(codeと呼ぶ)で実施.他VAE
に比べ良い次元圧縮および特徴表現を獲得.ImageNetやCelebAで
実験.
Independently Recurrent Neural Network (IndRNN)
(Wollongong大)
https://arxiv.org/abs/1803.04831 CVPR18
• 新RNN.1層の中でRNNの隠れ細胞を独立化.各細胞は層間で接続.
ReLUやBN,畳込を併用可.多層化(>20)で精度向上.
TF https://github.com/batzner/indrnn pytorch https://github.com/batzn
er/indrnn
Learning to Guide Decoding for Image Captioning (Tencent)
https://arxiv.org/abs/1804.00887 AAAI18
• 画像キャプション生成のdecoderを入力側から"guide"する.ガイド
情報には,encoder(CNN)のsubregion表現+global表現+画像中に含
まれる予測単語表現を利用.Enc-Review-Dec構成に適用してさら
に性能向上.
Deep k-Nearest Neighbors: Towards Confident, Interpretable
and Robust Deep Learning (ペンシルバニア州立大)
https://arxiv.org/abs/1803.04765
• 学習済ネットワークを使って,層毎に訓練データに対するk-NNを
実施.解釈性が高く,敵対的サンプルにも強い.学習未利用の
データを用意して出力の信頼度も計算
PackNet: Adding Multiple Tasks to a Single Network by
Iterative Pruning (イリノイ大)
https://arxiv.org/abs/1711.05769 CVPR18
• 1つのNNで複数タスクを学習.畳込と全結合層の小さい重みを削
除→残りを再訓練して固定.削除した重みを次タスクの学習に利
用.単純で強力.
Self-Attention with Relative Position Representations
(Google)
https://arxiv.org/abs/1803.02155 NAACL18
• Transformer (Attention is all you need) のself-attentionに相対位置の表
現を加えると,絶対位置の表現の場合よりもWAT 2014 のBLEU向上.
一定以上離れた位置については同じ距離として扱う.
Learning Longer-term Dependencies in RNNs with Auxiliary
Losses (Google)
https://arxiv.org/abs/1803.00144
• 長期依存の系列の学習について.ランダムに決定した点から,過
去の部分系列を再構成する損失と,未来の部分系列を予測する損
失を,タスク用の教師あり損失と一緒に減らす.各種分類タスク
で評価
マルチモーダル
言語+ビジョン
Image Generation from Scene Graphs (Stanford, Google)
https://arxiv.org/abs/1804.01622 CVPR18
• キャプションに基づくシーングラフ
https://nlp.stanford.edu/pubs/schuster-krishna-chang-feifei-manning-
vl15.pdf を入力として画像生成.グラフ畳込→シーンレイアウト
(物体のbox配置)→CRN https://arxiv.org/abs/1707.09405 をend-to-end
に学習.StackGANより高精度.
Neural Baby Talk (ジョージア工科大 & Facebook)
https://arxiv.org/abs/1803.09845 CVPR18
• 画像キャプショニングを物体認識と同時に実施.まず物体領域を
スロットとしたテンプレート生成を行って,スロットに入る物体
を決定する.新奇なドメイン,物体を含むキャプション生成が可
能.COCOとFlickr30kでSOTA.
Actor and Action Video Segmentation from a Sentence (ア
ムステルダム大)
https://arxiv.org/abs/1803.07485 CVPR18(oral)
• 自然文により動画から動作主&動作をピクセルレベルで抽出.テ
キストは1D CNN,動画は時間次元を追加したInflated 3D
CNN https://arxiv.org/abs/1705.07750 を利用.複数解像度で教師有
学習.
Guide Me: Interacting with Deep Networks (ミュンヘン工
科大)
https://arxiv.org/abs/1803.11544
• 画像セグメンテーションの品質を自然言語の指示(ヒント)によ
り改善可能なモデル.ヒントのクエリは正解と予測の差分を基に
スロットフィリング的に自動生成して学習.汎用的に使えそうな
アイデア.CVPR18
Finding beans in burgers: Deep semantic-visual embedding
with localization (Sorbonne大)
https://arxiv.org/abs/1804.01720 CVPR18
• 画像とテキストを同じベクトル空間に埋込.正しい(画像,テキス
ト)の組合と誤った組合のランキングlossで学習.テキストによる
画像検索/画像中の物体位置の理解が可能.
Learning a Text-Video Embedding from Incomplete and
Heterogeneous Data (ENS)
https://arxiv.org/abs/1804.02516
• テキストと動画の同空間埋込.動画の画像,動き,顔,音声をマ
ルチモーダルに考慮.全モーダルが揃ってないデータからも学習
可.コード https://github.com/antoine77340/Mixture-of-Embedding-
Experts デモ http://willow-demo.inria.fr/
Text2Shape (Stanford)
https://arxiv.org/abs/1803.08495
• 自然言語から3Dモデルを生成/検索.textをCNN+GRUで,shapeを
3D CNNでエンコード.text-shape-text(TST)とSTSの変換と,同クラ
ス内のtext/shapeの距離についてlossを計算して学習.textとshape
の演算もできる.データセット http://text2shape.stanford.edu/
Multi-Oriented Scene Text Detection via Corner Localization
and Region Segmentation (Huazhong大)
https://arxiv.org/abs/1802.08948
• シーン画像からのテキスト抽出.テキスト領域の4コーナーの点
および領域を個別に予測.抽出点をグルーピングして候補領域の
スコア算出.COCO-Textや多言語のMLTで良い精度
Rotation-Sensitive Regression for Oriented Scene Text
Detection (Huazhong大)
https://arxiv.org/abs/1803.05265 CVPR18
• シーン画像からの任意角度なテキスト抽出.
ARF https://arxiv.org/abs/1701.01833 を使って複数角度に回転させ
た特徴から抽出領域の回帰.特徴をプーリングして回転を無視し
た分類も実施
Detecting Multi-Oriented Text with Corner-based Region
Proposals (電子科技大)
https://arxiv.org/abs/1804.02690
• これもテキスト抽出をコーナー点予測で実施.点の予測はテキス
ト方向にロバスト.候補領域抽出にはRotation ROI
pooling https://arxiv.org/abs/1703.01086 を使う.コー
ド https://github.com/xhzdeng/crpn
Two can play this Game: Visual Dialog with Discriminative
Question Generation and Answering (UIUC)
https://arxiv.org/abs/1803.11186 CVPR18
• 画像に関する対話的QAと次質問の生成(QG).VisDial
http://openaccess.thecvf.com/content_cvpr_2017/papers/Das_Visual_
Dialog_CVPR_2017_paper.pdf を基に,QG用のVisDial-Qを作成.100
候補の中から正解を選択する識別モデルの提案.
Differential Attention for Visual Question Answering (IIT)
https://arxiv.org/abs/1804.00298 CVPR18
• VQAを実例により改善.別のVQAシステム https://github.com/GT-
Vision-Lab/VQA_LSTM_CNN を使って画像-質問の埋込空間で入力画
像に近い/遠い画像を利用.入力と近い(遠い)画像のattention loss
を小さく(大きく)するように学習.
How Images Inspire Poems (USTC)
https://arxiv.org/abs/1803.02994 AAAI18
• 画像から中国の詩(7文字×4行)を生成.画像の特徴量,前の行
の7文字,画像から物体認識して獲得したキーワードを基に,次
の行の7文字を生成.2.3M件の画像/詩のデータセットを自動構築
して学習に利用.良さげな詩ができてる.
Multimodal Emoji Prediction
(UPF) https://arxiv.org/abs/1803.02392 NAACL18(short)
• インスタの投稿に出現する絵文字をテキスト・画像から予測.
ResNetとfastTextでそれぞれ特徴量計算してlogistic回帰で各絵文字
の出現を予測.
言語
Achieving Human Parity on Automatic Chinese to English
News Translation (Microsoft)
https://www.microsoft.com/en-us/research/publication/achieving-human-parity-on-automatic-chinese-to-
english-news-translation/
• 中英のニュース翻訳(WMT'17)で人間と同レベルの翻訳精度を
達成:(1) 翻訳の双対性を利用 (2) 逐次予測におけるエラー増大を
防ぐ (3) noisyなデータを使わない (4) 複数システムを結合
• (2) Left-to-rightでsequenceを予測するとエラーが増大していくので,
Deliberation Networks (NIPS17) https://papers.nips.cc/paper/6775-
deliberation-networks-sequence-generation-beyond-one-pass-
decoding… で2段階のdecodingをする.最初はdraftを粗く,次に最
終版を精細に行う.さらに,left-to-rightとright-to-leftのalignment
も取る
Neural Response Generation with Dynamic Vocabularies
(Beihang, Microsoft)
https://arxiv.org/abs/1711.11191 AAAI18
• デコーダの語彙が動的な生成モデル.入力Xから応答Yの生成モデ
ルP(Y|X,T)P(T|X)において,P(T|X)を動的な語彙選択モデル({1,0}の
予測)とする.学習時はTをモンテカルロサンプリング.
Can Neural Machine Translation be Improved with User
Feedback? (eBay)
https://arxiv.org/abs/1804.05958 NAACL18 industrial
• eBayの商品タイトルの英⇔スペイン翻訳を強化学習で改善.報酬
はユーザの5つ星評価と,クロスリンガル検索時のクリックログ
を利用.星評価は品質が悪く失敗,クリックログは成功.
Deep contextualized word representations (AI2)
https://arxiv.org/abs/1802.05365 NAACL18
• 言語モデルを使ったコンテキスト考慮型埋め込みELMoの提案.入
力をL層の双方向LMに通した際の,各単語に対する隠れ状態を加
重平均した物.基本は通常の単語ベクトルとELMoを連結して使う.
読解,含意など6タスクでSOTA.
Universal Sentence Encoder (Google)
https://arxiv.org/abs/1803.11175
• 感情分類や質問タイプ分類など様々なタスクに汎用的に使える文
エンコーダの提供.高精度なTransformerと高速なDAN (単語平均
+FNN) https://aclanthology.info/papers/P15-1162/p15-1162 の学習済
モデルを用意.TF hub https://tfhub.dev/google/universal-sentence-
encoder/1 で公開
A Discourse-Aware Attention Model for Abstractive
Summarization of Long Documents (Georgetown大)
https://arxiv.org/abs/1804.05685 NAACL18
• 長い単一の文書の生成要約.arxivやpubmedで実験.セクション
(=discourse)・単語の階層的なアテンション付きエンコーダを
利用.デコーダではコピー機構も利用.
Deep Communicating Agents for Abstractive Summarization
https://arxiv.org/abs/1803.10357 NAACL18
• 長文に対する生成型要約.長文を段落に分割して,協調的エン
コーダが各段落を担当.各エンコーダの同じ層の最終状態をメッ
セージとしてやり取り.エージェントに対するアテンション,コ
ピー機構など工夫.
SHAPED: Shared-Private Encoder-Decoder for Text Style
Adaptation (Google AI)
https://arxiv.org/abs/1804.04093 NAACL18
• 文書要約のスタイル適応.入力文書のスタイルを判別して,スタ
イルに沿った要約を実現.スタイル個別/共有のEncDecを学習.
実験はニュース配信社をスタイルとしてヘッドライン要約.
Delete, Retrieve, Generate (Tencent & Stanford)
https://arxiv.org/abs/1804.06437 NAACL18
• 文のスタイル変換. 1)特定スタイルに出現し易いn-gram(マー
カ)を文から削除 2)目標スタイルの類似した文を検索(TF-IDF/埋
込空間距離) 3)類似文とそのマーカからRNNで文を生成.レ
ビューやキャプションで実験.
Neural Models for Reasoning over Multiple Mentions using
Coreference (CMU)
https://arxiv.org/abs/1804.05922 NAACL18
• 共参照解析の結果を利用したニューラルQA.BerkeleyやStanfordの
外部ツール(精度:約60%)の解析結果に基づき,共参照関係を
GRUの状態更新時に直接考慮.babiやwikihopで精度向上.
Think you have Solved Question Answering? Try ARC, the
AI2 Reasoning Challenge (Allen AI)
https://arxiv.org/abs/1803.05457
• 新しいQAデータセットARC.7787の科学QA(4択)と14Mの関連文
コーパス.明らかに訓練データが少ないので,他データ/知識を
どう使うかが鍵. サイト http://data.allenai.org/arc/
CliCR (アントワープ
大) https://arxiv.org/abs/1803.09720 NAACL18
• 医療の読解データセット(穴埋め型, 105K).BMJ case
reports http://casereports.bmj.com/ から作成.クエリは要点文の医
療エンティティを削って生成.高度な専門知識が必要.専門家で
もF1=53%と難問揃い.データ https://github.com/clips/clicr
MCScript: A Novel Dataset for Assessing Machine Comprehension Using
Script Knowledge (Saarland University)
https://arxiv.org/abs/1803.05223 LREC18
• SemEval 2018の読解データセット.13939の質問のうち,27.4%が
与えられたテキストだけでは理解できないcommonsenseを必要と
する問題.回答は2択.
HFL-RC System at SemEval-2018 Task 11
https://arxiv.org/abs/1803.05655 .
• 日常のシナリオに関する読解コンペ優勝の論文.外部知識
(ConceptNet)を使ったYuanfudao https://arxiv.org/abs/1803.00191 に
比べると真っ向勝負してる感じだが,単語の部分一致を入力に明
示的に含めることで1〜2%の向上との報告あり
Yuanfudao at SemEval-2018 Task 11:
https://arxiv.org/abs/
• 1803.00191日常のシナリオに関する読解コンペ2位の手法.
ConceptNetのgraph embeddingを行って,relation(used_forなど)
のembeddingを利用る.学習データが少ない(9731件)ので有効
に働いてそう.コンペのペー
ジ https://competitions.codalab.org/competitions/17184
Search Engine Guided Neural Machine Translation (HKY)
https://arxiv.org/abs/1705.07267 AAAI18
• 翻訳時に訓練データを元文で検索し,検索結果の対訳を用例とし
て,アテンションのコンテキストをkeyに,訳文の単語をvalueと
したメモリに入れて利用.翻訳時のコンテキストでメモリを読ん
で次単語の予測に活用.
Equation Embeddings (コロンビア大)
https://arxiv.org/abs/1803.09123
• 数式の埋込.単語埋込と同様に数式の周りに出現する単語を考慮.
数式の際は単語より広い窓を使う.数式をユニットに分
解 https://www.cs.rit.edu/~rlaz/files/sigir-tangent.pdfして精度向上.
単語と数式を同空間に埋め込むので,単語で数式の検索が可
code2vec (Technion)
https://arxiv.org/abs/1803.09473
• Javaメソッドのabstract syntax treeのパス集合からその意味を表す
タグを出力するアテンションモデルの中でcodeを固定ベクトルに
変換.compare + toLower = compareIgnoreCase を理解可.10KのJava
GitHubリポジトリから抽出した14Mのメソッドで学習.
Modeling Semantic Plausibility by Injecting World
Knowledge (テキサス大)
https://arxiv.org/abs/1804.00619
• SVOのイベント(例:男性,飲み込む,ペイントボール)が実例
は少なくとも意味的には可能かを判定.サイズなどの外部知識を
利用して精度向上.MTurkでデータ作
成 https://github.com/suwangcompling/Modeling-Semantic-
Plausibility-NAACL18
Annotation Artifacts in Natural Language Inference Data (ワ
シントン大) https://arxiv.org/abs/1803.02155 NAACL18
• 含意認識データSNLI, MNLIのアノテーションの問題.仮説だけで分
類してもSNLIは67%正解可能(neverが出ると矛盾の傾向強い等)
なことを報告.仮説分類が成功するデータは含意認識も容易.
360° Stance Detection (Aylien Ltd.)
https://arxiv.org/abs/1804.00982 NAACL18
• メディア毎に話題に対して肯定的か否定的かのスタンスをニュー
ラルネットで予測.学習用に32Kのニュース記事を作成して学習.
モデルは従来手法(多段のBiLSTM)
https://arxiv.org/abs/1606.05464 を利用.デ
モ http://demo.stance.ms-ie.aylien.com/
マルチモーダル
音声、センサ、その他
Learning to Localize Sound Source in Visual Scenes (KAIST)
https://arxiv.org/abs/1803.03849 CVPR18
• 音と画像のペアから,音がどこで鳴っているかを教師なしで学習.
音声特徴から画像にアテンションして,アテンションから音声特
徴を再構築してlossを取るイメージ.
youtube https://www.youtube.com/watch?v=UyairkbzR_Y
Vision as an Interlingua: Learning Multilingual Semantic
Embeddings of Untranscribed Speech (MIT)
https://arxiv.org/abs/1804.03052 ICASSP18
• 画像と多言語キャプション音声を同じ空間に埋込.画像が中間言
語として働き,ASRや書起し無しに言語間の意味を理解.(画像,英
語,ヒンディー語)の3つ組から学習.
Watch, Listen, and Describe: Globally and Locally Aligned
Cross-Modal Attentions for Video Captioning (UCSB)
https://arxiv.org/abs/1804.05448 NAACL18
• 画と音を考慮した動画キャプション生成.画像はResNet, 音声は
VGGish https://research.google.com/pubs/pub45611.html… 特徴量を
階層LSTMでエンコード.デコードも階層的.
Spoken SQuAD (国立台湾大)
https://arxiv.org/abs/1804.00320
• テキストの読み上げ音声についての質問応答.質問はテキスト,
回答はテキスト/音声区間.音声データはテキストからGoogle
TTS→CMU Sphinxで人工的に作成.
https://github.com/chiahsuan156/Spoken-SQuAD 認識誤り対策とし
て音素・音節をsubwordとして使うことで精度向上
DeepMood: Modeling Mobile Phone Typing Dynamics for
Mood Detection (イリノイ大)
https://arxiv.org/abs/1803.08986 KDD17
• スマホ(Galaxy Note 4)のタイピング系列(英数字,特殊文字,
加速度)から,被験者20名の躁鬱状態(2値化した診断スコア,
週単位)を90.3%で推定.Multi-viewモデルで各入力を融合.
End-to-end deep image reconstruction from human brain
activity (ATR & 京大)
https://www.biorxiv.org/content/early/2018/02/27/272518
• 脳活動から人間が見た画像をGANで再構築.fMRI信号から画像生
成.真偽識別に画像分類のlossも追加,訓練済CNNを活用.文字や
単純図形はかなり良い結果.データ(6000件)が増えればさらに
有望.
その他
Capsules for Object Segmentation (UCF)
https://arxiv.org/abs/1804.04241
• CapsNetによる画像セグメンテーション.カプセルの結合を局所的
に制限するルーティング法と,globalな結合性を保つdeconvカプセ
ルの提案.大きな画像(512x512)を処理可能.肺CT画像でSOTA精度
かつネットワークの大幅なサイズ減に成功
YOLOv3: An Incremental Improvement (ワシントン大)
https://pjreddie.com/media/files/papers/YOLOv3.pdf
• v3で加えた改善点&試したけど上手く行かなかったことの報告.
同程度の性能のRetinaNetより3.8倍高速に物体認識.
youtube https://www.youtube.com/watch?v=MPU2HistivI code https://
pjreddie.com/darknet/yolo/
Spherical CNNs (Amsterdam大)
https://openreview.net/forum?id=Hkbd5xZRb ICLR18ベスト
• ドローンや自動運転時に撮影される球面画像,全方位画像に対す
るCNNの理論および実験.球面上のMNISTと3D形状の分類SHREC17
で実験,球面上での回転に強い.PyTorchコー
ド https://github.com/jonas-koehler/s2cnn
SO-Net: Self-Organizing Network for Point Cloud Analysis
(NUS)
https://arxiv.org/abs/1803.04249 CVPR18
• SOMを使って点群を表現.点群の分類,セグメンテーション,検
索などいろいろ使えるSO-Netを提案.
Continuous Adaptation via Meta-Learning in Nonstationary
and Competitive Environments (OpenAI)
https://openreview.net/forum?id=Sk2u1g-0- ICLR18ベスト
• 少サンプルしか得られない動的環境に適応するためのメタ学習モ
デル.RoboSumo環境(4/6/8本足エージェントによる相撲)での
実験動画 https://sites.google.com/view/adaptation-via-metalearning
DBPal: An End-to-end Neural Natural Language Interface for
Databases (ブラウン大)
https://arxiv.org/abs/1804.00401
• 自然言語からSQLへの変換.新しいDBに対してスロットフィリン
グ,言い換えを利用して*自動で*訓練データを生成(Join,
Nestedも対応)してseq2seqで学習.動作
例 https://vimeo.com/251178010
Model-Free Control for Distributed Stream Data Processing
using Deep Reinforcement Learning (Syracuse Univ)
https://arxiv.org/abs/1803.01016 VLDB18
• 分散データストリーム処理のスケジューリングを深層強化学習で
実現.Apache Stormのデフォルト設定,3タスクでSOTAモデルベー
ス手法より高性能.
A Capsule Network-based Embedding Model for Search
Personalization (Deakin大)
https://arxiv.org/abs/1804.04266
• CapsNetによる検索結果パーソナライズ.(クエリ,ユーザ,文書)を
同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNet
で3つ組のスコア算出.通常の検索結果やグラフ埋込に比べて高
精度
Neural Voice Cloning with a Few Samples (Baidu)
https://arxiv.org/abs/1802.06006
• 少サンプル(1~100)でその人の音声を合成.複数話者の生成モデル
と,話者の音声特徴から話者embeddingに変換するencoderを別に
学習.英国男性 + 平均女性 − 平均男性 = 英国女性が可能.
サンプル https://audiodemos.github.io/
Social GAN (Stanford)
https://arxiv.org/abs/1803.10892
• 複数人の移動軌跡の予測.物理的には尤もらしくても社会的にお
かしい(ぶつかる等)軌跡の予測を避ける.生成器をEncoder-
PoolingModule(PM)-Decoderの構成として,PMで複数人の相互作用
を考慮.PMはEncodingされた各人の状態と他人と相対位置を利用

Contenu connexe

Similaire à 2018/03-04に読んだ深層学習論文のまとめ

20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
Hayaru SHOUNO
 

Similaire à 2018/03-04に読んだ深層学習論文のまとめ (12)

Microsoft Malware Classification Challenge 上位手法の紹介 (in Kaggle Study Meetup)
Microsoft Malware Classification Challenge 上位手法の紹介 (in Kaggle Study Meetup)Microsoft Malware Classification Challenge 上位手法の紹介 (in Kaggle Study Meetup)
Microsoft Malware Classification Challenge 上位手法の紹介 (in Kaggle Study Meetup)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 

Dernier

Dernier (12)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

2018/03-04に読んだ深層学習論文のまとめ

  • 3. Group Normalization (Facebook) https://arxiv.org/abs/1803.08494 • Batch Normが小さいバッチで不安定な問題を解決.畳込のチャネ ルをグループに分割して,グループ内で正規化.ImageNetを ResNet-50,バッチサイズ2で学習した際,BNのエラーを10.6%改善. Layer / Instance Normよりも高精度.RNNは今後の課題.
  • 4. Adafactor (Google) https://arxiv.org/abs/1804.04235 • 少メモリ最適化.AxBの行列の場合,AdamならAB個の2次モーメ ント項を保持する所,AdafactorはA+B個でOK.さらに,勾配の代 わりに更新量を抑えるupdate clippingを提案.Adamと同程度の性 能を少メモリで実現.tensor2tensorで公 開 https://github.com/tensorflow/tensor2tensor/blob/master/tensor2t ensor/utils/adafactor.py
  • 5. Associative Compression Networks (DeepMind; Graves, Menick, van den Oord) https://arxiv.org/abs/1804.02476 • 新VAE.潜在zのpriorを入力のk近傍点の条件付にすることで表現 能力を上げる.近傍計算はzの期待値(codeと呼ぶ)で実施.他VAE に比べ良い次元圧縮および特徴表現を獲得.ImageNetやCelebAで 実験.
  • 6. Independently Recurrent Neural Network (IndRNN) (Wollongong大) https://arxiv.org/abs/1803.04831 CVPR18 • 新RNN.1層の中でRNNの隠れ細胞を独立化.各細胞は層間で接続. ReLUやBN,畳込を併用可.多層化(>20)で精度向上. TF https://github.com/batzner/indrnn pytorch https://github.com/batzn er/indrnn
  • 7. Learning to Guide Decoding for Image Captioning (Tencent) https://arxiv.org/abs/1804.00887 AAAI18 • 画像キャプション生成のdecoderを入力側から"guide"する.ガイド 情報には,encoder(CNN)のsubregion表現+global表現+画像中に含 まれる予測単語表現を利用.Enc-Review-Dec構成に適用してさら に性能向上.
  • 8. Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning (ペンシルバニア州立大) https://arxiv.org/abs/1803.04765 • 学習済ネットワークを使って,層毎に訓練データに対するk-NNを 実施.解釈性が高く,敵対的サンプルにも強い.学習未利用の データを用意して出力の信頼度も計算
  • 9. PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning (イリノイ大) https://arxiv.org/abs/1711.05769 CVPR18 • 1つのNNで複数タスクを学習.畳込と全結合層の小さい重みを削 除→残りを再訓練して固定.削除した重みを次タスクの学習に利 用.単純で強力.
  • 10. Self-Attention with Relative Position Representations (Google) https://arxiv.org/abs/1803.02155 NAACL18 • Transformer (Attention is all you need) のself-attentionに相対位置の表 現を加えると,絶対位置の表現の場合よりもWAT 2014 のBLEU向上. 一定以上離れた位置については同じ距離として扱う.
  • 11. Learning Longer-term Dependencies in RNNs with Auxiliary Losses (Google) https://arxiv.org/abs/1803.00144 • 長期依存の系列の学習について.ランダムに決定した点から,過 去の部分系列を再構成する損失と,未来の部分系列を予測する損 失を,タスク用の教師あり損失と一緒に減らす.各種分類タスク で評価
  • 13. Image Generation from Scene Graphs (Stanford, Google) https://arxiv.org/abs/1804.01622 CVPR18 • キャプションに基づくシーングラフ https://nlp.stanford.edu/pubs/schuster-krishna-chang-feifei-manning- vl15.pdf を入力として画像生成.グラフ畳込→シーンレイアウト (物体のbox配置)→CRN https://arxiv.org/abs/1707.09405 をend-to-end に学習.StackGANより高精度.
  • 14. Neural Baby Talk (ジョージア工科大 & Facebook) https://arxiv.org/abs/1803.09845 CVPR18 • 画像キャプショニングを物体認識と同時に実施.まず物体領域を スロットとしたテンプレート生成を行って,スロットに入る物体 を決定する.新奇なドメイン,物体を含むキャプション生成が可 能.COCOとFlickr30kでSOTA.
  • 15. Actor and Action Video Segmentation from a Sentence (ア ムステルダム大) https://arxiv.org/abs/1803.07485 CVPR18(oral) • 自然文により動画から動作主&動作をピクセルレベルで抽出.テ キストは1D CNN,動画は時間次元を追加したInflated 3D CNN https://arxiv.org/abs/1705.07750 を利用.複数解像度で教師有 学習.
  • 16. Guide Me: Interacting with Deep Networks (ミュンヘン工 科大) https://arxiv.org/abs/1803.11544 • 画像セグメンテーションの品質を自然言語の指示(ヒント)によ り改善可能なモデル.ヒントのクエリは正解と予測の差分を基に スロットフィリング的に自動生成して学習.汎用的に使えそうな アイデア.CVPR18
  • 17. Finding beans in burgers: Deep semantic-visual embedding with localization (Sorbonne大) https://arxiv.org/abs/1804.01720 CVPR18 • 画像とテキストを同じベクトル空間に埋込.正しい(画像,テキス ト)の組合と誤った組合のランキングlossで学習.テキストによる 画像検索/画像中の物体位置の理解が可能.
  • 18. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data (ENS) https://arxiv.org/abs/1804.02516 • テキストと動画の同空間埋込.動画の画像,動き,顔,音声をマ ルチモーダルに考慮.全モーダルが揃ってないデータからも学習 可.コード https://github.com/antoine77340/Mixture-of-Embedding- Experts デモ http://willow-demo.inria.fr/
  • 19. Text2Shape (Stanford) https://arxiv.org/abs/1803.08495 • 自然言語から3Dモデルを生成/検索.textをCNN+GRUで,shapeを 3D CNNでエンコード.text-shape-text(TST)とSTSの変換と,同クラ ス内のtext/shapeの距離についてlossを計算して学習.textとshape の演算もできる.データセット http://text2shape.stanford.edu/
  • 20. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation (Huazhong大) https://arxiv.org/abs/1802.08948 • シーン画像からのテキスト抽出.テキスト領域の4コーナーの点 および領域を個別に予測.抽出点をグルーピングして候補領域の スコア算出.COCO-Textや多言語のMLTで良い精度
  • 21. Rotation-Sensitive Regression for Oriented Scene Text Detection (Huazhong大) https://arxiv.org/abs/1803.05265 CVPR18 • シーン画像からの任意角度なテキスト抽出. ARF https://arxiv.org/abs/1701.01833 を使って複数角度に回転させ た特徴から抽出領域の回帰.特徴をプーリングして回転を無視し た分類も実施
  • 22. Detecting Multi-Oriented Text with Corner-based Region Proposals (電子科技大) https://arxiv.org/abs/1804.02690 • これもテキスト抽出をコーナー点予測で実施.点の予測はテキス ト方向にロバスト.候補領域抽出にはRotation ROI pooling https://arxiv.org/abs/1703.01086 を使う.コー ド https://github.com/xhzdeng/crpn
  • 23. Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering (UIUC) https://arxiv.org/abs/1803.11186 CVPR18 • 画像に関する対話的QAと次質問の生成(QG).VisDial http://openaccess.thecvf.com/content_cvpr_2017/papers/Das_Visual_ Dialog_CVPR_2017_paper.pdf を基に,QG用のVisDial-Qを作成.100 候補の中から正解を選択する識別モデルの提案.
  • 24. Differential Attention for Visual Question Answering (IIT) https://arxiv.org/abs/1804.00298 CVPR18 • VQAを実例により改善.別のVQAシステム https://github.com/GT- Vision-Lab/VQA_LSTM_CNN を使って画像-質問の埋込空間で入力画 像に近い/遠い画像を利用.入力と近い(遠い)画像のattention loss を小さく(大きく)するように学習.
  • 25. How Images Inspire Poems (USTC) https://arxiv.org/abs/1803.02994 AAAI18 • 画像から中国の詩(7文字×4行)を生成.画像の特徴量,前の行 の7文字,画像から物体認識して獲得したキーワードを基に,次 の行の7文字を生成.2.3M件の画像/詩のデータセットを自動構築 して学習に利用.良さげな詩ができてる.
  • 26. Multimodal Emoji Prediction (UPF) https://arxiv.org/abs/1803.02392 NAACL18(short) • インスタの投稿に出現する絵文字をテキスト・画像から予測. ResNetとfastTextでそれぞれ特徴量計算してlogistic回帰で各絵文字 の出現を予測.
  • 28. Achieving Human Parity on Automatic Chinese to English News Translation (Microsoft) https://www.microsoft.com/en-us/research/publication/achieving-human-parity-on-automatic-chinese-to- english-news-translation/ • 中英のニュース翻訳(WMT'17)で人間と同レベルの翻訳精度を 達成:(1) 翻訳の双対性を利用 (2) 逐次予測におけるエラー増大を 防ぐ (3) noisyなデータを使わない (4) 複数システムを結合 • (2) Left-to-rightでsequenceを予測するとエラーが増大していくので, Deliberation Networks (NIPS17) https://papers.nips.cc/paper/6775- deliberation-networks-sequence-generation-beyond-one-pass- decoding… で2段階のdecodingをする.最初はdraftを粗く,次に最 終版を精細に行う.さらに,left-to-rightとright-to-leftのalignment も取る
  • 29. Neural Response Generation with Dynamic Vocabularies (Beihang, Microsoft) https://arxiv.org/abs/1711.11191 AAAI18 • デコーダの語彙が動的な生成モデル.入力Xから応答Yの生成モデ ルP(Y|X,T)P(T|X)において,P(T|X)を動的な語彙選択モデル({1,0}の 予測)とする.学習時はTをモンテカルロサンプリング.
  • 30. Can Neural Machine Translation be Improved with User Feedback? (eBay) https://arxiv.org/abs/1804.05958 NAACL18 industrial • eBayの商品タイトルの英⇔スペイン翻訳を強化学習で改善.報酬 はユーザの5つ星評価と,クロスリンガル検索時のクリックログ を利用.星評価は品質が悪く失敗,クリックログは成功.
  • 31. Deep contextualized word representations (AI2) https://arxiv.org/abs/1802.05365 NAACL18 • 言語モデルを使ったコンテキスト考慮型埋め込みELMoの提案.入 力をL層の双方向LMに通した際の,各単語に対する隠れ状態を加 重平均した物.基本は通常の単語ベクトルとELMoを連結して使う. 読解,含意など6タスクでSOTA.
  • 32. Universal Sentence Encoder (Google) https://arxiv.org/abs/1803.11175 • 感情分類や質問タイプ分類など様々なタスクに汎用的に使える文 エンコーダの提供.高精度なTransformerと高速なDAN (単語平均 +FNN) https://aclanthology.info/papers/P15-1162/p15-1162 の学習済 モデルを用意.TF hub https://tfhub.dev/google/universal-sentence- encoder/1 で公開
  • 33. A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents (Georgetown大) https://arxiv.org/abs/1804.05685 NAACL18 • 長い単一の文書の生成要約.arxivやpubmedで実験.セクション (=discourse)・単語の階層的なアテンション付きエンコーダを 利用.デコーダではコピー機構も利用.
  • 34. Deep Communicating Agents for Abstractive Summarization https://arxiv.org/abs/1803.10357 NAACL18 • 長文に対する生成型要約.長文を段落に分割して,協調的エン コーダが各段落を担当.各エンコーダの同じ層の最終状態をメッ セージとしてやり取り.エージェントに対するアテンション,コ ピー機構など工夫.
  • 35. SHAPED: Shared-Private Encoder-Decoder for Text Style Adaptation (Google AI) https://arxiv.org/abs/1804.04093 NAACL18 • 文書要約のスタイル適応.入力文書のスタイルを判別して,スタ イルに沿った要約を実現.スタイル個別/共有のEncDecを学習. 実験はニュース配信社をスタイルとしてヘッドライン要約.
  • 36. Delete, Retrieve, Generate (Tencent & Stanford) https://arxiv.org/abs/1804.06437 NAACL18 • 文のスタイル変換. 1)特定スタイルに出現し易いn-gram(マー カ)を文から削除 2)目標スタイルの類似した文を検索(TF-IDF/埋 込空間距離) 3)類似文とそのマーカからRNNで文を生成.レ ビューやキャプションで実験.
  • 37. Neural Models for Reasoning over Multiple Mentions using Coreference (CMU) https://arxiv.org/abs/1804.05922 NAACL18 • 共参照解析の結果を利用したニューラルQA.BerkeleyやStanfordの 外部ツール(精度:約60%)の解析結果に基づき,共参照関係を GRUの状態更新時に直接考慮.babiやwikihopで精度向上.
  • 38. Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge (Allen AI) https://arxiv.org/abs/1803.05457 • 新しいQAデータセットARC.7787の科学QA(4択)と14Mの関連文 コーパス.明らかに訓練データが少ないので,他データ/知識を どう使うかが鍵. サイト http://data.allenai.org/arc/
  • 39. CliCR (アントワープ 大) https://arxiv.org/abs/1803.09720 NAACL18 • 医療の読解データセット(穴埋め型, 105K).BMJ case reports http://casereports.bmj.com/ から作成.クエリは要点文の医 療エンティティを削って生成.高度な専門知識が必要.専門家で もF1=53%と難問揃い.データ https://github.com/clips/clicr
  • 40. MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge (Saarland University) https://arxiv.org/abs/1803.05223 LREC18 • SemEval 2018の読解データセット.13939の質問のうち,27.4%が 与えられたテキストだけでは理解できないcommonsenseを必要と する問題.回答は2択.
  • 41. HFL-RC System at SemEval-2018 Task 11 https://arxiv.org/abs/1803.05655 . • 日常のシナリオに関する読解コンペ優勝の論文.外部知識 (ConceptNet)を使ったYuanfudao https://arxiv.org/abs/1803.00191 に 比べると真っ向勝負してる感じだが,単語の部分一致を入力に明 示的に含めることで1〜2%の向上との報告あり
  • 42. Yuanfudao at SemEval-2018 Task 11: https://arxiv.org/abs/ • 1803.00191日常のシナリオに関する読解コンペ2位の手法. ConceptNetのgraph embeddingを行って,relation(used_forなど) のembeddingを利用る.学習データが少ない(9731件)ので有効 に働いてそう.コンペのペー ジ https://competitions.codalab.org/competitions/17184
  • 43. Search Engine Guided Neural Machine Translation (HKY) https://arxiv.org/abs/1705.07267 AAAI18 • 翻訳時に訓練データを元文で検索し,検索結果の対訳を用例とし て,アテンションのコンテキストをkeyに,訳文の単語をvalueと したメモリに入れて利用.翻訳時のコンテキストでメモリを読ん で次単語の予測に活用.
  • 44. Equation Embeddings (コロンビア大) https://arxiv.org/abs/1803.09123 • 数式の埋込.単語埋込と同様に数式の周りに出現する単語を考慮. 数式の際は単語より広い窓を使う.数式をユニットに分 解 https://www.cs.rit.edu/~rlaz/files/sigir-tangent.pdfして精度向上. 単語と数式を同空間に埋め込むので,単語で数式の検索が可
  • 45. code2vec (Technion) https://arxiv.org/abs/1803.09473 • Javaメソッドのabstract syntax treeのパス集合からその意味を表す タグを出力するアテンションモデルの中でcodeを固定ベクトルに 変換.compare + toLower = compareIgnoreCase を理解可.10KのJava GitHubリポジトリから抽出した14Mのメソッドで学習.
  • 46. Modeling Semantic Plausibility by Injecting World Knowledge (テキサス大) https://arxiv.org/abs/1804.00619 • SVOのイベント(例:男性,飲み込む,ペイントボール)が実例 は少なくとも意味的には可能かを判定.サイズなどの外部知識を 利用して精度向上.MTurkでデータ作 成 https://github.com/suwangcompling/Modeling-Semantic- Plausibility-NAACL18
  • 47. Annotation Artifacts in Natural Language Inference Data (ワ シントン大) https://arxiv.org/abs/1803.02155 NAACL18 • 含意認識データSNLI, MNLIのアノテーションの問題.仮説だけで分 類してもSNLIは67%正解可能(neverが出ると矛盾の傾向強い等) なことを報告.仮説分類が成功するデータは含意認識も容易.
  • 48. 360° Stance Detection (Aylien Ltd.) https://arxiv.org/abs/1804.00982 NAACL18 • メディア毎に話題に対して肯定的か否定的かのスタンスをニュー ラルネットで予測.学習用に32Kのニュース記事を作成して学習. モデルは従来手法(多段のBiLSTM) https://arxiv.org/abs/1606.05464 を利用.デ モ http://demo.stance.ms-ie.aylien.com/
  • 50. Learning to Localize Sound Source in Visual Scenes (KAIST) https://arxiv.org/abs/1803.03849 CVPR18 • 音と画像のペアから,音がどこで鳴っているかを教師なしで学習. 音声特徴から画像にアテンションして,アテンションから音声特 徴を再構築してlossを取るイメージ. youtube https://www.youtube.com/watch?v=UyairkbzR_Y
  • 51. Vision as an Interlingua: Learning Multilingual Semantic Embeddings of Untranscribed Speech (MIT) https://arxiv.org/abs/1804.03052 ICASSP18 • 画像と多言語キャプション音声を同じ空間に埋込.画像が中間言 語として働き,ASRや書起し無しに言語間の意味を理解.(画像,英 語,ヒンディー語)の3つ組から学習.
  • 52. Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning (UCSB) https://arxiv.org/abs/1804.05448 NAACL18 • 画と音を考慮した動画キャプション生成.画像はResNet, 音声は VGGish https://research.google.com/pubs/pub45611.html… 特徴量を 階層LSTMでエンコード.デコードも階層的.
  • 53. Spoken SQuAD (国立台湾大) https://arxiv.org/abs/1804.00320 • テキストの読み上げ音声についての質問応答.質問はテキスト, 回答はテキスト/音声区間.音声データはテキストからGoogle TTS→CMU Sphinxで人工的に作成. https://github.com/chiahsuan156/Spoken-SQuAD 認識誤り対策とし て音素・音節をsubwordとして使うことで精度向上
  • 54. DeepMood: Modeling Mobile Phone Typing Dynamics for Mood Detection (イリノイ大) https://arxiv.org/abs/1803.08986 KDD17 • スマホ(Galaxy Note 4)のタイピング系列(英数字,特殊文字, 加速度)から,被験者20名の躁鬱状態(2値化した診断スコア, 週単位)を90.3%で推定.Multi-viewモデルで各入力を融合.
  • 55. End-to-end deep image reconstruction from human brain activity (ATR & 京大) https://www.biorxiv.org/content/early/2018/02/27/272518 • 脳活動から人間が見た画像をGANで再構築.fMRI信号から画像生 成.真偽識別に画像分類のlossも追加,訓練済CNNを活用.文字や 単純図形はかなり良い結果.データ(6000件)が増えればさらに 有望.
  • 57. Capsules for Object Segmentation (UCF) https://arxiv.org/abs/1804.04241 • CapsNetによる画像セグメンテーション.カプセルの結合を局所的 に制限するルーティング法と,globalな結合性を保つdeconvカプセ ルの提案.大きな画像(512x512)を処理可能.肺CT画像でSOTA精度 かつネットワークの大幅なサイズ減に成功
  • 58. YOLOv3: An Incremental Improvement (ワシントン大) https://pjreddie.com/media/files/papers/YOLOv3.pdf • v3で加えた改善点&試したけど上手く行かなかったことの報告. 同程度の性能のRetinaNetより3.8倍高速に物体認識. youtube https://www.youtube.com/watch?v=MPU2HistivI code https:// pjreddie.com/darknet/yolo/
  • 59. Spherical CNNs (Amsterdam大) https://openreview.net/forum?id=Hkbd5xZRb ICLR18ベスト • ドローンや自動運転時に撮影される球面画像,全方位画像に対す るCNNの理論および実験.球面上のMNISTと3D形状の分類SHREC17 で実験,球面上での回転に強い.PyTorchコー ド https://github.com/jonas-koehler/s2cnn
  • 60. SO-Net: Self-Organizing Network for Point Cloud Analysis (NUS) https://arxiv.org/abs/1803.04249 CVPR18 • SOMを使って点群を表現.点群の分類,セグメンテーション,検 索などいろいろ使えるSO-Netを提案.
  • 61. Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments (OpenAI) https://openreview.net/forum?id=Sk2u1g-0- ICLR18ベスト • 少サンプルしか得られない動的環境に適応するためのメタ学習モ デル.RoboSumo環境(4/6/8本足エージェントによる相撲)での 実験動画 https://sites.google.com/view/adaptation-via-metalearning
  • 62. DBPal: An End-to-end Neural Natural Language Interface for Databases (ブラウン大) https://arxiv.org/abs/1804.00401 • 自然言語からSQLへの変換.新しいDBに対してスロットフィリン グ,言い換えを利用して*自動で*訓練データを生成(Join, Nestedも対応)してseq2seqで学習.動作 例 https://vimeo.com/251178010
  • 63. Model-Free Control for Distributed Stream Data Processing using Deep Reinforcement Learning (Syracuse Univ) https://arxiv.org/abs/1803.01016 VLDB18 • 分散データストリーム処理のスケジューリングを深層強化学習で 実現.Apache Stormのデフォルト設定,3タスクでSOTAモデルベー ス手法より高性能.
  • 64. A Capsule Network-based Embedding Model for Search Personalization (Deakin大) https://arxiv.org/abs/1804.04266 • CapsNetによる検索結果パーソナライズ.(クエリ,ユーザ,文書)を 同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNet で3つ組のスコア算出.通常の検索結果やグラフ埋込に比べて高 精度
  • 65. Neural Voice Cloning with a Few Samples (Baidu) https://arxiv.org/abs/1802.06006 • 少サンプル(1~100)でその人の音声を合成.複数話者の生成モデル と,話者の音声特徴から話者embeddingに変換するencoderを別に 学習.英国男性 + 平均女性 − 平均男性 = 英国女性が可能. サンプル https://audiodemos.github.io/
  • 66. Social GAN (Stanford) https://arxiv.org/abs/1803.10892 • 複数人の移動軌跡の予測.物理的には尤もらしくても社会的にお かしい(ぶつかる等)軌跡の予測を避ける.生成器をEncoder- PoolingModule(PM)-Decoderの構成として,PMで複数人の相互作用 を考慮.PMはEncodingされた各人の状態と他人と相対位置を利用