Accueil
Explorer
Soumettre la recherche
Mettre en ligne
S’identifier
S’inscrire
Publicité
Transformerを用いたAutoEncoderの設計と実験
Signaler
myxymyxomatosis
Suivre
11 Mar 2023
•
0 j'aime
0 j'aime
×
Soyez le premier à aimer ceci
afficher plus
•
3,784 vues
vues
×
Nombre de vues
0
Sur Slideshare
0
À partir des intégrations
0
Nombre d'intégrations
0
Check these out next
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
マルチモーダル深層学習の研究動向
Koichiro Mori
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
CVPR 2019 速報
cvpaper. challenge
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
1
sur
18
Top clipped slide
Transformerを用いたAutoEncoderの設計と実験
11 Mar 2023
•
0 j'aime
0 j'aime
×
Soyez le premier à aimer ceci
afficher plus
•
3,784 vues
vues
×
Nombre de vues
0
Sur Slideshare
0
À partir des intégrations
0
Nombre d'intégrations
0
Télécharger maintenant
Télécharger pour lire hors ligne
Signaler
Ingénierie
VRChat ML集会 2023-01-11
myxymyxomatosis
Suivre
Publicité
Publicité
Publicité
Recommandé
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
3K vues
•
24 diapositives
コンピュータビジョン分野メジャー国際会議 Award までの道のり
cvpaper. challenge
2.7K vues
•
27 diapositives
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
2.8K vues
•
21 diapositives
PRML学習者から入る深層生成モデル入門
tmtm otm
5.4K vues
•
73 diapositives
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.4K vues
•
52 diapositives
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
601 vues
•
22 diapositives
Contenu connexe
Présentations pour vous
(20)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
•
11.1K vues
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
•
2.7K vues
マルチモーダル深層学習の研究動向
Koichiro Mori
•
45.2K vues
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
•
2.3K vues
CVPR 2019 速報
cvpaper. challenge
•
20.8K vues
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
•
10.2K vues
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
•
32.4K vues
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
•
6.4K vues
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
•
6.1K vues
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
•
1.4K vues
Sliced Wasserstein距離と生成モデル
ohken
•
4.3K vues
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
3.8K vues
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
•
71.7K vues
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.1K vues
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
•
791 vues
画像認識の初歩、SIFT,SURF特徴量
takaya imai
•
226.9K vues
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
•
17.2K vues
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
13.4K vues
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
•
2.2K vues
Introduction to YOLO detection model
Takamitsu Oomasa
•
60.2K vues
Similaire à Transformerを用いたAutoEncoderの設計と実験
(20)
[Cloud OnAir] Google Cloud Next '18 最新情報 2018年7月26日 放送
Google Cloud Platform - Japan
•
5K vues
Async deepdive before de:code
Kouji Matsui
•
24K vues
Visual Studioで始めるTypeScript開発入門
Narami Kiyokura
•
14.6K vues
音声認識技術の最新状況とあるべき未来
Akira Hatsune
•
1.3K vues
東京工業大学「ロボット技術・ロボットミドルウェア」
NoriakiAndo
•
546 vues
pgCafeMitaka20090723
Noriyuki Nonomura
•
582 vues
Fabric + Amazon EC2で快適サポート生活 #PyFes
Sho Shimauchi
•
2.7K vues
100mpusとopc brick ev3 ご紹介
Akira Hatsune
•
558 vues
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
infinite_loop
•
66.3K vues
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
IoTビジネス共創ラボ
•
607 vues
TypeScript and Visual Studio Code
Akira Inoue
•
1.2K vues
はじめよう TypeScript - 入門から実践まで - 素の JavaScript とはさようなら!
Jun-ichi Sakamoto
•
15.8K vues
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
•
4.1K vues
明治大学理工学部 特別講義 AI on Azure
Daiyu Hatakeyama
•
966 vues
マルウェア分類に用いられる特徴量 Kaggle - Malware Classification Challenge勉強会
Takeshi Ishita
•
5.3K vues
An overview of query optimization in relational systems 論文紹介
Kumazaki Hiroki
•
974 vues
メディアコンテンツ向け記事検索DBとして使うElasticsearch
Yasuhiro Murata
•
1.9K vues
おとなのテキストマイニング
Munenori Sugimura
•
3.2K vues
Good Parts of PHP and the UNIX Philosophy
Yuya Takeyama
•
3.8K vues
PhpStormで始める快適なWebアプリケーション開発 #phpcon2013
晃 遠山
•
19.3K vues
Publicité
Dernier
(20)
Radio06(1995).pdf
ivan ion
•
2 vues
《斯旺西大学毕业证|学位证书校内仿真版本》
w124dsa
•
2 vues
《天普大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 vues
★可查可存档〖制作魁北克大学文凭证书毕业证〗
mmmm282537
•
0 vue
揭秘英国留学:如何获得利物浦大学毕业证?
yatenf
•
2 vues
★可查可存档〖制作思克莱德大学文凭证书毕业证〗
vgfg1
•
0 vue
Radio03(1995).pdf
ivan ion
•
5 vues
《高级时装学院毕业证|学位证书校内仿真版本》
hj123saf
•
2 vues
《拉文大学毕业证|学位证书校内仿真版本》
123shab123
•
2 vues
《勒芒大学毕业证|学位证书校内仿真版本》
hj123saf
•
2 vues
★可查可存档〖制作温尼伯大学文凭证书毕业证〗
mmmm282537
•
0 vue
★可查可存档〖制作奥克兰商学院文凭证书毕业证〗
tujjj
•
0 vue
★可查可存档〖制作杜伦大学文凭证书毕业证〗
vgfg1
•
0 vue
揭秘德国留学:如何获得马格德堡大学毕业证?
beyeme1761
•
3 vues
《戴尔豪斯大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
3 vues
《阳光海岸大学毕业证|学位证书校内仿真版本》
hj123saf
•
2 vues
Radio02(1995).pdf
ivan ion
•
2 vues
★可查可存档〖制作巴黎第十二大大学文凭证书毕业证〗
tujjj
•
0 vue
今さら聞けない人のためのDevOps超入門
VirtualTech Japan Inc./Begi.net Inc.
•
8 vues
《萨德伯里大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
2 vues
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いた AutoEncoderの設計と実験 発表者:myxy ML集会
誰? ● myxy(みきしぃ) ● 本業はプログラマ ●
機械学習は完全に趣味で勉強してる アバター作ったりもする アバターワールドの検索・表示システムとか作った
Transformerを用いた AutoEncoderの設計と実験 発表者:myxy ML集会
Transformer "Attention is All
You Need"より引用 ● 自然言語処理で活躍 ● 言語・音声等系列データの処理 ● パラメータが増えるほど強いらしい
Transformerを用いた AutoEncoderの設計と実験 発表者:myxy ML集会
AutoEncoder ● 入力次元より低い次元に圧縮してから 元のデータを復元する ● 入力と出力の誤差を最小化 ●
データに対して低次元の 特徴量が得られる 英語版wikipedia "AutoEncoder"より引用 (CC-BY-SA)https://en.wikipedia.org/wiki/Autoencoder#/ media/File:Autoencoder_structure.png
動機 通常のAutoEncoderは入出力次元数が固定されており 長さが変化する系列データの処理はできない Transformerを使って 系列データのAutoEncoderを作りたい
既存研究 "Masked Autoencoders Are
Scalable Vision Learners"より引用 AutoEncoderと銘打っているが やってることはマスクしたパッチの補間
出力次元数を下げる ● 系列長は減らない ● あまり次元を下げると 位置情報が保持できなくなる 次元数を減らすのではなく 系列長を減らせるだろうか? ナイーブな方法 Transformer
Encoder 系列長n × 次元数256 ・・・ ・・・ 系列長n × 次元数128
V K Q Transformerに使われる Query-Key-Value型のAttentionでは Queryに入力した系列と 同じ長さの系列が出力される 系列長n ・・・ 系列長n ・・・
V K Q Transformerに使われる Query-Key-Value型のAttentionでは Queryに入力した系列と 同じ長さの系列が出力される 系列長n ・・・ 系列長n ・・・ Key-Valueの方に入力すれば 系列長を圧縮できるのでは?
位置エンコーディング (潜在ベクトル用) ・・・ 潜在ベクトル系列 ・・・ Encoder (Transformer Decoder) 提案手法 Decoder (Transformer Decoder) 入力ベクトル系列 ・・・ 位置エンコーディング (入力ベクトル用) ・・・ + 位置エンコーディング (入力ベクトル用) ・・・ 出力ベクトル系列 ・・・ Key-Value Key-Value Query Query 同じ位置エンコーディ ングを使用 x
N x N 空間的な位置というより 潜在ベクトルを識別するIDに近い
実験 ● CIFAR-10の画像データ(32x32)を 4x4のパッチに分割(64個x48次元) ● Encoder,
Decoderはそれぞれ6層の TransformerDecoder ● 位置エンコーディングは正規分布で初期化して 学習可能な位置埋め込みとした ● 詳しくはコード見て https://gist.github.com/myxyy/0e06c430652b35cd a4d56aaf21eb7fa9
潜在ベクトルが16個の16次元ベクトルの場合 ● 左から入力画像、潜在ベクトル、出力画像 画像の位置埋め込み、潜在ベクトルの位置埋め込み ● 500epoch時点のvalidationのMSELossは0.00805
● 500epoch時点のvalidationのMSELossは0.00646 ● 16x16よりちょっと鮮明になった 潜在ベクトルが32個の16次元ベクトルの場合
● 500epoch時点のvalidationのMSELossは0.00480 ● 32x16よりも性能が良い 潜在ベクトルが16個の32次元ベクトルの場合
考察 ● なんで32x16より16x32の方が性能いいの? ○ Transformerの系列は並び替えで変化しない ○
16x16は256次元ベクトルより16!倍弱い ○ 系列長を倍にしても情報量が倍にならない ○ ベクトルの次元数を増やす方が効率が良い
今後の課題 ● 文字列等の本来やりたかった可変長系列の処理 ○ 画像をパッチ分割することで様々な解像度の 画像を処理可能? ●
潜在ベクトルから位置情報を分離したい ○ VAEのような正則化が必要?
Publicité