特別チュートリアル「パターン認識とメディア理解のフロンティア」ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.
モデレータ：栄藤＠mickbean
ハッシュタグ #MIRU2014
https://sites.google.com/site/miru2014okayama/online-question-form
特別チュートリアル
「パターン認識とメディア理解のフロンティア」
1

2
15:15-16:00
【ゲスト講演】
「自然言語処理の現在と画像処理」徳永拓之（PFI）
16:00-16:45
【ゲスト講演】
「音楽理解技術の魅力」後藤真孝（産総研）
（休憩）
17:00-17:45
【ゲスト講演】「E-Commerceにおける機械学習・パターン認識・画像解析技術の活用
の実際」森正弥（楽天技術研究所）
17:45-18:15
【パネルディスカッション】
「画像以外もこんなに面白い。」

ハッシュタグ #MIRU2014
https://sites.google.com/site/miru2014okayama/online-question-form
画像以外も面白い．広い視野を->学生の皆さんへ
境界分野を新たな研究フロンティアへ
3
モデレータ：栄藤＠mickbean

1985 私の経験：隣の芝はまぶしい
• 画像符号化の仕事を始めた時，画像の符号化レートにデジタル処理が追いつか
ず，できたのは適応サブサンプリングくらい．同僚の殆どはアナログ人間．
• 隣の音声処理グループ：離散コサイン変換，FFTでの波形整形，窓関数，サ
ブバンド符号化（ウェーブレット）くらいはやっていた．．
• 音声認識で使われる言語モデル（生成モデル）を用いた制約解法も早かった．
モデルベースのノイズリダクションもそう
!
• 他分野で先行して利用され，画像分野で花開いたものに以下がある．（井尻）
boosting, random forests, graph cut, level set, MRF, structured learning (CRF),
4

2007 私の経験：画像やっててよかった．
• ドコモでデータマイニング，NLPの開発に従事
しゃべってコンシェルで多用している技術はSVM，CRF．
• 企業の技術経営者としてデータ処理分野には以下の見解．
１．パターン認識，機械学習に関する知識を教えるのは時間がかか
る→大学で教育されていると助かる。基礎は重要．音声系・NLP系の学
生は少ない．MIRU系の学生は多く，人材源としては最高．現実の問題を
モデル化して解くという訓練を受けている．
２．特徴抽出：ドメインに関する前処理。センスが要る。
ビックデータのマイニングでもクレンジングでのセンスがかなり必要。
5

1. 画像特有の本質的な技術は何であって、
2. 音声・自然言語等他のメディア認識・理解と基本
を共有する汎用的な技術？
6
Thanks to
仙田さん，田中さん，井尻さん
黄瀬先生，嶋田先生，大山先生

7
1. メディアに固有な技術
信号入力から特徴抽出まで．セグメンテーション，
初期視覚，センシング
2. 汎用な技術
それ以降、信号を記号に置き換えるまで。
技術の手法自体が、対象メディアに依存しなくなり
つつある．

結局，何が言いたい？
• 画像理解は良い教育の場である．どうして？ →
ドメイン固有技術と汎用技術の切り分けを意識すれば，汎用
技術部分をいろんなメディアに適用できる．
• ドメイン固有を馬鹿にする事なかれ．各ドメインの攻め方は
似ていると思う：現実の事象をモデル化する方法論を腕に仕
込む. (←このマインドセットは大事．以下の３人のプレゼンに関連する）
• 画像に限定しないメディア理解の統合を考えてみよう．
• 特徴抽出を含めた一般的な認識技術を目指そう
8

9
１．画像特有の本質的な技術
信号処理の観点：
・二次元もしくは三次元の空間的に相関を持つ信号の処理。時間を含めた四次元方向に、相関を持っても良い。
・デノイジング、フィルタ等は、相関構造を直接利用。
・特徴抽出は、時空間の相関構造を抽出する手段（エッジ・領域など）
・パノラマ等は相関をベースに合成処理
・レーダ信号処理等における合成開口処理に類似だが、合成開口自体が画像処理と考えても良い。
・複数のセンサ利用した際には、幾何的情報を持った信号の処理
・相関構造抽出＋幾何情報抽出（ステレオなど）
センシングの観点：
・基本的には電磁波のセンシング：
・波長が特有（狭義には可視光領域）、この波長帯に特有の回折、屈折、反射現象を持つ。
・多くの場合、3チャンネルの二次元信号を一組として利用
・可視光領域の波長の信号(光線)の、方位、時間、波長変化、偏光等に関するセンシング、モデリングつまり、opticsや、computer graphicsなど
２．音声・自然言語等他のメディア認識・理解と基本を共有する汎用的な技術
・数理モデリング（IsingModel, Graphical Model, State Space Model, GMM,... ）
・最適化（非線形最適化（Newton, GaussNewton, etc）LevelSet, GraphCut,
L0/1最適化（ADMM, etc）、最短経路探索（DP, Dijkstra, A*, etc））
・機械学習（SVM, RVM, Boosting, RandomForests, DeepXXX, XXX-learning,Clustering, ...）
・確率、統計（MRF, CRF, ...）
・信号処理（種々のフィルタ(FIT, IIT, Kalman, Particle, ... ), DCT, FFT,Wavelet, ... ）
・センシング原理（Time of Flight, ... ）
技術分類（井尻さん）

10
画像特有
2D/3D object detection and recognition 3D shape recovery Biological image and signal analysis Biologically motivated
vision Coding,compression and super-resolution Cognitive and embodied vision Computational photography Content based
image retrieval and data mining Display Hardware Early vision Face recognitionFacial expression recognition
Fingerprint recognition Forensic biometrics and its applications Gait recognition Gesture and Behavior Analysis Graphics
Recognition Illumination and reflectance modeling Image and video analysis and understanding Image based modeling
Image guidance and robot guidance of interventions Industrial image analysis Inpainting and Superimposing Iris
recognition Low-level vision Medical image and signal analysis Mixed and Augmented Reality Modeling, simulation
andvisualization Motion, tracking and video analysis Occlusion and shadow detection Physics-based vision
Reconstruction and camera motion estimation Representation and analysis in pixel/voxel images Scene understanding
Segmentation, features and descriptors Shape modeling and encoding Signal, image and video processing Stereo and
multiple view geometry Texture and color analysis Vision for graphics Vision for robotics
!
メディア共通・横断
Active and ensemble learning Affective computing Artificial neural networks Biometric systems and applications
Classification and clustering Computer-aided detection and diagnosis Deep learning Dimensionality reduction and
manifold learning Character and Text Recognition Document Understanding Enhancement, restoration and filtering
Handwriting Recognition Human body motion and gesture based interaction Human Computer Interaction
Machine learning and data mining Model selection Multi-biometrics Multimedia analysis, indexing and retrieval Other
applications Other Biometric applications Perceptual organizationPerformance Evaluation Semi-supervised learning and
spectral methods Statistical, syntactic and structural pattern recognition Support vector machines and kernel methods
Symbolic learning Transfer learning
他メディア特有
Audio and acoustic processing and analysis Automatic speech and speaker recognition Pattern Recognition for Art,
Cultural Heritage and Entertainment Pattern Recognition for Bioinformatics Pattern Recognition for Search, Retrieval and
Visualization Pattern Recognition for Surveillance and SecuritySecurity issues Sensor array & multichannel signal processing
Signal Processing for Astronomy Soft biometrics Speaker recognition Speech and natural language based interaction
Spoken language processing
ICPR2014 Keywordsの分類（大山先生）

徳永さんのプレゼン
• word2vec でできるようになったという
king - man + woman -> queen 画像でもできるかな・・
• Paragraph Vector面白そう．
• Zero-Shot Learning by Convex Combination of Semantic Embeddings (Norouzi et al., 2014)の話は，
実は凄い狙い．言語側ではtiger, lion, liger(tigerとlionの子）というデータがある．普通に分類を行
い、 P(tiger) = 0.5, P(lion) = 0.5 という確率値を得る. tigerとlionの分散表現をその割合で混ぜ合わせ
る．得られた分散表現で最近傍探索を行い、ligerが得られたら…嬉しい．ただし. ligerは学習データ
に入っていないものとする．
• 統計的機械翻訳のコーパスに画像と説明文を使う．→最初はICCV10の cs.cmu.edu/~afarhadi/pape…
で、その後 EMNLP11 dl.acm.org/citation.cfm?i… や牛久くんのACMMM11があり。
• 一般物体認識は記号接地（Symbol Grounding)問題の特殊な場合．（気づいてもらいたい，栄藤）
• Deep NNはほとんど２層以下．画像や音声とは問題の性質が違う．
11

後藤さんのプレゼン
• 音楽認識はなぜ面白いか．「複数の音が相互に関係し合いながら時間的な構造を形成して内
容を伝える信号」の理解．
• 画像のオクルージョンは、音声だとマスキング効果に例えられるような気がするんだけど、
人間の知覚とは違う音声認識や音楽理解では関係ないんだろうか…
• 混合音と単音を「同じ音階」と認知するのって、考えてみると意味不明ですね。色彩もおなじ
ですが。音源分離も考えると、余計分からなくなります、
• オーケストラを聞いて各楽器のパートに分解できる人はオーケストラを編曲もできるだけの知
識がある。機械学習で数種類の楽器を分離できるだけで、素人の能力はすでに超えてるね
• 音源分離とBSSは同じ問題と考えて良いのかな？音楽特有の技術もありそうですが。。
• songleは作曲の教育にも使えそうですね。
• 音楽に対する自動コメント．映像と自然言語の融合分野？
• アイマスMADについ苦笑して反応してしまった。負けた気がする。
12

森さんのプレゼン
• 楽天スーパーDB, TERADATA
• Amazonの売り上げの３０％はリコメンデーションから生み出されている．楽天も同じ感覚か．
• 氷川きよしのCD売り上げは出来る．AKB48はプロモーションが非定常的なので無理．
• 日本はロングテール：じゃばらは食べられないが，じゃばらドリンクは売れた．
• 何も高度な技術を適用していない。何(データ・ログ）を対象とするか。どう適用するか。データ・
ログ収集・基礎集計の戦略。変数に入れるためのデータの加工の仕方。データ・ログの標準化・統
一化。あるいはそもそもの仮説の立て方。それらこそが重要。（激しく同意）
• 「機械学習」の知識に加え、大量データ処理の技術、分散プログラミングの技術もあわせて必要。
• 代表画像の表示はGoogleへのSEO対策として良い．
• ディープラーニングはディープな画像に使っている．
• アマゾン，ファイアフォンの『ファイアフライ』機能についてどう思いますか？
13

質問１：
• 自然言語，音声・楽音理解，画像理解の融合分野で
面白そうな研究テーマはあるでしょうか？あるとす
ればどのようなアプローチがありますか？
14

質問２：
• 画像理解の研究コミュニティが他分野に期待するこ
と，v.v.
15

特別チュートリアル「パターン認識とメディア理解のフロンティア」ディスカッションペーパー

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à 特別チュートリアル「パターン認識とメディア理解のフロンティア」ディスカッションペーパー

Similaire à 特別チュートリアル「パターン認識とメディア理解のフロンティア」ディスカッションペーパー (20)

Plus de Osaka University

Plus de Osaka University (20)

Dernier

Dernier (9)