SlideShare une entreprise Scribd logo
1  sur  28
独断と偏見による
機械学習のまとめ
yoneken (@k_yone)
最近ホットな話題
2011年:音声認識の精度を従来手法に比べ10%程度改善.
2012年:画像認識のコンテストで,従来手法を使用したチームに
10%のエラー差をつけて大勝.
2013年:Google, Baidu, Yahoo, Facebookが投資と人材争奪合戦.
Deep Learning
たくさんの画像
出力結果特徴生成
http://googleblog.blogspot.jp/2012/06/using-large-scale-brain-simulations-for.h
機械学習使えたらモテる?
わかんね
人工知能は1940年代からあるけど,何度もブームが来ては,
停滞するというサイクルを繰り返している.
0
500
1000
1500
2000
2500
3000
3500
4000
4500
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
日本人工知能学会の会員数推移
日本人工知能学会総会資料より:http://www.ai-gakkai.or.jp/about-us/activity/
第5世代コンピュータ
プロジェクト終了
AIの冬
今回は何が違うん?
新たな学習方式
これまで
前処理 学習器
元データ
(文章,音声,画像・・・)
結果
DNN
(Deep Neural Network)
新しいの
低次元化された
特徴量
今回は何が違うん?2
学習に用いる大規模データの収集と扱いが容易に
• インターネットの普及
• UGC等による情報拡散の敷居の低減
• IoTにより,さらに大量の情報が.
• ロボットによる生の情報の収集.
情報が生成されるスピードに,
人類が追いつけなくなってきた.
ここから先は,既存の機械学習についてのおさらい.
閑話休題
(改めて)機械学習って何?
機械学習(Machine Learning)とは,大量のデー
タから規則やルールを抽出し,自動的に人のよう
な柔軟な判断を実現するための手法.
統計
ファジイ
エキスパートシステム
人がルールを
作り込む方法
とは違う.
機械学習で何ができる?
• 関数近似
• 領域分割
• クラスタリング
• 最適解探索
など
具体的に何やねん?
• スパムフィルタ
• IME,かな漢字変換
• 製鉄プラントの自動運転
• 融資先の信用リスク評価
• 手書き文字認識
機械学習の強み
• 人が扱うよりも大量の情報からルールを
抽出して,高速に判断できる!
機械学習が実現できるのは,
人間にとっては簡単なこと.
だから,速度と量で勝負!
機械学習の(ビジネス上の)競合
• クラウドソーシング
• 新興国の安い人件費
オリジナル(人)には,
精度が全然及ばない・・
機械学習分野の見かた
• 典型的な問題
• 学習器
• 学習方策
• テクニック
• アヤメの分類
• クラスタリング
• n本腕バンディット
• ニューラルネット(NN)
• サポートベクターマシン(SVM)
• k-means
• ニュートン法
• 強化学習
• モンテカルロ法
• 遺伝的アルゴリズム(GA)
• ブースティング
• ソフトマックス手法
他にも色々
あるよ
2種類の標本の分類
問題例
適した学習器 SVM
問題の特徴
• 1本線を引いて,2つに分割できそうなとき
線形カーネル:分類
Support Vector Machine
(SVM)の仕組み
2群を分かつ線に最も近接したデータに等距離で垂直な線を引く(繰り返し)
k種類の標本の分類
問題例
適した学習器 k-means
問題の特徴
• 種類の数が既知で,それぞれの分散の大きさが近いとき
k = 3
k-meansの仕組み
全てのデータが唯一の最も近い点を持つよう,k個の点を配置する.
関数近似問題
問題例
適した学習器 NN,(最小自乗法,ニュートン法,強化学習)
問題の特徴
• 期待される出力が一意のとき モデル式が
ある場合
sin(x)-cos(y)+random()/10
2-1-1 全結合NN
Neural Network (NN)の仕組
み
i1
i2
im
・
・
・
o o =
1 if wkik
k=1
m
å ³ th
0 if wkik
k=1
m
å < th
ì
í
ï
ï
î
ï
ï
th
人の神経回路素子(パーセプトロン)を
模擬した素子を結合してネットワークを
構成する.
誤差逆伝搬法(バックプロパゲーショ
ン)等を用いて重みと閾値を学習する.
閾値重み
n本腕バンディット問題
問題例
適した学習器 強化学習
問題の特徴
• 状況に対応する正解が与えられない
• 結果を得るためにコストが発生する
スロットマシーンは片側にレバーが付いて
いるので,「片腕のバンディット」と呼ば
れる.n個のそれぞれ当たる確率が異なる
スロットマシーンを使って,利益を最速で
最大にせよ.
強化学習の仕組み
V(s) ¬V(s) +a[V(s') -V(s)]
sの行動価値
実際にsの行動
を行って
得られた価値
漸近するための
ステップサイズ
パラメータ
最終的に得られる行動価値が最大になるよう,貪欲に探索を続ける.
(グリーディ手法)
ランダム性を入れるε-グリーディ手法,収束に近くなると
αを小さくするソフトマックス手法などの工夫がある.
行動するたびに,
sの行動価値を更新する.
学習の分類
教師あり学習
教師なし学習
学習するテストセットに対して,期待される出力が
陽に与えられ,系のモデル式を推測する学習.
期待される出力が陽に与えられず,行動の結果から
系のルールを推測する学習.
NN,SVM,GA,モンテカルロ法など
強化学習,k-meansなど
前処理について
学習器に実際のデータを食わせるための泥臭い処理.
前処理 学習器
低次元化された
特徴量
元データ 結果
スパムフィルタで用いられる特徴量の例.
・URLリンクの数
・お金に関する単語の数
実装者(人)が決める.
前処理によって,問題の難易度は大きく変わ
る.
前処理のトリック
本来は解けないはずの問題でも,
うまく前処理すれば解ける場合がある.
SVMでは分離できない問題
特徴量を“座標(3,2)からの距離”に
したら,問題が簡単になった!
こうした,人の経験やカンで特徴量を作成することを,
”ヒューリスティックな処理”とカッコつけて言う.
コレを多用する報告は,
斜に構えて聞こう!
機械学習の使い方
1.色々な学習器があることを知る.
2.それぞれの学習器の得意・不得意を知る.
3.普段から,機械学習ならどう解くか思考する.
準備段階
利用段階
1.とりあえずデータを人間用に可視化する.
2.使えそうな学習器にアタリをつける.
3.解きやすいようにデータを加工する(前処理).
4.学習パラメータのチューニング.
機械学習の限界
基本的に,可視化してみて人が解けない問題は,
解けないです.
学習器の選択も学習パラメータ
のチューニングもできなければ,
手も足も出ない.
まとめ
• 機械学習が流行るかどうかは,分からん.
• 機械学習を使うと解きやすい問題が存在する.
• 学習器にも学習方法にも,いっぱい種類がある.
• 色々知って引き出しを増やしておくのが良い.
• 色々な問題を,機械学習で解く方策を考えよう.
• 人が解けない問題は,だいたい解けない.
人物画像引用
photo by pakutaso.com

Contenu connexe

En vedette

Extend R with Rcpp!!!
Extend R with Rcpp!!!Extend R with Rcpp!!!
Extend R with Rcpp!!!mickey24
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?nishio
 
分類器 (ナイーブベイズ)
分類器 (ナイーブベイズ)分類器 (ナイーブベイズ)
分類器 (ナイーブベイズ)Satoshi MATSUURA
 
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business Tokoroten Nakayama
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計Takahiro Kubo
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRShuyo Nakatani
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine LearningYuta Imai
 
30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティスト30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティストSatoru Yamamoto
 
Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングAtsushi KOMIYA
 
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」Takeshi Mikami
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics  NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics Koichi Hamada
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門toilet_lunch
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレストTeppei Baba
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法Takahiro Kubo
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33horihorio
 

En vedette (20)

Extend R with Rcpp!!!
Extend R with Rcpp!!!Extend R with Rcpp!!!
Extend R with Rcpp!!!
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
分類器 (ナイーブベイズ)
分類器 (ナイーブベイズ)分類器 (ナイーブベイズ)
分類器 (ナイーブベイズ)
 
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
ヒューレットパッカード社の 社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
Pepper meets ROS
Pepper meets ROSPepper meets ROS
Pepper meets ROS
 
Amazon Machine Learning
Amazon Machine LearningAmazon Machine Learning
Amazon Machine Learning
 
30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティスト30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティスト
 
Newman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリングNewman アルゴリズムによるソーシャルグラフのクラスタリング
Newman アルゴリズムによるソーシャルグラフのクラスタリング
 
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics  NIPS 2016 Overview and Deep Learning Topics
NIPS 2016 Overview and Deep Learning Topics
 
決定木学習
決定木学習決定木学習
決定木学習
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 

Machine learning