Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

データサイエンスの全体像とデータサイエンティスト

3 147 vues

Publié le

データサイエンティスト協会 勉強会2017 第1回目講演資料

Publié dans : Données & analyses
  • Hi there! Essay Help For Students | Discount 10% for your first order! - Check our website! https://vk.cc/80SakO
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici

データサイエンスの全体像とデータサイエンティスト

  1. 1. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1 データサイエンスの全体像と データサイエンティスト 2017年5月29日 株式会社 金融エンジニアリング・グループ 創業者 チーフデータサイエンティスト 電気通信大学 産学官連携センター 客員教授 データサイエンティスト協会 理事 中林三平 データサイエンティスト協会 2017年第一回勉強会資料
  2. 2. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1. データサイエンスという表現(1) 1960年代に「データサイエンス」という言葉の使用が開始された  「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究 分野を総称する言葉として使われていた 2 Computer Science Data Science 高速化 大容量化 分散化 エコシステム拡大 : 相関・因果の分析 複雑・非線形の関係 場面の認識・理解 非構造化データ :
  3. 3. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1. データサイエンスという表現(2)  データサイエンスとは、データの形式的なハンドリングではなく、デー タが表現している事柄の意味を理解し、そこに含まれている情報を解き 放つことを目的としている  多くの場合、データは「一目瞭然」な結果を表していることは少なく 慎重な分析を行うことにより、隠れていた構造が見えてくる  データサイエンスを構成する要素は様々であるが、その中でも「分 析」が非常に重要なものである 3 Data A Data B Data C Data Analytics (Data Science) データが 本来持って いる情報
  4. 4. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2.似た概念の整理  大規模データが整理・蓄積されるにつれ、データサイエンスと関連の深 い言葉が気軽に使われるようになってきた  その中で「AI」「機械学習」「データサイエンス」について概念的 に整理してみよう 4 Machine Learning Data Science AI 非常に広い概念であり 目標ではあるが、純粋な 技術を表現するものではない (大規模な)データを活用する ことを目標とした活動全般を 示し、個別技術の表現ではない 現在、利活用されているデータ 分析技術の基盤を構築している 技術群
  5. 5. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(1)  AIの開発目標が昔と変わっていないなら、人間と区別が付かないよう な知的作業を行うシステムを開発することである  この目標が達成できたかどうかを判定するために、”Turing Test” が 提案されている • 人間の試験官が、お互いに隔離された人間の回答者とAIに対して 質問を行い、どちらがAIかが判定できなければテストに合格する 5 試験官 人間 AI Q Q A A
  6. 6. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(2)  1950年の技術水準をベースとして考えられた Turing Test は、現時 点ではナイーブすぎるとの指摘がある インタフェイスは、音声・画像でなければならない 質問も狭い領域の知識で答えられるものではいけない Robotic を含めて、動作についてもテストする必要がある  ハードルは高くなるばかりであるが、上記の指摘に応える事例もある IBM社の Watson は 2011年に、クイズ番組 “Jeopardy!” で優勝し たが、この時のインタフェイスは自然言語であった  また、回答には雑学的な広範な知識を要求されるものであった  では、AIの完成は間近である、とか、最近のメディアに頻繁に表現さ れているように、AI(人工知能)を利用してxxが可能になった、と か言えるのだろうか  次に述べる「弱いAI」の範囲では、ある程度のことができるように なってきているが、人工知能が完成しつつあるとは思えない 6
  7. 7. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(3)  「強いAIと弱いAI」という概念は、John Searle (哲学者)が19 80年に提唱したものである  「強いAI」とは、人間の知的活動と同等(もしくはそれ以上)の機能 を示すことができるAIである  例えば、ビジネス上の課題を発見する能力  ビジネスの中で課題を解決するための方策を探索する能力  解決策を見出すのに、様々なコンフリクトの中で満足化を行う能力  困難な解決への道をたどることを他者に納得させる能力 など  「弱いAI」とは、問題が定式化され、考慮すべき範囲が限定された後 に、定義された規準から見てのより良い解決方法を探す能力などである  「家計簿ソフト」などの「自動仕分け機能」は、果たしてAIなのか  ネット通販で商品画像を送信すると、それにマッチする商品を探索し てくれるサービスは、果たしてAIなのか  「deep blue がチェスで思考していないというのは、飛行機は羽ばたい ていないので飛んでいるとは言えない、というようなものだ」 Drew McDermott(1997) 7
  8. 8. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(1)  機械学習(Machine Learning)は、技術群を指す言葉と考えて良い  1980年代の「第2次AIブーム」の時には、AIを構成する技術の一 部として機械学習が位置付けられていたが、現在は広い範囲のデータ 分析技術が機械学習のカテゴリとして考えられている  機械学習の基本としては、データが与えられたときに、目的に沿って 「分析」を行い、目的に叶うパターンを抽出し、それを実際の行動 ルールに変換するというステップがある  データが更新されたら、自動的に行動ルールも更新されるというのが 論理的には正当であるが、実際には様々な制約があり、自動更新が行 われない場合も多い 8 データ データを分析してパターンを抽出 パターンを行動ルールに翻訳
  9. 9. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(2)  機械学習で用いられるアルゴリズムは極めて広範囲なものになってきた 例えば、以下のような手法が機械学習に含まれるとされている • Decision tree learning(決定木) • Association rule(アソシエーション) • Neural networks(ニューラルネット) • Deep learning(深層学習) • Support vector machines(SVM) • Clustering(クラスタリング) • Bayesian networks(ベイジアンネット) • Reinforcement learning(強化学習) • Similarity and metric learning(類似度分析) • Genetic algorithms(遺伝的アルゴリズム) (WIKI:”Machine Learning“ より編集)  「AI」関連で注目を浴びている深層学習や強化学習も技術要素とし ては機械学習に含まれるとしている 9
  10. 10. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(3)  機械学習の領域では、「学習のスタイル」により技術を分類することが 多い 「教師あり学習」は分析対象データの中に「正解/不正解」が含まれ ており、それを精度高く、安定的に推定するモデル構築手法である • 最近注目されている画像認識、強化学習もこの範疇に入る  「教師なし学習」は、類似性をコアとして分析するモデルを構築する  「半教師あり学習」は「教師あり」に近いが正解ラベルが存在しない データも分析対象に取り込む 10 機械学習 教師あり学習 教師なし学習半教師あり学習 ・Decision tree ・SVM ・Recommender ・線形判別モデル ・階層的クラスタリング ・非階層的クラスタリング ・アウトライヤー分析 ・アソシエーション ・ベイジアン推定 ・TSVM(特殊型) ・レアイベント分析 ・Causal Inference
  11. 11. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(4)  機械学習に固有の問題について、「決定木」を対象に考えてみる  最も標準的なのは ”CART” (Classification and Regression Tree、 Breiman et.al., 1984)である • 教師フラグをより効果的に判別できる項目を基準として、データの 分割を繰り返す、貪欲な手法(Greedy Method) • 生成されるツリーは1本 • これに、“Bagging” や ”Boosting” の手法を取り入れることにより、 構築されるモデルの精度・安定性は大幅に向上した  “Bagging” は ”Random Forest”、”Boosting” は “xgboost” など • 共に、数千本のツリーを生成することが多い  1本のツリーであれば「何故この結果がでたのか」は簡単に解釈可能 • 数千本であれば、人間には解釈不可能  “Deep Learning” 系の技術を含めて、「何故その結果が出たのか」を 如何に説明するかが大きな課題となっている • Black Box のホワイト化と呼ばれている 11
  12. 12. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(1)  近年の「AIブーム」を先導しているのは “Deep Learning” 技術である  極めて急速に発展してる分野であり、目を離すことができない • どのような手法が生まれてきているかが把握できないほど  基本的には、入力レイヤから中間層(隠れレイヤ)を経て、出力レイ ヤに至るネットワークから構成される  出力レイヤから「正解/不正解」の情報を受け取り、Back Propagation などのロジックによりネットワークの結合状況を更新す るというのは、この分野の様々な手法に共通している  とはいえ、提唱されている手法はかなり異なった特徴を持っており、 次のようなものが代表的なものである • DNN:Deep Neural Net (従来のものの多層化) • CNN:Convolutional Neural Net(画像認識関連で大きな成果) • RNN:Recursive Neural Net(文書理解関連で大きな成果)  もう少しレビューしてみよう 12
  13. 13. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(2)  私見だが、従来のニューラルネットに対して、近年の Deep Learning が 大きな成果を出しているのには、それなりの理由があると思う  CNN による画像認識へのインパクトは、従来の「入力」が無次元で あったのに対して、「位置」が定義され、batch を設定することによ り、ノイズのカット、類似性の測定などが円滑に行うことができるよ うになったことが大きな影響を与えているのではないだろうか  また、文章理解に関しても、RNN の導入は単なる “Bag of Words” と してとらえられていたものに、CBOW(Continuous Bag of Words) として、言葉の出現順序も分析の対象として含めることができるよう になった • 多分、順序だけではなく、「分散表現」と呼ばれる言葉のシークエ ンスが意味しているものを表現する仕組みが効果的であったのであ ろう(Embedded Vector) • この「順序」を表現することが可能になったことの影響は大きく、 Recommender では「誰が、何を買ったか」が前提となっていたも のが「誰が、どういう順序で、何を買ったか」という分析が可能と なった 13
  14. 14. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(3)  Deep Learning が期待されている分野の一つに「特徴量」(Feature) の自動抽出がある  データ分析の世界では、入手できたデータをそのまま利用するだけで 満足できる結果を得ることはほとんどできない • データを組み合わせたり、項目間の演算を行ったりすることによる新 しい変数を生成することが、「職人芸」として分析の精度を決定する ものと認められてきた(Feature Engineering) • しかし、ここに全く別の視点からの特徴量の生成の可能性が出てきた • 例えば、先に述べた文章(単語)の分散表現では、数万のボキャブラ リーを、出現順序をベースに数百程度の “Embedded Vector” で表 現する • これは人間には理解不能なものであるが、最終レイヤを説明変数とし てモデルに導入すると精度は明らかに向上する • 人間に理解できるロジックとは全く別の世界で、システムが新しい 「理解」を生成している可能性は高い 14
  15. 15. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(1) データサイエンスの守備範囲を理解するには、データサイエンティストが どのようなスキルを要求されているのかを理解することが役に立つ データサイエンティストの役割は、世の中に溢れるデータから、ビジネ スなどに役にたつ情報を引き出すことである • Wikiの英文記事を取りまとめて図示すると以下のような3つのエ リアにまたがるスキルが求められるとしている • これとほぼ同じ図が「データマイニング」にも提案されたことがある 15 Hacking Skill Math/Stat Substantive Expertise
  16. 16. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(2) データサイエンティスト協会においても、以下のように必要なスキルセッ トを定義している  この3つの力は、どのような局面で必要とされるのだろうか • 基本的には、ビジネスの現場で、情報を活用することにより、課題を 解決することを想定している 16
  17. 17. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(3)  データサイエンス活用の大きな流れは以下のように表現できる  あくまでも概念図であり、簡単に切り分けはできないが  実際の課題では、問題を発見し、データを用いて課題を解決/改善で きるかどうかの見極めが、最初のステップである  採用可能な対応策を考え、具体的に課題を解決するための、数理的な 分析の方向を確定するのが第二のステップである  第三ステップは、実際のデータを分析し、モデルなどを構築すること により、解決方法を探索する  最終段階は、発見された解決策をビジネスプロセスに導入する 17 ビジネス力 エンジニア力 サイエンス力 問題の発見 問題の定式化 解決方法探索 ビジネス適用 ◎ ○◎ ◎ ○ ◎ ◎ △ △ △ △ △
  18. 18. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(4)  「ビジネス力」というスキルは、「機械学習」や「AI」では強調され ないスキルである  しかし、データを用いて課題を解決仕様とする場合には重要となる • 多くの場合「課題」は現場で発生し、それを解決するための優先度、 データを用いることの効果、解決のための対応策の範囲 などを判 断することが必要である • これらの判断を行うためのスキルには必ずしも高度な「データエン ジニアリング力」や「データサイエンス力」は必要とされない • ただし、双方のスキルを理解していれば、その後のステップを加速 するのに大きな効果がある 18 現場のニー ズ聴取 データ活用 可能性評価 優先度、対 応戦略判断
  19. 19. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(5)  「データエンジニアリング力」については、「機械学習」でも「AI」 でも必要とされるスキルである  データサイエンスの領域内では、扱うデータが大規模であることから データのハンドリング環境を整えるために基本的なスキルである  ただし、社内システムを構築してきた「SE」が、「データエンジニ アリング力」を備えているかというとそうではない場合が多い  現在、データの分析環境がクラウド上に移行しつつあり、データの保 有・検索・更新などにも新しいスキルが要請されつつある  また、分析環境自体も頻繁に発生するバージョンアップへの対応、癖 のあるパッケージへの対応、分析者間のコミュニケーションのサポー トなど、定例業務を基準としたインフラ整備とは異なる要求を持つ 19 大規模デー タへの対応 分析環境の 整備 解決策の実 装
  20. 20. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(6)  「データサイエンス力」については、「機械学習」の技術群を使いこな すスキルが基本的に要求される  「分析」を行うのが主な分野である • 「分析」といっても、いくつかのレベルが存在する • Descriptive Analytics:過去のデータをもとに現状を記述する BIツールなどで対応可能 • Predictive Analytics:将来または状況変化を予測する 機械学習などに基づくモデリングのスキルが必要 • Prescriptive Analytics:上記の予測などをもとに処方箋を作成する モデルに対する理解力とビジネス力が要求される 20 Descriptive Analytics Predictive Analytics Prescriptive Analytics
  21. 21. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(1) Decision Tree は典型的な教師あり学習のアルゴリズムである  原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発 したものであり、下図のようなツリーを生成する  このアルゴリズムが発展していく過程を振り返り、データサイエンス で用いられる技術の事例を見てみる 21 母集団(P=0.1) NODE1 (P=0.05) V4>XX? NODE2 (P=0.20) V3>YY? V8>ZZ? NODE3 (P=0.02) NODE4 (P=0.08) NODE5 (P=0.12) NODE6 (P=0.28)
  22. 22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(2) Decision Tree の手法は、枝分かれを追加することにより対象データの分 析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)  その結果として、分析対象データ(Training Set)での精度は高いが 検証用データ(Validation Set)での精度は低いという現象(Over Fitting)が発生しやすく、これを避けるために以下のような工夫が行 われている 22 Original Data Training Set Validation Set Model Error # of Partition Validation Training Optimal 70% 30% Random Sampling Build Valid
  23. 23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(3)  モデルの安定性を高めるために、Cross Validation という方法が一般に 使われている  Cross Validation の機能を埋め込んであるパッケージも多い 23 Original Data ランダムにN分割 Training Set Validation Set Model #1 Model #2 Model #3 Model #N アンサンブル モデル
  24. 24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(4)  Cross Validation を導入することにより、明らかにモデルの安定性は向 上する  これを更に拡大したのが Random Forest(2001, L.Breiman)である 24 Column Sampling Row Sampling Training Set 大量の繰り返し(数千回) Model アンサンブル
  25. 25. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(5) Random Forest は、ツリーを並列に生やしたものと言える  これに対して、ツリーを直列に生やしたものもあり、Gradient Boosting Machine(2001, J.Friedman)などと呼ばれている  Boosting は、ツリーなどの精度を上げていくために開発された手法 であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー で説明するという考え方に基づき、極めて多数のツリー(数千本)を 生成していく  これに改良を加えたものが Xgboost(eXtreme Gradient Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の 手法である 25
  26. 26. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(6)  Xgboost により、高速・高精度・高安定性という条件をかなり満足させ るモデルの構築が可能となっている  その裏で犠牲になったもののある • CART の時代には、生成されたツリーを見れば、特定のサンプルが 「なぜ」このような評価を受けたのかが完全に理解できた • しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本 のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評 価されたのかを説明することは実質的にできない • ビジネスでモデルを利用する場合には、Accountability を求められ ることが多くあり、手法を選択する場合には考慮すべき大きなファ クターとなる 26
  27. 27. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(7)  Xgboost のような手法を使い、同一のデータからモデルを構築したとし ても、同一の精度・安定性が得られるわけではない  オリジナルのデータセットに含まれる変数群をそのまま使ってモデル を構築したとしたら、「分析コンペ」では下位に停滞したままになる であろう  変数を加工したり、組み合わせたりして適切な「特徴量」を生成する 作業を“ Feature Engineering” と呼ぶ  この作業には決まった手順や定石があるわけではなく、データサイエ ンティストの感性・創造力が問われる部分である • Data Scientist は Artist でもある 27
  28. 28. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(1)  データサイエンティストは完全に不足している データ分析の技術をある程度身に着けた新卒(修士程度)を育成する プログラムが、現在の大学のカリキュラムの中で体系立って整えられて いるケースは少ない • 滋賀大学・横浜市立大学が「データサイエンス学部」を本年より新設 した • 筑波大学では経営システム科学専攻の中に育成プログラムを持つ • 電気通信大学では、データアントレプレナー育成講座を単位認定  以上のように動きは出ているが、経験を積んだデータサイエンティス トは当分の間不足状況が続くであろう  それでは、企業内などでどのように人材を育成すればよいのだろうか Q.一人で3つのスキル分野を持つ人材を育成するのか A.少し大きな問題であれば、チームで対処するのが普通。したがっ てチーム内で3つのスキルが確保できれば良い。ただし、1つだけ のスキルを育成するのは問題であり、少なくとも2つのスキルを持 つことができるように育成方針を立てる必要がある 28
  29. 29. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(2)  データサイエンティストのバックグラウンドについて  経験的には「理系」でも「文系」でも、優秀なデータサイエンティス トになれる  修士と学卒の間にも、実質的な差異はない • ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取り まとめるという経験を持っており、即戦力に育ちやすい • また、修士の方が学問としての体系(各種の理論間の関係)をある程 度までは学んでいるため、全体像を把握する訓練は受けている • 関連課程を修了した博士の場合にはかなり差がある  当社では、入社時に持っている知識のレベルは問わない • 余程のデータ分析経験者でない限り、新しくトレーニングを受ける人 たちと大差はない  性差については全くないと言ってよい • あえて言えば、女性の方が分析に向いている可能性があるが、性差よ りも個人差の方が大きいであろう 29
  30. 30. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(3) FEGでの新卒データサイエンティストの教育は以下のようなものである ①ビジネス常識(特別なことは何もなし) ②言語教育(WPS[SAS系]、R、Python など) ③金融業界常識教育(特に銀行業務、関連金融業界業務) ④過去の実施プロジェクトの内容教育 ⑤プレゼン・レポーティング ⑥企画書作成トレーニング ⑦データ分析コンペへの参加(時期的にKDD_CUPの場合が多い) 上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に各 自に任せている  ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問へ の解決法やスキルアップのための指導などはコーチが面倒を見る  7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事 な「汚いデータへの対応」、「業務に対応した Feature Engineering」などはOJTで勉強していくことになる 30
  31. 31. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(4) データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続けて いない限りはあっという間に「時代遅れ」になってしまう  実プロジェクトで利用する分析手法は、ある程度有効性が確認された ものを顧客が望むため、あまり冒険的なものは利用できない  これを補うための大きな機会は「社内勉強会」であり、週一度程度、 夕方から夜にかけて開催されている • 勉強会は誰でも好きな時に好きなテーマで開催できる • 開催したいテーマを持つ場合には、グループウェア上で開催を告知 し、一定の人数が集まれば、日時を調整の上、正式に開催する • 正式な勉強会であれば、必要なテキストなどは全て会社が補助する  勉強会のテーマとしては以下のようなものがある ①統計検定一級・二級取得のための勉強会(新卒向け) ②KDDCUP2017 ③AtCoder 勉強会 ④Tensorflow + Keras 勉強会(予定) 31
  32. 32. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(5)  分析者としてのスキルをアップするためには、「実際の問題」に取り組 むことがベストである  玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対 応できるようなスキルは中々身につかない • 玩具の問題に利用されるデータは、多くの場合、小規模であったり、 ノイズを含まなかったりして、新しいアルゴリズムの検証などには妥 当であろうがスキルを高めるのに最も必要な部分のトレーニングがで きない • 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択す るプロセスが、分析時間の70~80%を占めている • この部分を現実的なデータを扱うことで身に付けていくことがトレー ニングの非常に重要な部分となる 32 Feature Engineering Data Cleaning Data Profiling Data Shaping Feature Generation
  33. 33. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(6) 実データの分析と言っても、社内で簡単に適切な問題が入手できるとは限 らない  FEGでトレーニングのために重要視しているのか、ネット上で開催されてい る「分析コンペティション」への参加である • 様々なコンペの概要や功罪に関しては以下の論文を参照されたい http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf • FEGで推奨しているのは「分析技術に特化した」コンペであり、 「こんなデータがあるので、それを活用するアイデアを提出してほ しい」というスタイルのコンペは推奨していない  新人研修の中での「コンペへの参加」というのは、毎年開催される KDD Conference と同時に行われる KDD CUP への参加である • KDD Conference はデータマイニングの分野では最大・最古の学会 であり、KDD CUP にはかなり手強い問題が出題される • 新人には荷が重いが、このコンペには全社から有志が参加しており、 慣れた人たちのスキルを実際に見る良いチャンスとなっている • FEGにとっては、ここでチャンピオンになるのが目標である (2009 年と2015年に2位となっている) 33
  34. 34. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(7)  2位でも嬉しいものです 34
  35. 35. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(8) 参加者が多いのは kaggle (https://www.kaggle.com/competitions) であり、ここで出題される問題はスポンサーから提出された課題であり、 実データの分析が対象となっている  このサイトでは、常に数問の課題(チュートリアルなどを除く、コン ペ問題)が出されている(例えば、下の問題) 35
  36. 36. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(9)  前ページの問題は、食料品のネット通販での「リコメンデーション」が 課題である  現時点で、約2.5ヶ月の継続期間が残っており、取り組んでみるに は適切な課題であろう  顧客の購買履歴が与えられており、「次に買いそうなもの」を推定す る問題形式である • 一世代前のリコメンダーのように、「ユーザーxアイテム」で疎行列 を作るというアプローチでは、おそらく上位には行けないだろう • 購買のタイムスタンプとバスケットIDが完備しているので、「購買 順序」や「並買行動」を重視できる手法の選択が必要である • 個人的には RNN を利用してみたいと考えている • データ量はそれほど大きくなく、手元のPCで十分に処理できる(解 凍後の生データで700MB程度である) 36
  37. 37. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(10)  Kaggle では、参加者には成績に応じてポイントが与えられる  Kaggle には現在世界中から5.7万人が登録しており、自分がその中 で何番目程度かを知ることができる • 一定の条件(コンペの上位10人に入るなど)を達成すると Kaggle Master の称号を得る(これはかなり尊敬される称号である) • Kaggleに参加するの最大のメリットは、各コンペごとに “Forum” が 開かれており、そこで参加者が自由に討議できることである と言ったところで、コンペに参加してみたらいかがですか 37

×