Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

おしゃスタVI 倉橋

4 769 vues

Publié le

  • Soyez le premier à commenter

おしゃスタVI 倉橋

  1. 1. iAnalysis合同会社  代表・最⾼高解析責任者  倉橋⼀一成   1
  2. 2.   設⽴立立:2011年年3⽉月24⽇日    Web:http://ianalysis.jp/    本社:東京都港区南⻘青⼭山2-‐‑‒2-‐‑‒15  ウィン⻘青⼭山    取引先業種   ◦  製薬会社   ◦  医療療系⽀支援・コンサルティング会社   ◦  広告代理理店   ◦  ⼈人材サービス会社、ソーシャルゲーム会社   【本社エントランス】   ◦  商社、統計解析会社    医療療分野から始まり、多種多様な業種へのコンサルティング   ◦  Twitter:@iAnalysisLLC   ◦  Facebook:  http://www.facebook.com/ianalysis   2
  3. 3. 【経歴】      東京⼤大学Ph.D  (2011),  Statistician,  Data  Scientist,  Data  Miner    【専⾨門】    cDNAマイクロアレイ、臨臨床試験データ、レセプトデータ、    電⼦子カルテ・医療療オーダーデータ、マーケティングデータ    【スキル】    R,  SAS,  SPSS,  Visual  C++,  Ruby  on  Rails,  Python    【主な実績】    ・2005:NPO⽇日本臨臨床研究⽀支援ユニット、解析担当      腎臓癌患者の調査データの解析(SAS)      レセプトデータの解析と結果のレポーティング(R)    ・2007、2009:スタットコム株式会社、統計解析者      ⼩小児癌の臨臨床試験のプロトコルに沿った解析とレポーティング      術後乳癌患者のQOLに関する研究の解析と統計アドバイス    ・2009〜~2010:帝京⼤大学、医師への統計コンサルタント      論論⽂文化にあたっての医師へのアドバイスと解析      様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者    ・2010:キャピタルメディカ株式会社、プロジェクトメンバー      レセプトデータを活⽤用した新規プロジェクトの⽴立立ち上げメンバー    ・2011:iAnalysis合同会社  設⽴立立  ※Twitter:  @isseing333  ※blog:  「おとうさんの解析⽇日記」  http://d.hatena.ne.jp/isseing333/   3
  4. 4.   『Statistics』を読んで内容を話しています    これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   4
  5. 5. 『Statistics』に⼊入る前に   5
  6. 6. 何で統計の勉強を   するんだっけ?   6
  7. 7. 7
  8. 8. 1 •  分析⼒力力に劣劣る企業 2 •  分析⼒力力の活⽤用が限定的な企業 3 •  分析⼒力力の組織的な強化に取り組む企業 4   •  分析⼒力力はあるが決定打に⾄至らない企業 5 •  分析⼒力力を武器とする企業 8
  9. 9. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   データがない。 分析はほとん データアレル1.  分析⼒力力に 顧客・市場・競 精度度が低い。定 ど⾏行行われてい なし   なし   ギー。直感に頼 劣劣る企業   合について知る。   義が曖昧。シス ない。   る。   テムがばらばら。   各事業ばらばら ごく狭い範囲 客観的なデータ にデータを収集2.  分析⼒力力の データ分析の経 でしかデータ ⼀一部の部⾨門にア 特定事業や戦術 が必要と感じて している。重要 活⽤用が限 験を⾃自主的に蓄 収集・分析が ナリストがいる 的な対応に限ら いる。⼀一部の部 なデータが⽋欠落落 定的な企 積し、トップの ⾏行行われていな が孤⽴立立している。   れている。   ⾨門では関⼼心が⾼高 している。シス 業   関⼼心を引く。   い。   まっている。   テムが統合され ていない。   組織横断型で3.  分析⼒力力の データ収集・分 多くの部⾨門にア 経営陣は事実を 分析⼒力力を競争優 システムやソフ 組織的な 析を⾏行行う。全社 分析プロセス ナリストがいる 重んじる姿勢を 位にすることに トウェアは整い、 強化に取 共通の業績評価 は各部⾨門不不統 が、ネットワー 打ち出している ⼀一部の幹部が興 データウェアハ り組む企 指標を設定する。 ⼀一である。   ク化されていな が、抵抗に遭っ 味をもち始めた。   ウスも拡張中。   業   データ分析で事 い。   ている。   業機会を探す。   9
  10. 10. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   組織横断型の分 スキル開発は⾏行行4.  分析⼒力力は データ分析が データの精度度は 析プラット われているが、 あるが決 ある程度度まで 経営陣のサポー 事実に基づく意 ⾼高く、全社的な フォームを構築 まだ⽔水準に達し 定打に⾄至 業務プロセス トが得られてい 思決定の浸透を 分析戦略略もある。 し、組織として ていない、また らない企 に組み込まれ る。   図っている。   分析環境は整っ 分析⼒力力を⾝身につ は適材適所では 業   ている。   ている。   ける。   ない。   ⾼高度度なスキルを データ分析から 備え、意欲のあ 事実に基づいて 多くの隠されて データ分析が5.  分析⼒力力を る専⾨門家がそ CEOを筆頭に経 意思決定を下す。 組織横断型のシ いた事実を導き 定着し、⾼高度度 武器とす ろっている。周 営陣が積極的に 実験し学習する ステムが整備・ 出す。継続的に に統合化され る企業   辺業務はアウト 取り組んでいる。   姿勢が浸透して 運⽤用されている。   データやシステ ている。   ソースされてい いる。   ムの改善を図る。   る。   『分析⼒力力を武器とする企業』より   10
  11. 11.   ネットフリックス   ◦  1997〜~   ◦  DVDのオンラインレンタル    既に全国展開していた「ブロックバスター」を破綻に追いやるほど 成⻑⾧長   ◦  http://www.afpbb.com/article/economy/2759296/6233470   11
  12. 12.   ビジネスモデル:オンラインでDVDで注⽂文し郵便便で届きポストで返 す   ◦  1999年年の売上:500万ドル   ◦  2006年年の売上:10億ドル    7年年で売上200倍!    成功した理理由は、、、  数学、統計、データマイニング   12
  13. 13.   顧客の好みを分析して映画をレコメンド(推奨)する   ◦  アマゾンのレコメンドが有名    たまにしか借りない、利利益率率率の⾼高い顧客に優先してDVDを届けたい が、頻繁に借りる会員が「不不公平だ」と感じてしまう(→訴訟も)    「利利益の最適化」と「公平な配送」のバランスを計算するアルゴリ ズムを開発    新しい映画の頒布権を購⼊入するとき、過去に借りられた「似ている ジャンルの映画」と同じくらいレンタルされるだろう    新しいサービスを作るとき、それが本当に効果があるかどうか、A/ Bテストによって常にチェックする   13
  14. 14.   野球:アスレチックス、レッドソックス(映画:マネーボール)    娯楽:アマゾン、ネットフリックス    ⼩小売:ウォルマート    Web:グーグル、ヤフー    ソーシャルゲーム:DeNA、グリー    ⾦金金融:キャピタル・ワン  分析すると業績が上がる!?   14
  15. 15. データマイニング Phase  I   データの収集・加工   DBの作成・接続   ログの収集   システム開発   サーベイ、調査   Phase  IV   効果検証   Phase  II   デザイン   Phase  III   A/Bテスト   データの可視化   モデル作成   ヒストグラム   ランダム化試験   予測モデル   実験計画   散布図   機械学習   時系列プロット   クラスタリング   円グラフ、棒グラフ   因果推論   地域プロット 15
  16. 16.   『Statistics』を読んで内容を話しています    これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   ◦  ⼤大事なところの復復習と、間を⾶飛ばして19章からやります   16
  17. 17. 1000⼈人   1000⼈人  コンバージョン、直帰率率率、サイト滞在率率率、リピート率率率などを⽐比較   17
  18. 18.   エクセルの表をイメージ    1つのシートが、1つのデータ   変数、項⽬目   ID   年年齢   ⾝身⻑⾧長   体重   …   1   20   165   60   …   レコード   2   43   178   73   …   3   36   163   57   …   ...   ...   ...   ...   …   18
  19. 19.   1つの変数を要約して図にしたもの    「分布」を⽰示している   19
  20. 20.   平均値:全体の平均値、分布の位置を表す    標準偏差:分布の「ばらつき」や「広がり」を表す   平均値:170cm   標準偏差:10cm   平均値±標準偏差の範囲に   約70%のデータが⼊入っている   ※変数が正規分布に近い場合   20
  21. 21. ⼆二峰性の分布   すそを引いた分布、ベキ分布  ⼤大⼈人と⼦子供が混じっている?   ⻄西暦400年年〜~2011/11/30までの地震   (ダミーデータ)   (実際のデータ)   21
  22. 22.   散布図:2変数の関係を表した図    相関:2変数の関係を数値にしたもの(-‐‑‒1〜~1)   体重   y  =  a  +  bx   誤差   ⾝身⻑⾧長   22
  23. 23.   相関係数だけでなく、散布図をチェックすることも⼤大事   23
  24. 24.   確率率率はギャンブルから始まった   ◦  1600年年代、ギャンブラーがサイコロ投げの”確率率率”を数学者のパスカルと フェルマーに相談したことが発端    胴元が勝つにはどういうルールにすれば良良いか??   【問題】   1.  親がサイコロを4回振って1の⽬目がでると親が勝利利。   2.  親が2個のサイコロを24回振って1,  1の⽬目がでると親が勝利利。   それぞれ親が勝つ確率率率は??   【解答】   (1  –  1/6)^4  =  0.482   1  –  0.482  =  0.515   (1  –  1/36)^24  =  0.509   1  –  0.509  =  0.491   ルール1の⽅方が、親が勝ちやすい   24
  25. 25.   統計は政治から始まった   iAnalysis  Facebook:h8p://www.facebook.com/ianalysis    1800年年代、イギリスやフランスで国勢調査が⾏行行われる    ガウスが正規分布に関して研究   25
  26. 26.   選挙の調査   1億⼈人   1,000⼈人(⼗十万分の1)    サンプリング調査で分かるのは、”⺟母集団”の”平均値”    ”ランダムサンプリング”していることが条件   26
  27. 27.   5%という数字の根拠を⾒見見たことがありません   ◦  もしあれば教えて下さい    もっと重要なのは”⼈人数”   ◦  ⼈人数が多ければ、⺟母集団に対する推測が正確になる   ◦  95%信頼区間が狭くなる   27
  28. 28.   このスキルがあると、実務への応⽤用範囲が広がります    教師付き学習   ◦  “予測的”データマイニング   ◦  過去のデータを使って将来の値を予測する   1.  回帰モデル   2.  カテゴリ予測   3.  機械学習    ⾮非教師付き学習   ◦  “記述的”データマイニング   ◦  データのパターンを発⾒見見する   A.  アソシエーションルール   B.  クラスタリング   C.  テキストマイニング   “Data  Mining  and  Statistics  for  Decision  Making.”   『意思決定のためのデータマイニングと統計学』   Stphane  Tuffry(通称DMDM本)   28
  29. 29.   統計ソフト   ◦  R  、SPSS  、SAS、Statistica、Mathmatica、StatView、Stata、etc.    プログラミング   ◦  Python、Rails、etc.    データベース   ◦  SQL系、Hadoop、etc.    コマンドライン   ◦  Unix系のコマンド    挙げればキリが無いけど。。。   29
  30. 30. ぜひデータ分析を活⽤用して  業務アップに役⽴立立てて下さい!   contact@ianalysis.jp  

×