Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 43 Publicité

Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意

Télécharger pour lire hors ligne

現在は様々なBIツールが存在していますが、普段慣れ親しんだExcelを完璧に使いこなせていますか?
データサイエンスをはじめようとした時にツールの選定から始める方もいらっしゃいますが、まずはExcelで始めてみましょう。有償のツール導入は、Excelでデータサイエンスができるという実感とその可能性を体感し、データサイエンスを実務として行ってからでも遅くはありません。

データサイエンスは事業を行っていく上で欠かせないスキルとなっています。過去を直視し、今後の事業を発展させるための必要なスキルを実践とともに学ぶことができます。

現在は様々なBIツールが存在していますが、普段慣れ親しんだExcelを完璧に使いこなせていますか?
データサイエンスをはじめようとした時にツールの選定から始める方もいらっしゃいますが、まずはExcelで始めてみましょう。有償のツール導入は、Excelでデータサイエンスができるという実感とその可能性を体感し、データサイエンスを実務として行ってからでも遅くはありません。

データサイエンスは事業を行っていく上で欠かせないスキルとなっています。過去を直視し、今後の事業を発展させるための必要なスキルを実践とともに学ぶことができます。

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意 (20)

Publicité

Plus par Daiyu Hatakeyama (20)

Plus récents (20)

Publicité

Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意

  1. 1. Excel で完結! - Python に行く前に出来る事がある! - 畠山 大有 | Daiyu Hatakeyama Saga Smart Tech Adviser | Architect && Software Engineer && Applied Data Scientist Microsoft Japan /dahatake @dahatake /in/dahatake /dahatake /dahatake
  2. 2. 国内外での300社以上のITプロジェクトにアーキテクト及び エンジニアとして関与して約 25年の経験。業界初として 事例化されたものには、フジテレビ、楽天、毎日新聞、日経新聞、富 士フィルム、カルビー、コマツなどがある。 また、東芝、SONY、NTT-Data、NextScape など 50社以上の パートナーと、ソリューション製品・サービスの開発・市場展開も行 う。 そこでの学びを、TechEd、de:code、TechSummit、InterBEE などで基調講演を含む場で400回以上のセッション登壇。 また、書籍・雑誌やBlog 執筆、サンプルコードの公開などで社会に Feedback中。 セッションだけでなく、100回以上のハンズオン、ハッカソンのファ シリテーションも行っている。 得意技: Architecture Design, Coding, Database, Data Science, Video Streaming, Full text Search など 佐賀県 – SAGA Smart Tech Adviser やつしろ×Tech コンソーシアム – 相談役 SUNABACO – Technical Fellow MCP (MCSD, MCAD, MCSE, MCSA, MCDBA, MCTS, MCPD) | MCT | OCP (Oracle Master Platinum) | SCJ-P | ITIL foundation https://github.com/dahatake daiyu.hatakeyama@microsoft.co m /dahatake @dahatake /in/dahatake /dahatake /dahatake
  3. 3. Excel Power BI Database (SQL Serverなど) Big Data (Spark など) Python / R 取組み データ接続 先 豊富 (Power Query経由) 豊富 (Power Query経由) 制限なし 制限なし 制限なし 保存 扱えるデー タ量 PC の容量に依 存 (Cloud 版も) Cloud も 使える Server / Cloud の 容量制限 ほぼ無制限 インフラに依 存 加工 画面操作で の データ加工 豊富 豊富 ほぼ無い ある場合が 増えた 無い 加工 ・可視 化 複数テーブ ル連携 可能ではあるが、 Inner JOIN のみ 可能 制限なく可能 制限なく可能 制限なく可能 可視化 グラフの種 類 豊富 豊富 ほぼ無い ほぼ無い 豊富 共有 ファイル共有 Web アプリ経由 アプリ経由 アプリ経由 利用者 PC/Mac の相当 のユーザー数 BI ユーザー データエンジニア データエンジ ニア データサイエ ンティスト
  4. 4. データの検証 プロトタイプ 本番 データ イン ポート デー タ イン ポー ト
  5. 5. Why ?
  6. 6. Data に関する 私の 2つ の ”お気に入り” 主要な指標を追跡するには、 ダッシュボードアプリケーションが 必要 そうすれば、意思決定を行う際に 無視できる Data 項目が増える Data を持つ != Data を活用 する Data > あなたの視点。常に そうではありません。 このようなデータを無視す るつもりはありませんが、 私の豊富なマーケティング 経験も考慮しなければなり ません。
  7. 7. “1つ の正確な測定は 1,000名 の専門家の意見に 匹敵する” グレース・ホッパー - Wikipedia
  8. 8. ※1 Life of Thomas Alva Edison | Biography | Articles and Essays | Inventing Entertainment: The Early Motion Pictures and Sound Recordings of the Edison Companies | Digital Collections | Library of Congress (loc.gov) Case Files: Thomas A. Edison | The Franklin Institute ※2 "I think there is a world market for maybe five computers." – Lexology No. 1059: Inventing the Computer (uh.edu) ※3 Ken Olsen – Wikipedia
  9. 9. Data Analytics 最初の一歩
  10. 10. 日付 通貨 UPC 商品コー ド 店舗 説明 コスト カテゴリー 店舗名 など…
  11. 11. • 基本的な質問 • 各店舗のパフォーマンスは? • 売れ筋トップ製品は何ですか? • 売上最悪の店舗は何が原因? • 次の四半期の売上に対して 何を期待すればよい? • 利益を上げるためにはどのよう な ステップを踏めば良い? 何が起こっているのか? 現状把握 Requires Cindy to know: • Pivot Chart • Pivot Table • Data Model • Relationship • Calculated Measure • Calendar Table • … and more! アヤメさんの知っている機能 • Pivot Chart • Pivot Table • VLOOKUP • Calc Column • Query Tables • 日付を正しく処理する方 法 手動、エラーが発 生しやすく、多く の場合、修正が必 要 アヤメさんの勤務時間の 80%以上をこの作業で 使っている
  12. 12. なぜそれが発生したの か? 必要な事: • 仮説の作成 • 仮説を分析「レシピ」に変 える • 50,000 品目の製品カテゴ リを手動で入力 • 計算されるメンバを作成す る 繰り返しやすい 手順が必要 個別の分析をするの が手作業だし、 時間もかかるし • 基本的な質問 • 各店舗のパフォーマンスは? • 売れ筋トップ製品は何ですか? • 売上最悪の店舗は何が原因? • 次の四半期の売上に対して 何を期待すればよい? • 利益を上げるためにはどのよう な ステップを踏めば良い? アンナさんは常に仮説を 持っているわけではなく、 多くの場合、 正しい「レシピ」を知らな い
  13. 13. 次に何をすればいい? そのために自分が何が出来 る? 結果の共有 アンナは 殆どの場合で ここまで到達しない もしそうだとしても、 アンナは結果や「レシ ピ」の明確なアイデア を持ってない 彼女のチームを巻き込 む時間はほとんどない • 基本的な質問 • 各店舗のパフォーマンスは? • 売れ筋トップ製品は何ですか? • 売上最悪の店舗は何が原因? • 次の四半期の売上に対して 何を期待すればよい? • 利益を上げるためにはどのよう な ステップを踏めば良い?
  14. 14. 取得 保存 加工 可視化
  15. 15. 取得 保存 加工 可視化
  16. 16. 取得 保存 加工 可視化
  17. 17. • 何を意味しているのか? • いつ、どこで、取得したの か? • 入手漏れが無いのか? • 項目同士に関連があるの か? • 欠損や例外がどれだけ 「ゴミデータからは、 ゴミの結果しか生まれな い」
  18. 18. DeviceID OEM Name SSD (GB) CPU Clock (GHz) Region OS Install Date 1 Hewlett Packard 500 3.2 US 12/12/2016 2 HP 1000 1233 US 05/02/2017 3 Hewlett-Packard 250 -7.8 USA 05/32/2017 4 hp 217 4.2 MEA 04/10/2016 5 Hewlet Packard NA 4.1 Latam 05/15/2087 6 DELL 250 0 Japan 03/13/2017 7 dell NULL 9.2 Japan 04-17-2016 8 “” 500 3.5 China 2015.02.141 9 Hewlett pakerd 500 2.8 China 3/2 答え: No… なぜなのか見ていきましょう
  19. 19. DeviceID OEM Name DeviceID OEM Name SSD (GB) … 1 Hewlett Packard 500 … 2 HP 1000 … 3 Hewlett-Packard 250 … 4 hp 217 … 5 Hewlet Packard NA … 6 DELL 250 … 7 dell NULL … 8 “” 500 … 9 Hewlett pakerd 500 … 目的: 不足値や一貫性の無い値 の是正
  20. 20. OS Install Date OS Install Date CPU Clock OS Install Date * Region … CPU Clock (GHz) Region OS Install Date … 3.2 US 12/12/2016 … 1233 US 05/02/2017 … -7.8 USA 05/32/2017 … 4.2 MEA 04/10/2016 … 4.1 Latam 05/15/2087 … 0 Japan 03/13/2016 … 9.2 Japan 04-17-2016 … 3.5 China 2015.02.141 … 2.8 China 3/2 *注意: 範囲選択を注意して行わないと、モデルの安定性に影響がある
  21. 21. Python や SQL だと 辛い事…
  22. 22. データを理解する!
  23. 23. largest value smallest value Histogram Boxplot Median Outliers 目的: データのパターンや課題をチェックする
  24. 24. Positive (right) skew データの傾きをチェック (ロングテール) Mean Median Tip: (Generally) If mean is right of median, data is right skewed. あなたのデータはどんな形状をしていますか? • よくあるパターンなのか、異なるのか? • 処理する価値があるのか? Mean (average) = 0 バイモーダル分布  = 2 m = 0 Mean (average) 凡そ Median 最頻値 (最も数が多い値) 正規分布(Gaussian or “Bell curve”)
  25. 25. 構造化データ 半構造化データ 非構造化データ 電話番号を持つ人の一覧 リンクのあるウィキペディアのペー ジ ブリタニカ百科事典のテキスト 過去20年間の毎分の建物のすべての 部屋の温度 著者、出版データ、および要約を用 いたJSON形式の科学論文の収集 企業ドキュメントとのファイル共有 建物内に入る全ての人の年齢と性別 に関するデータ インターネットページ 監視カメラからの生のビデオフィー ド CSV, TSV など XML, JSON, センサーデータ, Web Logs 文章、画像・動画など Data-Science-For-Beginners/README.md at main · microsoft/Data-Science-For-Beginners (github.com)
  26. 26. どういう状況なのか? どういう関連性があるのか?
  27. 27. 最新版を手に入れましょ うよ メッチャ楽になります よ!
  28. 28. Excel は文字列と数字を超え る 豊富で強力な新しいデータ 型 Microsoft Cloudを活用
  29. 29. 画像の中に表形式のデー タがある場合、それを文 字・数値として抽出 日本語対応はまだ😅
  30. 30. 更に学ぶために
  31. 31. microsoft/Data-Science-For-Beginners: 10 Weeks, 20 Lessons, Data Science for All! (github.com)
  32. 32. 1 2 3 高品質な17,000のコース (日本語は900コース以上) ビジネス、テクノロジー、クリエイティブなどの多 様なカテゴリーから成る学習コースをご提供 データに基づいたコース設計と パーソナライゼーション機能 リンクトインの会員データをもとにコース開発を実施 リンクトインプロフィール情報(スキル、経験等)に 基づいた推奨コースをAI機能を使い受講者に表示 マイクロラーニング 短時間でPC・モバイルからいつでもどこでも受 講可能
  33. 33. Step-by-Step Achievements スムーズな学習環境  無料  日本語対応  ブラウザーのみでOK ハンズオン環境も含めて  ダウンロード可能なサンプ ルコード  Product/Service, 技術レベル, job role, などに応じたガイダ ンス  Video, チュートリアル, ハンズ オン  スキルアップを促す  ユーザー プロファイ ル毎に カスタマイズ www.microsoft.com/learn
  34. 34. www.microsoft.com/ja-jp/events
  35. 35. Invent with purpose.

×