JupyterLabを中心とした快適な分析生活

Classi.corp
Classi.corpClassi.corp
Copyright © 2019 Classi Corp. All Rights Reserved. 1
JupyterLabを中心とした快適な分析生活
Classi株式会社 データAI部 小原
Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
Copyright © 2019 Classi Corp. All Rights Reserved.
● 名前: 小原陽介(Twitter: @deerto_herajika)
● 所属: Classi株式会社 データAI部
○ 学校教育現場をICT活用で支援する会社です
● 職業: DataScientist
○ 元データ整備職人
○ 普段の業務: 能力値推定に関する分析 / DWHや可視化環境の構築/ etc
○ 主な使用ツール: Python / GCP / Tableau
○ 今年R→Pythonにチェンジしました
● 趣味: 牡蠣の食べ歩き/ 中国由来の闇のゲーム
自己紹介
Copyright © 2019 Classi Corp. All Rights Reserved.
今日の発表について
● どういう方向け?
○ データ分析の文脈でPythonを使いたい方
■ システム開発での文脈の話はしません
○ 低実装コストでデータ分析を行いたい方
■ フルスタックで実装するのではなく、既存のサービスを組み合せてデータ
分析を行うことの提案です
■ 「Pythonでしかできないことに実装時間を割くために、色々なツールを組
み合せて使おう」というメッセージを伝えたいです
Copyright © 2019 Classi Corp. All Rights Reserved.
テーマが「今年の振り返り」ということで・・・
今日の発表について
Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~去年までの分析環境~
● 処理が重過ぎてフリーズした…
● 前作ったグラフ、分析結果更新したか
ら作り直さないと…
● 前に出した分析結果、掘り起こすの大
変…
Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~今年の分析環境~
● 重い処理は夜中のうちに実行!!
○ 分析経過のログは次の日に確認
● 分析結果やデータの管理が楽になっ
た!!
● 分析結果の可視化も楽になった!!
Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~今年の分析環境~
● 具体的にはこんな感じの環境です
○ 後半で詳しく話します
Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
Copyright © 2019 Classi Corp. All Rights Reserved.
● JupyterNotebookの後継機にあたるIDEであり、進化版
■ ①: UIの改良
■ ②: GoogleCloudPlatformとの相性
■ ③: 豊富なExtension
JupyterLabとは?
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● ディレクトリ/ファイル(.ipynb/.py/.txt/…)/ターミナルを1画面に表示可能
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● 各画面の配置も自由に設定可能
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● ドラッグアンドドロップでセルを自由に移動可能
Copyright © 2019 Classi Corp. All Rights Reserved.
● 簡単にVMインスタンス上にノートブックを作成できる
○ VMインスタンス作成後、「AIプラットフォーム >- ノートブックインスタンスを表
示 >- 新しいインスタンス」
JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
Copyright © 2019 Classi Corp. All Rights Reserved.
● 処理の重さをメモリ/CPU数でリカバリー可能
● GCPの他機能が使いやすいことも魅力的
○ Eg. 処理を夜中に回し、StackdriverLoggingでログを蓄積し次の日に確認
JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~③: 豊富なExtension~
● 画面左の「Extension Manager」からExtensionをインストール可能
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~③: 豊富なExtension~
● Extensionの例: Variable Inspector
○ ノートブック内で定義した変数を一覧で表示する機能
variableInspectorの
githubから引用
Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~DWHの活用~
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
Copyright © 2019 Classi Corp. All Rights Reserved.
● pandasのread_gbq, to_gbqモジュールで簡単にBigQueryと連携可能
○ 「read_gbq→アルゴリズム適用→ to_gbq」で分析コードを型化
● 前処理は可能な限りread_gbq時のクエリで実行
○ 処理の高速化
○ リファクタリングコストやレビューコストを低減
■ 共同開発がしやすい
JupyterLabを中心とした分析環境 ~DWHの活用~
pandas.read_gbq
pandas.to_gbq
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~BIの活用~
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
Copyright © 2019 Classi Corp. All Rights Reserved.
● matplotlibのコード書くこと自体が大変
○ レポート用にキレイに可視化しようとしても出来ないことがある
● 分析結果が更新された場合、再度グラフを出し直す必要がある
JupyterLabを中心とした分析環境 ~BIの活用~
matplotlibによる可視化
Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~BIの活用~
● 可視化が簡単 & 見た目もきれい
● ダッシュボード化することで、インタラクティブにデータの確認ができる
● BigQueryと直接繋げるので、分析結果が更新されるとグラフが自動的に反映
Copyright © 2019 Classi Corp. All Rights Reserved.
● JupyterLabがおすすめ
○ UIの改良 / GoogleCloudPlatformとの相性/ 豊富なExtension
● JupyterLabを中心にGCPやBIツールを上手く組み合せて使うことで、 低実装
コストで分析環境が構築できる
○ 分析結果やログの蓄積・管理: GCP
■ 管理のストレスがなくなる
■ 前処理をBigQueryに寄せることができる
○ 分析結果の可視化: BIツール
■ matplotlibを書く時間をなくすことができる
○ Pythonでしかできない実装(機械学習とか)に集中できる
まとめ
Copyright © 2019 Classi Corp. All Rights Reserved.
まとめ
快適な分析生活だー
Copyright © 2019 Classi Corp. All Rights Reserved.
まとめ
快適な分析生活だー
Auto◯Lさん
今の快適さに甘えず、高効率/高付加価値な仕組みを考えます(自戒)
Copyright © 2019 Classi Corp. All Rights Reserved.
We are Hiring!
Classiでは一緒に働く仲間を募集しています
● Pythonエンジニア/データサイエンティスト/データエンジニア/…
● 興味ある方、ぜひお声がけください!!
● 詳細は採用ページにて https://hrmos.co/pages/classi
1 sur 28

Recommandé

推薦アルゴリズムの今までとこれから par
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれからcyberagent
29.7K vues32 diapositives
グルーミングしながら進めるプロダクト開発 par
グルーミングしながら進めるプロダクト開発グルーミングしながら進めるプロダクト開発
グルーミングしながら進めるプロダクト開発Takafumi ONAKA
11.8K vues41 diapositives
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料) par
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
274.8K vues159 diapositives
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) par
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
25.6K vues173 diapositives
モデルベース協調フィルタリングにおける推薦の透明性に関する検討 par
モデルベース協調フィルタリングにおける推薦の透明性に関する検討モデルベース協調フィルタリングにおける推薦の透明性に関する検討
モデルベース協調フィルタリングにおける推薦の透明性に関する検討Okamoto Laboratory, The University of Electro-Communications
502 vues30 diapositives
Data-Centric AIの紹介 par
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介Kazuyuki Miyazawa
3.8K vues39 diapositives

Contenu connexe

Tendances

Gunosyにおけるパーソナライズシステム par
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムShunsuke Kozawa
24.3K vues21 diapositives
学習時に使ってはいないデータの混入「リーケージを避ける」 par
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」西岡 賢一郎
1.9K vues17 diapositives
実務と論文で学ぶジョブレコメンデーション最前線2022 par
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022Teruyuki Sakaue
1.9K vues36 diapositives
backbone としての timm 入門 par
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
7.4K vues19 diapositives
工学系大学4年生のための論文の読み方 par
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方ychtanaka
51.7K vues18 diapositives
エンジニアの個人ブランディングと技術組織 par
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織Takafumi ONAKA
23.4K vues40 diapositives

Tendances(20)

Gunosyにおけるパーソナライズシステム par Shunsuke Kozawa
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
Shunsuke Kozawa24.3K vues
学習時に使ってはいないデータの混入「リーケージを避ける」 par 西岡 賢一郎
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎1.9K vues
実務と論文で学ぶジョブレコメンデーション最前線2022 par Teruyuki Sakaue
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue1.9K vues
backbone としての timm 入門 par Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K vues
工学系大学4年生のための論文の読み方 par ychtanaka
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
ychtanaka51.7K vues
エンジニアの個人ブランディングと技術組織 par Takafumi ONAKA
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
Takafumi ONAKA23.4K vues
見やすいプレゼン資料の作り方 - リニューアル増量版 par MOCKS | Yuta Morishige
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
最適輸送の解き方 par joisino
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino21.6K vues
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree par Takami Sato
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato38.9K vues
グラフィカル Lasso を用いた異常検知 par Yuya Takashina
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina15.2K vues
開発速度が速い #とは(LayerX社内資料) par mosa siru
開発速度が速い #とは(LayerX社内資料)開発速度が速い #とは(LayerX社内資料)
開発速度が速い #とは(LayerX社内資料)
mosa siru61.6K vues
統計的因果推論への招待 -因果構造探索を中心に- par Shiga University, RIKEN
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2 par Preferred Networks
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks5.8K vues
データベース設計徹底指南 par Mikiya Okuno
データベース設計徹底指南データベース設計徹底指南
データベース設計徹底指南
Mikiya Okuno114.4K vues
グラフニューラルネットワークとグラフ組合せ問題 par joisino
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino4.5K vues
【メタサーベイ】基盤モデル / Foundation Models par cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K vues
SSII2022 [OS3-02] Federated Learningの基礎と応用 par SSII
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2.4K vues
機械学習モデルの判断根拠の説明(Ver.2) par Satoshi Hara
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara47.9K vues

Similaire à JupyterLabを中心とした快適な分析生活

【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~ par
【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~ 【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~
【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~ Yuya Ohara
216 vues23 diapositives
Unification of the middle scale services by Nuxt.js par
Unification of the middle scale services by Nuxt.jsUnification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.jsHajimeSasanuma
2.6K vues63 diapositives
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~ par
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~griddb
451 vues49 diapositives
pymcとpystanでベイズ推定してみた話 par
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
1.8K vues21 diapositives
YJTC18 C-1 Kotlin導入の状況と展望 par
YJTC18 C-1 Kotlin導入の状況と展望YJTC18 C-1 Kotlin導入の状況と展望
YJTC18 C-1 Kotlin導入の状況と展望Yahoo!デベロッパーネットワーク
2.6K vues103 diapositives
Google の AIツール 『Auto ML』で機械学習してみた par
Google の AIツール  『Auto ML』で機械学習してみたGoogle の AIツール  『Auto ML』で機械学習してみた
Google の AIツール 『Auto ML』で機械学習してみたYuya Ohara
1.1K vues17 diapositives

Similaire à JupyterLabを中心とした快適な分析生活(20)

【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~ par Yuya Ohara
【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~ 【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~
【奈良】GCPUG NARA × Osaka #1 ~ GCPがなぜ注目されているか?~
Yuya Ohara216 vues
Unification of the middle scale services by Nuxt.js par HajimeSasanuma
Unification of the middle scale services by Nuxt.jsUnification of the middle scale services by Nuxt.js
Unification of the middle scale services by Nuxt.js
HajimeSasanuma2.6K vues
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~ par griddb
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~
「ものづくり」の現場に必要な機能を備えたスケールアウト型データベース GridDBとそのオープンソース活動 ~膨大なIoTデータの管理を実現 ~
griddb451 vues
pymcとpystanでベイズ推定してみた話 par Classi.corp
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
Classi.corp1.8K vues
Google の AIツール 『Auto ML』で機械学習してみた par Yuya Ohara
Google の AIツール  『Auto ML』で機械学習してみたGoogle の AIツール  『Auto ML』で機械学習してみた
Google の AIツール 『Auto ML』で機械学習してみた
Yuya Ohara1.1K vues
Search engineering tech talk 2019 summer par Hiroki Moriyama
Search engineering tech talk 2019 summerSearch engineering tech talk 2019 summer
Search engineering tech talk 2019 summer
Hiroki Moriyama1.8K vues
FOSS4G 2018 Tokyo QGISをつかったG空間情報センター活用 par shingo-ootomo
FOSS4G 2018 Tokyo QGISをつかったG空間情報センター活用FOSS4G 2018 Tokyo QGISをつかったG空間情報センター活用
FOSS4G 2018 Tokyo QGISをつかったG空間情報センター活用
shingo-ootomo1.4K vues
CData Sync × Google BigQuery 3ステップで各データソースとのデータ連携を実現 par CData Software Japan
CData Sync × Google BigQuery  3ステップで各データソースとのデータ連携を実現CData Sync × Google BigQuery  3ステップで各データソースとのデータ連携を実現
CData Sync × Google BigQuery 3ステップで各データソースとのデータ連携を実現
空気を読む家のキッチン(3-1) par aitc_jp
空気を読む家のキッチン(3-1)空気を読む家のキッチン(3-1)
空気を読む家のキッチン(3-1)
aitc_jp337 vues
アジャイルナイトセミナー_2012年10月18日_Social Game x Agile Development par Go2GroupJapan
アジャイルナイトセミナー_2012年10月18日_Social Game x Agile Developmentアジャイルナイトセミナー_2012年10月18日_Social Game x Agile Development
アジャイルナイトセミナー_2012年10月18日_Social Game x Agile Development
Go2GroupJapan575 vues
誰でもできるGoogleアシスタント開発 par Namito Satoyama
誰でもできるGoogleアシスタント開発誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発
Namito Satoyama4K vues
Annotate Windows API ! par Bigdrea6
Annotate Windows API !Annotate Windows API !
Annotate Windows API !
Bigdrea6520 vues

JupyterLabを中心とした快適な分析生活

  • 1. Copyright © 2019 Classi Corp. All Rights Reserved. 1 JupyterLabを中心とした快適な分析生活 Classi株式会社 データAI部 小原
  • 2. Copyright © 2019 Classi Corp. All Rights Reserved. ● 自己紹介 ● 今年の振り返り ● JupyterLabとは ● JupyterLabを中心とした快適な分析生活 ● まとめ アジェンダ
  • 3. Copyright © 2019 Classi Corp. All Rights Reserved. ● 名前: 小原陽介(Twitter: @deerto_herajika) ● 所属: Classi株式会社 データAI部 ○ 学校教育現場をICT活用で支援する会社です ● 職業: DataScientist ○ 元データ整備職人 ○ 普段の業務: 能力値推定に関する分析 / DWHや可視化環境の構築/ etc ○ 主な使用ツール: Python / GCP / Tableau ○ 今年R→Pythonにチェンジしました ● 趣味: 牡蠣の食べ歩き/ 中国由来の闇のゲーム 自己紹介
  • 4. Copyright © 2019 Classi Corp. All Rights Reserved. 今日の発表について ● どういう方向け? ○ データ分析の文脈でPythonを使いたい方 ■ システム開発での文脈の話はしません ○ 低実装コストでデータ分析を行いたい方 ■ フルスタックで実装するのではなく、既存のサービスを組み合せてデータ 分析を行うことの提案です ■ 「Pythonでしかできないことに実装時間を割くために、色々なツールを組 み合せて使おう」というメッセージを伝えたいです
  • 5. Copyright © 2019 Classi Corp. All Rights Reserved. テーマが「今年の振り返り」ということで・・・ 今日の発表について
  • 6. Copyright © 2019 Classi Corp. All Rights Reserved. 今年の振り返り ~去年までの分析環境~ ● 処理が重過ぎてフリーズした… ● 前作ったグラフ、分析結果更新したか ら作り直さないと… ● 前に出した分析結果、掘り起こすの大 変…
  • 7. Copyright © 2019 Classi Corp. All Rights Reserved. 今年の振り返り ~今年の分析環境~ ● 重い処理は夜中のうちに実行!! ○ 分析経過のログは次の日に確認 ● 分析結果やデータの管理が楽になっ た!! ● 分析結果の可視化も楽になった!!
  • 8. Copyright © 2019 Classi Corp. All Rights Reserved. 今年の振り返り ~今年の分析環境~ ● 具体的にはこんな感じの環境です ○ 後半で詳しく話します
  • 9. Copyright © 2019 Classi Corp. All Rights Reserved. ● 自己紹介 ● 今年の振り返り ● JupyterLabとは ● JupyterLabを中心とした快適な分析生活 ● まとめ アジェンダ
  • 10. Copyright © 2019 Classi Corp. All Rights Reserved. ● JupyterNotebookの後継機にあたるIDEであり、進化版 ■ ①: UIの改良 ■ ②: GoogleCloudPlatformとの相性 ■ ③: 豊富なExtension JupyterLabとは?
  • 11. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabの良さ ~①: UIの改良~ ● ディレクトリ/ファイル(.ipynb/.py/.txt/…)/ターミナルを1画面に表示可能
  • 12. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabの良さ ~①: UIの改良~ ● 各画面の配置も自由に設定可能
  • 13. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabの良さ ~①: UIの改良~ ● ドラッグアンドドロップでセルを自由に移動可能
  • 14. Copyright © 2019 Classi Corp. All Rights Reserved. ● 簡単にVMインスタンス上にノートブックを作成できる ○ VMインスタンス作成後、「AIプラットフォーム >- ノートブックインスタンスを表 示 >- 新しいインスタンス」 JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
  • 15. Copyright © 2019 Classi Corp. All Rights Reserved. ● 処理の重さをメモリ/CPU数でリカバリー可能 ● GCPの他機能が使いやすいことも魅力的 ○ Eg. 処理を夜中に回し、StackdriverLoggingでログを蓄積し次の日に確認 JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
  • 16. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabの良さ ~③: 豊富なExtension~ ● 画面左の「Extension Manager」からExtensionをインストール可能
  • 17. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabの良さ ~③: 豊富なExtension~ ● Extensionの例: Variable Inspector ○ ノートブック内で定義した変数を一覧で表示する機能 variableInspectorの githubから引用
  • 18. Copyright © 2019 Classi Corp. All Rights Reserved. ● 自己紹介 ● 今年の振り返り ● JupyterLabとは ● JupyterLabを中心とした快適な分析生活 ● まとめ アジェンダ
  • 19. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabを中心とした分析環境 ● GCPを軸足に分析環境を構築 ○ 可視化: Tableau, 分析コード管理: Github
  • 20. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabを中心とした分析環境 ~DWHの活用~ ● GCPを軸足に分析環境を構築 ○ 可視化: Tableau, 分析コード管理: Github
  • 21. Copyright © 2019 Classi Corp. All Rights Reserved. ● pandasのread_gbq, to_gbqモジュールで簡単にBigQueryと連携可能 ○ 「read_gbq→アルゴリズム適用→ to_gbq」で分析コードを型化 ● 前処理は可能な限りread_gbq時のクエリで実行 ○ 処理の高速化 ○ リファクタリングコストやレビューコストを低減 ■ 共同開発がしやすい JupyterLabを中心とした分析環境 ~DWHの活用~ pandas.read_gbq pandas.to_gbq
  • 22. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabを中心とした分析環境 ~BIの活用~ ● GCPを軸足に分析環境を構築 ○ 可視化: Tableau, 分析コード管理: Github
  • 23. Copyright © 2019 Classi Corp. All Rights Reserved. ● matplotlibのコード書くこと自体が大変 ○ レポート用にキレイに可視化しようとしても出来ないことがある ● 分析結果が更新された場合、再度グラフを出し直す必要がある JupyterLabを中心とした分析環境 ~BIの活用~ matplotlibによる可視化
  • 24. Copyright © 2019 Classi Corp. All Rights Reserved. JupyterLabを中心とした分析環境 ~BIの活用~ ● 可視化が簡単 & 見た目もきれい ● ダッシュボード化することで、インタラクティブにデータの確認ができる ● BigQueryと直接繋げるので、分析結果が更新されるとグラフが自動的に反映
  • 25. Copyright © 2019 Classi Corp. All Rights Reserved. ● JupyterLabがおすすめ ○ UIの改良 / GoogleCloudPlatformとの相性/ 豊富なExtension ● JupyterLabを中心にGCPやBIツールを上手く組み合せて使うことで、 低実装 コストで分析環境が構築できる ○ 分析結果やログの蓄積・管理: GCP ■ 管理のストレスがなくなる ■ 前処理をBigQueryに寄せることができる ○ 分析結果の可視化: BIツール ■ matplotlibを書く時間をなくすことができる ○ Pythonでしかできない実装(機械学習とか)に集中できる まとめ
  • 26. Copyright © 2019 Classi Corp. All Rights Reserved. まとめ 快適な分析生活だー
  • 27. Copyright © 2019 Classi Corp. All Rights Reserved. まとめ 快適な分析生活だー Auto◯Lさん 今の快適さに甘えず、高効率/高付加価値な仕組みを考えます(自戒)
  • 28. Copyright © 2019 Classi Corp. All Rights Reserved. We are Hiring! Classiでは一緒に働く仲間を募集しています ● Pythonエンジニア/データサイエンティスト/データエンジニア/… ● 興味ある方、ぜひお声がけください!! ● 詳細は採用ページにて https://hrmos.co/pages/classi