MLOps Course Slides_JP(配布用).pdf

Yuya Yamamoto
Yuya YamamotoI'm a materials chemist, DataScientist and Kaggle Master à DataRobot
1
W&Bハンズオンウェビナー
山本 祐也 (Yuya YAMAMOTO)
● 機械学習エンジニア
- Customer Success@W&B
● Kaggle Competitions Grandmaster
○ ID: nejumi
Weights & Biasesのサインアップとインストール
こちらからサインアップして
ください
URLはこちら
:https://www.wandb.j
p/
Team Background | チームの出身会社
Lukas Biewald, CEO
Co-Founder & CEO
Figure Eight, Powerset, OpenAI
Chris Van Pelt, CISO
Co-Founder & CISO
Figure Eight, Powerset
Shawn Lewis, CTO
Co-Founder & CTO
Beep, Google
● OpenAI
● Google
● Waymo
● Microsoft
● DataRobot
● Stanford
● Harvard
● Berkeley
● Twitter
● Databricks
Figure Eight (acquired by Appen)
● Meta
● Github
● Domino
● JP Morgan
● Alteryx
$200m in Funding | $200Mを超える資金調達
Angels & Advisors | アドバイザー
Richard Socher — Chief Scientist, Salesforce
Greg Brockman — CTO, OpenAI
Nat Friedman — CEO, GitHub
Tom Preston-Werner — Founder, GitHub
Anthony Goldbloom — Founder and CEO, Kaggle
Vladlen Koltun — Chief Scientist, Intel
W&Bは2017年にSFで創業
W&B日本展開
MLエンジニアのためのミートアップを毎月開催
(https://wandb.connpass.com)
2023年
3月 ● 東京-京橋を拠点に日本法人を設立
4月 ● JDLA協会正会員に
5月 ● AI Expoに出展ドキュメンテーションな
どを日本語化
6月 ● 人工知能学会大会をスポンサー
7月 ● llm-jpに参画
8月 ● 日本語タスクLLMリーダーボード
が国内最大規模に
私たちのお客様は機械学習で
あらゆるインダストリーを変革しています
TRIではコンピュータビジョンを使って
完全自動運転車の開発を進めてい
ます
「W&Bは早いペースで最先端の開発
を大規模に行うチームにはなくては
ならないインフラです。」
Adrien Gaidon
Toyota Research Institute
OpenAIは深層学習と自然言語処理を
使って、超高性能なチャットボットを開
発しています
「W&Bは、一人の研究者のインサイトを
チームに波及させ、一台のマシンに閉
じ込めず、何千台にスケールさせること
ができます。」
WOJCIECH ZAREMBA
Co-founder of OpenAI
Genentechは深層学習を使って感染
病に有効な新しい抗生物質を
探しています
「W&Bのおかげで、私たちは意味の
ある科学研究により多くの時間を費
やすことができます。」
Stephen Ra
Machine Learning Lead
データ収集
探索的解析
データ準備
モデリング・
チューニング
結果の共有と
評価
モデル・サービス
監視
異常・ドリフト
検知
ビジネス評価
モニタリング
データサイ
エンティスト
MLエンジニア
プロダクト
マネージャー
プロダクト
マネージャー
データ
エンジニア
システム実装
結合テスト
サービスイン
システム
エンジニア
MLOps
エンジニア
推論API実装
リスク評価
モデルリリース
評価・デプロイメント
サーバー
エンジニア
プロダクト
マネージャー
監査担当
モデル開発
監査担当
バージョン管理と継続開発
モデルライフサイクルを支えるWeights & Biases
Tables
Sweeps
Artifacts
Experiments
Reports Prompt
Launch Models Weave Monitoring
Automation
W&B Courses
8
W&Bの基本的な使い方に関する
初心者向けコース
W&Bを用いてMLプロジェクトに
取り組むコアとなるコース
LLM特化コース
https://www.wandb.courses/
W&B Coursesで一番人気のコースをギュッと圧縮
9
EDA
Data
Prep
Create
Baseline
Refactoring
Team
Collaboration
Hyperparam
Optimization
Evaluation Best
Practices
Model
Versioning
Model
Evaluation and
Diagnostics
Lesson 1 Lesson 2 Lesson 3
EDA
Data
Prep
Create
Baseline
Refactoring Team
Collaboration
Hyperparam
Optimization
オリジナルコース
本コース(日本語ダイジェスト)
+解説 +解説
Effective MLOps
Model Development and
Evaluation
Lesson 1 - End-To-Endプロトタイプの構築
11
Agenda - End-to-Endプロトタイプの構築
アーティファ
クト
実験管理 レポート
テーブル
ビジネス
コンテクストを
理解する
Data Science
課題に
落とし込む
自身のデータを
探索し
理解する
ベースライン指
標とモデルを構
築する
チームと
結果を共有する
12
ケーススタディ - 自動運転における認識技術
BDD100Kデータセットにおける
セマンティックセグメンテーション
は、予測、動きの計画などのよ
り多くのサブタスクを含むより大
きな自動運転システムを構成す
るタスク群のうちの一つです
W&B テーブル
● モデルの予測を視覚化し分析
する
● 探索的データ分析を一元化す
る
● データセットから目的行を素早く
特定する
# Quickly log your first table
wandb.log({“table”: my_dataframe})
W&B レポート
● ライブダッシュボードでの共同分析
● チームメイトとの情報共有
● リアルタイムでのコメント機能、実
験結果の説明、作業のスナップ
ショットの取得
● LaTeXまたはPDFにエクスポート
W&B アーティファクト
● 軽量なデータセットとモデルの
バージョン管理機能
● パイプラインの各ステップを保
存
● モデルのトラッキングとモデル
のリネージ追跡
● 手軽な監視可能性(オブザーバ
ビリティ)
● データアクセス制御
# Log an artifact
artifact = wandb.Artifact('mnist',
type='dataset')
artifact.add_dir('mnist/')
wandb.log_artifact(artifact)
# Use artifact in your pipeline
artifact = run.use_artifact(mnist:v1')
artifact_dir = artifact.download()
W&B 実験管理
● モデル訓練の記録システム
● 全実験の視覚化と比較
● 以前のモデルのチェックポイン
トを素早く見つけて再実行
● 計算リソースの監視する
● リアルタイムでパフォーマンスを
デバッグ
# Integrate with any Python script
import wandb
# 1. Start a W&B run
wandb.init(project=’gpt3’)
# 2. Save model inputs and hyperparams
config = wandb.config
config.learning_rate = 0.01
# Model training here
# 3. Log metrics over time to visualize
performance
wandb.log({“loss”: loss})
Training (学習)
Validation (検定),
多くの場合CVする
Holdout (ホールドアウト)
17
データのパーティショニング
一般的なルールとして、データを以下
の3つに分割する
しかしながら、いくつかのハマりポイントがあ
り、以下に気をつける必要がある :
これらのパーティションは同じ分布か
ら取得しますが、特に validationとtest
はデプロイ後に想定される分布になっ
ているべき
パーティション間でリーケー
ジが無いようにする
いくつか例を見てみましょう
18
Data Partitioning: グループパーティショニング
多くのケースで、データは真
に独立ではありません
例:運転データセットでは、一部の写真が同
じカメラからわずかな時間隔で撮影されてい
る
Train
Lemon 2
Validation Holdout
そのため、データをランダムに
分割してはならない
カメラ 3 カメラ 4
カメラ 1 カメラ 2
19
Combining Concepts: 層化抽出 + グループパーティショニング
Validation
Train Holdout
同一パーティション内では同一カメラ
由来の画像が複数含まれるのを許容
する
同じカメラからの画像がパーティションを跨いで出現しないようにする
各パーティションでクラス比を同等にする (例: 歩行
者)
リーケージ防止 + 各fold間でクラス比が略同等になるようにする
20
Code: 層化パーティショニング
ファイル名のprefixでグルーピングする
10分割もいらないので、 testとvalid以外の残りは全てtrainにする
21
Effective MLOps
Model
Development
July 2022
Lesson 2 - ハイパーパラメータ最適化とモデルトレーニ
ングにおけるチームコラボレーション
Back from vacation
22
23
ハイパーパラメータ最適化とモデルトレーニングにおける
チームコラボレーション
LESSON 2
実験を
実施する
実験結果を
分析する
実験のために
コードを整理する
結果をチームと共
有し、チームでブレ
ストする
実験管理 レポート スイープ
リファクタリング
24
1 セルを関数にリファクタする
2 ノートブックをスクリプトにリファクタする
3 コマンドラインで使えるように argparseを追加する
スイープ
25
● 最適なハイパーパラメータを探索する
● パラメータの変数重要度を理解し、相
関をプロットする
● 多数のマシンを跨いでスイープを実行
する
● ランダムサーチ、グリッドサーチ、ベイ
ズ最適化から選択
● さらにOptunaとの連携により、より高度
な最適化も簡単かつスケーラブルに可
能
実験結果の分析
26
ダッシュボード
● Runsのフィルターやグルーピング、ソートが簡単にできる
● 新しいプロットも簡単に作成できる
レポート
● サマライズして、あなたが見出したインサイトをチームと共有する
アンケートにご協力ください
日本語ワークスペースができました!
W&B Japan
コミュニティー
wandb.me/jp-slack
https://note.com/wandb_jp
日本語の記事を投稿しています
是非フォローしてください!
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
1 sur 31

Recommandé

初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか par
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
888 vues28 diapositives
LT.22 機械学習におけるPDCAを回せる環境構築の話 par
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 GIG inc.
1.8K vues26 diapositives
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み par
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
8.7K vues46 diapositives
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一 par
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一schoowebcampus
5.3K vues77 diapositives
To be sn agile enterprise par
To be sn agile enterpriseTo be sn agile enterprise
To be sn agile enterpriseRakuten Group, Inc.
1.4K vues36 diapositives
How to organize data science project (データサイエンスプロジェクトの始め方101) par
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
585 vues25 diapositives

Contenu connexe

Similaire à MLOps Course Slides_JP(配布用).pdf

アジャイルマネジメントとは? par
アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?Kiro Harada
4.4K vues62 diapositives
DRIVE CHARTを支えるAI技術 par
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
2.3K vues44 diapositives
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用) par
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)Hidehiko Akasaka
2.7K vues91 diapositives
Intalio japan special cloud workshop par
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshopDaisuke Sugai
725 vues46 diapositives
データ分析チームの振り返り par
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返りSatoshi Noto
5K vues38 diapositives
ビッグデータ活用支援フォーラム par
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
3.4K vues53 diapositives

Similaire à MLOps Course Slides_JP(配布用).pdf(20)

アジャイルマネジメントとは? par Kiro Harada
アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?
Kiro Harada4.4K vues
DRIVE CHARTを支えるAI技術 par Yusuke Uchida
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K vues
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用) par Hidehiko Akasaka
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
Hidehiko Akasaka2.7K vues
Intalio japan special cloud workshop par Daisuke Sugai
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
Daisuke Sugai725 vues
データ分析チームの振り返り par Satoshi Noto
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto5K vues
巨大なサービスと膨大なデータを支えるプラットフォーム
 par Tetsutaro Watanabe
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム

Tetsutaro Watanabe1.7K vues
Big data解析ビジネス par Mie Mori
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori3.5K vues
20181206 Jazug DataScience TeamBuilding and DevOps par Yukako Shimizu
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
Yukako Shimizu292 vues
データ分析を支える技術 DWH再入門 par Satoru Ishikawa
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa3.9K vues
Offshore Agile Development in XP par Kenji Hiranabe
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
Kenji Hiranabe1.9K vues
とりあえず30分でひととおり分かった気にはなれるアジャイル入門 par 陽一 滝川
とりあえず30分でひととおり分かった気にはなれるアジャイル入門とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門
陽一 滝川14.1K vues
アジャイルソフトウェア開発の道具箱 par Koichi ITO
アジャイルソフトウェア開発の道具箱アジャイルソフトウェア開発の道具箱
アジャイルソフトウェア開発の道具箱
Koichi ITO5.8K vues
Google のクラウド サービスを利用する前に 注意すべきこと par Compare GW
Google のクラウド サービスを利用する前に 注意すべきことGoogle のクラウド サービスを利用する前に 注意すべきこと
Google のクラウド サービスを利用する前に 注意すべきこと
Compare GW423 vues
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう par Ai Hirano
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えようMicrosoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう
Ai Hirano1.5K vues
POWA50 - Power Apps と Power Automate の大規模な管理とサポート par Taiki Yoshida
POWA50 - Power Apps と Power Automate の大規模な管理とサポートPOWA50 - Power Apps と Power Automate の大規模な管理とサポート
POWA50 - Power Apps と Power Automate の大規模な管理とサポート
Taiki Yoshida555 vues

Plus de Yuya Yamamoto

Wandb Monthly Meetup August 2023.pdf par
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfYuya Yamamoto
816 vues59 diapositives
W&BであらゆるML関連データを可視化.pdf par
W&BであらゆるML関連データを可視化.pdfW&BであらゆるML関連データを可視化.pdf
W&BであらゆるML関連データを可視化.pdfYuya Yamamoto
109 vues30 diapositives
Wandb LLM Webinar May 30 2023 (配布用).pdf par
Wandb LLM Webinar May 30 2023 (配布用).pdfWandb LLM Webinar May 30 2023 (配布用).pdf
Wandb LLM Webinar May 30 2023 (配布用).pdfYuya Yamamoto
260 vues23 diapositives
DataRobotを用いた要因分析 (Causal Analysis by DataRobot) par
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)Yuya Yamamoto
4.9K vues73 diapositives
Optimization and simulation with DataRobot par
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobotYuya Yamamoto
2.3K vues55 diapositives
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備) par
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)Yuya Yamamoto
1.9K vues21 diapositives

Plus de Yuya Yamamoto(7)

Wandb Monthly Meetup August 2023.pdf par Yuya Yamamoto
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
Yuya Yamamoto816 vues
W&BであらゆるML関連データを可視化.pdf par Yuya Yamamoto
W&BであらゆるML関連データを可視化.pdfW&BであらゆるML関連データを可視化.pdf
W&BであらゆるML関連データを可視化.pdf
Yuya Yamamoto109 vues
Wandb LLM Webinar May 30 2023 (配布用).pdf par Yuya Yamamoto
Wandb LLM Webinar May 30 2023 (配布用).pdfWandb LLM Webinar May 30 2023 (配布用).pdf
Wandb LLM Webinar May 30 2023 (配布用).pdf
Yuya Yamamoto260 vues
DataRobotを用いた要因分析 (Causal Analysis by DataRobot) par Yuya Yamamoto
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
Yuya Yamamoto4.9K vues
Optimization and simulation with DataRobot par Yuya Yamamoto
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
Yuya Yamamoto2.3K vues
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備) par Yuya Yamamoto
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
Yuya Yamamoto1.9K vues
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋) par Yuya Yamamoto
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
Yuya Yamamoto1.6K vues

Dernier

光コラボは契約してはいけない par
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
28 vues17 diapositives
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 par
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
66 vues12 diapositives
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 par
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
10 vues22 diapositives
定例会スライド_キャチs 公開用.pdf par
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdfKeio Robotics Association
146 vues64 diapositives
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 par
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
28 vues36 diapositives

Dernier(7)

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 par PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 par PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」

MLOps Course Slides_JP(配布用).pdf