Publicité

AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論

Reseach on Software at National Institute of Informatics à Waseda University
14 Mar 2023
Publicité

Contenu connexe

Présentations pour vous(20)

Similaire à AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論(20)

Publicité
Publicité

AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論

  1. AIシステムの要求とプロジェクトマネジメント 前半:機械学習工学概論 吉岡信和 (早稲田大学/国立情報学研究所) 2023年3月14日 @ プロジェクトマネジメント学会 1
  2. 概論の主なトピック 機械学習を組み込んだAIソフトウェアシステ ムを開発するときの難しさとそれに対する研 究の取り組みを学ぶ 機械学習システム普及の背景 機械学習システムの開発と運用 機械学習システムの開発の難しさ 機械学習工学の国内外の動向 2
  3. 機械学習システムと機械学習工学 機械学習システム普及の背景 3
  4. 機械学習を応用したシステム例 1. 売上向上:  タクシー配車予測、店舗来客分析、生産量予測・生育予測(農業)、需要予測(アパ レル/小売) 2. コスト削減:  コールセンターの自動化、点検の自動化など 3. 信頼性担保:  がんの検出による診断支援、原油の備蓄量分析など 4. 監視/管理:  電力の需要・発電量の予測、ドライバーの安全管理など 5. 人員不足解消:  配達ルートの最適化、レジでの商品自動識別など 4 引用:【保存版】課題から探すAI・機械学習の最新事例52選, https://sorabatake.jp/11124/
  5. 従来型プログラミングと機械学習 機械学習はデータからルールを抽出 丸山宏, 情報処理学会第81回全国大会「機械学習システムのセキュリティ」, 3/14/2019 正確な関数を導出するためには、 十分な数、品質の訓練データが必要 従来は、ルール・アルゴリズムを記述 モデル・アルゴリズムが 不明だと記述できない 5
  6. なぜ、機械学習が急速に発展しているの か?  データの普及  オープンサイエンスとオープンデータ  IoT・センサーの普及  Crowed Sourcing: データの収集、ラベル付け  マシンパワー  クラウド・GPUの普及  研究者・技術者の急増  産業の発展 高性能なアプリケーション・ 新たなアプリケーションの発掘 6
  7. オープンサイエンスとオープンデータ  ImageNet: http://www.image-net.org/  1,400万枚を超える画像,物体名(クラス名)は2万種類以上  14,197,122 images, 21841 synsets indexed  画像に写っている物体名(クラス名)を付与  http://starpentagon.net/analytics/imagenet_ilsvrc2012_dataset/  Berkeley DeepDrive BDD100k: http://bdd-data.berkeley.edu/  Currently the largest dataset for self-driving AI. Contains over 100,000 videos of over 1,100-hour driving experiences across different times of the day and weather conditions. The annotated images come from New York and San Francisco areas.  訓練済みモデルの公開と集合知による改良 https://modelzoo.co/ 7
  8. 機械学習による画像の認識率の向上 1位になった深層学習 アーキテクチャと階層 年 AlexNet (8層) ResNet (152層) GoogLeNet (22層) 25.8 15.3 11.2 7.4 3.6 3 0 5 10 15 20 25 30 2011 2012 2013 2014 2015 2016 誤分類率(%) 人の精度:5.1% 8
  9. ニューラルネットワーク https://externaltable.blogspot.com/2016/07/a-neural-network-scoring-engine-in-plsql.html https://en.wikipedia.org/wiki/Artificial_neural_network 9
  10. http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf ディープニューラルネットワーク 10
  11. 敵対的生成ネットワーク(Generative Adversarial Networks: GAN) https://products.sint.co.jp/aisia/blog/vol1-19 11
  12. スタイル(概念)と抽出と演算! GANの応用 https://www.imagazine.co.jp/gan%EF%BC%9A%E6%95%B5%E5%AF%BE %E7%9A%84%E7%94%9F%E6%88%90%E3%83%8D%E3%83%83%E3%8 3%88%E3%83%AF%E3%83%BC%E3%82%AF%E3%81%A8%E3%81%AF% E4%BD%95%E3%81%8B%E3%80%80%EF%BD%9E%E3%80%8C%E6%95 %99%E5%B8%AB/ https://products.sint.co.jp/aisia/blog/vol1-19 12
  13. 特徴から絵を出力 Stable Diffusion 13 https://openart.ai/discovery/sd-1005665846510764052 a real life version of a Pablo picasso painting, photorealistic https://openart.ai/discovery/sd-1006039916695781426 art by Claude Monet AIの作画の著作権は? 訓練データに使われた作者に利益を還元しなくてよいのか?
  14. 自然言語処理のための機械学習の発展 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805, 2019. 汎用的な学習済みモデル Tom B. Brown他, Kristina Toutanova, Language Models are Few-Shot Learners, arXiv:2005.14165, 2020 Generative Pre-trained Transformer (GTP) - 3 14
  15. そして今 ChatGPT  従来の大規模言語モデルよりも高度な意味理解と(人間と区別で きないぐらいのレベルで)会話ができる!  OpenAIが2022年11月30日に公開、マイクロソフトが100億ド ル(約1.3兆円)の投資、Bingに搭載  海外ではChatGPTを使った学習も始まる 15 Bingとの会話
  16. 機械学習のアルゴリズム 機械学習 教師あり学習 サポートベクタ マシン ニューラルネット ワーク 深層学習 • 畳み込みニューラルネットワーク • 回帰型ニューラルネットワーク 決定木 教師なし学習 強化学習 クラスタリング 相関ルール 学習 • k平均法 次元削減 • Q学習 • 主成分分析 • ランダムフォレスト https://ja.wikipedia.org/wiki/決定木 16
  17. 従来システムと機械学習を応用したAIシ ステムの違い  プログラミングが難しい処理  アルゴリズムに書き下すことができない  人が行っていた処理  訓練済みモデルの解釈は困難  計算に膨大な時間・リソース・情報が必要な処理  リアルタイム処理が困難な計算  特定の状況におけるショートカットルールを機械学習により抽出  例) 気象シミュレーション 17 サポートベクタ マシン 深層学習 決定木 予測性能 解釈可能性 ランダムフォレ スト 妥当性確認 が難しい
  18. 分析シナリオ類型: ビックデータのビジネス活用 分析シナリオ類型 概要 ① 予兆発見型 行動変化や状態変化の監視による予兆の発見 ② 異常検出型 不正検出型 不正・異常の定義と合致/類似する行動・状態の検出 外れ値検出型 標準的な行動・状態の定義と逸脱の検出 ③ 予測・制御型 収益シミュレーション型 業務改善による増収効果の試算 リスク・シミュレーション型 業務のモデル化と不確実要素によるリスクの試算 最適化型 業務のモデル化と最適化手法を用いた意思決定策の提示 リスク・ヘッジ型 業務のモデル化とリスク分散手法を用いたリスク低減策の提示 ④ ターゲティング型 見込み顧客など重点アプローチすべきターゲットの抽出 ⑤ 与信管理型 顧客・企業の滞納・倒産リスクの試算 ⑥ 評価・要因分析型 さまざまな対象の比較評価と改善要因の特定 ⑦ マーチャンダイジング型 さまざまな視点での売れ筋ランクの作成と品揃えの決定 ⑧ コンテクスト・アウェアネス型 行動履歴・嗜好の分析から一歩先回りしたサービスの提示 ⑨ プロセス・トレース型 成長・発展プロセスの抽出と促進・阻害の特定 引用:BI(ビジネスインテリジェンス)革命, NTT出版, 2009 18
  19. 機械学習システムの開発 19
  20. 機械学習はシステムの一部の機能として埋 め込まれる AIシステム 訓練済みモデル 機械学習 コンポーネント 訓練プログラム 訓練データセット ハイパーパラメータ テストデータセット テストプログラム 検証データセット 訓練済みモデル 機械学習 コンポーネント 訓練済みモデル 機械学習 コンポーネント AIシステムには複数の 機械学習コンポーネント が埋め込まれている 20
  21. 機械学習に関するコードはシステム全体の コードのごく一部でしかない コンフィグレ ーション データの収集 特徴量の抽出 機械学 習 データの 検証 計算機リソースの 管理 分析ツール プロセス管理ツール 基盤のサービング モニタ リング D. Sculley, et al., Hidden technical debt in Machine learning 23 systems. In Proceedings of the 28th International Conference on Neural 24 Information Processing Systems -Volume 2 (NIPS' 15) 21
  22. 機械学習を応用した AIソフトウェアシステムの開発 訓練パイプラインの構築 AIシステ ムの要求 AIシステ ムの設計 AIシステ ムの実装 単体検査 結合検査 受け入れ 検査 運用 AIサービ スの企画 推論パイプラインの構築 とデプロイ 本講座が扱う主な範囲 機械学習コンポーネントの構築 機械学習 の要求 データ収集・ 整理・加工 訓練 推論結果 分析 システムの改善 実現可能性検証 (PoC) AIシステムのライフサイクル 機械学習のライフサイクル 機械学習の改善 組み込み 22
  23. AIシステムのステークホルダ AIシステムの 開発と運用 発注者 ビジネス領域 SE領域 機械学習領域 問題領域の専門家 機械学習 エンジニア データサイエンティスト ソフトウェア技術者 システム運用者 エンドユーザ データエンジニア 要求分析者 ラベラー 23
  24. 機械学習の構築・運用のプロセス 機械学習モデル の要求 データ収集 特徴量エンジニ アリング 正解データ 作成 訓練 訓練済みモデル の評価 訓練済みモデル のデプロイ 訓練済みモデル のモニタリング 訓練データ セット 生データ 検証データ セット 評価データ セット 訓練済み モデル 機械学習の運用 機械学習の構築 24
  25. 訓練パイプラインと推論パイプライン 機械学習モデル の要求 データ収集 データクリ ーニング 正解データ 作成 前処理 訓練 訓練済みモデル の評価 訓練済みモデル のデプロイ 訓練済みモデル のモニタリング 外れ値を削除 欠損値を埋める ラベリング 推論パイプライン 訓練データ セット 生データ 検証データ セット 評価データ セット スケーリング、 形式変換、 データ拡張 生データ データ収集 前処理 推論 訓練済み モデル 訓練済み モデル 特徴量エンジニアリング 訓練パイプライン 訓練のためのプログラム 推論のためのプログラム 25
  26. 機械学習システムの開発と通常のシステム 開発の違い  機械学習システムの仕様を事前に決めることができない  推論モデルのパラメータ(振る舞い)を訓練データから計算  試行錯誤(トライ&エラー)が必須  システムの品質低下への対処  訓練済みモデルの品質低下、コンセプトドリフト  データの傾向が時間とともに変化  データの収集・加工に膨大なコストが必要  データの管理が重要  利用データと訓練済みモデルのパラメータのバージョン管理が必要  効率の良い試行錯誤、再現性の確保  機械学習モジュール間での影響が大きい  複数の訓練済みモデルを用いる場合注意が必要 Wan, Z., Xia, X., Lo, D., & Murphy, G. C. (2019). How does Machine Learning Change Software Development Practices? IEEE Transactions on Software Engineering, 1–14. https://doi.org/10.1109/tse.2019.2937083 26
  27. 機械学習システム開発の難しさ 27
  28. 機械学習システムの開発の難しさ 機械学習を応用したシステム 確率・統計的な精度 訓練データに依存 従来型システムの開発 演繹的にアルゴリズム・論理の 組み合わせ • 適切なシステムの構築が困難 • 品質の担保が困難 0 20 40 60 80 100 120 プロジェクト管理 更新 問題の把握と修正(デバッグ) 運用 テスト,品質の評価・保証 アーキテクチャ設計 訓練データの収集・選択・生成やその管理 開発運用に関し顧客と行う意思決定 開発者へのギャップアンケート (278回答) 要求定義、テスト・品質保証が最 もギャップが大きい 根本的に異なる考え方が必要 手法が未成熟 特化したツールが存在 従来どおり ギャップ MLSE2018アンケート 調査結果より https://sites.google.com/view/sig-mlse/%E7%99%BA%E8%A1%8C%E6%96%87%E7%8C%AE 28
  29. 機械学習工学とは? 機械学習のための工学的アプローチ:機械学習工学  機械学習を利用したソフトウェア(機械学習システム、機械学習アプリケーション)の開発 、運用、保守に対する系統的で規律化された、定量化可能なアプローチの適用およびアプロ ーチに関する研究  機械学習システムへのエンジニアリングの適用 機械学習システムにはこれまでのソフトウェア工学のアプローチが通用しない ビジネス企 画 AIサービスを使って達成したい ビジネスの目標 AIサービスの構 築・運用 機械学習機能の 構築・運用 ビジネス目標を達成するため に必要なAIサービスの要求 AIサービスの要求を満たすため に必要な機械学習への要求 例:部品検査のコスト削減 例:汎用カメラで人と同等以上の精 度で部品の欠品を見つける 例:深さ3mm以上の傷を90%の精度で識別する。 典型的な傷のサンプルを1,000事例以上収集する。 29
  30. 機械学習システムの開発・運用の難しさ  要求抽出の難しさ  実現可能な要求の抽出と整理の難しさ  機械学習への期待が大きい  そもそもどこまでできるのかが不明  AIシステムとしての新たな要求への対応  公平性、プライバシー、低い説明可能性の考慮  テスト・品質保証の難しさ  訓練プログラム・訓練済みモデルの妥当性の確認の難しさ  振る舞いを完全に把握できない 30 機械学習の特徴 • データから予測・推論機能(関数)を自 動導出 • アルゴリズムで記述できない複雑な 推論を導出可能 • 関数の意味付けが困難 • 試行錯誤により適切な関数を発見 AIシステムの課題 • 妥当性の確認が困難 • 要求が不明確 • 実現可能性が不明確 • 試行錯誤の効率化が難しい • テストが困難  機械学習特有の脆弱性への対応  意図的に判断を狂わせる攻撃  訓練パイプラインの難しさ  発見的なプロセス、工数の予測が困難  コードの再利用の難しさ  データ処理に関するマネジメントの難 しさ  ツールの未成熟  機械学習のためのバージョン管理
  31. 開発の難しさ・ベストプラクティスの整理  Bernardi, L., Mavridis, T., & Estevez, P. (2019). 150 successful machine learning models: 6 lessons learned at Booking.com. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1743–1751).  booking.comにおけるベストプラクティスを整理  Vogelsang, A., & Borg, M. (2019). Requirements engineering for machine learning: Perspectives from data scientists. In Proceedings - 2019 IEEE 27th International Requirements Engineering Conference Workshops, REW 2019 (pp. 245–251). IEEE.  データサイエンティストの観点での要求工学を整理  Wan, Z., Xia, X., Lo, D., & Murphy, G. C. (2019). How does Machine Learning Change Software Development Practices? IEEE Transactions on Software Engineering, 1–14.  ソフトウェア工学の観点での課題を整理  Amershi, S., Begel, A., Bird, C., Deline, R., Gall, H., Kamar, E., … Zimmermann, T. (2019). Software Engineering for Machine Learning: A Case Study. 41st ACM/IEEE International Conference on Software Engineering (ICSE 2019).  マイクロソフトの機械学習プロジェクトにおけるプラクティスを整理 31
  32. MLSE研究会でアンケート実施概要  アンケート集計方法:Webのフォームによる記入  アンケート配布方法:MLSEコミュニティ、ソフトウェア工学関連の研究会、人 工知能学会、データサイエンティスト関連のメーリングリスト、SNSで案内を通 知  アンケート実施期間:  第1期: 2018年6月11日-6月24日  第2期: 2018年7月5日-7月22日  有効回答数:第1期:109回答, 第2期:169回答  https://sites.google.com/view/sig-mlse/発行文献?authuser=0 32
  33. 課題意識:フェーズ毎の意識の違い これまでの考え方がほとんど通用しなくなるので,根本的に異なる新たな考え方を用いる必要 がある(「新たな」とは,真に未知のものなどである必要はなく,提唱はされていたが主流と なっていなかったものなど) 考え方としてはそのまま適用でき,時間の問題であろうが,手法やフレームワーク,ツールな どの整備が未成熟である 特化した手法やフレームワーク,ツールなどがある程度すでに活用できる段階である これまで通りの手法やフレームワーク,ツールなどを用いればよい 不明・分からない (%) 0 20 40 60 80 100 120 プロジェ ク ト 管理 更新 問題の把握と 修正( デバッ グ) 運⽤ テスト , 品質の評価・ 保証 アーキテク チャ 設計 訓練データ の収集・ 選択・ ⽣成やその管理 開発運⽤に関し 顧客と ⾏う 意思決定 33
  34. 71 37.6 29 27.3 16.3 11.4 10.2 64.7 39 32 43.9 26.4 23 17.5 0 10 20 30 40 50 60 70 80 かかわったプロジェクトで重要になった品質特性 今後のプロジェクトで重要になる品質特性 品質特性の重要性に関する現在と将来の見通し (%) 34
  35. 自由記述  機械学習も理解できておらず、特に成果への期待が高すぎると感じます。  不確実性が問題となる  どの部分が不確実であるかを把握し、どのようにコントロールして品質を担保す べきかがよく分かっていないため。  なぜ上手くいくのかが説明しにくいため、挙動の安全性の担保が難しいため  出力の根拠を明確にすることが難しいため、見逃しがあったときの原因と対策に ついて、顧客への説明が難しい。 35
  36. 企業調査 POCの時と異なるデータセットが運用時に利用されることがある。本番時にPOCのと きに想定していなかったデータが入ってきた場合に、ベンダーとしての対応が難しい。 精度が違った場合の対応についても運用の契約に盛り込むようにしている。データの 入れ替えによって以前の挙動が変わっていることもあるということを理解してもらうよ うに努めている。 A社 B社 インプットデータとアウトプットデータが1:1に対応していないものなので、どのような設 計方針で作っていけば良いのかという指針が欲しい。現時点では人のスキルに任せ て問題解決をしている傾向にある。もっと、科学的なアプローチが必要と考えている。 B社 ドキュメント、技術移転、引き継ぎ。システムの場合はUMLなど言語レベルのサポー トがあるが、MLではまだそういうものがない。何をすればこうなるか、作られた過程が 残っていない。作った意図が後世に残せないことは大きな課題である。 A社 AIシステムの安全の考え方に関する体系的なものが欲しい。たとえば、フレームワー クがあると良い。また,品質につながるデータの分布がどうあるべきなのか、また、 データをどういう観点で評価すれば良いのかなど、指標が欲しい。 C社 学習に必要なデータの取り方に関するガイドラインを策定している。ただし、社外秘で ある。最先端の研究成果を取り入れる場合もあるが、現時点では量産チームの経験 則を積み上げた形のものである。 C社 品質保証 効率と生産性 我々が実施した企業調査より抜粋 A社:大手AI提供者,B社:大手SI提供者,C社:大手メーカー 2019年2月にインタービューを実施 36
  37. その他のコメント  説明性・解釈性  作成した機械学習アルゴリズムが誤った答えを出す場合もある。そ うした場合、原因の把握は容易ではないと各社は語っている。多く の機械学習アルゴリズムは、教師データを使って学習し、仮想の“ブ ラックボックス”内で予測を行うため、その過程をたどることが難し い。この説明性・解釈性に関する科学的なアプローチを強く求めて いた。  ルールベースと機械学習の融合  説明性・解釈性の観点から、ルールベースシステムと機械学習を融 合するというアプローチを取るケースもあるという。それぞれの特 徴を活かしつつどのように融合、組み合わせていくかは一つの研究 課題と言える。 37
  38. 訓練結果のモデルの妥当性確認の難しさ https://twitter.com/_gyochan_/status/938240168078622720 HONDAの標識認識機能の注意点 https://www.honda.co.jp/hondasensing/feature/srf/ 38
  39. あなたは自動運転システムを開発中です DNNで歩行者を認識して、ブレーキ操作する システムが安全に止まるかどうかテスト 39
  40. 結構良い性能が出てていて信頼性は確保できそう Yolo v3をMS COCOで訓練したモデルを利用 BDD100K: A Large-scale Diverse Driving Video Database: https://bair.berkeley.edu/blog/2018/05/30/bdd/ Caltech Pedestrian Detection Benchmark: http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/ 40
  41. 交差点のシーンで確認 目標通り横断する歩行者の識別率は90%以上達成! 41
  42. えっ、なんで??? 42
  43. 認識しても良さそうな人を認識できてない このシステム、本当に安全なんだろうか? 歩行者の識別率は90%以上達成しているが、、、 43
  44. AIソフトウェアの開発と セーフティの課題 訓練パイプラインの構築 AIシステ ムの要求 AIシステ ムの設計 AIシステ ムの実装 単体検査 結合検査 受け入れ 検査 運用 AIサービ スの企画 推論パイプラインの構築 とデプロイ 機械学習コンポーネントの構築 機械学習 の要求 データ収集・ 整理・加工 訓練 推論結果 分析 システムの改善 実現可能性検証 (PoC) AIシステムのライフサイクル 機械学習の改善 組み込み 保証範囲が不明 確 要件 重要な場面での動作を担保できない 原因分析と対策ができない 修正時 学習データの妥当性が不 明 学習データが不 足 学習データの収集コストが 大きい 学習データ収集 時 モデルのアップ デート 不要動作を保証できな い 安全な停止を保証でき ない 製品確認時 テストの妥当性が不明 セキュリティを担保で きない 保証のコストが大き い 44
  45. 品質保証の難しさ システムに組み込む訓練済みモデルの品質は様々な要素に影響される  訓練アルゴリズムの保証の難しさ  データ品質の保証の難しさ 訓練済みモデル 訓練プログラム 訓練用データセット ハイパーパラメータ テスト用データセット テスト プログラムの正しさの 確認が困難 推論の正しさの 確認が困難 データの妥当性が不明 45
  46. DNNだと何が難しいのか? 対象世界の広がり:実行環境・状況の複雑さ、不確かさ 実現に関する難しさ: 1. DNNで訓練されたモデルの複雑さ、意味付けの難しさ 2. 訓練済みモデルの制御した変更の難しさ 3. DNN特有の脆弱性 複雑なルールの組み合わせを自動で導出 どのような対象世界か不明、可能性が膨大 やってほしいこと (仕様) 自動運転システム DNN DNNの脆弱性に 起因したリスク 実行環境・状況に 起因したリスク 46
  47. 不確かな状況への対応 Czarnecki, K., & Salay, R. (2018). Towards a Framework to Manage Perceptual Uncertainty for Safe Automated Driving. International Conference on Computer Safety, Reliability, and Security, 439–445. 開発時 運用時 状況やシナリオ の規定 概念定義 センサーデータ センサーの チャネル 部分的な意味 (事例) 訓練とテスト データへの ラベリング 要因1 要因 2 要因 3 要因 4 要因 5 状況やシナリオ の規定 概念定義 センサーデータ センサーの チャネル 認知結果 推論 推論結果 要因 1 要因 2 要因 3 要因 4 ドリフト 訓練済み モデル 要因 7 要因 6 モデルの選択、 訓練とテスト 47
  48. DNNで訓練されたモデルの複雑さ、意味 付けの難しさ 今泉, 深層学習の汎化誤差のための近似性能と複雑性解析, IBIS2019 どこが境目なの? どういう場合分け? どこでどういう特徴を捉えているの? 48
  49. DNNの脆弱性:Adversarial Examples (敵対的標本) Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Song, D. Robust Physical-World Attacks on Deep Learning Models, CVPR 2018 Carlini, N., & Wagner, D. (2017). Towards Evaluating the Robustness of Neural Networks. Proceedings - IEEE Symposium on Security and Privacy, 39–57. 49
  50. 50 https://www.technologyreview.jp/nl/hackers-trick-a-tesla-into-veering-into-the-wrong-lane/ 50
  51. アプリケーション事例と脅威例 アプリケーション事例 脅威例 自動運転車 故意に交通事故を起こし、人命を 奪う チャットボット 人権侵害を侵害するなどの不適切 な発言を起こさせ、サービスを停 止に追い込む 製品・サービスの異常や故障の検 知 異常や故障を見逃すようにし、損 害を与える パーソナルアシスタント 誤認識によるなりすましや登録し た個人情報の流出 顔認証を使ったサービス 誤認識させ、サービス利用を阻害 する。なりすましによる不正な サービス利用。 メールフィルタリング フィルタリングの誤判断により メールの利便性が落ちる 51
  52. プライバシー・機密情報の問題  個人情報・機密情報を使って訓練  訓練に使った元データを推測 顔を認識する訓練済みモデル 訓練データ Fredrikson, M., Jha, S., & Ristenpart, T. (2015). Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures. Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security - CCS ’15, 1322–1333. 52
  53. ユーザから人種差別の会話を学習 数時間でサービスを停止 https://gigazine.net/news/20160325-tay-microsoft-flaming-twitter/ 53
  54. 機械学習工学の動向 54
  55. 2018年度に設立 3000人以上の コミュニティ メルシー https://sites.google.com/view/sig-mlse https://mlxse.connpass.com/ 55
  56. 機械学習工学に関連するその他の活動  機械学習品質マネジメントガイドライン  https://www.cpsec.aist.go.jp/achievements/aiqm/  AIプロダクト品質保証ガイドライン(QA4AI)  http://www.qa4ai.jp/download/ 研究プロジェクト  NEDO 「人と共に進化する次世代人工知能に関する技術開発事 業/実世界で信頼できるAIの評価・管理手法の確立/機械学習 システムの品質評価指標・測定テストベッドの研究開発」  JST 未来社会創造事業「機械学習を用いたシステムの高品質 化・実用化を加速する“Engineerable AI”技術の開発」  JST CREST「信頼されるAIシステムを支える基盤技術」 56
  57. データの品質ガイドライン例  (a) 学習データの量の十分性  (a.i) 想定する学習手法の適用前提や統計的観点から十分な量 のデータがあるか.  (a.ii) 想定する要求・適用環境において,希少な状況や分類 クラスの偏りがある場合で あっても,それらに対して十分な 量のデータがあるか.  (a.iii) データ量が少ない場合,「かさ増し」(人工的なデー タ生成など)で補完が可能か.  (b) 学習データの妥当性  (b.i) 想定する要求・適用環境に意味の観点から対応した適切 なデータとなっているか.  (b.ii) 要求・適用環境の想定にそぐわないデータが入ってい ないか.  (b.iii) 人工的に作成・加工したデータについても,要求・適 用環境を適切に表現している といえるか.  (b.iv) データの収集等の費用対効果の観点からも適切である か.  (c) 学習データの要件適合性  (c.i) データに関するステークホルダーの要求事項を満たして いるか.  (c.ii) データが満たすべき不変条件や整合性条件,学習対象と なる判断の公平性,個人 情報の有無など,データに対する制 約を満たしているか.  (d) 学習データの適正性 AIプロダクト品質保証コンソーシアム. (2021). AI プロダクト品質保証ガイドライン 2021.09版. 57  (e) 学習データの複雑性  (e.i) 学習させたい推論機能に対して,必要以上の情報量や 傾向を含む複雑なデータと なっていないか.  (e.ii) データを単純化しすぎて,必要な情報が入っていない ことはないか.  (f) 学習データの性質の考慮  (f.i) 想定する学習手法の適用前提となるようなデータの性 質(多重共線性など)は適切に考慮されているか.  (g) 学習データの値域の妥当性  (g.i) データに含まれている値は,対象ドメインの知識など と照らし合わせて現実的に発生する妥当な値となっている か.  (g.ii) 外れ値と欠損値と判断した値は,真に現実的な値では なく取り除くべきであるこ とを確認したか.データを取り 除くための前処理は適切であったか.  (h) 学習データの法的適合性  (h.i) データの利用が契約や第三者の知的財産権により制限 されないか、データの利用 に法令上、倫理上の問題はない か、プライバシー等への配慮が必要ないか.  (i) 検証用データの妥当性  (i.i) 学習用データと検証用データは独立しているか.
  58. 研究動向 58
  59. 0 50 100 150 200 250 300 350 論文発表年 論文数 品質リスク XAI QAI 平成30年度成果報告書 産業分野における人工知能及びその内の機械学習の活用状況及び 人工知能技術の安全性に関する調査, 新エネルギー・産業技術創業開発機構 (2019) https://www.nedo.go.jp/library/seika/shosai_201907/20190000000685.html AI研究における品質リスクの研究 59
  60. 品質リスクに関する論文 分類 キーワード 出現数 出現率 QAI safety 228 12.3% responsible 114 6.2% trustworthiness 17 0.9% reliability 383 20.7% reliable 528 28.5% XAI transparency 49 2.6% transparent 53 2.9% black box 83 4.5% interpretable 208 11.2% interpretablity 168 9.1% explainable 23 1.2% expainability 5 0.3% accountability 5 0.3% comprehensible 57 3.1% 公平性 fairness 81 4.1% 平成30年度成果報告書 産業分野における人工知能及 びその内の機械学習の活用状況及び人工知能技術の安 全性に関する調査, 新エネルギー・産業技術創業開発 機構 (2019) https://www.nedo.go.jp/library/seika/shosai_201907/2 0190000000685.html 60
  61. 機械学習工学関連の研究  2018年(MLSE設立時)から急激に研究が増えてきている 61
  62. 機械学習のテストに関する論文数の推移 0 20 40 60 80 100 120 140 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 機械学習のテストの論文数 論文発表年 論文数 Zhang, J. M., Harman, M., Ma, L., & Liu, Y. (2018). Machine Learning Testing : Survey , Landscapes and Horizons, IEEE Transactions on Software Engineering (2022), pp. 1-36, vol. 48 62
  63. 機械学習工学研究の動向 新しく立ち上がった国際会議  The AAAI's Workshop on Artificial Intelligence Safety (SafeAI), AIコミュニティ(AAAI), 2019-: https://safeai.webs.upv.es/  International Workshop on Artificial Intelligence Safety Engineering (WAISE), 信頼性コミュニティ(SAFECOMP), 2018-: https://www.waise.org/  AISafety Workshop@IJCAI, AIコミュニティ, 2019-: https://www.aisafetyw.org/  2020 USENIX Conference on Operational Machine Learning, エンジニアコミュニティ: https://www.usenix.org/conference/opml20  1回だけ開催?  The Conference on Systems and Machine Learning (SysML), 機械学習コミュニティ, 2018-: https://mlsys.org/  International Workshop on Machine Learning Systems Engineering (iMLSE)@APSEC, 機械学習工学研究会, 2018, 2020, 2021: https://sites.google.com/view/sig-mlse/  Workshop on Explainable Artificial Intelligence (XAI), AIコミュニティ, 2017-: https://sites.google.com/view/xai2022 Safe AIに関するセンター  Center for AI Safety (Stanford University, USA): http://aisafety.stanford.edu/  PRECISE Center of Safe AI (University of Pennsylvania, USA): https://precise.seas.upenn.edu/safe-autonomy コミュニティ  The Software Engineering for Machine Learning Applications (Polytechnique Montreal, Canada) 63
  64. 最近のソフトウェア工学系の研究 1. テストの自動化の研究が多い 2. WSレベルではテストの妥当性の議論もされている 3. 原因追求に関してはサーベイ・ガイドラインレベルが出てきた 4. DNNの自動修正が出てきた ML系の研究ではセキュリティ・ロバストネス・フェアネス(公平性)の観点での妥 当性検証が多い 64
  65. 保証範囲の明確化 65 Rahimi, M., & Chechik, M. (2019). Toward Requirements Specification for Machine-Learned Components. In 27th International Requirements Engineering Conference (pp. 241–244). 65
  66. 訓練済みモデルのさまざまな確認方法 Ribeiro, M. T., & Guestrin, C. (2016). “Why Should I Trust You?” Explaining the Predictions of Any Classifier. In the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’16 (pp. 1135– 1144). 出力に寄与している入力を抽出 出力に寄与している訓練データを抽出 Pang Wei Koh, Percy Liang, Understanding Black-box Predictions via Influence Functions, Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1885- 1894, 2017. XAI(Explainable AI)の研究として盛ん 66
  67. 解析可能なモデルを変換・抽出 67 WFAで モデル抽出 Takamasa Okudono, Masaki Waga, Taro Sekiyama, Ichiro Hasuo: Weighted Automata Extraction from Recurrent Neural Networks via Regression, AAAI 2020 Satoshi Hara, Kohei Hayashi, Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach, Proceedings of the Twenty-First International Conference on Artificial Intelligence and Statistics, PMLR 84:77-85, 2018. 場合分けを大まかに理解する 67
  68. DNNの中身を調べ理解する研究 http://shixialiu.com/publications/cnnvis/demo/ 68
  69. DNNの怪しそうなパラメータの発見、再 学習 Hao Zhang, W.K. Chan, Apricot: A Weight-Adaptation Approach to Fixing Deep Learning Models. (ASE2019) 69
  70. 訓練済みモデルをテストする技術 課題:  テストの必要性・十分性が不明、従来のカバレッジが通用しない  誤判断がバグとは言えない!正解率をどう扱うのか? 有望な技術:  メタモルフィックテスティング  「入力に対して特定の変換をしたときに出力がそれに応じてこう変化するはず」という ルールを利用  サーチベースドテスト  最適化技術を使って「特定の条件に近いテストケース・テストスイート」を探す  例)最も車が人に近づく(危険性が高くなる)状況のテスト 70
  71. メタモルフィックテスティング 71 詳しくは情報処理2019年1月号 「機械学習工学」特集 71 訓練済み モデル 入力 推論結果 x g(x) 犬 犬 f(x) f(g(x)) (例)gは画像の回転の時 R関係は f(x)=f(g(x)) (同じ推論結果となる) R 入力をgで変換した場合 推論結果はR関係となる = 犬という正解を知らなくてもテスト可能
  72. 原因追求:原因、不都合の分類 72 Nargiz Humbatova, Gunel Jahangirova, Gabriele Bavota, Vincenzo Riccio, Andrea Stocco, Paolo Tonella, Taxonomy of Real Faults in Deep Learning Systems, ICSE 2020 Md Johirul Islam, Rangeet Pan, Giang Nguyen, Hridesh Rajan, Repairing Deep Neural, Networks: Fix Patterns and Challenges, ICSE 2020 72
  73. 原因追求: 意味を考えて何を間違いやす いか分析 73 Cynthia C. S. Liem and Annibale Panichella, Oracle Issues in Machine Learning and Where to Find Them, 8th International Workshop on Realizing Artificial Intelligence Synergies in Software Engineering, 2020
  74. 機械学習応用システムのビジネス戦略 https://www.mitsubishichem-hd.co.jp/news_release/00837.html
  75. 今後有望な研究 75
  76. 今後有望な研究  DNNの訓練の理解: リバースエンジニアリング  シナリオベースの影響分析 ⇒ 説明性(XAI)の研究 抽象化  DNNからの解析可能なモデルを生成・変換 微調整  訓練済みモデルの解析と修正  セマンティクスを考慮したDNN(知識融合型訓練)  解析しやすい・分割しやすい・解釈性が高いDNNアーキテクチャ  不正解のリスク、正解の価値を考慮した訓練  機械学習の最新セキュリティ研究が実際のAIシステムにどこまで有用かの評価と整理  敵対的標本がAIシステム上どれくらいリスクとなり得るかを整理 76 DNN(関数)と意味モデル(セマンティクス)と のギャップを埋める
  77. エンジニアリングの高度化 エンジニアリングのレベル 安全性、再利用性、メンテナンス性などが高い 自動化の度合い ガイドライン デザインパターン 技術者の活動 を補助 事例 一部の活動を 自動化 工学技術 多くの活動を 自動化 レビューツール 検証ツール コンフィグレーションツール 自動生成ツール リコメンド ツール モデリング ツール 技術者向けXAI技術の活用 DNNモデル抽出 手法 DNN検証手法 制約を満たすDNN構築 自動修正 ツール 機械学習 工学技術 ライブラリ フレームワーク 77
  78. 機械学習と形式知の組み合わせ 78 Logic 学術的特徴・普遍性 機械による知識獲得 人による知識獲得 ML Model Art Logic あらたなプログラミングパラダイム
  79. ソフトウェア工学と機械学習の融合 ソフトウェア工学 機械学習 演繹的パラダイム (トップダウン) 活動 活動 帰納的パラダイム (ボトムアップ) 活動 統計的性質・理論 機械学習理論の組込み 演繹と帰納を統合した 安全性分析・保証、再利用 安全性を分析しやすい機械学習 再利用しやすい機械学習 活動 活動 活動 工学的観点からの機械学習の 再整理、構築 制約範囲内の学習 知識獲得 エンジニアリング可能な機械学習! ML特有の不確実性を克服 79
  80. エンジニアリング可能な機械学習 性能 工学的観点(安全性、再利用性、メンテナンス性など) (D)NN エンジニアリング可能な (D)NN アンサンブル エンジニアリング可能 なアンサンブル学習 SVMs エンジニアリング可能な SVMs 決定木(DT) エンジニアリング可能なDT プログラミン グ 価値を出せる最低性能 運用可能なシステム エンジニアリング可能 な機械学習 高安全な機械学習 80 機械学習を用いたシステムの 高品質化・実用化を加速する "Engineerable AI”(eAI)技術の開発
  81. まとめ  機械学習システムと機械学習工学  機械学習システムの開発の従来との違い  データに関するプロセス、試行錯誤のプロセス  機械学習システムの開発の難しさ  要求の難しさ  実現可能性  安全性確保の難しさ  テスト・品質保証の難しさ  新たなセキュリティ・プライバシーの問題  機械学習工学の動向と今後の方向性  演繹と帰納のパラダイム融合  決定的モデルと確率・統計的モデルの融合  機械学習とシステムのライフサイクルの融合 81 AIプロジェクトマネージャのための機械学習工学 吉岡信和,鷲崎弘宜,内平直志,竹内広宜, 科学情報出版株式会社, 2023年1月
  82. お断り  推論に使った訓練済みモデルは、Yolo v3をCOCOで訓練させたモデルです。  そのため、現実的でない訓練モデル・訓練データの可能性があります  例に出した写真は以下のオープンデータセットに含まれているものです。研究目 的以外には使えません。利用制限に関しては各オープンデータのサイトを御覧く ださい。  BDD100K: A Large-scale Diverse Driving Video Database: https://bair.berkeley.edu/blog/2018/05/30/bdd/  Caltech Pedestrian Detection Benchmark: http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/ 82
Publicité