[한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션

PART I – JOURNEY TO AI
• Case Study : Trusting AI to save lives in India
• What is AI?
• AI로 향하는 여정
• AI 모델의 Build, Deploy 및 Operation
PART II – TRANSPARENT AND TRUSTED AI
• 데이터 가상화 및 카탈로그
• 투명하고 신뢰할 수 있는 AI
• Watson AI Services

인간의 생명과 관계된 AI, 신뢰할 수
있을까요?
6,000명의 환자당 한 명의 심장병 전문의만
있기 때문에, 인도의 가장 시급한 건강
문제인 심장병을 다룰 전문가가 충분하지
않음
의료 기술 회사인 iKure는 웨어러블 기술과
머신러닝을 통해 심각한 격차를 해소할 수
있다고 판단하고 구현

https://www.youtube.com/watch?v=-CIz58-YzHQ&t=7s

Operational BI and Data
Warehousing
Self-Service
Analytics
New Business
Models
TRANSFORMATION
Value
MODERNIZATIONCOST REDUCTION INSIGHT-DRIVEN
64%
are here
90%
data에 보다 많은
투자를 할 계획
85%
AI를 전략적
우선순위로 보고
있음
AI
기업들은 Data와 AI를 최우선으로 선언

Artificial Intelligence
Machine Learning
Deep Learning
NLP
What Is AI?

Data Predictions
& Decisions
“Computers that learn without being explicitly programmed,
using algorithms to understand patterns in data”
𝑓(𝑥) = &
'()
*
𝑎' 𝑦' 𝑥'
-
𝑥 + 𝑏
What is Machine Learning?

Obtaining optimal Weight and Bias values for each node that constitutes
the Neural Network through training with huge amount of data
F(x) = Wx+b
What is deep Learning?

툴 & 인프라
•“Fail Fast” 접근을
가능하게 하는 환경
필요
•각각의 분산되어
있는 툴들의
사용으로 인한
생산성 향상 저하
거버넌스
•Self-Service 분석 및
활용을 위해서는 쉬운
데이터 검색을 위한
데이터 카탈로그가 필요
•데이터의 계보와 이를
통한 데이터의 일관성
확보 필요
스킬
•데이터 사이언스 기술은
많은 수요에 비해 낮은
공급
•새로운 데이터 전문가
육성은 도전적인
일입니다.
데이터
•사일로 형태로
저장되어 있고 &
액세스가 제한적
•비정형과 외부
데이터에 대한 고려
필요
단순히 데이터 저장소를 위한 데이터 레이크를 구축하는 것만으로는 성공하기
어렵습니다.

AI로 향하는 여정을 가속화하기 위한 전략
COLLECT - Make data simple and accessible
ORGANIZE - Create a business-ready analytics foundation
ANALYZE - Build and scale AI with trust & explainability
INFUSE - Operationalize AI throughout the business
AI
MODERNIZE
Unlock the value of data for
an AI and multicloud world
One Platform,
Any CloudTalent, Skills and
Expertise
The AI Ladder

12
Pre-built Use Cases
Watson Applications
Hybrid Data Management
Db2 Family
Data Ops & Governance
InfoSphere Family
Watson
Machine
Learning
Watson
Knowledge
Catalog
Watson
Studio
Watson
OpenScale
Prepare Build ManageRun
The IBM Data and AI Portfolio
Everything you need for enterprise AI, on any cloud
Talent &
Skills
Unified Hybrid Data and AI Platform
Cloud Pak for Data
Hyperconverged
System

§ 오픈 소스를 활용하고 싶은데 개발환경을 구성하고 유지하기가
어려워요.
§Machine Learning / Deep Learning 모델을 training할
환경을 관리하기 어려워요.
§팀 프로젝트로 구성하고 관리할 방법이 필요해요.
§Machine Learning / Deep Learning 모델 개발이 어려워요.
§개발한 모델을 어떻게 관리 해야 하나요?
§모델에 사용할 데이터는 어떻게 관리하죠?
§개발한 Asset들을 효과적으로 공유할 수 있는 방안이 있을까요?
§Machine Learning / AI 모델을 신뢰할 수 있을까요?

• 오픈 소스를 활용하고 싶은데 개발환경을 구성하고 유지하기가 어려워요.
• Machine Learning / Deep Learning 모델을 training할 환경을 관리하기 어려워요.
• 팀 프로젝트로 구성하고 관리할 방법이 필요해요.

Machine Learning / Deep Learning 모델 개발이 어려워요.
• Open Source Framework
• Visual Modeler
• AutoAI

개발한 모델을 어떻게 관리 해야 하나요?
• Realtime Scoring
• Batch Scoring
• Model Evaluation
• 운영환경으로 Model 배치

•Watson AI service integration
•Supporting the whole DS Lifecycle
- Projects and Version Control
- Continuous engineering(CI/CD)
- Model Management & Deployment à
MMD
•Relational & Hadoop data sources
connectivity
•Spark service available
•Compute Elasticity support, manage
CPU/GPU & memory resources
•Visual workflow for Machine learning
Community Open Source IBM Added Value
•Find tutorials and datasets
•Connect with other Data Scientists
(Collaboration)
•IBM ML Hub for expert assistance
•Open Source evangelism
•Fork and share projects, samples
•Code in Scala/Python/R/SQL
•Zeppelin & Jupyter Notebooks
•RStudio IDE
•Anaconda distribution
•Add your favorite libraries
Build, Deploy, Learn
Watson Studio

Part II – Transparent & Trusted AI

모델 개발에 사용할 데이터는 어떻게 관리하죠?
개발한 Asset들을 효과적으로 공유할 수 있는 방안이 있을까요?

• 수많은 ETL 작업
• 현업의 더 많은 데이터 뷰에 대한 요구로
인한 불필요한 데이터 중복 및 복제
• 데이터 거버넌스 이슈

Data가 어디에 존재하는지 알 필요 없이도 data를 view, access 및 analyze할 수 있는 능력
Data 가상화는 서로 다른 유형의 data source를 아울러서 data를 옮기거나 복제하지 않고
통합한 logical view를 만드는 것

Consumer Layer
(Interface Provisioning)
Applications
Mobile
Apps
Analytics
Tools
Portals Web
Services
Virtualization Layer
Caching &
Optimization
Connection Layer
(Adaptors)
Governance Catalog
(Metadata)
Consumers
Data Sources
Warehouses
Marts
Cloud
Application
s
Web
Services
Lakes
Files
NoSQL
Virtualization
Platform

Knowledge Catalog
Seek, Classify, Govern
There is no AI without an IA

Zipline is AirBnB’s internal feature store. Previously ML practitioners spent
roughly 60% of their time on collecting and writing transformations for machine
learning tasks. Zipline reduces this task from months to days
https://medium.com/airbnb-engineering/using-machine-learning-to-predict-value-of-homes-on-airbnb-9272d3d4739d
Uber’s internal Michelangelo platform has approximately 10,000 features in a feature
repository used by teams across the company which add new ones all the time. Features
in the Feature Store are automatically calculated and updated daily.
https://medium.com/intuitionmachine/google-and-ubers-best-practices-for-deep-learning-58488a8899b6
Feature engineering 은 시간이 너무 많이 소요되며 Feature 공유는 ML 시스템을
운영하는데 대단히 중요함.

• 팀이 머신러닝 문제에 대해 엄선된
feature set을 공유, 검색 및 사용할 수
있도록 하는 feature store.
• Uber의 많은 모델링 문제가 동일하거나
유사한 feature들을 사용한다는 것을
알게 됨
• 팀이 자신의 프로젝트 및 다른 조직의
팀 간에 feature들을 공유할 수 있도록
지원하는 데 있어 상당한 가치
Uber의 데이터 준비 파이프라인은 데이터를 Feature Store 테이블과 학습
데이터 저장소로 밀어넣음

Machine Learning / AI 모델을 신뢰할 수 있을까요?

https://www.youtube.com/watch?v=rBe6KY5Mv-o

SCENARIO
신용대출회사 대출 신청 고객
대출
data science
team
risk
model
대출기관 데이터
3rd party data
INCREASE
LOANS
REDUCE
RISK

소비자는 관련된 “논리에 대한 의미 있는 정보뿐만 아니라 데이터 주제에 대한 해당
처리의 중요성 및 예상 결과”에 액세스할 수 있는 권리가 있다
은행이 신용을 거부할 경우, 신청자가 거절된 구체적인 이유를 신청자에게 제공해야
한다.
– Articles 12-15, General Data Protection Regulation (EU)
대법원은 2015년 판결에서 원고는 어떤 정책이 보호계층에 차별적 영향을 미친다는
사실만 보여주면 되고, 차별이 의도적인 것까지 증빙할 필요는 없다는 입장을 고수했다.
– Fair Credit Reporting Act (United States)
– Texas Department of Housing and Community Affairs v.
Inclusive Communities Project (United States)

60% 규제로 인한 제약이 AI구현의 장벽이라고 함
63% 테크니컬 스킬이 AI구현의 걸림돌이라고 함
Very difficult
비즈니스 성공에 대한 기여도를 측정할 수 있는 추적하고
측정하는 것이 대단히 어렵다고 함
- IBM IBV AI 2018

추가 데이터
전통적인 신용
이력
>1,000 features
대출기관 데이타
대출 신청
고객 정보
•급여지급일 대출
•전기/상수도/가스 요금청구서
•전화 요금청구서
•인터넷 요금청구서
•…
• 구매 이력
• SAT scores
• 낚시 면허와 같은 공개 데이타
• 문서와 문자 메시지의 문장
• …
Source: https://www.npr.org/sections/alltechconsidered/2017/03/31/521946210/will-using-artificial-intelligence-to-make-loans-trade-one-kind-of-bias-for-anot
데이터에는 잠재적인 편향 요소가 포함되어 있을수 있음

approve
with confidence 75%
대출 심사
담당자
신용 리스크
모델
BLACK BOX는 강력하지만 제한적
단지 이렇게 표현할 수 밖에 없음 ”75%의 신뢰도로 승인"

1. Prediction-Time Granular Explanations
비즈니스 의사결정은 단순한 백분율이 아닌 의사 결정에 대한 세밀한
설명을 요구함
3. Build-Time Debugging
모델은 디버깅이 어렵고 다중 feature에 영향을 받는 예측을
개선하기 어려움
2. Post-Prediction Compliance
규제 요구와 법률적 질의 사항을 충족하기 위해 며칠 또는 몇 달
전에 한 예측에 대해 설명할 수 있음
business owner
business app user
data scientist /
business app
developer
모델 동작논리에 대하여 설명이 필요한 세가지 용도

Watson Studio
Deploy, Operationalize, Automate
AI OpenScale
Knowledge Catalog
투명하고 신뢰할 수 있는 AI

IBM의 AI기술을 어떻게 활용할수 있을까요?

Watson Studio
AI Designed
for Business
Watson API
AI OpenScale
Knowledge Catalog
AI Ecosystem with Watson

Watson
Discovery
Knowledge Studio Language Translator Machine Learning
Natural Language
Classifier
Natural Language
Understanding
Personality Insights Speech-to-Text Text-to-Speech
Tone Analyzer
Visual Recognition
Watson
Assistant
AI Designed
for Business
Watson API

https://www.ibm.com/watson/services/visual-recognition/demo/#demo

APPEA Award press release : https://www.appea.com.au/media_release/smart-safety-systems-earn-woodside-an-appea-award

Live Demo – Watson Health & Safety Insights

Deploy Trusted AI-Driven Business Processes
Watson Studio
AI Designed
for Business
Watson API
AI OpenScale
Knowledge Catalog
Cloud Pak for Data
Multicloud Data Fabric for AI

1. 개요
IBM Watson Studio는 다양한 오픈소스와 데이터
사이언스 도구를 제공하는 기업용 데이터 사이언스
플랫폼입니다. Data Science Experience Day는 효과적인
데이터 소스 관리, 오픈 소스를 포함한 다양한
프레임워크를 이용한 머신러닝 및 인공지능 모델을 개발
및 배치하는 방법을 실습합니다. 이러한 과정을 통해서
기업에서 효과적인 데이터사이언스 프로젝트 수행 방안에
대한 전반적인 이해를 돕는 프로그램입니다.
2. 대상
기업에 근무하시는 데이터 사이언티스트, 데이터
엔지니어 또는 데이터 사이언스 애플리케이션 개발자 및
아키텍트
3. 시간
세션은 1 day (09:30~17:00)구성되며, 실습위주로 진행이
됩니다.
4. 세션 구성
ü Data Science Project Overview
ü Building Machine Learning Models
ü Deploying Trained Models
ü Data Preparation
ü Trust and Transparency of AI
ü Discussion & Wrap Up

https://www.ibm.com/kr-ko/campaign/dafData and AI Forum by IBM

https://www.ibm.com/cloud/watson-studio

[한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션

[한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à [한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션

Similaire à [한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션 (20)

Plus de Sejeong Kim 김세정

Plus de Sejeong Kim 김세정 (11)

[한국IBM] AI활용을 위한 머신러닝 모델 구현 및 운영 세션