SlideShare une entreprise Scribd logo
1  sur  136
1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
From Data Literacy
To Data Fluency
2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• 양승준: 아이디케이스퀘어드(IDK2 - I Don’t Know What I Don’t Know) 대표
• 서비스: HEARTCOUNT, Augmented Analytics for Enterprise (SaaS)
IT 빗
Algo-Trading
Enterprise IT
Small
Data
Big
Data
인터넷
• 경력
1998 2000 2001 2003 2013 2015
강사 소개
3 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
강의에서 다룰 내용
BASIC SKILL
DATAMIND ContextTOOL
4 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
문제 데이터 분석 활용해석
데이터 분석 과정
의심하고 근거를 찾고 설득하고 바꾼다
Biz Relevancy
Data Problem
Features &
Blending
Statistics
ML
Data
Storytelling
Practical
Significance
5 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
가. 비지니스 이해
• 비지니스 요구사항
• 분석 목표 수립
Non-Obvious & Useful
Pattern
• 문제(질문) 정의
나. 데이터 이해
• 수집 (collection & blending)
• 기술 (descriptive analysis)
• 탐험 (exploratory analysis; data viz.)
• 품질 (outliers & missing values)
• 가공 (feature engineering)
다. Modeling 및 해석
• ML 알고리즘 선택 (설명 vs. 예측)
• 모형 수립 및 성능 평가
• 모형 해석
Statistical significance
Practical significance
라. 활용 (Deployment)
• 보고; 인사이트 공유
• 의사결정 자동화
Technical & procedural
integration
• 주기적 성능 모니터링
데이터 분석 과정 (*CRISP-DM)
*강의 범위
6 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터가 답할 수 있는 질문: 적절한 데이터와 분석방법
Frame Real-World Problem into Data Problem
데이터 분석 목표: A Successful Data Analysis
뻔하지 않은 쓸모있는 패턴
Non-Obvious & Useful Pattern
피보고자가 분석결과 수용(활용)
Audience Accepts the Results
7 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에 답이 없는 질문
번지수
끝자리
지붕 색상 가격(억)
3 빨강 9.5
7 주황 3.5
2 노랑 3.2
1 빨강 3.5
4 파랑 4.7
. . .
Machine
Learning
Algorithm
Model ???
Training Data Set
Machine Learning is not a Magic, but a Math
주어진 데이터(번지수, 지붕 색상)가 문제(집값 예측)를 해결하는데
사람에게 소용없다면 기계에게도 마찬가지
사람이 풀 수도 있는 문제를
기계가 더 빠르고 다양한 관점으로 냉정하게 풀게하자.
8 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터만으로 답할 수 없는 질문
폭력적 게임을 하면 더 폭력적이 되나?
① 개념(Concept)을 정량화하는 일의 주관성
• 폭력적 게임을 정의할 수 있나?
• 현실에서의 폭력성을 어떻게 계량화하나?
② 인과성을 증명할 수 있나?
• 공격적 성향의 아이가 폭력적 게임에 더 끌림?
• 통계적 상관관계로 인과성에
대해 주장할 수 없음
• 숫자로 환원된 분석 결과는
복잡한 진실에 대한 단면적 요약
폭력적 게임
폭력적인 아이
9 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
좋은 질문(문제 정의)
A. 작년 여자 영업사원의 평균 매출이 남자 영업사원 평균 매출의 80% 정도였다.
B. 작년에 신규 출시한 탈모 치료제의 경우 연구소 출신 여자 영업사원의 매출이
평균 매출의 350%에 달했다.
정보량이 큰(뻔하지 않은) 분석결과
• 뻔한 질문(예, 남녀 영업직원 간 매출 차이가 나는가?)에 대한 답변은 정보량도 낮
음
• 엔트로피(불확실성)가 높은 불확실성이 큰 사안에 대한 질문(예, 탈모 치료제를 많
이 판매한 직원들의 공통된 특성은 무엇인가?’)에 대한 답변은 정보량이 큼
A. 평균 직원 나이가 상위 10%에 속하는 매장들의 평균 인건비 지출이 전체 매장
평균 인건비 지출액보다 20% 높았다.
B. 55세 이상인 직원이 한 명 이상 근무하는 매장은 그렇지 않은 매장과 비교해
매출은 15%, 고객 만족도는 25% 높았다.
A. 내일 아침에 동쪽에서 해가 뜰 것이다. = 정보량 빵임
정보 = 특정 질문에 대한 답변
10 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
좋은 질문(문제 정의)
Good Data Problem
• 작고 구체적인, 덜 뻔한(엔트로피가 큰) 질문
• 이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제
• 신뢰할 수 있고 익숙한 데이터에서 시작
• 확보 가능한 데이터에 대한 이해 없이 문제부터 정하면 필요한 데이터를 추
가로 수집, 준비하느라 프로젝트 일정이 지연되거나 나쁜 분석 결과가 나오
기 쉬움
• 바람직한 답변이 없고 너무 민감하지는 않은 문제
• 바람직한 답변이 이미 마음 속이나 조직 내에 정해져 있는 경우
• 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분
석 및 결과 해석 과정에서 객관성이 흔들릴 수 있음
• 본인 문제(내 호기심) 말고 비즈니스 문제
• Business Top-Line(매출, 이익, 고객수, NPS, 생산성 등) Alignment
11 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에서 유용한 답을 찾을 수 있는 문제
856명에게 전화걸어 르완다 전체 지역별 소득수준 분포 확인하기
빅데이터와 스몰 데이터의 결합
맹목적으로 쌓인 빅데이터 + 목적을 갖고 수집한 스몰 데이터
Ready-made(Exhaust) Data + Custom-made(Captured) Data
CDR(가입자 통화내역) + Survey(소득수준 전화설문)
Data Science + Social Science
12 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터에서 유용한 답을 찾을 수 있는 문제 – cont’d
CDR(백오십만명 통화 내역) + Survey(856명 설문으로 소득수준 조사)
→ 통화내역(X)만으로 소득수준(Y)을 예측하는 모형 생성
(서베이로 확인한) 실제 소득수준과 (통화 내역만으로) 예측된 소득수준
13 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
1단계
현실을
객관적으로
이해
• 정량적으로 검증이
필요한 문제 정의
• 기존 믿음 검증
• 새로운 사실 확인
• 그릇된 통념 파괴
• 새로운 통찰의 공유
2단계
비즈니스
문제를 해결
• 본인 부서 말고
비지니스 문제 정의
• 현실 적용이 가능한
패턴(Lever) 찾기
• 현실 적용
• Success Metrics
지속적 모니터링
문제 정의 패턴 발견 패턴 활용
가치의 발견 가치의 완성
본인 부서 Impact → Business Impact
기업 내 데이터 분석 목표
14 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
강의 목표 & 목차
• Module I Data Literacy
• Module II Data Understanding
• Module III ML and Decision-Making
• Module IV Linear Regression Analysis
• Module V Decision Tree Algorithm
• My Two Cents 참고자료
From Data Literacy to Data Fluency
목표: 데이터 분석, 어렵지 않다. 유용하다.
*혼자서 공부할 내용
15 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module I
Data Literacy
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
16 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Linda Problem – Human Intelligence
린다는 올해 31살로 아직 싱글이며 매우 솔직하고 총명한
여성이다. 철학을 전공했으며 학창시절 소수자 차별과 사
회정의 문제에 깊은 관심을 가졌으며 비핵화 운동에도 활
발하게 참여하였다.
Q. 아래 두가지 문장 중 개연성이 더 높은 것은?
1) 린다는 은행원이다.
2) 린다는 은행원이며 페미니스트 활동가로 활약하고 있다.
The Linda Problem
17 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Linda Problem – Human Intelligence
The Linda Problem
Plausibility vs. Probability
린다는 올해 31살로 아직 싱글이며 매우 솔직하고 총명한
여성이다. 철학을 전공했으며 학창시절 소수자 차별과 사
회정의 문제에 깊은 관심을 가졌으며 비핵화 운동에도.
Q. 아래 두가지 문장 중 개연성이 더 높은 것은?
1) 린다는 은행원이다.
2) 린다는 은행원이며 페미니스트 활동가로 활약하고 있다.
은행원
페미니스트
활동가
18 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Irrational Human Intelligence
합리성(Rationality)
효용(Utility)을 고려 최선의 방법을 선택
완전한 정보 + 모든 가능성 고려
의사결정 잘 하고 있나요?
제한된 합리성
최적의 결정 vs. 만족스러운 결정
19 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
From Literacy to Data Literacy
Data Literacy: 추상에서 구체로의 이행
• 관습적 믿음/직관(Literacy)에 대한 회의에서 출발
• 데이터를 통해 세상을 보는 안목: 날것의 기록에서 패턴을 찾아
세상에 대한 더 좋은(실용적인) 설명을 찾는 일
추상 · 개념 · 관념의 탄생
“사냥해서 짐승을 잡았다.
사냥의 꽃은 들소 잡기”
들소보다 물고기를 잡는 게 1.7배 더 생산적
사냥횟수 마릿수 kg kg/사냥
들소 25 2 300 12kg
물고기 35 900 700 20kg
현실
Literacy Data Literacy
들소: 0마리
물고기: 35마리
들소: 0마리
물고기: 65마리
들소: 0마리
물고기: 71마리
물고기: 15마리
들소: 1마리
…
현실의 기록직접 본 것 · 한 것
20 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy: Fixing Last Mile Problem
Last Mile Problem
기업이 데이터에서 쓸모있는 패턴을 발견하여
더 좋은 의사결정에 활용하지 못하는 문제
Last Mile
원인
• 분석 부재: 엑셀보고; 대쉬보드
• 분석 분리: 현업과 분석가의 분리;
[질문→분석→활용] 선순환 X
해결책
• 현업 스스로 데이터에 질문,
패턴 발견‧해석‧활용
• Data Literacy + Right Tool
질문 데이터 분석 활용해석
21 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data: A New Language of Business
Data Literacy
데이터 안목
도메인 지식 활용 데이터에 질문,
분석결과를 실용적으로 활용
Right Tool
닭잡는 칼
데이터의 특성 분석
역량‧목적에 맞는 도구
Literacy Numeracy Data Literacy
Reporting Insight
Discovery
• 엑셀과 씨름
• 과거집계‧시사점X
• 질문‧해석‧활용에
집중
Reading
• 텍스트 해석
현업이 똑똑한 데이터 소비자가 되려면
22 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy(Fluency) Framework
데이터 분석은 생산자와 소비자 간의 사회적 · 상호적 활동
분석 결과를 소비하는 사람이 있어야 분석하는 사람이 존재할 수 있고
좋은 분석을 생산하는 사람이 있어야 또 결과를 소비(활용)하는 사람이 존재
23 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Our First Data Literacy: One Hump vs. Two Humps
UNIMODAL(단봉)
BIMODAL(쌍봉)
서로 다른 특성을
갖는 두개의 집단
이 표본에 존재
24 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Our First Data Literacy: BIMODAL DISTRIBUTION (쌍봉분포)
African Seedcracker
자연선택에 의해 작고 부드러운 씨앗을
먹는 작은 부리의 새와 크고 단단한
씨앗을 먹는 큰 부리의 새로 나뉨
25 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data → It’s Funny → Data Literacy -> Insight
Reality
• Reality: 복잡계; 실제 작동방식 100% 알 수 없음
• Belief: 세상의 작동방식에 대한 최선의(만족스러운) 설명
• Data: 세상의 작동방식에 대한 기록; 세상의 샘플링
• Insight: 세상에 대한 더 나은 설명, 새로운 해석
Belief Data
Insight
[or Inspiration?]
희한하네… 보따리 장수
매출 매출 매출
데이터를 읽을 수 있어야 새로운 해석도 가능
26 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data → It’s Funny → Data Literacy -> Insight
1962년과 1979년에 태어난 남자들은 왜 Mets구단 팬이 되었나?
Hint: 1969년과 1986년에 모두 8세가 되었음
1969년
7세
출생년도에 따른 NY Mets 팬들 비율
[대상: 뉴욕 거주하는 남자 야구 팬들]
1986년
7세
27 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module II-a
Data Understanding
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
28 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• 궁금한 것(Y)을 데이터(X)로 더 잘 설명(예측)
• X를 바꾸어서 Y를 개선하기 위해서
분석하는
이유
• 데이터의 특성과 모양 요약 (기술 분석)
• 독립변수(통제가능; X)와 종속변수(Y) 간 가설 검증
통계
• 데이터 학습, Feature(X)로 Target(Y)을 예측‧설명
• 의사결정 자동화 vs. 더 좋은 의사결정
기계학습
• 성과지표(Y)를 익숙한 관점(범주; X)으로 요약
• 과거에 대한 집계
엑셀
(대쉬보드)
• X와 Y를 점, 선, 크기, 색상으로 표현 (탐험분석)
• X와 Y 사이의 패턴(관계) 시각적 발견; 가설 수립
데이터
시각화
데이터 분석 방법 (X와 Y)
29 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀
• 데이터 특성과 모양을 (수치적으로) 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
30 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Maturity Model
Source: Booz Allen Hamilton
데이터 수집 → 데이터 기술(묘사) → 패턴 발견 → 예측 → 활용
우측으로 갈수록 성숙해진다기보다는 자기에게 필요한 단계를 잘 하면 됨
31 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
EDA
Source: Booz Allen Hamilton
EDA(Exploratory Data Analysis) =
DESCRIBE (기술 분석) + EXPLORE (탐험 분석)
• inspect data structure
• data quality
• summarize
• visualize data
• hypothesis generation
• != modeling
EDA, 데이터와 함께 떠나는 창의적 여행 (생고생)
32 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Descriptive Data Analysis
Description
요약
Comparison
비교
Relationship
관계
데이터에 대해 사실적으로 묘사하는 법
변수의 대표값과
모양이 어떻나?
개별 변수(Y)의
통계값과 분포 확인
변수값의 차이가
어디서 얼마나 나나?
서로 다른 범주(X) 간
Y의 특성‧모양 비교
변수(Y)의 변화와 관계를
갖는 다른 변수(X)는?
X와 Y 사이의
상관관계 파악
33 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Analysis-Ready Dataset
분석하기 좋은 데이터셋
• 국가별로 1999/2000년에 결핵으로 사망한 환자수(Cases)와 전체인구
(Population)를 정리한 데이터셋들
• 국가별 연도별 인구 10,000명당 결핵 사망률을 계산하기 가장 좋은 데이터는?
NOT SO GREAT GREAT
1 2
3
4
rectangular data
data frame
data table
tidy dataset
34 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Rectangular Dataset and Key Terms
분석하기 좋은 데이터셋
• Dataset: 값(Values)들의 집합으로 숫자 또는 범주로 구성
• Values: 변수(Variable)와 관측점(Observation)으로 구성
• Variable: 동일한 속성(나이, 매출)에 대한 측정값들로 행(Column)을 구성
• Observation: 동일한 대상(사람, 매장)에 대한 측정값들로 열(Row)를 구성
X
features
independent variables
input (variables)
predictor
attribute
Y
target
dependent variables
output (variable)
response
record
sample
Instance
case
35 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Raw vs. Aggregated Dataset
Q. 2001년 남녀 구매 비율은?
추가 질문
Q. 2001년 Regular Coffee 구매한 여자 고객수?
Q. 남자 고객이 선호하는 커피 종류는?
Raw Data: Zoom-in(새로운 질문) 가능
Raw Data Aggregated Data
36 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Non-Rectangular Data Structures
TIME-SERIES
SPATIAL GRAPH
• 동일 변수 연속적 기록
• Seasonality; Event
• Object에 대한 위치좌표
• Location Analytics; Geo-Statistics
• Physical, Social, Abstract 관계
• Social Graph
From To Weight
Russia China 10
USA Korea 7
Rectangular 구조가 아닌 데이터도 있음; 각 구조에 맞는 별도의 처리 및 분석 기법이 존재
37 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Features / Attributes / X
Ripeness # of Seeds Weight (g) Color Fruit
0.56 5 320 Orange Orange
0.61 6 280 Red Apple
Feature: Y(Output/Target)를 설명하거나 분류(예측)하는데 사용되는 속성
좋은 Feature를 발굴하는 것이 참 중요함.
38 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Features Engineering
Feature Engineering: From Raw Variable to Derived Variable
Y를 더 잘 설명하거나 분류(예측)할 수 있도록
기존 변수를 창의적으로 가공하여 새로운 변수를 만드는 일
당뇨병 위험도와 상관관계가 높은 변수
• 같은 몸무게라도 비만도는 키에 좌우됨
• 비만도를 더 잘 반영할 수 있는(키와 몸무게의 상호작
용을 잡아낼 수 있는) 새로운 변수 가공
• *BMI(Body Mass Index) = kg/m2
*발명한 사람의 이름을 따서
Quetelet Index라고도 함
39 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type
숫자형(Quantitative)과 범주형(Qualitative)
분석: 숫자와 숫자 사이의 연관성, 숫자의 차이를 가져오는
범주를 발견하는 것
• 숫자형 자료는 이산형(discrete)이나 연속형(continuous)으로 나뉨
• 범주형 자료는 명목형(nominal)이나 순서형(ordinal)으로 나뉨
40 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type에 따른 시각화 방법
변수 유형에 따라 분석 방법과
효과적 시각화 방법이 달라짐
숫자 x 숫자 = Scatterplot
Overplotting(점이 겹침)!
Alcohol(%): 와인 알코올 함량, Quality: 소비자가 매긴 점수
Quality를 범주로 처리
Boxplotting(분포 시각화)!
Jittering 기법으로 Noise 추가
Jittering(인위적으로 퍼지게)!
41 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type에 따른 시각화 방법 – 그 때 알았더라면
순서형(Ordinal) 변수는
범주(Category)로 다루는 게 좋다.
X를 숫자로 처리
X와 Y 간 상관관계(0.06)가 매우 약함
Y: 리더십 점수, X: 평가 점수(등급)
X를 범주로 처리
서로 다른 범주(점수)간 Y값 차이가 존재함
42 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Type에 따른 시각화 방법
순서형x 순서형 변수 간 관계 시각화
서베이(설문) 데이터
Overplotting이 심각함
개별 레코드의 Density(밀도)를 표현해서 Overplotting 문제를 해결
밀도가 높을수록 진하고 크게 표현
15415
43 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
숫자형 변수를 나누는 또 다른 기준: Interval vs. Ratio
Q. 나누거나(Ratio) 곱해도 말이 되는 것은?
온도 vs. 몸무게
Interval (구간 자료)
10도 + 10도 = 20도
20도 / 10도 = 2배?
Ratio (비율 자료)
50kg + 50kg = 100kg
100kg / 50kg = 2배?
절대적 원점(True Zero)이 있으면 Ratio, 없으면 Interval
시간 = 00:00 : 시간이 없다(빵시)?
나이 = 0살 : 나이가 없다(빵살)
44 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Description (Data Profiling)
Central Tendency
중심 경향
• 평균(Mean)
• 중앙값(Median)
• 최빈값(Mode)
Dispersion
퍼진 정도
• 범위(Range)
• 분산(Variance)
• 표준편차(SD)
• Percentile
Shape of Distribution
퍼진 모양(대칭)
• 왜도 (Skewness)
데이터의 특성과 모양을 요약하여 기술하는 방법
양(+)의 왜도음(-)의 왜도
45 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Philosophy of Statistics [19th Century]
초기의 통계학 - 결정론적 세계관에 바탕을 둔 이데아/본질의 추구
평균값이 대상이 보유한 이상적인 속성이고(Idealized Mean)
Variation(차이)은 제거해야 할 오류라는 생각이 지배적이었음
Species(종; 種): An Ideal Type
46 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Darwin and Statistical Population [Late 19th~Early 20th Century]
다윈의 등장: Type/Essence(본질) → Variation(차이)
차이(변이)의 점진적 누적에 의해 진화가 이루어진다는 발견
개별 개체에 존재하는 의미있는 차이(변이)에 관심을 갖기 시작
47 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Vital Statistics vs. Mathematical Statistics
Average: 집단을 요약 → Variation: 개인(개체)들에 존재하는 차이에 관심
인구통계
평균, 비율
수리통계
분산, 관계, 추론
확률, 유의성
48 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Florence Nightingale, the Lady with the Lamp
• 크림 전쟁에 여성 최초로 영국군 보건위생장교로 참여
• 표준화되지 않은 질병 분류체계; 주먹구구 사망 데이터 관리
• 전사자 데이터 정리 후, 보고 방식 고민 (테이블? 파이차트?)
• Data Storytelling: 파이차트를 변형하여 데이터를 시각화
“신의 생각을
이해하기 위해 우리는
통계를 공부해야 해요.
통계를 통해 신이
목적하신 바를 측정할
수 있다구요.”
• 파랑: 예방/치료가능한 질병
• 빨강: 전쟁 중 발생한 상처
• 검정: 나머지
49 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
3 Types of Average: Mean, Median, Mode
병-1 병-2 병-3 병-4 병-5 병-6 병-7 병-8 병-9
13 18 13 15 13 16 14 21 13
Q. 어떤 값을 대표값으로 선택할까?
A. 평균
(13+18+13+14+13+16+14+21+13) ÷ 9 = 15
B. 중앙값
13, 13, 13, 13, 14, 14, 16, 18, 21
C. 최빈값
13 (3번 측정; 다른 값들은 1번씩만 측정됨)
D. 선호값
16 (병-6)
성벽의 벽돌 갯수를 병사들이 측정한 값들
50 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Frequency Distribution Table
계급 (0,3] (3,6] (6,9] (9,12] (12,15] (15,18] (18,21] (21,24] (24,27] (27,30] (30,33] (33,36] (36,39] (39,42] (42,45] (45,48]
빈도 26.0 17.0 15.0 32.0 34.0 51.0 55.0 56.0 55.0 60.0 58.0 43.0 18.0 14.0 5.0 2.0
누적
빈도
26.0 43.0 58.0 90.0 124.0 175.0 230.0 286.0 341.0 401.0 459.0 502.0 520.0 534.0 539.0 541.0
비율 4.8 3.1 2.8 5.9 6.3 9.4 10.2 10.4 10.2 11.1 10.7 7.9 3.3 2.6 0.9 0.4
누적
비율
4.8 7.9 10.7 16.6 22.9 32.3 42.5 52.9 63.1 74.2 84.9 92.8 96.1 98.7 99.6 100.0
히스토그램과 도수분포표
51 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Density Plot
Probability Density Curve
Histogram – Bin Size: 1시간
Histogram – Bin Size: 4시간1
2
3
1
2
3
 히스토그램: 도수(빈도)의 분포[도수분포표]
를 차트로 표현한 것
 계급: X축에 표현된 변수의 구간[4시간]
 X축 변수 구간의 크기(Bin Size)를 4시간에
서 1시간으로 조정하였음
 확률밀도: X가 연속형 변수일 경우 X값과
이에 대응하는 확률을 나타낸 그래프
 좌측에서 X가 10~20시간 사이의 값을 가
질 확률은 해당 구간의 면적과 동일함
52 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Histogram vs. Density Plot: 서로 다른 두 집단의 분포를 비교
Histogram: 두 그룹의 분포의 차이 비교
Density Plot: 두 그룹의 분포의 차이 비교
53 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Learn by Doing
Let’s Find Out Mean and Median on Density Curve
밀도함수에서 평균과 중앙값 찾아봅시다.
Source: https://www.khanacademy.org/math/statistics-probability
54 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Learn by Doing
Source: https://www.khanacademy.org/math/statistics-probability
Let’s Find Out Mean and Median on Density Curve
중앙값: 면적을 분할
평균: 무게 중심
55 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Larger Variation, Greater Sampling Error
• 신규 캠페인에 노출된 고객: 1인당 10,000원 소비
• 기존 캠페인에 노출된 고객: 1인당 8,000원 소비
변화의 폭 ↗ 샘플 데이터 신뢰도 ↘ 평균값에 대한 확신↘
A B
Q. 기존 고객들의 소비액 분포가 A와 B 두가지가 있다고 가정했을 때,
둘 중 신규 캠페인이 더 효과적이라고 주장(일반화)하기에 좋은 분포는?
56 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Percentile
Original
Value
Ordered
Value
Ranking Percentile
Quartile
(사분위)
32 29 1 8%
1st Qu. [~25th]
(최하위 25%)
54 32 2 17%
74 38 3 25%
99 41 4 33%
2nd Qu. [~50th]
(차하위 25%)
38 53 5 42%
55 54 6 50%
29 55 7 58%
3rd Qu. [~75th]
(차상위 25%)
41 74 8 67%
134 93 9 75%
53 99 10 83%
4th Qu. [~100th]
(최상위 25%)
209 134 11 92%
93 209 12 100%
다른 관측(측정)값들을 크기의 분포를 고려했을 때
특정값의 상대적 위치
57 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Binning (Feature Engineering)
Ranking 나이 나이_bin 나이_percentile
1 20 20~23
~20th (하위 20%)
3개의 레코드
2 24 24~27
3 25 24~27
4 29 28~31
~40th
3개의 레코드
5 33 31~34
6 33 31~34
7 39 38~41
~60th
3개의 레코드
8 40 38~41
9 41 38~41
10 42 42~45
~80th
3개의 레코드
11 43 42~45
12 43 42~45
13 44 42~45
~100th (상위 20%)
3개의 레코드
14 51 50~53
15 60 58~60
Binning: 연속된 숫자형 변수를 범주형 변수로 변환하는 것
• _bin: 변수(나이)값의 범위(20~59)를 기준으로 최대한 균등하게 10개 구간을 생성
• _percentile: 레코드 갯수가 최대한 균등하게 안분되도록 5개 구간을 생성
58 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Percentile 활용하여 주성분(Principal Component) 찾기
비타민, 지방, 섬유질 변수로
채소와 고기 분류하기
• 비타민 빼기 지방: Percentile 값으로
바꾸면 해당 변수를 정규화하는 효과
가 있어서 서로 다른 단위를 갖는 변
수들 간 연산이 가능해짐
• PCA: 데이터 분류를 용이하게 하는
(=데이터가 최대한 퍼지게 하는) 주성
분(Principal Component; 이 경우
Vitamin C + Fiber – Fat)을 찾는 일.
59 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Finding Secret Feature
Variable Percentile
Height 56%
Weight 61%
Pedigree 70%
Left Ventricle (좌심실) 99.61%
Percentile과 남들은 모르는 좋은 Feature로 돈 번 사례
gait analysis
American Pharoah: 2015년도에 37년 만에 Triple Crow 달성 (삼관마)
Jeff Seder: “Sell your house. But, do NOT sell this horse.”
60 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Summary Statistics and Visualization
1
2
3
61 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Distribution (boxplot)
Box-and-whiskers plot (예시)
2천
4천
6천
8천
소
득
중앙값
Median
IQR
1억
Outlier
 중앙값(median) 파악
최소값
(Lower whisker)
Box-and-whiskers plot 해석
대칭성 및 분포
특이값(Outlier)
최대값
(Upper whisker)
 특이값(outlier): 중앙값에서 편차가 큰 값
 IQR(Inter Quartile Range)의 1.5배 이상 벗어나
있는 값들을 Outlier로 정의
 대칭성(symmetry): 최대값과 최소값까지의 수
염 길이 비교
중심 경향
Q1
Q3
1
2
3
1
2
3
SK 내부 강의자료 참고
2
3
62 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Distribution (boxplot)
Q. 아마 아닐꺼야(Probably Not)에 대해
a. Range를 구해보세요.
b. 중앙값을 구해보세요.
c. 평균을 가늠해보세요.
d. 1Q(하위 25%)의 답변의 범위를 구해
보세요.
e. 응답자의 75%는 최소 몇%(X축) 이
상으로 답변했나요?
Q. 분산(퍼진 정도)이 가장 큰(작은)
Phrase는 무언가요?
Q. 음(-)의 왜도(비대칭성)가 가장 큰
Phrase는 무엇인가요?
63 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Description
데이터의 특성과 모양을 시각화하는 방법
Bar Chart (평균) Box Plot (분포) Density Plot (분포)
64 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module II-a
Data Understanding
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
65 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
66 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 - Data Aggregation
Average Man – Galton’s Composite Portraits
The Problems with Average: Not Robust!
67 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
평균의 문제 - Linear Thinking vs. Non-Linear Relationship
고객 세그먼트 평균 점수
A 4
B 3
A = [4, 4, 4, 4, 4, 4, 4, 4]
B = [1, 1, 1, 1, 5, 5, 5, 5]
Q. 친환경 제품을 출시하려 한다.
어떤 세그먼트에 프로모션해야 하나?
68 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
지원자 수 합격자 수 합격률
여자 1,000 150 15%
남자 1,000 250 25%
지원자 수 합격자 수 합격률
여자 800 80 10%
남자 200 10 5%
지원자 수 합격자 수 합격률
여자 200 70 35%
남자 800 240 30%
문과대 합결률 이공대 합격률
심슨의 역설
뭉뚱그린 수치는 현실을 왜곡할 수 있음
쪼개보는 일(Segmentation; Drill-Down; Dimensions)의 중요성
남녀 지원자 합격률
69 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
새로운 관점(Dimension)
연봉과 까칠함과의 관계 → 직급별 연봉과 까칠함과의 관계
70 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
제한된‧익숙한 관점 - Simpson’s Paradox
Story, not Data, should dictate our choice
Phone 전환률이 중요한 경우
유료 전환 사용자수가 중요한 경우
Mobile App Conversion Rate: 5.00%
iOS Android
Devices 5000 10000
Conversinos 200 550
Conversion Rate 4.00%% 5.50%
iOS Android
Tablet Phone Tablet Phone
Devices 1500 3500 8000 2000
Conversinos 100 100 500 50
Conversion Rate 6.67% 2.86% 6.25% 2.50%
71 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Curse of Dimensionality
차원의 저주
“If you test enough things, just by random chance,
one of them will be statistically significant.”
S&P
지수
Coin
1
Coin
2
Coin
3
Coin
4
Coin
5
….. …..
Coin
1217
….. …..
Coin
1999
Coin
2000
1 상승 앞 뒤 앞 앞 뒤 앞 앞 뒤
2 하락 뒤 뒤 앞 앞 뒤 앞 뒤 뒤
3 상승 뒤 앞 뒤 앞 뒤 앞 뒤 앞
4 상승 앞 뒤 앞 뒤 뒤 앞 앞 뒤
5 하락 뒤 앞 뒤 앞 앞 뒤 뒤 뒤
…
248 상승 앞 뒤 뒤 뒤 앞 앞 뒤 뒤
249 하락 뒤 앞 뒤 뒤 뒤 뒤 뒤 앞
250 하락 앞 뒤 앞 앞 앞 뒤 뒤 뒤
72 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101
Bar Chart
• 서로 다른 범주(사업부)간
평균값(매출 평균)의 차이를
비교하는데 효과적
• 시계열에 따른 변화를
표현하기에는 부적절
1 Dimension
Pie Chart
• 서로 다른 범주가 전체(매출
총합)에서 차지하는 비율을
대비하는데 효과적
• 범주의 갯수가 많거나 비율이
비슷한 경우 부적절
73 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101
Line Chart
• 시계열에 따른 추세를 보는데 효과적
• 너무 많은 범주(4~5개 이상)가 함께
표현되는 경우 헤깔림
2 Dimensions
Stacked Area Chart
• 시간의 흐름에 따른 개별 범주의 전체
크기 내에서의 상대적 크기 변화를
표현하는데 효과적
• 범주가 너무 많으면 역시 헤깔림
Scatter Plot
• 두개의 숫자형 변수 간 관계를
파악하는데 효과적
• Outlier를 발견하는데도 효과적
• 원 크기/색상으로 4 Dimensions 표현
74 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101
Hierarchical Data
Treemap
Sunburst
75 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization 101 – 기본 문법 숙지
76 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Storytelling – Pre-attentive Processing
전주의 처리 (Pre-attentive Processing)
주의를 기울이지 않고도 핵심 정보를 인지
77 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Storytelling – Pre-attentive Processing
전주의 처리 (Pre-attentive Processing)
주의를 기울이지 않고도 핵심 정보를 인지하도록 적절히 강조
차트를 볼 때 사람의 눈동자가
어떤 순서로 어디로 향할지 알 수 없음
78 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Storytelling – Before and After
Before After: Call to Action
79 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation and Scatter Plot (source: WHY)
1 2
3
80 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Uncorrelated Doesn’t Mean Unrelated (source: how not to be wrong)
진보
관심
보수
무관심
“정치적 관심도”와 “정칙적 성향(보수-진보)” 간 관계 해석
81 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
데이터 요약 & 시각화
동일한 평균, 분산, 상관계수 시각화를 통해 현실의 복잡성이 드러남
I II III IV
X Y X Y X Y X Y
평균 9 7.5 9 7.5 9 7.5 9 7.5
분산 11 4.1 11 4.1 11 4.1 11 4.1
상관계수 0.82 0.82 0.82 0.82
82 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization - Seeing is Believing
통계치와 시각화 결과를 함께 확인
83 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Viz: Understand and Explain Data
Noise?
이상한 애? vs. 특별한 애?
Signal
패턴, 일반적 경향
84 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Visualization
Visual Affirmation
검증된 사실을 주장/보고
Visual Confirmation
가설을 시각적으로 검증
Visual Exploration
뭐라도 하나 걸렸으면
Data: A New Language of Business
Data Viz: A Medium of Data Communication
목적에 맞는 데이터 시각화 방법 선택
85 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
Spurious Correlation (허위상관)
마요네즈 덜 먹으면 이혼을 덜 할까?
참고) http://www.tylervigen.com/spurious-correlations
86 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
Omitted Variable Bias
O
X Y
물가 인상
교통비
인상
백반 가격
인상
Causation Causation
Correlation교통비
인상
백반 가격
인상
Correlation
• Correlation: X의 변화로 Y의 변화 예측 가능
• Causation: X에 개입해서 Y를 바꿀 수 있음
Correlation helps you predict the future;
Causality lets you change the future.
대표적인 오류
87 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module III
Machine Learning and
Enterprise Decision-Making
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
88 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
89 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning and Decision Making
Machine Learning: Decision Making Technology
• 인공지능의 한 분야로 사람으로부터 아주 제한된 지시만 받고 데이터를
학습하여 패턴을 추출, 의사결정에 활용하는 기술
• 기계에게 언어로 기술(codify)하기 힘든 것을 정답(Label)을 알고 있는 과거
데이터를 제공하여 학습하도록 함
• 폴라니의 역설: 언어의 해상도가 인식의 해상도보다 낮다. (할 줄은 아는데
어떻게 하는지 말 못함)
AI
Machine
Learning
Linear
Regression
Decision Tree
Deep Learning
Random Forest
Robotics
NLP,.....
White Box
Decision Making
Augmentation
Black Box
Decision Making
Automation
90 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning and Enterprise Decision Making
빈번한 덜 중요한 결정
덜 빈번한 중요한 결정
• HR: 직원선발, 성과요인
1 second1 year 1 month 1 week 1 day 1 min1 hour
Prediction
Explanation
Frequent
Less
Frequent
Decision Augmentation
Decision Automation
• Sales: 제품 판매전략
• Operation: 운영 최적화
• 개인화 광고
• 맞춤형 상품
• 이상 금융거래 탐지
빅 데이터 → 기계학습 → 예측 통한 의사결정 자동화
스몰 데이터 → 기계학습 → 사실‧증거 기반 더 좋은 결정
Are You in Prediction Business or Explanation Business?
91 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Machine Learning
Supervised Machine Learning (지도 학습)
설명/예측하고 싶은 문제에 관련하여
정답을 알고 있는 데이터가 충분히 있는 경우
X로부터 Y를 유추하는 패턴을 찾는 것
X (Input) Y (Output) APPLICATION
Voice recording Transcript Speech recognition
Transaction records Fraudulent (yes/no) Fraud detection
Emails Spam (yes/no) Spam filtering
Ad + User Profile Click (yes/no) Personalized AD
Faces Names Face recognition
Korean English Language Translation
92 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Supervised Machine Learning
Supervised Machine Learning (지도 학습)
모형이 투명한 경우(White Box), 설명‧예측 둘 다 활용 가능
X1 X2 X3 Y
겨울
강수량
수확철
강수량
평균
온도
와인
가격
13 35 35 9.5
22 25 25 3.5
25 21 21 3.2
11 18 18 3.5
47 45 45 4.7
. . . .
예측
12.3$
ML
Algo
Model
겨울
강수량
수확철
강수량
평균
온도
와인
가격
35 25 21 ?
Training Data Set
Ashenfelter’s Wine Formula
Price = 12 + 0.001 겨울강수량 + 0.06 평
균온도 – 0.004 수확철강수량
설명
선형회귀 알고리즘
Y = a + b X1 + c X2 + d X3
93 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
White Box vs. Black Box
35
25
21
겨울강수량
온도
수확강수량
Input 값
3.5
Output 값
0.35
0.26
5.1
35
25
21
겨울강수량
온도
수확강수량
Input 값
4.2
Output 값
0.025
0.62
2.1
35
25
21
겨울강수량
온도
수확강수량
Input 값
7.1
Output 값
1.42
0.215
-1.2
35
25
21
겨울강수량
온도
수확강수량
Input 값
6.1
Output 값
0.5
0.06
3.1
모형 A 모형 B
모형 C 모형 D
Black Box: 더 정확할지언정 인간이 이해하기 힘들다.
6.1 3.5 4.2 7.1가격 = 15.4$ = 0.6 x + 0.1 x + 0.25 x + 0.05 x
A B C D
94 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree vs. Random Forest
Trade Off Between Interpretability and Accuracy
Random ForestDecision Tree
95 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Model Interpretability
정확함 vs. 올바름
Model should be Accurate
for the Right Reason
대출
총액
대출
총액
수입 수입
96 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Predictive Analytics for Complex Business Decision-Making
비지니스 의사결정에
예측모형을 활용하는 것이
힘들고 조심스러운 이유
Model Validity
데이터에 담기 어려운
현실세계의 우발성, 복잡성으로
모델의 정확도가 낮음
Model Diversity
데이터 속에 내재된 편견이
모델에 반영될 경우
현실이 오히려 강화/공고화됨
97 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
features labelunknown
기계학습
x nature y
세상
Statistics vs. Machine Learning
독립
변수
종속
변수
model
통계 분석
• 연역적 추론(Deductive Reasoning):
가설수립 → 가설검증
• 모형의 타당성: 가설 일반화를 위한
모형의 타당성‧재현성이 중요
• 귀납적 추론(Inductive Reasoning):
데이터 → 패턴
• 모형의 유용성: 의사결정에 활용하기
위한 모형의 유용성이 중요
“Machine Learning is essentially a form of applied statistics”
“Machine Learning is statistics scaled up to big data”
결국 둘다 데이터를 통해 문제를 해결하는 데 사용됨
기술과 방법의 차이라기 보다는 분석 목표의 차이
98 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module IV
Linear Regression Analysis
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
99 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
100 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Regression toward the Mean
우연(Chance)의 영향으로 평균(평범함)으로의 회귀
• 왕겨(Bran) 먹은 후 배변에 걸리는 시간(Oral-Anal Transit Time)이
• 평균(48시간)보다 오래걸렸던 사람은 더 빨라졌고
• 평균(48시간)보다 짧았던 사람은 더 길어졌고
• 평균이었던 사람은 큰 변화가 없었다.
추이
평균
101 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
Linear Regression
• 가장 오래되고, 널리 쓰이고, 결과를 이해하기 쉬운 지도학습 알고리즘
• 독립변수(X)를 가지고 숫자형 종속변수(Y)를 가장 잘 설명‧예측(Best Fit)하는
선형 관계(Linear Relationship)를 찾는 방법 중 하나
• X가 범주형 변수(성별)인 경우, 집단(남‧녀) 간 Y값의 차이를 분석
계산방법 (Least Squares)
X와 Y 사이에 선형적 관계가 있다는 가정
하에 실제 Y값과 예측한 Y값의 차이를
최소화하는 방정식을 계산
Y = b0 + b1X + error
• b0 : Y축 절편(Intercept); 예측변수가 0일 때
기대 점수를 나타냄
• b1 : 기울기로 X가 한 단위 증가했을 때의 Y의
평균적 변화값을 나타냄
*참고: http://students.brown.edu/seeing-theory/regression/index.html
Regression Model: Y가 숫자형 변수(매출)인 경우
Classification Model: Y가 범주형 변수(성별)인 경우
Supervised
Machine-Learning
102 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
P-Value (Probability-Values)
Q. X와 Y 사이에 통계적으로 유의미한 관계가 있나?
• Statistical Significance (통계적 유의성)
• 데이터를 통해 확인한 관계가 우연히 나왔을 확률
• P값이 0.03: 데이터에서 발견한 관계가 운일 확률 3%
• 관계의 세기(Size of an Effect)를 나타내는 것은 아님
R2 (R-SQUARED; 결정계수)
Q. X가 Y를 얼마나 잘 설명/예측하는가?
• Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기
R2 = 0.81 R2 = 0.24
103 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Statistical Significance and P-Value(Probability-Values)
Outcome
Campaign
A
Campaign
B
Conversion 200 182
No
Conversion
23539 22406
Conversion
Rate
0.8425% 0.8057%
1. 캠페인 A의 전환률이 0.0368% 높음; 차이가 의미가 있나?
2. 통계적 유의성 검증이 꼭 필요한가? (이 정도면 작은 샘플을
사용하여 일반화하는 일을 걱정할 필요없는 빅데이터 아닌가?)
3. 두 캠페인 사이의 전환율 차이가 우연은 아닌가?
• 둘 간 전환율 차이가 없다고 가정(H0)하고 두 캠페인
결과를 하나로 섞는다
• 섞은 데이터에서 23739, 22588개를 Resampling하여 두
캠페인 간 전환율 차이를 기록 (1,000번 반복)
• 차이(test statistic; 검정통계량)가 > 0.0368%보다 큰
경우의 확률을 계산: 30.8% (P-Value: 0.308)
효과의 크기/차이 0.0368%
104 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석: P-Value (Probability-Values)
P값: (선형적) 관계가 우연히 나왔을 확률
작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미)
• 귀무 가설(H0; Null Hypothesis): X와 Y 사이에 관계가 없다고 가정
P = 0.03: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더
극단적인 관계가 관측될 확률 = 3%
정상적인(앞뒷면 확률이 동일한) 동전을 20번
던져 앞면이 나온 횟수에 대한 확률 분포
동전이 정상이라면 앞면이 연속 18번 이상 나
올 확률이 < 5%. 동전 정상이 아니라고 결론
105 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석 (Linear Regression Analysis)
R2 = 설명한 Y 변화량 / 총 Y 변화량
= (총 Y 변화량 - 설명 못 한 Y 변화량) / 총 Y 변화량
= 1 - (설명 못 한 Y 변화량 / 총 Y 변화량 )
총 Y 변화량
설명 못한
Y 변화량
106 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
선형회귀분석: 결정계수(R2: R-SQUARED)
낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님
R2: 0.14 R2: 0.86
• 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001
• 우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음
• 변수 간 경향성은 동일: X 1단위 증가 → Y 2단위 증가
107 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Binning: 선형회귀분석으로 비선형적 관계 찾기
Binning: 숫자형 변수를 범주형 변수로 변형
• 이익(Y)과 운송비용(X; 숫자)간에는 선형적 관계 없음
• 운송비용을 범주형 변수로 변형하면 비선형적 관계 발견
• 해석, 서로 다른 운송비용 구간별로 이익의 차이가 존재
108 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Simple Linear Regression Analysis – Advertisement
매출에 미치는 매체 영향에 상호작용이 없다고 가정하였을 때
1. TV, Radio, 신문 중 Sales를 가장 정확하게 예측하는 매체는?
2. TV, Radio, 신문 중 Sales 증가에 가장 큰 효과가 있는 매체는?
Advertising.xlsx
109 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Multiple Linear Regression Analysis – Advertisement
이번에는 변수 2개[TV, Radio]를 사용하여 Sales와의 관계를
설명‧예측하는 회귀모형을 만들어 봅시다.
Y = b0 + b1X1 + b2X2
Sales = 2.9 + 0.045 x TV + 0.187 x Radio
110 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Module V
Decision Tree Algorithm
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
111 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Analysis Techniques
데이터 분석 주요기술
 DESCRIBE (기술 분석) - 엑셀, 대쉬보드
• 데이터 특성과 모양을 요약
 EXPLORE (탐험적 분석) - 데이터 시각화 도구
• 가설수립‧데이터 감 잡기 위해 패턴 탐험
 PREDICT/INFER (예측‧추론 분석) - 통계/ML
• 패턴(모형)을 통해 주어진 문제를 예측‧설명
과거
미래
Looking
Backward
Looking
Forward
112 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
• Decision Tree: 의사결정트리; 대표적 Classification Model
• Classification: 서로 다른 집단을 구분하는 규칙(경계) 찾기
Decision Tree and Classification
Linear Classifier Non-Linear Classifier
Data-Driven Farmer
Logistic Decision Tree SVM
Regression Model: Y가 숫자형 변수(매출)인 경우
Classification Model: Y가 범주형 변수(성별)인 경우
Supervised
Machine-Learning
113 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree - Minimizing Entropy
성과에 따른 신입사원 분포
동아리 경험
(년)
인내력
▲
★
▲
▲▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
★
★▲
★
★
★★
★
★
★
★
★
▲ ▲
★
★
★
★
▲
고성과자
나머지
엔트로피(Entropy): Measure of Impurity
• Purity: 엔트로피를 최소화하도록(= 끼리끼리 모이도록) 공간을 구획하는 문제
• Homogeneity: 특정 집단이 밀집한 세그먼트의 논리적 규칙을 찾는 문제
114 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
동아리경험
(년)
인내력
87
74
0.8
▲
★
▲
▲▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
▲
★
★▲
★
★
★★
★
★
★
★
★
▲ ▲
★
★
★
규칙 (Rule Set) 확률 (Probability)
IF (동아리경험 < 0.8년) and (인내력역량 < 87) then Class = 저성과 신입사원 100% (12/12)
IF (동아리경험 < 0.8년) and (인내력역량 >= 87) then Class = 고성과 신입사원 67% (2/3)
IF (동아리경험 >= 0.8년) and (인내력역량 < 74) then Class = 저성과 신입사원 57% (4/7)
IF (동아리경험 >= 0.8년) and (인내력역량 >= 74) then Class = 고성과 신입사원 100% (10/10)
성과에 따른
신입사원 분포
분류규칙
Decision Tree - Minimizing Entropy
동아리경험
인내력
역량
인내력
역량
나머지
12/12
고성과
2/3
나머지
4/7
고성과
10/10
< 0.8년 >= 0.8년
>= 74< 74>= 87< 87
고성과 신입사원
분류모형 (의사결정트리)
★ ▲고성과 나머지
115 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Terminology
• Root Node: 최상위 노드
• Leaf Node: 말단 노드
• Decision Node: 의사결정 노드
• Splitting: 동질적 집단으로 쪼개는 일
• Pruning: 트리가 너무 길어지지 않게 하는 일
116 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Titanic Dataset
Variable Definition Key
survival Survival 0 = No, 1 = Yes
pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex
Age Age in years
sibsp
# of siblings / spouses aboard the
Titanic
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were
ignored)
parch
# of parents / children aboard the
Titanic
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
ticket Ticket number
fare Passenger fare
cabin Cabin number
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton
117 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Titanic Dataset
confusion
matrix
Yes
(Predicted)
No
(Predicted)
Yes
(Actual)
227
True Positive
115
False Negative
No
(Actual)
28
False Positive
521
True Negative
227 + 28
227Precision(Y)
89% 227 + 115
227Recall(Y)
66%
= =
Decision Tree
• 변수 사이 interaction
• 비선형적 관계
118 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Decision Tree – Titanic Dataset
Confusion
Matrix
Yes
(Predicted)
No
(Predicted)
Yes
(Actual)
227
True Positive
115
False Negative
TYPE II Error
No
(Actual)
28
False Positive
TYPE I Error
521
True Negative
227 + 115
227Recall(Y)
재현률
66%
=
227 + 115 + 28 + 521
227 + 521Accuracy
모형 정확도
84%
=
Confusion Matrix: 분류 모형의 성능을 평가하는 방법
이해하기는 쉬운데 용어가 어려움
• True Positive: 맞는 걸 맞다고 하는 것
• True Negative: 아닌 걸 아니라고 하는 것
• False Positive (I형 오류) : 아닌데 맞다고 하는 것 (거짓을 믿는 것)
• False Negative (II형 오류) : 긴데 아니다고 하는 것 (참을 거부하는 것)
227 + 28
227
Precision(Y)
정밀도
89%
=
119 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
My Two Cents
아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr
https://www.heartcount.io
120 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Closing Remarks
할리우드
(캐릭터 + 욕망) / 방해물 = 이야기
데이터 분석
(Data + Data Literacy) / 방해물 = 유용한 패턴
121 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy
데이터에서 발견한 유용한 사실을 공감할 수 있는 형식으로 표현, 이롭게 활용되도록 하는 것
122 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data Literacy: from Data Phobia to Data Fluency
Data Phobia
Data Fluency
123 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
The Size of Data is Overrated
Smaller Data
[Asset; 독점]
Bigger Data
[Liability]
개별 레코드에 담긴 패턴(효과/시그널)이 클수록
패턴 발견을 위해 적은 데이터가 필요
124 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Finding the Right Angle: 땅볼(Ground Ball) vs. 뜬볼(Fly Ball)
낮고 빠르게
높고 빠르게 홈런수
Baseball.Dataset.xlsx
125 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
White Box vs. Black Box
White Box 모형 - Linear Regression
낮은 예측정확도, 높은 설명력
Black Box 모형 - Random Forest
높은 예측정확도, 낮은 설명력
Model Transparency
기계의 예측을 맹목적으로 따를 것이 아니라 현실에 직접
개입하려 한다면 모형의 투명성(설명력)이 예측력보다 중요
*Right to Explanation (EU GDPR)
126 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호)
당신 회사에 다음과 같이 두가지 모델의 차량이 있다.
모든 자동차는 일년에 10,000 마일을 주행한다.
Q. OPEX(기름값)을 줄이기 위한 당신의 선택은?
A. 10 MPG 차량을 20 MPG 차량으로 교체
B. 20 MPG 차량을 50 MPG 차량으로 교체
Fleet A
10 MPG SUV
Fleet B
20 MPG Sedan
127 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호)
10,000 마일당 사용한 기름 (Gallons)
현재 차량 업그레이드 후 절감분
A. 1,000 (@10 MPG) 500 (@20 MPG) 500
B. 500 (@20 MPG) 200 (@50 MPG) 300
128 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation vs. Causation
바람이 많이 불면
나무통 가게가 돈을 번다.
O
X Y
• 교육 받아서 성과가
좋아 졌나?
• (경기 탓으로) 성과가 안
좋아서 교육 받았나?
Omitted Variable Bias Reverse Causality
X Y
• 한 업무에 오래 있어서
성과가 낮나?
• 성과가 낮아서 한자리에
오래 있었나?
Two Types of Causality Problems
129 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation을 언제 의사결정에 활용해야 하나?
관계에 대한
높은 확신
(인과관계)
데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이
[라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은?
관계에 대한
낮은 확신
실>득 실<득
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
Act
Don’t Act
130 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Correlation을 언제 의사결정에 활용해야 하나?
관계에 대한
높은 확신
(인과관계)
관계에 대한
낮은 확신
실>득 실<득
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
Act
Don’t Act
가. 구매패턴에 따른
보험료 차등 적용
나. 저위험군 고객들
타겟 마켓팅
데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이
[라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은?
X O
131 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Why Model Transparency Matters!
결핵 치사율 예측모형
결핵환자 중 천식을 앓고 있는 사람은 집으로 돌려 보내세요.
투명한 모형과 사람의 판단이
환자를 살렸습니다.
X
결핵환자
w/ 천식
Intensive
Care
Unit
Y
합병증 ⬇
치사율 ⬇
132 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Insight Matrix
X(입력변수)와 Y(목표변수) 간의 관계
X (Input Variables; Features)
Hiring
성격
학력/인지능력
채용 경로
Culture / Management
리더쉽
보상
육성
Behavior
근태
협업
만족도
기존 믿음(가설)을 정량적으로 검증
몰랐던 사실 발견 (Unknown Unknown)
관계 없음
관계 있는 줄 알았는데 없음 (Myth Busting)
Y: 성과
example) 임직원 성과
133 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Change: Targeting vs. Optimization
Y(퇴사?) X1 부서 지역 X4
회의
참여
X5 …..
No 재무 서울 32
No R&D 부산 14
No 총무 서울 9
No 인사 부산 26
No R&D 서울 43
Yes 마케팅 서울 78
Yes 인사 일본 63
Yes 인사 일본 51
Yes 인사 일본 103
Optimization
X를 바꾸어서 Y를 개선
Targeting
특정 대상 선정 후 개입
134 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Noise와 Signal을 어떻게 구분할까?
기량의 역설 (Paradox of Skill)
기량↗ 기량의 변량↘ 운(Chance)↗
Compare The Extremes
135 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
①
Data → Insight → Belief
Real World Belief Data Insight
희한하네… 봇따리 장수
매출 매출 매출
Belief (Knowledge)
Evolution Experience Culture
①믿음은 어디에서 오는가? ②새로운 사실은 믿음을 바꾸는가?
Data
• 우리의 믿음은 문장으로 구성되어 있음
- 믿음: 적당한 운동은 건강에 좋다.
• 설명: 느끼고 보고 배운 걸로 믿음을 설명
- 설명: 수영을 하니 몸이 깨운하다.
• 믿음이 바뀌려면 패턴이 쉽고 명확해야 함
②
136 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know
Data → Insight → Belief → Change
Real World Belief Data Insight
희한하네… 봇따리 장수
매출 매출 매출
믿음을 바꿔 세상을 바꾸기
[1990 베트남, 빈곤 아동들의 영양실조 문제]
“6개월 안에 변화를 만들지 못하면 떠나시오!”
구조적 문제들 당장 바꿀 수 있는 것을
작고 부드러운 목소리로TBU: True But Useless
위생설비, 깨끗한 물, 무지함 ➡

Contenu connexe

Tendances

コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎
Norishige Fukushima
 
『データ解析におけるプライバシー保護』勉強会 #2
『データ解析におけるプライバシー保護』勉強会 #2『データ解析におけるプライバシー保護』勉強会 #2
『データ解析におけるプライバシー保護』勉強会 #2
MITSUNARI Shigeo
 
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
Shuhei Sowa
 

Tendances (20)

データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみたトピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
 
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
ImageJを使った画像解析実習〜起動・終了とファイルの入出力〜
ImageJを使った画像解析実習〜起動・終了とファイルの入出力〜ImageJを使った画像解析実習〜起動・終了とファイルの入出力〜
ImageJを使った画像解析実習〜起動・終了とファイルの入出力〜
 
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
 
質性研究的紮根理論研究設計與結果
質性研究的紮根理論研究設計與結果質性研究的紮根理論研究設計與結果
質性研究的紮根理論研究設計與結果
 
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
 
心智圖寫作
心智圖寫作心智圖寫作
心智圖寫作
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎
 
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)” [DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
 
もしその単語がなかったら
もしその単語がなかったらもしその単語がなかったら
もしその単語がなかったら
 
特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)特徴パターンを用いた機械学習の説明手法 (JSAI2019)
特徴パターンを用いた機械学習の説明手法 (JSAI2019)
 
『データ解析におけるプライバシー保護』勉強会 #2
『データ解析におけるプライバシー保護』勉強会 #2『データ解析におけるプライバシー保護』勉強会 #2
『データ解析におけるプライバシー保護』勉強会 #2
 
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
マルコフモデル,隠れマルコフモデルとコネクショニスト時系列分類法
 

Similaire à From Data Literacy to Data Fluency

Similaire à From Data Literacy to Data Fluency (20)

데이터를 보는 안목 (Data Literacy)
데이터를 보는 안목 (Data Literacy)데이터를 보는 안목 (Data Literacy)
데이터를 보는 안목 (Data Literacy)
 
People Analytics.170420
People Analytics.170420People Analytics.170420
People Analytics.170420
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료
 
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
140430 마케팅 3.0: 빅데이터, 소셜, IOT, 마이크로타게팅
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'뉴스젤리 메이킹스토리 4 - '변호인'
뉴스젤리 메이킹스토리 4 - '변호인'
 
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
데이터 과학자는 무슨 일을 하는가? [KAIST 2018]
 
[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
 
Peopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start todayPeopleplus hr session(2) people analytics, start today
Peopleplus hr session(2) people analytics, start today
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호
 
DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
진로 계획서
진로 계획서진로 계획서
진로 계획서
 

From Data Literacy to Data Fluency

  • 1. 1 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Data Literacy To Data Fluency
  • 2. 2 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 양승준: 아이디케이스퀘어드(IDK2 - I Don’t Know What I Don’t Know) 대표 • 서비스: HEARTCOUNT, Augmented Analytics for Enterprise (SaaS) IT 빗 Algo-Trading Enterprise IT Small Data Big Data 인터넷 • 경력 1998 2000 2001 2003 2013 2015 강사 소개
  • 3. 3 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 강의에서 다룰 내용 BASIC SKILL DATAMIND ContextTOOL
  • 4. 4 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 문제 데이터 분석 활용해석 데이터 분석 과정 의심하고 근거를 찾고 설득하고 바꾼다 Biz Relevancy Data Problem Features & Blending Statistics ML Data Storytelling Practical Significance
  • 5. 5 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 가. 비지니스 이해 • 비지니스 요구사항 • 분석 목표 수립 Non-Obvious & Useful Pattern • 문제(질문) 정의 나. 데이터 이해 • 수집 (collection & blending) • 기술 (descriptive analysis) • 탐험 (exploratory analysis; data viz.) • 품질 (outliers & missing values) • 가공 (feature engineering) 다. Modeling 및 해석 • ML 알고리즘 선택 (설명 vs. 예측) • 모형 수립 및 성능 평가 • 모형 해석 Statistical significance Practical significance 라. 활용 (Deployment) • 보고; 인사이트 공유 • 의사결정 자동화 Technical & procedural integration • 주기적 성능 모니터링 데이터 분석 과정 (*CRISP-DM) *강의 범위
  • 6. 6 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터가 답할 수 있는 질문: 적절한 데이터와 분석방법 Frame Real-World Problem into Data Problem 데이터 분석 목표: A Successful Data Analysis 뻔하지 않은 쓸모있는 패턴 Non-Obvious & Useful Pattern 피보고자가 분석결과 수용(활용) Audience Accepts the Results
  • 7. 7 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에 답이 없는 질문 번지수 끝자리 지붕 색상 가격(억) 3 빨강 9.5 7 주황 3.5 2 노랑 3.2 1 빨강 3.5 4 파랑 4.7 . . . Machine Learning Algorithm Model ??? Training Data Set Machine Learning is not a Magic, but a Math 주어진 데이터(번지수, 지붕 색상)가 문제(집값 예측)를 해결하는데 사람에게 소용없다면 기계에게도 마찬가지 사람이 풀 수도 있는 문제를 기계가 더 빠르고 다양한 관점으로 냉정하게 풀게하자.
  • 8. 8 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터만으로 답할 수 없는 질문 폭력적 게임을 하면 더 폭력적이 되나? ① 개념(Concept)을 정량화하는 일의 주관성 • 폭력적 게임을 정의할 수 있나? • 현실에서의 폭력성을 어떻게 계량화하나? ② 인과성을 증명할 수 있나? • 공격적 성향의 아이가 폭력적 게임에 더 끌림? • 통계적 상관관계로 인과성에 대해 주장할 수 없음 • 숫자로 환원된 분석 결과는 복잡한 진실에 대한 단면적 요약 폭력적 게임 폭력적인 아이
  • 9. 9 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) A. 작년 여자 영업사원의 평균 매출이 남자 영업사원 평균 매출의 80% 정도였다. B. 작년에 신규 출시한 탈모 치료제의 경우 연구소 출신 여자 영업사원의 매출이 평균 매출의 350%에 달했다. 정보량이 큰(뻔하지 않은) 분석결과 • 뻔한 질문(예, 남녀 영업직원 간 매출 차이가 나는가?)에 대한 답변은 정보량도 낮 음 • 엔트로피(불확실성)가 높은 불확실성이 큰 사안에 대한 질문(예, 탈모 치료제를 많 이 판매한 직원들의 공통된 특성은 무엇인가?’)에 대한 답변은 정보량이 큼 A. 평균 직원 나이가 상위 10%에 속하는 매장들의 평균 인건비 지출이 전체 매장 평균 인건비 지출액보다 20% 높았다. B. 55세 이상인 직원이 한 명 이상 근무하는 매장은 그렇지 않은 매장과 비교해 매출은 15%, 고객 만족도는 25% 높았다. A. 내일 아침에 동쪽에서 해가 뜰 것이다. = 정보량 빵임 정보 = 특정 질문에 대한 답변
  • 10. 10 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 좋은 질문(문제 정의) Good Data Problem • 작고 구체적인, 덜 뻔한(엔트로피가 큰) 질문 • 이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제 • 신뢰할 수 있고 익숙한 데이터에서 시작 • 확보 가능한 데이터에 대한 이해 없이 문제부터 정하면 필요한 데이터를 추 가로 수집, 준비하느라 프로젝트 일정이 지연되거나 나쁜 분석 결과가 나오 기 쉬움 • 바람직한 답변이 없고 너무 민감하지는 않은 문제 • 바람직한 답변이 이미 마음 속이나 조직 내에 정해져 있는 경우 • 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분 석 및 결과 해석 과정에서 객관성이 흔들릴 수 있음 • 본인 문제(내 호기심) 말고 비즈니스 문제 • Business Top-Line(매출, 이익, 고객수, NPS, 생산성 등) Alignment
  • 11. 11 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 856명에게 전화걸어 르완다 전체 지역별 소득수준 분포 확인하기 빅데이터와 스몰 데이터의 결합 맹목적으로 쌓인 빅데이터 + 목적을 갖고 수집한 스몰 데이터 Ready-made(Exhaust) Data + Custom-made(Captured) Data CDR(가입자 통화내역) + Survey(소득수준 전화설문) Data Science + Social Science
  • 12. 12 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터에서 유용한 답을 찾을 수 있는 문제 – cont’d CDR(백오십만명 통화 내역) + Survey(856명 설문으로 소득수준 조사) → 통화내역(X)만으로 소득수준(Y)을 예측하는 모형 생성 (서베이로 확인한) 실제 소득수준과 (통화 내역만으로) 예측된 소득수준
  • 13. 13 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 1단계 현실을 객관적으로 이해 • 정량적으로 검증이 필요한 문제 정의 • 기존 믿음 검증 • 새로운 사실 확인 • 그릇된 통념 파괴 • 새로운 통찰의 공유 2단계 비즈니스 문제를 해결 • 본인 부서 말고 비지니스 문제 정의 • 현실 적용이 가능한 패턴(Lever) 찾기 • 현실 적용 • Success Metrics 지속적 모니터링 문제 정의 패턴 발견 패턴 활용 가치의 발견 가치의 완성 본인 부서 Impact → Business Impact 기업 내 데이터 분석 목표
  • 14. 14 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 강의 목표 & 목차 • Module I Data Literacy • Module II Data Understanding • Module III ML and Decision-Making • Module IV Linear Regression Analysis • Module V Decision Tree Algorithm • My Two Cents 참고자료 From Data Literacy to Data Fluency 목표: 데이터 분석, 어렵지 않다. 유용하다. *혼자서 공부할 내용
  • 15. 15 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module I Data Literacy 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 16. 16 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Linda Problem – Human Intelligence 린다는 올해 31살로 아직 싱글이며 매우 솔직하고 총명한 여성이다. 철학을 전공했으며 학창시절 소수자 차별과 사 회정의 문제에 깊은 관심을 가졌으며 비핵화 운동에도 활 발하게 참여하였다. Q. 아래 두가지 문장 중 개연성이 더 높은 것은? 1) 린다는 은행원이다. 2) 린다는 은행원이며 페미니스트 활동가로 활약하고 있다. The Linda Problem
  • 17. 17 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Linda Problem – Human Intelligence The Linda Problem Plausibility vs. Probability 린다는 올해 31살로 아직 싱글이며 매우 솔직하고 총명한 여성이다. 철학을 전공했으며 학창시절 소수자 차별과 사 회정의 문제에 깊은 관심을 가졌으며 비핵화 운동에도. Q. 아래 두가지 문장 중 개연성이 더 높은 것은? 1) 린다는 은행원이다. 2) 린다는 은행원이며 페미니스트 활동가로 활약하고 있다. 은행원 페미니스트 활동가
  • 18. 18 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Irrational Human Intelligence 합리성(Rationality) 효용(Utility)을 고려 최선의 방법을 선택 완전한 정보 + 모든 가능성 고려 의사결정 잘 하고 있나요? 제한된 합리성 최적의 결정 vs. 만족스러운 결정
  • 19. 19 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know From Literacy to Data Literacy Data Literacy: 추상에서 구체로의 이행 • 관습적 믿음/직관(Literacy)에 대한 회의에서 출발 • 데이터를 통해 세상을 보는 안목: 날것의 기록에서 패턴을 찾아 세상에 대한 더 좋은(실용적인) 설명을 찾는 일 추상 · 개념 · 관념의 탄생 “사냥해서 짐승을 잡았다. 사냥의 꽃은 들소 잡기” 들소보다 물고기를 잡는 게 1.7배 더 생산적 사냥횟수 마릿수 kg kg/사냥 들소 25 2 300 12kg 물고기 35 900 700 20kg 현실 Literacy Data Literacy 들소: 0마리 물고기: 35마리 들소: 0마리 물고기: 65마리 들소: 0마리 물고기: 71마리 물고기: 15마리 들소: 1마리 … 현실의 기록직접 본 것 · 한 것
  • 20. 20 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy: Fixing Last Mile Problem Last Mile Problem 기업이 데이터에서 쓸모있는 패턴을 발견하여 더 좋은 의사결정에 활용하지 못하는 문제 Last Mile 원인 • 분석 부재: 엑셀보고; 대쉬보드 • 분석 분리: 현업과 분석가의 분리; [질문→분석→활용] 선순환 X 해결책 • 현업 스스로 데이터에 질문, 패턴 발견‧해석‧활용 • Data Literacy + Right Tool 질문 데이터 분석 활용해석
  • 21. 21 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data: A New Language of Business Data Literacy 데이터 안목 도메인 지식 활용 데이터에 질문, 분석결과를 실용적으로 활용 Right Tool 닭잡는 칼 데이터의 특성 분석 역량‧목적에 맞는 도구 Literacy Numeracy Data Literacy Reporting Insight Discovery • 엑셀과 씨름 • 과거집계‧시사점X • 질문‧해석‧활용에 집중 Reading • 텍스트 해석 현업이 똑똑한 데이터 소비자가 되려면
  • 22. 22 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy(Fluency) Framework 데이터 분석은 생산자와 소비자 간의 사회적 · 상호적 활동 분석 결과를 소비하는 사람이 있어야 분석하는 사람이 존재할 수 있고 좋은 분석을 생산하는 사람이 있어야 또 결과를 소비(활용)하는 사람이 존재
  • 23. 23 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: One Hump vs. Two Humps UNIMODAL(단봉) BIMODAL(쌍봉) 서로 다른 특성을 갖는 두개의 집단 이 표본에 존재
  • 24. 24 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Our First Data Literacy: BIMODAL DISTRIBUTION (쌍봉분포) African Seedcracker 자연선택에 의해 작고 부드러운 씨앗을 먹는 작은 부리의 새와 크고 단단한 씨앗을 먹는 큰 부리의 새로 나뉨
  • 25. 25 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight Reality • Reality: 복잡계; 실제 작동방식 100% 알 수 없음 • Belief: 세상의 작동방식에 대한 최선의(만족스러운) 설명 • Data: 세상의 작동방식에 대한 기록; 세상의 샘플링 • Insight: 세상에 대한 더 나은 설명, 새로운 해석 Belief Data Insight [or Inspiration?] 희한하네… 보따리 장수 매출 매출 매출 데이터를 읽을 수 있어야 새로운 해석도 가능
  • 26. 26 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → It’s Funny → Data Literacy -> Insight 1962년과 1979년에 태어난 남자들은 왜 Mets구단 팬이 되었나? Hint: 1969년과 1986년에 모두 8세가 되었음 1969년 7세 출생년도에 따른 NY Mets 팬들 비율 [대상: 뉴욕 거주하는 남자 야구 팬들] 1986년 7세
  • 27. 27 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-a Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 28. 28 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • 궁금한 것(Y)을 데이터(X)로 더 잘 설명(예측) • X를 바꾸어서 Y를 개선하기 위해서 분석하는 이유 • 데이터의 특성과 모양 요약 (기술 분석) • 독립변수(통제가능; X)와 종속변수(Y) 간 가설 검증 통계 • 데이터 학습, Feature(X)로 Target(Y)을 예측‧설명 • 의사결정 자동화 vs. 더 좋은 의사결정 기계학습 • 성과지표(Y)를 익숙한 관점(범주; X)으로 요약 • 과거에 대한 집계 엑셀 (대쉬보드) • X와 Y를 점, 선, 크기, 색상으로 표현 (탐험분석) • X와 Y 사이의 패턴(관계) 시각적 발견; 가설 수립 데이터 시각화 데이터 분석 방법 (X와 Y)
  • 29. 29 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀 • 데이터 특성과 모양을 (수치적으로) 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 30. 30 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Maturity Model Source: Booz Allen Hamilton 데이터 수집 → 데이터 기술(묘사) → 패턴 발견 → 예측 → 활용 우측으로 갈수록 성숙해진다기보다는 자기에게 필요한 단계를 잘 하면 됨
  • 31. 31 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know EDA Source: Booz Allen Hamilton EDA(Exploratory Data Analysis) = DESCRIBE (기술 분석) + EXPLORE (탐험 분석) • inspect data structure • data quality • summarize • visualize data • hypothesis generation • != modeling EDA, 데이터와 함께 떠나는 창의적 여행 (생고생)
  • 32. 32 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Descriptive Data Analysis Description 요약 Comparison 비교 Relationship 관계 데이터에 대해 사실적으로 묘사하는 법 변수의 대표값과 모양이 어떻나? 개별 변수(Y)의 통계값과 분포 확인 변수값의 차이가 어디서 얼마나 나나? 서로 다른 범주(X) 간 Y의 특성‧모양 비교 변수(Y)의 변화와 관계를 갖는 다른 변수(X)는? X와 Y 사이의 상관관계 파악
  • 33. 33 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Analysis-Ready Dataset 분석하기 좋은 데이터셋 • 국가별로 1999/2000년에 결핵으로 사망한 환자수(Cases)와 전체인구 (Population)를 정리한 데이터셋들 • 국가별 연도별 인구 10,000명당 결핵 사망률을 계산하기 가장 좋은 데이터는? NOT SO GREAT GREAT 1 2 3 4 rectangular data data frame data table tidy dataset
  • 34. 34 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Rectangular Dataset and Key Terms 분석하기 좋은 데이터셋 • Dataset: 값(Values)들의 집합으로 숫자 또는 범주로 구성 • Values: 변수(Variable)와 관측점(Observation)으로 구성 • Variable: 동일한 속성(나이, 매출)에 대한 측정값들로 행(Column)을 구성 • Observation: 동일한 대상(사람, 매장)에 대한 측정값들로 열(Row)를 구성 X features independent variables input (variables) predictor attribute Y target dependent variables output (variable) response record sample Instance case
  • 35. 35 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Raw vs. Aggregated Dataset Q. 2001년 남녀 구매 비율은? 추가 질문 Q. 2001년 Regular Coffee 구매한 여자 고객수? Q. 남자 고객이 선호하는 커피 종류는? Raw Data: Zoom-in(새로운 질문) 가능 Raw Data Aggregated Data
  • 36. 36 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Non-Rectangular Data Structures TIME-SERIES SPATIAL GRAPH • 동일 변수 연속적 기록 • Seasonality; Event • Object에 대한 위치좌표 • Location Analytics; Geo-Statistics • Physical, Social, Abstract 관계 • Social Graph From To Weight Russia China 10 USA Korea 7 Rectangular 구조가 아닌 데이터도 있음; 각 구조에 맞는 별도의 처리 및 분석 기법이 존재
  • 37. 37 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Features / Attributes / X Ripeness # of Seeds Weight (g) Color Fruit 0.56 5 320 Orange Orange 0.61 6 280 Red Apple Feature: Y(Output/Target)를 설명하거나 분류(예측)하는데 사용되는 속성 좋은 Feature를 발굴하는 것이 참 중요함.
  • 38. 38 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Features Engineering Feature Engineering: From Raw Variable to Derived Variable Y를 더 잘 설명하거나 분류(예측)할 수 있도록 기존 변수를 창의적으로 가공하여 새로운 변수를 만드는 일 당뇨병 위험도와 상관관계가 높은 변수 • 같은 몸무게라도 비만도는 키에 좌우됨 • 비만도를 더 잘 반영할 수 있는(키와 몸무게의 상호작 용을 잡아낼 수 있는) 새로운 변수 가공 • *BMI(Body Mass Index) = kg/m2 *발명한 사람의 이름을 따서 Quetelet Index라고도 함
  • 39. 39 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type 숫자형(Quantitative)과 범주형(Qualitative) 분석: 숫자와 숫자 사이의 연관성, 숫자의 차이를 가져오는 범주를 발견하는 것 • 숫자형 자료는 이산형(discrete)이나 연속형(continuous)으로 나뉨 • 범주형 자료는 명목형(nominal)이나 순서형(ordinal)으로 나뉨
  • 40. 40 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 변수 유형에 따라 분석 방법과 효과적 시각화 방법이 달라짐 숫자 x 숫자 = Scatterplot Overplotting(점이 겹침)! Alcohol(%): 와인 알코올 함량, Quality: 소비자가 매긴 점수 Quality를 범주로 처리 Boxplotting(분포 시각화)! Jittering 기법으로 Noise 추가 Jittering(인위적으로 퍼지게)!
  • 41. 41 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 – 그 때 알았더라면 순서형(Ordinal) 변수는 범주(Category)로 다루는 게 좋다. X를 숫자로 처리 X와 Y 간 상관관계(0.06)가 매우 약함 Y: 리더십 점수, X: 평가 점수(등급) X를 범주로 처리 서로 다른 범주(점수)간 Y값 차이가 존재함
  • 42. 42 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Type에 따른 시각화 방법 순서형x 순서형 변수 간 관계 시각화 서베이(설문) 데이터 Overplotting이 심각함 개별 레코드의 Density(밀도)를 표현해서 Overplotting 문제를 해결 밀도가 높을수록 진하고 크게 표현 15415
  • 43. 43 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 숫자형 변수를 나누는 또 다른 기준: Interval vs. Ratio Q. 나누거나(Ratio) 곱해도 말이 되는 것은? 온도 vs. 몸무게 Interval (구간 자료) 10도 + 10도 = 20도 20도 / 10도 = 2배? Ratio (비율 자료) 50kg + 50kg = 100kg 100kg / 50kg = 2배? 절대적 원점(True Zero)이 있으면 Ratio, 없으면 Interval 시간 = 00:00 : 시간이 없다(빵시)? 나이 = 0살 : 나이가 없다(빵살)
  • 44. 44 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Description (Data Profiling) Central Tendency 중심 경향 • 평균(Mean) • 중앙값(Median) • 최빈값(Mode) Dispersion 퍼진 정도 • 범위(Range) • 분산(Variance) • 표준편차(SD) • Percentile Shape of Distribution 퍼진 모양(대칭) • 왜도 (Skewness) 데이터의 특성과 모양을 요약하여 기술하는 방법 양(+)의 왜도음(-)의 왜도
  • 45. 45 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Philosophy of Statistics [19th Century] 초기의 통계학 - 결정론적 세계관에 바탕을 둔 이데아/본질의 추구 평균값이 대상이 보유한 이상적인 속성이고(Idealized Mean) Variation(차이)은 제거해야 할 오류라는 생각이 지배적이었음 Species(종; 種): An Ideal Type
  • 46. 46 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Darwin and Statistical Population [Late 19th~Early 20th Century] 다윈의 등장: Type/Essence(본질) → Variation(차이) 차이(변이)의 점진적 누적에 의해 진화가 이루어진다는 발견 개별 개체에 존재하는 의미있는 차이(변이)에 관심을 갖기 시작
  • 47. 47 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Vital Statistics vs. Mathematical Statistics Average: 집단을 요약 → Variation: 개인(개체)들에 존재하는 차이에 관심 인구통계 평균, 비율 수리통계 분산, 관계, 추론 확률, 유의성
  • 48. 48 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Florence Nightingale, the Lady with the Lamp • 크림 전쟁에 여성 최초로 영국군 보건위생장교로 참여 • 표준화되지 않은 질병 분류체계; 주먹구구 사망 데이터 관리 • 전사자 데이터 정리 후, 보고 방식 고민 (테이블? 파이차트?) • Data Storytelling: 파이차트를 변형하여 데이터를 시각화 “신의 생각을 이해하기 위해 우리는 통계를 공부해야 해요. 통계를 통해 신이 목적하신 바를 측정할 수 있다구요.” • 파랑: 예방/치료가능한 질병 • 빨강: 전쟁 중 발생한 상처 • 검정: 나머지
  • 49. 49 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 3 Types of Average: Mean, Median, Mode 병-1 병-2 병-3 병-4 병-5 병-6 병-7 병-8 병-9 13 18 13 15 13 16 14 21 13 Q. 어떤 값을 대표값으로 선택할까? A. 평균 (13+18+13+14+13+16+14+21+13) ÷ 9 = 15 B. 중앙값 13, 13, 13, 13, 14, 14, 16, 18, 21 C. 최빈값 13 (3번 측정; 다른 값들은 1번씩만 측정됨) D. 선호값 16 (병-6) 성벽의 벽돌 갯수를 병사들이 측정한 값들
  • 50. 50 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Frequency Distribution Table 계급 (0,3] (3,6] (6,9] (9,12] (12,15] (15,18] (18,21] (21,24] (24,27] (27,30] (30,33] (33,36] (36,39] (39,42] (42,45] (45,48] 빈도 26.0 17.0 15.0 32.0 34.0 51.0 55.0 56.0 55.0 60.0 58.0 43.0 18.0 14.0 5.0 2.0 누적 빈도 26.0 43.0 58.0 90.0 124.0 175.0 230.0 286.0 341.0 401.0 459.0 502.0 520.0 534.0 539.0 541.0 비율 4.8 3.1 2.8 5.9 6.3 9.4 10.2 10.4 10.2 11.1 10.7 7.9 3.3 2.6 0.9 0.4 누적 비율 4.8 7.9 10.7 16.6 22.9 32.3 42.5 52.9 63.1 74.2 84.9 92.8 96.1 98.7 99.6 100.0 히스토그램과 도수분포표
  • 51. 51 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot Probability Density Curve Histogram – Bin Size: 1시간 Histogram – Bin Size: 4시간1 2 3 1 2 3  히스토그램: 도수(빈도)의 분포[도수분포표] 를 차트로 표현한 것  계급: X축에 표현된 변수의 구간[4시간]  X축 변수 구간의 크기(Bin Size)를 4시간에 서 1시간으로 조정하였음  확률밀도: X가 연속형 변수일 경우 X값과 이에 대응하는 확률을 나타낸 그래프  좌측에서 X가 10~20시간 사이의 값을 가 질 확률은 해당 구간의 면적과 동일함
  • 52. 52 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Histogram vs. Density Plot: 서로 다른 두 집단의 분포를 비교 Histogram: 두 그룹의 분포의 차이 비교 Density Plot: 두 그룹의 분포의 차이 비교
  • 53. 53 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Learn by Doing Let’s Find Out Mean and Median on Density Curve 밀도함수에서 평균과 중앙값 찾아봅시다. Source: https://www.khanacademy.org/math/statistics-probability
  • 54. 54 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Learn by Doing Source: https://www.khanacademy.org/math/statistics-probability Let’s Find Out Mean and Median on Density Curve 중앙값: 면적을 분할 평균: 무게 중심
  • 55. 55 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Larger Variation, Greater Sampling Error • 신규 캠페인에 노출된 고객: 1인당 10,000원 소비 • 기존 캠페인에 노출된 고객: 1인당 8,000원 소비 변화의 폭 ↗ 샘플 데이터 신뢰도 ↘ 평균값에 대한 확신↘ A B Q. 기존 고객들의 소비액 분포가 A와 B 두가지가 있다고 가정했을 때, 둘 중 신규 캠페인이 더 효과적이라고 주장(일반화)하기에 좋은 분포는?
  • 56. 56 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile Original Value Ordered Value Ranking Percentile Quartile (사분위) 32 29 1 8% 1st Qu. [~25th] (최하위 25%) 54 32 2 17% 74 38 3 25% 99 41 4 33% 2nd Qu. [~50th] (차하위 25%) 38 53 5 42% 55 54 6 50% 29 55 7 58% 3rd Qu. [~75th] (차상위 25%) 41 74 8 67% 134 93 9 75% 53 99 10 83% 4th Qu. [~100th] (최상위 25%) 209 134 11 92% 93 209 12 100% 다른 관측(측정)값들을 크기의 분포를 고려했을 때 특정값의 상대적 위치
  • 57. 57 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Binning (Feature Engineering) Ranking 나이 나이_bin 나이_percentile 1 20 20~23 ~20th (하위 20%) 3개의 레코드 2 24 24~27 3 25 24~27 4 29 28~31 ~40th 3개의 레코드 5 33 31~34 6 33 31~34 7 39 38~41 ~60th 3개의 레코드 8 40 38~41 9 41 38~41 10 42 42~45 ~80th 3개의 레코드 11 43 42~45 12 43 42~45 13 44 42~45 ~100th (상위 20%) 3개의 레코드 14 51 50~53 15 60 58~60 Binning: 연속된 숫자형 변수를 범주형 변수로 변환하는 것 • _bin: 변수(나이)값의 범위(20~59)를 기준으로 최대한 균등하게 10개 구간을 생성 • _percentile: 레코드 갯수가 최대한 균등하게 안분되도록 5개 구간을 생성
  • 58. 58 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Percentile 활용하여 주성분(Principal Component) 찾기 비타민, 지방, 섬유질 변수로 채소와 고기 분류하기 • 비타민 빼기 지방: Percentile 값으로 바꾸면 해당 변수를 정규화하는 효과 가 있어서 서로 다른 단위를 갖는 변 수들 간 연산이 가능해짐 • PCA: 데이터 분류를 용이하게 하는 (=데이터가 최대한 퍼지게 하는) 주성 분(Principal Component; 이 경우 Vitamin C + Fiber – Fat)을 찾는 일.
  • 59. 59 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Finding Secret Feature Variable Percentile Height 56% Weight 61% Pedigree 70% Left Ventricle (좌심실) 99.61% Percentile과 남들은 모르는 좋은 Feature로 돈 번 사례 gait analysis American Pharoah: 2015년도에 37년 만에 Triple Crow 달성 (삼관마) Jeff Seder: “Sell your house. But, do NOT sell this horse.”
  • 60. 60 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Summary Statistics and Visualization 1 2 3
  • 61. 61 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Distribution (boxplot) Box-and-whiskers plot (예시) 2천 4천 6천 8천 소 득 중앙값 Median IQR 1억 Outlier  중앙값(median) 파악 최소값 (Lower whisker) Box-and-whiskers plot 해석 대칭성 및 분포 특이값(Outlier) 최대값 (Upper whisker)  특이값(outlier): 중앙값에서 편차가 큰 값  IQR(Inter Quartile Range)의 1.5배 이상 벗어나 있는 값들을 Outlier로 정의  대칭성(symmetry): 최대값과 최소값까지의 수 염 길이 비교 중심 경향 Q1 Q3 1 2 3 1 2 3 SK 내부 강의자료 참고 2 3
  • 62. 62 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Distribution (boxplot) Q. 아마 아닐꺼야(Probably Not)에 대해 a. Range를 구해보세요. b. 중앙값을 구해보세요. c. 평균을 가늠해보세요. d. 1Q(하위 25%)의 답변의 범위를 구해 보세요. e. 응답자의 75%는 최소 몇%(X축) 이 상으로 답변했나요? Q. 분산(퍼진 정도)이 가장 큰(작은) Phrase는 무언가요? Q. 음(-)의 왜도(비대칭성)가 가장 큰 Phrase는 무엇인가요?
  • 63. 63 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Description 데이터의 특성과 모양을 시각화하는 방법 Bar Chart (평균) Box Plot (분포) Density Plot (분포)
  • 64. 64 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module II-a Data Understanding 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 65. 65 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 66. 66 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Data Aggregation Average Man – Galton’s Composite Portraits The Problems with Average: Not Robust!
  • 67. 67 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 평균의 문제 - Linear Thinking vs. Non-Linear Relationship 고객 세그먼트 평균 점수 A 4 B 3 A = [4, 4, 4, 4, 4, 4, 4, 4] B = [1, 1, 1, 1, 5, 5, 5, 5] Q. 친환경 제품을 출시하려 한다. 어떤 세그먼트에 프로모션해야 하나?
  • 68. 68 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox 지원자 수 합격자 수 합격률 여자 1,000 150 15% 남자 1,000 250 25% 지원자 수 합격자 수 합격률 여자 800 80 10% 남자 200 10 5% 지원자 수 합격자 수 합격률 여자 200 70 35% 남자 800 240 30% 문과대 합결률 이공대 합격률 심슨의 역설 뭉뚱그린 수치는 현실을 왜곡할 수 있음 쪼개보는 일(Segmentation; Drill-Down; Dimensions)의 중요성 남녀 지원자 합격률
  • 69. 69 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox 새로운 관점(Dimension) 연봉과 까칠함과의 관계 → 직급별 연봉과 까칠함과의 관계
  • 70. 70 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 제한된‧익숙한 관점 - Simpson’s Paradox Story, not Data, should dictate our choice Phone 전환률이 중요한 경우 유료 전환 사용자수가 중요한 경우 Mobile App Conversion Rate: 5.00% iOS Android Devices 5000 10000 Conversinos 200 550 Conversion Rate 4.00%% 5.50% iOS Android Tablet Phone Tablet Phone Devices 1500 3500 8000 2000 Conversinos 100 100 500 50 Conversion Rate 6.67% 2.86% 6.25% 2.50%
  • 71. 71 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Curse of Dimensionality 차원의 저주 “If you test enough things, just by random chance, one of them will be statistically significant.” S&P 지수 Coin 1 Coin 2 Coin 3 Coin 4 Coin 5 ….. ….. Coin 1217 ….. ….. Coin 1999 Coin 2000 1 상승 앞 뒤 앞 앞 뒤 앞 앞 뒤 2 하락 뒤 뒤 앞 앞 뒤 앞 뒤 뒤 3 상승 뒤 앞 뒤 앞 뒤 앞 뒤 앞 4 상승 앞 뒤 앞 뒤 뒤 앞 앞 뒤 5 하락 뒤 앞 뒤 앞 앞 뒤 뒤 뒤 … 248 상승 앞 뒤 뒤 뒤 앞 앞 뒤 뒤 249 하락 뒤 앞 뒤 뒤 뒤 뒤 뒤 앞 250 하락 앞 뒤 앞 앞 앞 뒤 뒤 뒤
  • 72. 72 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 Bar Chart • 서로 다른 범주(사업부)간 평균값(매출 평균)의 차이를 비교하는데 효과적 • 시계열에 따른 변화를 표현하기에는 부적절 1 Dimension Pie Chart • 서로 다른 범주가 전체(매출 총합)에서 차지하는 비율을 대비하는데 효과적 • 범주의 갯수가 많거나 비율이 비슷한 경우 부적절
  • 73. 73 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 Line Chart • 시계열에 따른 추세를 보는데 효과적 • 너무 많은 범주(4~5개 이상)가 함께 표현되는 경우 헤깔림 2 Dimensions Stacked Area Chart • 시간의 흐름에 따른 개별 범주의 전체 크기 내에서의 상대적 크기 변화를 표현하는데 효과적 • 범주가 너무 많으면 역시 헤깔림 Scatter Plot • 두개의 숫자형 변수 간 관계를 파악하는데 효과적 • Outlier를 발견하는데도 효과적 • 원 크기/색상으로 4 Dimensions 표현
  • 74. 74 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 Hierarchical Data Treemap Sunburst
  • 75. 75 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization 101 – 기본 문법 숙지
  • 76. 76 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Storytelling – Pre-attentive Processing 전주의 처리 (Pre-attentive Processing) 주의를 기울이지 않고도 핵심 정보를 인지
  • 77. 77 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Storytelling – Pre-attentive Processing 전주의 처리 (Pre-attentive Processing) 주의를 기울이지 않고도 핵심 정보를 인지하도록 적절히 강조 차트를 볼 때 사람의 눈동자가 어떤 순서로 어디로 향할지 알 수 없음
  • 78. 78 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Storytelling – Before and After Before After: Call to Action
  • 79. 79 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation and Scatter Plot (source: WHY) 1 2 3
  • 80. 80 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Uncorrelated Doesn’t Mean Unrelated (source: how not to be wrong) 진보 관심 보수 무관심 “정치적 관심도”와 “정칙적 성향(보수-진보)” 간 관계 해석
  • 81. 81 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 데이터 요약 & 시각화 동일한 평균, 분산, 상관계수 시각화를 통해 현실의 복잡성이 드러남 I II III IV X Y X Y X Y X Y 평균 9 7.5 9 7.5 9 7.5 9 7.5 분산 11 4.1 11 4.1 11 4.1 11 4.1 상관계수 0.82 0.82 0.82 0.82
  • 82. 82 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization - Seeing is Believing 통계치와 시각화 결과를 함께 확인
  • 83. 83 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Viz: Understand and Explain Data Noise? 이상한 애? vs. 특별한 애? Signal 패턴, 일반적 경향
  • 84. 84 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Visualization Visual Affirmation 검증된 사실을 주장/보고 Visual Confirmation 가설을 시각적으로 검증 Visual Exploration 뭐라도 하나 걸렸으면 Data: A New Language of Business Data Viz: A Medium of Data Communication 목적에 맞는 데이터 시각화 방법 선택
  • 85. 85 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation Spurious Correlation (허위상관) 마요네즈 덜 먹으면 이혼을 덜 할까? 참고) http://www.tylervigen.com/spurious-correlations
  • 86. 86 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation Omitted Variable Bias O X Y 물가 인상 교통비 인상 백반 가격 인상 Causation Causation Correlation교통비 인상 백반 가격 인상 Correlation • Correlation: X의 변화로 Y의 변화 예측 가능 • Causation: X에 개입해서 Y를 바꿀 수 있음 Correlation helps you predict the future; Causality lets you change the future. 대표적인 오류
  • 87. 87 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module III Machine Learning and Enterprise Decision-Making 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 88. 88 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 89. 89 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning and Decision Making Machine Learning: Decision Making Technology • 인공지능의 한 분야로 사람으로부터 아주 제한된 지시만 받고 데이터를 학습하여 패턴을 추출, 의사결정에 활용하는 기술 • 기계에게 언어로 기술(codify)하기 힘든 것을 정답(Label)을 알고 있는 과거 데이터를 제공하여 학습하도록 함 • 폴라니의 역설: 언어의 해상도가 인식의 해상도보다 낮다. (할 줄은 아는데 어떻게 하는지 말 못함) AI Machine Learning Linear Regression Decision Tree Deep Learning Random Forest Robotics NLP,..... White Box Decision Making Augmentation Black Box Decision Making Automation
  • 90. 90 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning and Enterprise Decision Making 빈번한 덜 중요한 결정 덜 빈번한 중요한 결정 • HR: 직원선발, 성과요인 1 second1 year 1 month 1 week 1 day 1 min1 hour Prediction Explanation Frequent Less Frequent Decision Augmentation Decision Automation • Sales: 제품 판매전략 • Operation: 운영 최적화 • 개인화 광고 • 맞춤형 상품 • 이상 금융거래 탐지 빅 데이터 → 기계학습 → 예측 통한 의사결정 자동화 스몰 데이터 → 기계학습 → 사실‧증거 기반 더 좋은 결정 Are You in Prediction Business or Explanation Business?
  • 91. 91 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Machine Learning Supervised Machine Learning (지도 학습) 설명/예측하고 싶은 문제에 관련하여 정답을 알고 있는 데이터가 충분히 있는 경우 X로부터 Y를 유추하는 패턴을 찾는 것 X (Input) Y (Output) APPLICATION Voice recording Transcript Speech recognition Transaction records Fraudulent (yes/no) Fraud detection Emails Spam (yes/no) Spam filtering Ad + User Profile Click (yes/no) Personalized AD Faces Names Face recognition Korean English Language Translation
  • 92. 92 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Supervised Machine Learning Supervised Machine Learning (지도 학습) 모형이 투명한 경우(White Box), 설명‧예측 둘 다 활용 가능 X1 X2 X3 Y 겨울 강수량 수확철 강수량 평균 온도 와인 가격 13 35 35 9.5 22 25 25 3.5 25 21 21 3.2 11 18 18 3.5 47 45 45 4.7 . . . . 예측 12.3$ ML Algo Model 겨울 강수량 수확철 강수량 평균 온도 와인 가격 35 25 21 ? Training Data Set Ashenfelter’s Wine Formula Price = 12 + 0.001 겨울강수량 + 0.06 평 균온도 – 0.004 수확철강수량 설명 선형회귀 알고리즘 Y = a + b X1 + c X2 + d X3
  • 93. 93 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know White Box vs. Black Box 35 25 21 겨울강수량 온도 수확강수량 Input 값 3.5 Output 값 0.35 0.26 5.1 35 25 21 겨울강수량 온도 수확강수량 Input 값 4.2 Output 값 0.025 0.62 2.1 35 25 21 겨울강수량 온도 수확강수량 Input 값 7.1 Output 값 1.42 0.215 -1.2 35 25 21 겨울강수량 온도 수확강수량 Input 값 6.1 Output 값 0.5 0.06 3.1 모형 A 모형 B 모형 C 모형 D Black Box: 더 정확할지언정 인간이 이해하기 힘들다. 6.1 3.5 4.2 7.1가격 = 15.4$ = 0.6 x + 0.1 x + 0.25 x + 0.05 x A B C D
  • 94. 94 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree vs. Random Forest Trade Off Between Interpretability and Accuracy Random ForestDecision Tree
  • 95. 95 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Model Interpretability 정확함 vs. 올바름 Model should be Accurate for the Right Reason 대출 총액 대출 총액 수입 수입
  • 96. 96 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Predictive Analytics for Complex Business Decision-Making 비지니스 의사결정에 예측모형을 활용하는 것이 힘들고 조심스러운 이유 Model Validity 데이터에 담기 어려운 현실세계의 우발성, 복잡성으로 모델의 정확도가 낮음 Model Diversity 데이터 속에 내재된 편견이 모델에 반영될 경우 현실이 오히려 강화/공고화됨
  • 97. 97 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know features labelunknown 기계학습 x nature y 세상 Statistics vs. Machine Learning 독립 변수 종속 변수 model 통계 분석 • 연역적 추론(Deductive Reasoning): 가설수립 → 가설검증 • 모형의 타당성: 가설 일반화를 위한 모형의 타당성‧재현성이 중요 • 귀납적 추론(Inductive Reasoning): 데이터 → 패턴 • 모형의 유용성: 의사결정에 활용하기 위한 모형의 유용성이 중요 “Machine Learning is essentially a form of applied statistics” “Machine Learning is statistics scaled up to big data” 결국 둘다 데이터를 통해 문제를 해결하는 데 사용됨 기술과 방법의 차이라기 보다는 분석 목표의 차이
  • 98. 98 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module IV Linear Regression Analysis 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 99. 99 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 100. 100 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Regression toward the Mean 우연(Chance)의 영향으로 평균(평범함)으로의 회귀 • 왕겨(Bran) 먹은 후 배변에 걸리는 시간(Oral-Anal Transit Time)이 • 평균(48시간)보다 오래걸렸던 사람은 더 빨라졌고 • 평균(48시간)보다 짧았던 사람은 더 길어졌고 • 평균이었던 사람은 큰 변화가 없었다. 추이 평균
  • 101. 101 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) Linear Regression • 가장 오래되고, 널리 쓰이고, 결과를 이해하기 쉬운 지도학습 알고리즘 • 독립변수(X)를 가지고 숫자형 종속변수(Y)를 가장 잘 설명‧예측(Best Fit)하는 선형 관계(Linear Relationship)를 찾는 방법 중 하나 • X가 범주형 변수(성별)인 경우, 집단(남‧녀) 간 Y값의 차이를 분석 계산방법 (Least Squares) X와 Y 사이에 선형적 관계가 있다는 가정 하에 실제 Y값과 예측한 Y값의 차이를 최소화하는 방정식을 계산 Y = b0 + b1X + error • b0 : Y축 절편(Intercept); 예측변수가 0일 때 기대 점수를 나타냄 • b1 : 기울기로 X가 한 단위 증가했을 때의 Y의 평균적 변화값을 나타냄 *참고: http://students.brown.edu/seeing-theory/regression/index.html Regression Model: Y가 숫자형 변수(매출)인 경우 Classification Model: Y가 범주형 변수(성별)인 경우 Supervised Machine-Learning
  • 102. 102 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) P-Value (Probability-Values) Q. X와 Y 사이에 통계적으로 유의미한 관계가 있나? • Statistical Significance (통계적 유의성) • 데이터를 통해 확인한 관계가 우연히 나왔을 확률 • P값이 0.03: 데이터에서 발견한 관계가 운일 확률 3% • 관계의 세기(Size of an Effect)를 나타내는 것은 아님 R2 (R-SQUARED; 결정계수) Q. X가 Y를 얼마나 잘 설명/예측하는가? • Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기 R2 = 0.81 R2 = 0.24
  • 103. 103 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Statistical Significance and P-Value(Probability-Values) Outcome Campaign A Campaign B Conversion 200 182 No Conversion 23539 22406 Conversion Rate 0.8425% 0.8057% 1. 캠페인 A의 전환률이 0.0368% 높음; 차이가 의미가 있나? 2. 통계적 유의성 검증이 꼭 필요한가? (이 정도면 작은 샘플을 사용하여 일반화하는 일을 걱정할 필요없는 빅데이터 아닌가?) 3. 두 캠페인 사이의 전환율 차이가 우연은 아닌가? • 둘 간 전환율 차이가 없다고 가정(H0)하고 두 캠페인 결과를 하나로 섞는다 • 섞은 데이터에서 23739, 22588개를 Resampling하여 두 캠페인 간 전환율 차이를 기록 (1,000번 반복) • 차이(test statistic; 검정통계량)가 > 0.0368%보다 큰 경우의 확률을 계산: 30.8% (P-Value: 0.308) 효과의 크기/차이 0.0368%
  • 104. 104 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석: P-Value (Probability-Values) P값: (선형적) 관계가 우연히 나왔을 확률 작은 P값: 데이터에서 발견한 관계가 우연이 아니다 (=통계적으로 유의미) • 귀무 가설(H0; Null Hypothesis): X와 Y 사이에 관계가 없다고 가정 P = 0.03: 관계가 없단 가정 하에 데이터에서 발견한 관계 혹은 더 극단적인 관계가 관측될 확률 = 3% 정상적인(앞뒷면 확률이 동일한) 동전을 20번 던져 앞면이 나온 횟수에 대한 확률 분포 동전이 정상이라면 앞면이 연속 18번 이상 나 올 확률이 < 5%. 동전 정상이 아니라고 결론
  • 105. 105 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석 (Linear Regression Analysis) R2 = 설명한 Y 변화량 / 총 Y 변화량 = (총 Y 변화량 - 설명 못 한 Y 변화량) / 총 Y 변화량 = 1 - (설명 못 한 Y 변화량 / 총 Y 변화량 ) 총 Y 변화량 설명 못한 Y 변화량
  • 106. 106 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 선형회귀분석: 결정계수(R2: R-SQUARED) 낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님 R2: 0.14 R2: 0.86 • 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001 • 우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음 • 변수 간 경향성은 동일: X 1단위 증가 → Y 2단위 증가
  • 107. 107 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Binning: 선형회귀분석으로 비선형적 관계 찾기 Binning: 숫자형 변수를 범주형 변수로 변형 • 이익(Y)과 운송비용(X; 숫자)간에는 선형적 관계 없음 • 운송비용을 범주형 변수로 변형하면 비선형적 관계 발견 • 해석, 서로 다른 운송비용 구간별로 이익의 차이가 존재
  • 108. 108 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Simple Linear Regression Analysis – Advertisement 매출에 미치는 매체 영향에 상호작용이 없다고 가정하였을 때 1. TV, Radio, 신문 중 Sales를 가장 정확하게 예측하는 매체는? 2. TV, Radio, 신문 중 Sales 증가에 가장 큰 효과가 있는 매체는? Advertising.xlsx
  • 109. 109 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Multiple Linear Regression Analysis – Advertisement 이번에는 변수 2개[TV, Radio]를 사용하여 Sales와의 관계를 설명‧예측하는 회귀모형을 만들어 봅시다. Y = b0 + b1X1 + b2X2 Sales = 2.9 + 0.045 x TV + 0.187 x Radio
  • 110. 110 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Module V Decision Tree Algorithm 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 111. 111 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Analysis Techniques 데이터 분석 주요기술  DESCRIBE (기술 분석) - 엑셀, 대쉬보드 • 데이터 특성과 모양을 요약  EXPLORE (탐험적 분석) - 데이터 시각화 도구 • 가설수립‧데이터 감 잡기 위해 패턴 탐험  PREDICT/INFER (예측‧추론 분석) - 통계/ML • 패턴(모형)을 통해 주어진 문제를 예측‧설명 과거 미래 Looking Backward Looking Forward
  • 112. 112 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know • Decision Tree: 의사결정트리; 대표적 Classification Model • Classification: 서로 다른 집단을 구분하는 규칙(경계) 찾기 Decision Tree and Classification Linear Classifier Non-Linear Classifier Data-Driven Farmer Logistic Decision Tree SVM Regression Model: Y가 숫자형 변수(매출)인 경우 Classification Model: Y가 범주형 변수(성별)인 경우 Supervised Machine-Learning
  • 113. 113 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree - Minimizing Entropy 성과에 따른 신입사원 분포 동아리 경험 (년) 인내력 ▲ ★ ▲ ▲▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ★ ★▲ ★ ★ ★★ ★ ★ ★ ★ ★ ▲ ▲ ★ ★ ★ ★ ▲ 고성과자 나머지 엔트로피(Entropy): Measure of Impurity • Purity: 엔트로피를 최소화하도록(= 끼리끼리 모이도록) 공간을 구획하는 문제 • Homogeneity: 특정 집단이 밀집한 세그먼트의 논리적 규칙을 찾는 문제
  • 114. 114 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know 동아리경험 (년) 인내력 87 74 0.8 ▲ ★ ▲ ▲▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ★ ★▲ ★ ★ ★★ ★ ★ ★ ★ ★ ▲ ▲ ★ ★ ★ 규칙 (Rule Set) 확률 (Probability) IF (동아리경험 < 0.8년) and (인내력역량 < 87) then Class = 저성과 신입사원 100% (12/12) IF (동아리경험 < 0.8년) and (인내력역량 >= 87) then Class = 고성과 신입사원 67% (2/3) IF (동아리경험 >= 0.8년) and (인내력역량 < 74) then Class = 저성과 신입사원 57% (4/7) IF (동아리경험 >= 0.8년) and (인내력역량 >= 74) then Class = 고성과 신입사원 100% (10/10) 성과에 따른 신입사원 분포 분류규칙 Decision Tree - Minimizing Entropy 동아리경험 인내력 역량 인내력 역량 나머지 12/12 고성과 2/3 나머지 4/7 고성과 10/10 < 0.8년 >= 0.8년 >= 74< 74>= 87< 87 고성과 신입사원 분류모형 (의사결정트리) ★ ▲고성과 나머지
  • 115. 115 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Terminology • Root Node: 최상위 노드 • Leaf Node: 말단 노드 • Decision Node: 의사결정 노드 • Splitting: 동질적 집단으로 쪼개는 일 • Pruning: 트리가 너무 길어지지 않게 하는 일
  • 116. 116 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Titanic Dataset Variable Definition Key survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic Sibling = brother, sister, stepbrother, stepsister Spouse = husband, wife (mistresses and fiancés were ignored) parch # of parents / children aboard the Titanic Parent = mother, father Child = daughter, son, stepdaughter, stepson ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton
  • 117. 117 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Titanic Dataset confusion matrix Yes (Predicted) No (Predicted) Yes (Actual) 227 True Positive 115 False Negative No (Actual) 28 False Positive 521 True Negative 227 + 28 227Precision(Y) 89% 227 + 115 227Recall(Y) 66% = = Decision Tree • 변수 사이 interaction • 비선형적 관계
  • 118. 118 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Decision Tree – Titanic Dataset Confusion Matrix Yes (Predicted) No (Predicted) Yes (Actual) 227 True Positive 115 False Negative TYPE II Error No (Actual) 28 False Positive TYPE I Error 521 True Negative 227 + 115 227Recall(Y) 재현률 66% = 227 + 115 + 28 + 521 227 + 521Accuracy 모형 정확도 84% = Confusion Matrix: 분류 모형의 성능을 평가하는 방법 이해하기는 쉬운데 용어가 어려움 • True Positive: 맞는 걸 맞다고 하는 것 • True Negative: 아닌 걸 아니라고 하는 것 • False Positive (I형 오류) : 아닌데 맞다고 하는 것 (거짓을 믿는 것) • False Negative (II형 오류) : 긴데 아니다고 하는 것 (참을 거부하는 것) 227 + 28 227 Precision(Y) 정밀도 89% =
  • 119. 119 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know My Two Cents 아이디케이스퀘어드 양승준 / sidney.yang@idk2.co.kr https://www.heartcount.io
  • 120. 120 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Closing Remarks 할리우드 (캐릭터 + 욕망) / 방해물 = 이야기 데이터 분석 (Data + Data Literacy) / 방해물 = 유용한 패턴
  • 121. 121 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy 데이터에서 발견한 유용한 사실을 공감할 수 있는 형식으로 표현, 이롭게 활용되도록 하는 것
  • 122. 122 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data Literacy: from Data Phobia to Data Fluency Data Phobia Data Fluency
  • 123. 123 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know The Size of Data is Overrated Smaller Data [Asset; 독점] Bigger Data [Liability] 개별 레코드에 담긴 패턴(효과/시그널)이 클수록 패턴 발견을 위해 적은 데이터가 필요
  • 124. 124 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Finding the Right Angle: 땅볼(Ground Ball) vs. 뜬볼(Fly Ball) 낮고 빠르게 높고 빠르게 홈런수 Baseball.Dataset.xlsx
  • 125. 125 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know White Box vs. Black Box White Box 모형 - Linear Regression 낮은 예측정확도, 높은 설명력 Black Box 모형 - Random Forest 높은 예측정확도, 낮은 설명력 Model Transparency 기계의 예측을 맹목적으로 따를 것이 아니라 현실에 직접 개입하려 한다면 모형의 투명성(설명력)이 예측력보다 중요 *Right to Explanation (EU GDPR)
  • 126. 126 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호) 당신 회사에 다음과 같이 두가지 모델의 차량이 있다. 모든 자동차는 일년에 10,000 마일을 주행한다. Q. OPEX(기름값)을 줄이기 위한 당신의 선택은? A. 10 MPG 차량을 20 MPG 차량으로 교체 B. 20 MPG 차량을 50 MPG 차량으로 교체 Fleet A 10 MPG SUV Fleet B 20 MPG Sedan
  • 127. 127 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Linear Thinking vs. Non-Linear Relationship (source: HBR 2017.05월호) 10,000 마일당 사용한 기름 (Gallons) 현재 차량 업그레이드 후 절감분 A. 1,000 (@10 MPG) 500 (@20 MPG) 500 B. 500 (@20 MPG) 200 (@50 MPG) 300
  • 128. 128 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation vs. Causation 바람이 많이 불면 나무통 가게가 돈을 번다. O X Y • 교육 받아서 성과가 좋아 졌나? • (경기 탓으로) 성과가 안 좋아서 교육 받았나? Omitted Variable Bias Reverse Causality X Y • 한 업무에 오래 있어서 성과가 낮나? • 성과가 낮아서 한자리에 오래 있었나? Two Types of Causality Problems
  • 129. 129 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation을 언제 의사결정에 활용해야 하나? 관계에 대한 높은 확신 (인과관계) 데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이 [라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은? 관계에 대한 낮은 확신 실>득 실<득 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 Act Don’t Act
  • 130. 130 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Correlation을 언제 의사결정에 활용해야 하나? 관계에 대한 높은 확신 (인과관계) 관계에 대한 낮은 확신 실>득 실<득 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 Act Don’t Act 가. 구매패턴에 따른 보험료 차등 적용 나. 저위험군 고객들 타겟 마켓팅 데이터를 통해 [소고기와 우유]를 구매한 고객들의 자동차 사고 발생률이 [라면과 소주]를 구매한 고객보다 높은 걸 확인했다. 보험회사가 취할 행동은? X O
  • 131. 131 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Why Model Transparency Matters! 결핵 치사율 예측모형 결핵환자 중 천식을 앓고 있는 사람은 집으로 돌려 보내세요. 투명한 모형과 사람의 판단이 환자를 살렸습니다. X 결핵환자 w/ 천식 Intensive Care Unit Y 합병증 ⬇ 치사율 ⬇
  • 132. 132 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Insight Matrix X(입력변수)와 Y(목표변수) 간의 관계 X (Input Variables; Features) Hiring 성격 학력/인지능력 채용 경로 Culture / Management 리더쉽 보상 육성 Behavior 근태 협업 만족도 기존 믿음(가설)을 정량적으로 검증 몰랐던 사실 발견 (Unknown Unknown) 관계 없음 관계 있는 줄 알았는데 없음 (Myth Busting) Y: 성과 example) 임직원 성과
  • 133. 133 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Change: Targeting vs. Optimization Y(퇴사?) X1 부서 지역 X4 회의 참여 X5 ….. No 재무 서울 32 No R&D 부산 14 No 총무 서울 9 No 인사 부산 26 No R&D 서울 43 Yes 마케팅 서울 78 Yes 인사 일본 63 Yes 인사 일본 51 Yes 인사 일본 103 Optimization X를 바꾸어서 Y를 개선 Targeting 특정 대상 선정 후 개입
  • 134. 134 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Noise와 Signal을 어떻게 구분할까? 기량의 역설 (Paradox of Skill) 기량↗ 기량의 변량↘ 운(Chance)↗ Compare The Extremes
  • 135. 135 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know ① Data → Insight → Belief Real World Belief Data Insight 희한하네… 봇따리 장수 매출 매출 매출 Belief (Knowledge) Evolution Experience Culture ①믿음은 어디에서 오는가? ②새로운 사실은 믿음을 바꾸는가? Data • 우리의 믿음은 문장으로 구성되어 있음 - 믿음: 적당한 운동은 건강에 좋다. • 설명: 느끼고 보고 배운 걸로 믿음을 설명 - 설명: 수영을 하니 몸이 깨운하다. • 믿음이 바뀌려면 패턴이 쉽고 명확해야 함 ②
  • 136. 136 © IDK2 Inc. All Rights Reserved. I Don’t Know What I Don’t Know Data → Insight → Belief → Change Real World Belief Data Insight 희한하네… 봇따리 장수 매출 매출 매출 믿음을 바꿔 세상을 바꾸기 [1990 베트남, 빈곤 아동들의 영양실조 문제] “6개월 안에 변화를 만들지 못하면 떠나시오!” 구조적 문제들 당장 바꿀 수 있는 것을 작고 부드러운 목소리로TBU: True But Useless 위생설비, 깨끗한 물, 무지함 ➡

Notes de l'éditeur

  1. 파도타기를 즐기려면 마음: 서핑하고 싶은 마음이 있어야 함. (동경. 호기심, 강요 등등) – 어렵지 않다(할 수 있다). 재밌다(유용하다) -> 자기 효능감 파도가 있어야 함. (이건 주어지는 것이지만 작은 파도는 또 작은 파도대로 즐길 수 있음) 도구가 있어야 함. (파도의 특성과 자기 실력에게 맞는 도구가 있음. 초보자용 롱보드부터 쇼트보드 등. 심지어 Bodysurf라는 것도 있음) 도메인 지식: 바닥에 암초는 없는지 바닥의 지형; 저기서 왜 파도가 솟구치는지;, 뛰어들어도 되는지 파도 타기 기술을 익혀야 함. (파도를 읽는 법 + 자기에게 맞는 서프보드를 선택하고 사용하는 법 등)
  2. https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
  3. https://simplystatistics.org/2018/04/17/what-is-a-successful-data-analysis/
  4. https://medium.com/financial-times/tim-harfords-guide-to-statistics-in-a-misleading-age-652a597c1d88
  5. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…
  6. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…
  7. http://helper.ipam.ucla.edu/publications/caws3/caws3_13211.pdf https://pdfs.semanticscholar.org/03f1/9834cf528308a1b6b16c95f2706017f96273.pdf?_ga=2.58501865.294890305.1525224488-1337446620.1525224488 https://medium.com/@sidney.yang/%EB%84%A4-%EB%A7%88%EC%9D%8C%EC%9D%98-%EC%86%8C%EB%A6%AC-%EC%84%9C%EB%B2%A0%EC%9D%B4-cb3bfcef795a
  8. https://pdfs.semanticscholar.org/03f1/9834cf528308a1b6b16c95f2706017f96273.pdf?_ga=2.58501865.294890305.1525224488-1337446620.1525224488
  9. 무슨 정보든지 이야기로 만들어 버린다. https://www.nytimes.com/2017/04/08/opinion/sunday/the-utter-uselessness-of-job-interviews.html?smprod=nytcore-iphone&smid=nytcore-iphone-share&_r=0
  10. 그럴듯한 것(고정관념과 부합) 린다가 그럴리가 없어. 무슨 정보든지 이야기로 만들어 버린다. https://www.nytimes.com/2017/04/08/opinion/sunday/the-utter-uselessness-of-job-interviews.html?smprod=nytcore-iphone&smid=nytcore-iphone-share&_r=0 동전 앞면 + 500원일 확률 조부모가 손주 돌보는데 할애하는 시간…(skip)
  11. 정보도 완전하지 않고, 모든 가능성 고려할 능력도 시간도 없고, 의사결정 환경도 불확실 사후 합리화: 본인 내린 결론에 정당성 부여 뇌: 인지적 구두쇠 (Cognitive Miser) 합리화: 합리적인 인간이라고 생각해야 마음이 편함. 설명/이해하지 못하는 것에 대한 두려움; 세상의 질서를 파악해서 논리적 결정을 내렸다고 합리화. 자신의 정체성의 연속성을 유지 유전자: 행동(선택)의 결과물에 효용값(선호도) 미리 설정; 린다와 마틸다 중 한명을 채용한다고 했을 때 선호도는 주어짐… 자유의지가 있기는 한가?
  12. Around 3000 BC, the cuneiform script was developed by the Sumerians, who lived in what is now Iraq. This script was a series of pictographs inscribed on clay tablets using a stylus – a sharpened tip of a reed. One site, the city of Uruk, surpassed all others as an urban center surrounded by a group of secondary settlements. It covered approximately 250 hectares, or .96 square miles, and has been called “the first city in world history.” The site was dominated by large temple estates whose need for accounting and disbursing of revenues led to the recording of economic data on these clay tablets. Initially, these pictographs were laid out in vertical columns, but later they were read from left to right.
  13. 데이터 분석가와 데이터 소비자의 분리 소통의 문제 데이터 마트, 파이프는 표준화 가능. The Last Mile은 personal and organization-specific. Personal and Organizational Data Literacy.
  14. 능동적 데이터 소비자 닭잡는데 소잡는 칼…
  15. 데이터로 읽고 쓰고 듣고 말하고 http://www.juiceanalytics.com/writing/4-components-of-the-data-fluency-framework
  16. 현실: we can never say what it is…we can only say things about reality 통찰력: 남들은 눈치 채지 못하는 평범한 단서에서 더 큰 무언가를 이끌어내는 능력 https://medium.com/towards-data-science/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365
  17. 암을 예측하는 것과 설명하는 것
  18. https://www.boozallen.com/s/insight/publication/field-guide-to-data-science.html
  19. https://www.boozallen.com/s/insight/publication/field-guide-to-data-science.html
  20. 결핵 Cases
  21. http://galton.org/composite.htm
  22. https://research.fb.com/prophet-forecasting-at-scale/
  23. https://docs.google.com/presentation/d/1kSuQyW5DTnkVaZEjGYCkfOxvzCqGEFzWBy4e9Uedd9k/preview?imm_mid=0f9b7e&cmp=em-data-na-na-newsltr_20171213&slide=id.g22aaaf9c33_0_106
  24. https://docs.google.com/presentation/d/1kSuQyW5DTnkVaZEjGYCkfOxvzCqGEFzWBy4e9Uedd9k/preview?imm_mid=0f9b7e&cmp=em-data-na-na-newsltr_20171213&slide=id.g22aaaf9c33_0_106
  25. 플라토나이징 platonizing…사물을 분류하는 인간의 강박적 행동 (Nassim Taleb: 블랙 스완) data (명목 자료): nominal data는 여러 categories(예, 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 수 있을 때 사용된다. 평균을 계산하는 것이 의미 없고 (백팀과 홍팀의 평균은 연분홍팀?) 비율로는 표현해도 된다. (청팀: 33%, 백팀 33%, 홍팀 34%) ordinal data (순서 자료): category에 순서가 있는 경우 ordinal data라고 한다. 청팀이 이길 가능성을 묻는 경우 그 답변을 “A. 매우 높다. B. 높다. C. 중립, D. 낮다. E. 매우 낮다."로 설계할 수 있다. nominal data와 마찬가지로 counting을 하고 비율로 표현해도 좋다. (매우 높다: 33%, 높다: 19%…)
  26. https://towardsdatascience.com/data-types-in-statistics-347e152e8bee
  27. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  28. The decision to examine averages or to measure variation is rooted in philosophical ideologies that governed the thinking of statisticians, natural philosophers and scientists throughout the 19th century. The emphasis on statistical averages was underpinned by the philosophical tenets of determinism and typological ideas of biological species, which helped to perpetuate the idea of an idealized mean. Determinism implies that there is order and perfection in the universe … The typological concept of species, which was the dominant thinking of taxonomists,* typologists and morphologists until the end of the 19th century, gave rise to the morphological concept of species. Species were thought to have represented an ideal type.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 155-157). Icon Books Ltd. Kindle Edition. The presence of an ideal type was inferred from some sort of morphological similarity, which became the species criterion for typologists. This could have had the effect of creating a proliferation of species since any deviation from the type would have led to the classification of a new species.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 158-160). Icon Books Ltd. Kindle Edition.
  29. The decision to examine averages or to measure variation is rooted in philosophical ideologies that governed the thinking of statisticians, natural philosophers and scientists throughout the 19th century. The emphasis on statistical averages was underpinned by the philosophical tenets of determinism and typological ideas of biological species, which helped to perpetuate the idea of an idealized mean. Determinism implies that there is order and perfection in the universe … The typological concept of species, which was the dominant thinking of taxonomists,* typologists and morphologists until the end of the 19th century, gave rise to the morphological concept of species. Species were thought to have represented an ideal type.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 155-157). Icon Books Ltd. Kindle Edition. The presence of an ideal type was inferred from some sort of morphological similarity, which became the species criterion for typologists. This could have had the effect of creating a proliferation of species since any deviation from the type would have led to the classification of a new species.Magnello, Eileen. Introducing Statistics: A Graphic Guide (Introducing...) (Kindle Locations 158-160). Icon Books Ltd. Kindle Edition.
  30. 인구통계 vs. 수리통계
  31. https://insight.kellogg.northwestern.edu/article/more-than-pretty-pictures/ http://optional.is/required/2010/03/24/ada-lovelace-day-florence-nightingale/
  32. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  33. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  34. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  35. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  36. ‘till, more than three-fourths do not win a major race. The traditional way of predicting horse success, the data tells us, leaves plenty of room for improvement.’
  37. ‘till, more than three-fourths do not win a major race. The traditional way of predicting horse success, the data tells us, leaves plenty of room for improvement.’
  38. 아들 두명 수학 점수 평균… 선생님이 반 아이들 이해 요약
  39. 라즐로 복: 인사 하기 가장 좋은 시기 10년 전에 할 수 없던 이야기들 하고 있음 – 기술의 변화 덕 10년 간 걸쳐 일어날 변혁/disruption의 1년차; best practice 없다. 시행착오. 스스로 깨우쳐야 한다. 나 소개 Background: 20 What & Why: 15 Process & Technique: 15 Case Study: 15 시연 & 질의 응답: 15
  40. 암을 예측하는 것과 설명하는 것
  41. http://galton.org/composite.htm
  42. https://en.wikipedia.org/wiki/Monty_Hall_problem https://course-studies.corsairs.network/understanding-the-monty-hall-problem-a40f7d5a0e4d
  43. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf
  44. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf http://vudlab.com/simpsons/ n 1973, the University of California-Berkeley was sued for sex discrimination. The numbers looked pretty incriminating: the graduate schools had just accepted 44% of male applicants but only 35% of female applicants. When researchers looked at the evidence, though, they uncovered something surprising: If the data are properly pooled...there is a small but statistically significant bias in favor of women. (p. 403)It was a textbook case of Simpson's paradox.
  45. http://ftp.cs.ucla.edu/pub/stat_ser/r414.pdf
  46. https://blogs.office.com/en-us/2015/08/11/breaking-down-hierarchical-data-with-treemap-and-sunburst-charts/
  47. https://blogs.office.com/en-us/2015/08/11/breaking-down-hierarchical-data-with-treemap-and-sunburst-charts/
  48. http://blog.visme.co/data-storytelling-tips/
  49. http://www.tylervigen.com/spurious-correlations
  50. 글자크기 [아침햇살] 산불 나면, 보험회사 돈번다 반기성 조선대 대학원 겸임교수 에너지경제ekn@ekn.kr 2016.09.26 19:08:23      ▲반기성 조선대 대학원 겸임교수 [아침햇살] 산불 나면, 보험회사 돈번다   일본 속담에 ‘바람이 많이 불면 나무통 가게가 돈을 번다’는 속담이 있다. 왜 그럴까? 꼭 기차놀이 같은 답이 이어진다. 바람이 불면 먼지가 많이 발생한다. 먼지가 많아지면 눈병이 많이 생긴다. 눈병이 많아지면 실명하는 사람이 많아진다. 맹인은 삼미선을 연주하면서 다닌다. 삼미선은 고양이 가죽으로 만든다. 고양이를 많이 잡으면 쥐가 많아진다. 쥐가 늘어나면 나무통을 갉아먹는다. 결국 통이 많이 팔린다는 이야기다. 
  51. 암을 예측하는 것과 설명하는 것
  52. 과거에는 시킨 것(언어로 기술할 수 있는 것)을 지치고 않고 빠르게 improving its performance without humans having to explain exactly how to accomplish all the tasks  Polanyi’s Paradox: We can know more than we can tell, i.e. many of the tasks we perform rely on tacit, intuitive knowledge that is difficult to codify and automate. 우리는 말할 수 있는 것보다 많이 않다. (인식. 물체를 인식하고 바둑에서 전체 판을 읽고 다음 수를 두는 전략을 짜고) 인식과 인지(의사결정) – 말로 설명 못하지만 잘 함. we humans know more than we can tell: We can’t explain exactly how we’re able to do a lot of things — from recognizing a face to making a smart move in the ancient Asian strategy game of Go. Prior to ML, this inability to articulate our own knowledge meant that we couldn’t automate many tasks. Now we can. 인식/Perception의 영역에서 발전 (dictation, image인식) 두번째, 과거의 사례에서 배운다. The machine learns from examples, rather than being explicitly programmed for a particular outcome. This is an important break from previous practice. For most of the past 50 years, advances in information technology and its applications have focused on codifying existing knowledge and procedures and embedding them in machines. Indeed, the term “coding” denotes the painstaking process of transferring knowledge from developers’ heads into a form that machines can understand and execute. This approach has a fundamental weakness: Much of the knowledge we all have is tacit, meaning that we can’t fully explain it. It’s nearly impossible for us to write down instructions that would enable another person to learn how to ride a bike or to recognize a friend’s face. Second, ML systems are often excellent learners. They can achieve superhuman performance in a wide range of activities, including detecting fraud and diagnosing disease. Excellent digital learners are being deployed across the economy, and their impact will be profound.
  53. “You only need to touch a hot stove once to realize”
  54. he machine is given lots of examples of the correct answer to a particular problem
  55. ‘Ashenfelter, an economist at Princeton ‘He downloaded thirty years of weather data on the Bordeaux region. He also collected auction prices of wines. The auctions, which occur many years after the wine was originally sold, would tell you how the wine turned out.’ https://www.forbes.com/sites/sap/2014/04/30/how-big-data-can-predict-the-wine-of-the-century/1
  56. https://svds.com/machine-learning-vs-statistics/ 사회과학 증명의 게임
  57. 암을 예측하는 것과 설명하는 것
  58. https://www.farnamstreetblog.com/2015/07/regression-to-the-mean/ why it is that highly intelligent women tend to marry men who are less intelligent than they are? The rule goes that, in any series with complex phenomena that are dependent on many variables, where chance is involved, extreme outcomes tend to be followed by more moderate ones. In statistics, regression toward (or to) the mean is the phenomenon that if a variable is extreme on its first measurement, it will tend to be closer to the average on its second measurement—and if it is extreme on its second measurement, it will tend to have been closer to the average on its first 기량의 역설??? 운의 영향
  59. http://allendowney.blogspot.kr/2016/06/there-is-still-only-one-test.html
  60. https://ismayc.github.io/talks/ness-infer/slide_deck.html#155
  61. https://stats.stackexchange.com/questions/183265/what-does-negative-r-squared-mean
  62. 라즐로 복: 인사 하기 가장 좋은 시기 10년 전에 할 수 없던 이야기들 하고 있음 – 기술의 변화 덕 10년 간 걸쳐 일어날 변혁/disruption의 1년차; best practice 없다. 시행착오. 스스로 깨우쳐야 한다. 나 소개 Background: 20 What & Why: 15 Process & Technique: 15 Case Study: 15 시연 & 질의 응답: 15
  63. 암을 예측하는 것과 설명하는 것
  64. https://www.kaggle.com/c/titanic
  65. 라즐로 복: 인사 하기 가장 좋은 시기 10년 전에 할 수 없던 이야기들 하고 있음 – 기술의 변화 덕 10년 간 걸쳐 일어날 변혁/disruption의 1년차; best practice 없다. 시행착오. 스스로 깨우쳐야 한다. 나 소개 Background: 20 What & Why: 15 Process & Technique: 15 Case Study: 15 시연 & 질의 응답: 15
  66. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167 Broken leg problem???
  67. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167 Broken leg problem???
  68. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167 Broken leg problem???
  69. https://medium.com/the-many/moving-from-data-science-to-data-literacy-a2f181ba4167
  70. https://www.washingtonpost.com/graphics/sports/mlb-launch-angles-story/?utm_term=.8e40245ee0f8
  71. The second wave of the second machine age brings with it new risks. In particular, machine learning systems often have low “interpretability,” meaning that humans have difficulty figuring out how the systems reached their decisions. Deep neural networks may have hundreds of millions of connections, each of which contributes a small amount to the ultimate decision. As a result, these systems’ predictions tend to resist simple, clear explanation. Unlike humans, machines are not (yet!) good storytellers. They can’t always give a rationale for why a particular applicant was accepted or rejected for a job, or a particular medicine was recommended. Ironically, even as we have begun to overcome Polanyi’s Paradox, we’re facing a kind of reverse version: Machines know more than they can tell us.
  72. https://en.wikipedia.org/wiki/Monty_Hall_problem https://course-studies.corsairs.network/understanding-the-monty-hall-problem-a40f7d5a0e4d
  73. https://en.wikipedia.org/wiki/Monty_Hall_problem https://course-studies.corsairs.network/understanding-the-monty-hall-problem-a40f7d5a0e4d
  74. 글자크기 [아침햇살] 산불 나면, 보험회사 돈번다 반기성 조선대 대학원 겸임교수 에너지경제ekn@ekn.kr 2016.09.26 19:08:23      ▲반기성 조선대 대학원 겸임교수 [아침햇살] 산불 나면, 보험회사 돈번다   일본 속담에 ‘바람이 많이 불면 나무통 가게가 돈을 번다’는 속담이 있다. 왜 그럴까? 꼭 기차놀이 같은 답이 이어진다. 바람이 불면 먼지가 많이 발생한다. 먼지가 많아지면 눈병이 많이 생긴다. 눈병이 많아지면 실명하는 사람이 많아진다. 맹인은 삼미선을 연주하면서 다닌다. 삼미선은 고양이 가죽으로 만든다. 고양이를 많이 잡으면 쥐가 많아진다. 쥐가 늘어나면 나무통을 갉아먹는다. 결국 통이 많이 팔린다는 이야기다. 
  75. EU GDPR – right to explanation
  76. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…
  77. 왜 그렇게 믿냐? 설명의 세가지 재료: 1. 몸으로 안다. 2. 직접 보거나 경험, 책(인터넷)에서 배움 보자기만한 창으로 현실을 보기 -> 다양한 관점에서 현실을 보기 -> 보다 두터운 현실 사실관계가 바뀌면 생각(행동)이 바뀌어야 한다. (그렇지 못함; 설득력; 까리한 패턴; 입장이 애매한 패턴) https://medium.com/towards-data-science/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365
  78. https://www.fastcompany.com/1514493/switch-dont-solve-problems-copy-success 예쁜 구석…