SlideShare a Scribd company logo
1 of 45
Download to read offline
빅데이터 시대의 통계학
- 빅데이터의 실존과 구원
김재광
KAIST
2017년 12월 1일
1 / 50
What is big data?
2 / 50
서론
데이터를 통해 사회를 이해하는 방식
물리학적 접근법
아돌프 케틀레
개체의 동질성 (homogeneity)에 기반한 접근법
모집단을 창조주가 부여한 불변의 법칙을 따르는 개체들을 만들어 내는 공장 같은
곳으로 이해. 모집단을 잘 대표하는 특정 개체를 찾는 방식으로 접근함.
생물학적 접근법
다윈, 갈톤
개체의 이질성(heterogeneity)에 더 주목
모집단이란 현실 세계에 존재하는 고유한 특성을 가진 개체들의 합집합으로 이해
(Population science)
Yu Xie (2013). Population heterogeneity and causal inference. PNAS,
110, 6262-6268.
4 / 50
서론
데이터로부터 정보를 얻어내는 과학적 방법에 관한 학문 =
통계학
지식
정보
데이터
추상화
재현성
5 / 50
서론
사회 과학에서의 자료 분석
우리는 데이터를 관측하지만 모집단에 관심이 있다.
데이터 = 모집단
데이터는 모집단을 대표한다는 것을 전제로 함
확률표본 추출은 모집단 대표성 확보를 위한 충분 조건
6 / 50
서론
모집단과 표본
모집단
Sample 추정량
모수
7 / 50
서론
표본 조사 (Survey Sampling)
Survey: 측정
Sampling: 대표성
Table: 조사 방법론과 조사 통계
조사 방법론(Survey Methodology) 표본 추출론(Sampling Statistics)
사회학, 심리학 (인지과학) 에서 연구 통계학에서 연구
표본 오차보다는 비표본 오차에 초점 비표본 오차보다는 표본 오차에 초점
조사 오차(비표본 오차)를 줄이는 조사 오차를 측정하고 추정에 반영하는
것에 관심 것에 관심
설문지 설계 , 조사 방법 연구 표본 추출, 에디팅, 추정 및 분석방법 연구
8 / 50
서론
표본 조사의 양 날개
9 / 50
서론
Sir Francis Galton (1822-1911)
Galton was a polymath who made
important contributions in many fields of
science, including meteorology (the
anti-cyclone and the first popular weather
maps), statistics (regression and
correlation), psychology (synesthesia),
biology (the nature and mechanism of
heredity), and criminology (fingerprints)
He first introduced the use of
questionnaires and surveys for collecting
data on human communities.
10 / 50
서론
Karl Pearson (1857 - 1936)
Student of Francis Galton
He has been credited with establishing
the discipline of mathematical statistics,
and contributed significantly to the field of
biometrics, meteorology, theories of social
Darwinism and eugenics
Founding chair of department of Applied
Statistics in University of London (1911),
the first stat department in the world!
Founding editor of Biometrika
11 / 50
서론
표본 조사 데이터
증거 + 논리 + (전제) = 결론
증거 = 데이터
논리 = 통계 분석 방법
전제 = 모델
데이터가 좋아야 결론이 탄탄해진다.
어떻게 양질의 데이터를 얻어낼 것인가가 표본 조사론의 핵심 주제
12 / 50
서론
우리나라 최초의 여론 조사
세종 12년 (서기 1430년)
세금 제도에 대한 여론 조사
표본 크기: 172,648명 (전국 8도)
결과: 개혁안 찬성 57%, 반대 43%
13 / 50
빅데이터
빅데이터 시대 - 이론의 종말?
15 / 50
빅데이터
빅데이터 시대 - 공짜경제학 (Freeconomics)
16 / 50
빅데이터
표본조사 데이터 vs 빅데이터
Table: 두가지 데이터의 특징
표본조사 데이터 빅데이터
비용함수 표본수에 비례 표본수와 상관없음
측정 관심변수 Y 를 직접 측정 보조변수 X 를 측정
대표성 확보 미확보
17 / 50
빅데이터
표본조사 데이터 vs 빅데이터
Table: 두가지 데이터의 통계학적 특징
표본조사 데이터 빅데이터
편향 Bias = 0 Bias = 0
분산 Variance = K/n Variance ∼= 0
18 / 50
빅데이터
조사 데이터의 오차 크기 (X축 = 표본수, Y축 =오차한계)
0 2000 4000 6000 8000 10000
0.020.040.060.080.10
n
Error
19 / 50
빅데이터
빅데이터의 편향(bias)
편향: 자료 자체의 체계적인 오차 (systematic error)
편향의 종류
1 선택 편향 (selection bias)
2 정보 편향 (information bias)
선택 편향: 자료가 random sampling 에 의해 얻어진 것이 아닌 참여자의
자발적 선택에 의해 얻어지는 경우 생기는 편향
정보 편향: 기억의 왜곡, 부정확한 측정 등으로 생기는 편향
20 / 50
빅데이터
선택편향
유한 모집단: U = {1, · · · , N}.
모수: 모평균 ¯YN = N−1 N
i=1 yi
빅데이터 샘플: B ⊂ U.
Ii =
1 if i ∈ B
0 otherwise.
추정량: 표본 평균 ¯yB = N−1
B
N
i=1 Iiyi, where NB =
N
i=1 Ii is the big
data sample size (NB < N).
21 / 50
빅데이터
Fundamental theorem of estimation error
Formula (Meng, 2016)
Eζ(¯yB − ¯Y )2
= Eζ(ρ2
I,Y ) × σ2
×
1 − fB
fB
where ρI,Y is the correlation between I and Y ,fB = NB/N, ζ is the big
data sampling mechanism, generally unknown.
Three components: data quality, problem difficulty, and data quantity
유효 표본수 (Effective sample size): 동일한 모집단에서 얻어진 Big data
표본수와 같은 효과(MSE)를 갖는 가상의 simple random sample 의 표본수
22 / 50
빅데이터
유효표본수
neff =
fB
1 − fB
×
1
Eζ(ρ2
I,Y )
.
If ρI,Y = 0.05 and fB = 1/2, then neff = 400.
예를 들어 서울시 인구가 1천만명이라고 하고 그중 50% 인 500만명을
조사하더라도 ρI,Y = 0.05 라면 실제로는 확률 표본 400명을 조사한 것과
동일한 효과를 가짐.
23 / 50
빅데이터
Paradox of Big data
빅데이터 자료를 그냥 램덤 표본으로 간주하고 신뢰구간을 작성하는 경우
CI = (¯yB − 1.96 (1 − fB)S2/NB, ¯yB + 1.96 (1 − fB)S2/NB)
As NB → ∞, we have
Pr( ¯YN ∈ CI) → 0.
Paradox: 편향을 무시하고 그냥 통상적인 방법론을 적용할 경우, 자료의
크기가 커질수록 그 추론이 틀릴 확률이 높아진다. (If one ignores the bias
and apply the standard method of estimation, the bigger the dataset, the
more misleading it is for valid statistical inference.)
24 / 50
Salvation
Salvation of Big Data
26 / 50
Salvation
1. 선택 편향 보정: Data integration
두개의 데이터: 빅데이터와 서베이 데이터
빅데이터는 선택 편향이 존재
논의를 단순하게 하기 위하여 Y 가 지시변수라고 하자.
I = 1 I = 0
Y = 1 NB1
Y = 0 NB0
NB N − NB
where Ii = 1 if unit i belongs to the big data sample and Ii = 0 otherwise.
관심 모수: P = P(Y = 1).
27 / 50
Salvation
서베이 데이터에서는 다음과 같은 결과를 얻을수 있다. (랜덤 샘플링을
가정하자)
I = 1 I = 0
Y = 1 nB1 nC1 n1
Y = 0 nB0 nC0 n0
n
이 두자료를 어떻게 결합하여 P를 추정할 것인가?
28 / 50
Salvation
제안된 방법론
Note that
P(Y = 1) = P(Y = 1 | I = 1)P(I = 1) + P(Y = 1 | I = 0)P(I = 0).
Three components
1 P(I = 1): Big data proportion (known)
2 P(Y = 1 | I = 1) = NB1/NB: obtained from the big data.
3 P(Y = 1 | I = 0): estimated by nC1/(nC0 + nC1) from the survey data.
Final estimator
ˆP = PBWB + ˆPC(1 − WB) (1)
where WB = NB/N, PB = NB1/NB, and ˆPC = nC1/(nC0 + nC1).
29 / 50
Salvation
Remark
Variance
V ( ˆP) = (1 − WB)2
V ( ˆPC)
.
= (1 − WB)
1
n
PC(1 − PC).
If WB is close to one, then the above variance is very small.
Instead of using ˆPC = nC1/(nC0 + nC1), we can construct a ratio
estimator of PC to improve the efficiency. That is, use
ˆPC,r =
1
1 + ˆθC
where
ˆθC =
NB0/NB1
nB0/nB1
× (nC0/nC1).
30 / 50
Salvation
2. 정보 편향
관심 변수: Y
보조 변수: X
관측 비용: CX << CY .
빅데이터: X만 관측됨. (선택 편향은 없다고 가정)
관심 모수: µy = E(Y ).
31 / 50
Salvation
정보 편향 보정 - Calibration study
Idea
만약 E(Yi | Xi) = β0 + β1Xi이 성립하고 모수 β0, β1를 안다면
ˆµy = N−1
B
i∈B
(β0 + β1xi)
를 이용하여 µy = E(Y )를 추정할수 있다.
실제로는 β0, β1 을 모르므로 빅데이터 샘플에서 일부 calibration study 를
실시하여 (xi, yi)를 관측한 후에 모수 추정치 ˆβ0, ˆβ1을 얻어낸후
ˆµy = N−1
B
i∈B
(ˆβ0 + ˆβ1xi)
을 사용한다.
32 / 50
사례 분석
사례 분석 - 외래관광객 실태조사
한국관광공사 의뢰 - 빅데이터를 활용한 ’외래관광객 실태조사’ 지역관광통계
개선 연구
지역관광 통계 작성을 위한 두가지 데이터
1 외래관광객 실태조사: 서베이 데이터
2 KT 핸드폰 로밍데이터: 위치 정보 빅데이터
조사 목적: 외국인 관광객의 국적별, 방문지별 통계를 매년 작성하여 관광 정책
수립의 기초 자료로 삼는다.
모집단: 2016년에 한국을 방문한 외국인
34 / 50
사례 분석
외래 관광객 실태조사의 활용 사례
35 / 50
사례 분석
기초 분석 - 중국인 관광객 (단위: 천명)
지역 서베이 값 KT 자료값 T-통계량
서울 5,953 4,945 5.91
부산 390 357 0.40
대구 35 87 -2.01
인천 354 1,335 -11.95
광주 18 30 -0.75
대전 33 32 0.03
울산 0 35
경기 624 1,216 -5.68
강원 228 128 1.54
충북 13 125 -6.67
충남 38 78 -1.54
전북 56 50 0.17
전남 44 111 -2.31
경북 61 83 -0.72
경남 44 83 -1.37
제주 2,818 2,009 4.39
36 / 50
사례 분석
지역 단위 모형
각 지역별로 두개의 통계값이 존재 : (Xi, ˆYi)
Yi: 지역 i의 방문자수 참값 (Unobserved)
ˆYi: Yi에 대한 서베이 추정값 (subject to sampling error)
Xi: 빅데이터에서 얻어진 추청값 (subject to non-sampling errors)
분석의 단위는 지역 (시도)
37 / 50
사례 분석
Figure: 서베이 자료와 로밍 데이터 분석 자료
38 / 50
사례 분석
Area level model (Cont’d)
The goal is to predict Yi(=참값) using the observation of ˆYi (=서베이값)
and and Xi(=KT 자료).
Area level model is a useful tool for combining information from different
sources by making an area level matching.
Area level model consists of two parts:
1 Sampling error model: relationship between ˆYi and Yi.
2 Structural error model: relationship between Yi and Xi.
39 / 50
사례 분석
Area level model: Fay-Herriot model approach
Figure: A Directed Acyclic Graph (DAG) for classical area level models.
ˆY
Y
X
(2)(1)
(1): Sampling error model (known),
(2): Structural error model (known up to θ).
40 / 50
사례 분석
Combining two models
Prediction model = sampling error model + structural error model
Bayes formula for prediction model
p(Yi | ˆYi, Xi) ∝ g( ˆYi | Yi)f(Yi | Xi),
where g(·) is the sampling error model and f(·) is the structural error
model.
g(·): assumed to be known.
f(·): known up to parameter θ. 여기에서는
Yi = βXi + ei, ei ∼ (0, σ2
X2
i )
을 사용함
41 / 50
사례 분석
Parameter estimation
Obtain the prediction model using Bayes formula
EM algorithm: Update the parameters
ˆθ(t+1)
= argθ max
i
E{log f(Yi | Xi; θ) | ˆYi, Xi; ˆθ(t)
}
where the conditional expectation is with respect to the prediction model
evaluated at the current parameter ˆθ(t)
.
42 / 50
사례 분석
Prediction vs Parameter estimation
Figure: EM algorithm
ˆY
Y
X
ˆθ
M-step
E-step
43 / 50
사례 분석
Prediction (frequentist approach)
최적 추정: Expectation from the prediction model at θ = ˆθ
ˆY ∗
i = E{Yi | ˆYi, Xi; ˆθ}
If f(Yi | Xi) is a normal distribution then
ˆY ∗
i = αi
ˆYi + (1 − αi)E(Yi | Xi; ˆθ)
for some αi where
αi =
V (Yi | Xi; ˆθ)
V ( ˆYi) + V (Yi | Xi; ˆθ)
.
44 / 50
사례 분석
분석 결과 (단위: 천명 )
지역 ˆYi Xi
ˆβ αi 최적 추정값 상대 MSE (%)
서울 5,953 3,589 0.993 5,936 99.6
부산 390 259 0.755 358 87.4
대구 35 64 0.663 45 82.1
인천 354 969 0.978 367 99.0
광주 18 22 0.354 21 59.5
대전 33 23 0.222 26 47.1
울산 0 25 0.000 25
경기 624 883 0.958 635 97.9
강원 228 93 0.392 146 62.6
충북 13 91 0.904 21 95.1
충남 38 57 0.604 45 77.7
전북 56 36 0.286 42 53.5
전남 44 81 0.712 54 84.4
경북 60 61 0.524 60 72.4
경남 44 60 0.582 51 76.3
제주 2,818 1,458 0.953 2,754 97.7
상대 MSE: 직접 추정량의 MSE 대비 최적 추정값의 MSE 비율
45 / 50
결론
결론: 1. 빅데이터의 실존
빅데이터의 희망 (기회요인)
자료 수집 비용을 절약
풍부하고, 다양하고, 빠른 정보
세부 도메인에 대한 정보를 제공 (소지역 추정)
빅데이터의 절망 (위험요인)
편향 존재 (선택 편향, 정보 편향)
대수의 법칙이 성립하지 않음
47 / 50
결론
결론: 2. 빅데이터의 구원
빅데이터의 구원 - 통계학 (수학)
빅데이터의 선택 편향은 data integration 으로 보정 가능
빅데이터의 정보 편향은 calibration study 를 이용하여 보정 가능
빅데이터와 서베이 자료를 결합한 개선된 통계 방법론 개발이 향후 이 분야의
주요 연구 주제가 될 것으로 전망됨.
48 / 50
결론
Take-home message: 빅데이터는 자료 수집 비용을
절약하지만 자료 분석 비용의 증가를 초래한다.
49 / 50
결론
The end
50 / 50

More Related Content

What's hot

Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet AllocationMarco Righini
 
Belief Networks & Bayesian Classification
Belief Networks & Bayesian ClassificationBelief Networks & Bayesian Classification
Belief Networks & Bayesian ClassificationAdnan Masood
 
Few shot learning/ one shot learning/ machine learning
Few shot learning/ one shot learning/ machine learningFew shot learning/ one shot learning/ machine learning
Few shot learning/ one shot learning/ machine learningﺁﺻﻒ ﻋﻠﯽ ﻣﯿﺮ
 
Bag the model with bagging
Bag the model with baggingBag the model with bagging
Bag the model with baggingChode Amarnath
 
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...Kirill Eremenko
 
AI 9 | Bayesian Network and Probabilistic Inference
AI 9 | Bayesian Network and Probabilistic InferenceAI 9 | Bayesian Network and Probabilistic Inference
AI 9 | Bayesian Network and Probabilistic InferenceMohammad Imam Hossain
 
Bayesian Deep Learning
Bayesian Deep LearningBayesian Deep Learning
Bayesian Deep LearningRayKim51
 
What is the Expectation Maximization (EM) Algorithm?
What is the Expectation Maximization (EM) Algorithm?What is the Expectation Maximization (EM) Algorithm?
What is the Expectation Maximization (EM) Algorithm?Kazuki Yoshida
 
Review : Prototype Mixture Models for Few-shot Semantic Segmentation
Review : Prototype Mixture Models for Few-shot Semantic SegmentationReview : Prototype Mixture Models for Few-shot Semantic Segmentation
Review : Prototype Mixture Models for Few-shot Semantic SegmentationDongmin Choi
 
Swarm intelligence pso and aco
Swarm intelligence pso and acoSwarm intelligence pso and aco
Swarm intelligence pso and acosatish561
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet AllocationSangwoo Mo
 
Data Science - Part IX - Support Vector Machine
Data Science - Part IX -  Support Vector MachineData Science - Part IX -  Support Vector Machine
Data Science - Part IX - Support Vector MachineDerek Kane
 
Self-supervised Learning Lecture Note
Self-supervised Learning Lecture NoteSelf-supervised Learning Lecture Note
Self-supervised Learning Lecture NoteSangwoo Mo
 
Probabilistic Reasoning
Probabilistic ReasoningProbabilistic Reasoning
Probabilistic ReasoningJunya Tanaka
 
Neural Networks
Neural NetworksNeural Networks
Neural NetworksAdri Jovin
 
Quantum neural network
Quantum neural networkQuantum neural network
Quantum neural networksurat murthy
 

What's hot (20)

Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
Belief Networks & Bayesian Classification
Belief Networks & Bayesian ClassificationBelief Networks & Bayesian Classification
Belief Networks & Bayesian Classification
 
Support Vector machine
Support Vector machineSupport Vector machine
Support Vector machine
 
Few shot learning/ one shot learning/ machine learning
Few shot learning/ one shot learning/ machine learningFew shot learning/ one shot learning/ machine learning
Few shot learning/ one shot learning/ machine learning
 
Bag the model with bagging
Bag the model with baggingBag the model with bagging
Bag the model with bagging
 
07 approximate inference in bn
07 approximate inference in bn07 approximate inference in bn
07 approximate inference in bn
 
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...
Deep Learning A-Z™: Recurrent Neural Networks (RNN) - The Vanishing Gradient ...
 
AI 9 | Bayesian Network and Probabilistic Inference
AI 9 | Bayesian Network and Probabilistic InferenceAI 9 | Bayesian Network and Probabilistic Inference
AI 9 | Bayesian Network and Probabilistic Inference
 
Bayesian Deep Learning
Bayesian Deep LearningBayesian Deep Learning
Bayesian Deep Learning
 
What is the Expectation Maximization (EM) Algorithm?
What is the Expectation Maximization (EM) Algorithm?What is the Expectation Maximization (EM) Algorithm?
What is the Expectation Maximization (EM) Algorithm?
 
Bayesian networks
Bayesian networksBayesian networks
Bayesian networks
 
Review : Prototype Mixture Models for Few-shot Semantic Segmentation
Review : Prototype Mixture Models for Few-shot Semantic SegmentationReview : Prototype Mixture Models for Few-shot Semantic Segmentation
Review : Prototype Mixture Models for Few-shot Semantic Segmentation
 
A Gentle Introduction to the EM Algorithm
A Gentle Introduction to the EM AlgorithmA Gentle Introduction to the EM Algorithm
A Gentle Introduction to the EM Algorithm
 
Swarm intelligence pso and aco
Swarm intelligence pso and acoSwarm intelligence pso and aco
Swarm intelligence pso and aco
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
Data Science - Part IX - Support Vector Machine
Data Science - Part IX -  Support Vector MachineData Science - Part IX -  Support Vector Machine
Data Science - Part IX - Support Vector Machine
 
Self-supervised Learning Lecture Note
Self-supervised Learning Lecture NoteSelf-supervised Learning Lecture Note
Self-supervised Learning Lecture Note
 
Probabilistic Reasoning
Probabilistic ReasoningProbabilistic Reasoning
Probabilistic Reasoning
 
Neural Networks
Neural NetworksNeural Networks
Neural Networks
 
Quantum neural network
Quantum neural networkQuantum neural network
Quantum neural network
 

Similar to Big data 시대의 통계학

RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형r-kor
 
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게Young-Geun Choi
 
제4강 명제와 논리-정보
제4강 명제와 논리-정보제4강 명제와 논리-정보
제4강 명제와 논리-정보csungwoo
 
Flow based generative models
Flow based generative modelsFlow based generative models
Flow based generative models수철 박
 
Kooc ch1 _suman
Kooc ch1 _sumanKooc ch1 _suman
Kooc ch1 _sumansuman_lim
 
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본Lee Sang-Ho
 

Similar to Big data 시대의 통계학 (6)

RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
 
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
지도 학습, 함수 근사와 최적화 문제: 데이터는 우악하니 데이터 사이언스라도 우아하게
 
제4강 명제와 논리-정보
제4강 명제와 논리-정보제4강 명제와 논리-정보
제4강 명제와 논리-정보
 
Flow based generative models
Flow based generative modelsFlow based generative models
Flow based generative models
 
Kooc ch1 _suman
Kooc ch1 _sumanKooc ch1 _suman
Kooc ch1 _suman
 
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본
[방송통신대 컴퓨터과학과] 2020년 1학기 전공 컴퓨터 그래픽스 과제물 제출본
 

More from Jae-kwang Kim

Chapter2: Likelihood-based approach
Chapter2: Likelihood-based approach Chapter2: Likelihood-based approach
Chapter2: Likelihood-based approach Jae-kwang Kim
 
Some sampling techniques for big data analysis
Some sampling techniques for big data analysisSome sampling techniques for big data analysis
Some sampling techniques for big data analysisJae-kwang Kim
 
Predictive mean-matching2
Predictive mean-matching2Predictive mean-matching2
Predictive mean-matching2Jae-kwang Kim
 

More from Jae-kwang Kim (6)

Chapter2: Likelihood-based approach
Chapter2: Likelihood-based approach Chapter2: Likelihood-based approach
Chapter2: Likelihood-based approach
 
Some sampling techniques for big data analysis
Some sampling techniques for big data analysisSome sampling techniques for big data analysis
Some sampling techniques for big data analysis
 
Propensity albert
Propensity albertPropensity albert
Propensity albert
 
MNAR
MNARMNAR
MNAR
 
Predictive mean-matching2
Predictive mean-matching2Predictive mean-matching2
Predictive mean-matching2
 
Fi review5
Fi review5Fi review5
Fi review5
 

Big data 시대의 통계학

  • 1. 빅데이터 시대의 통계학 - 빅데이터의 실존과 구원 김재광 KAIST 2017년 12월 1일 1 / 50
  • 2. What is big data? 2 / 50
  • 3. 서론 데이터를 통해 사회를 이해하는 방식 물리학적 접근법 아돌프 케틀레 개체의 동질성 (homogeneity)에 기반한 접근법 모집단을 창조주가 부여한 불변의 법칙을 따르는 개체들을 만들어 내는 공장 같은 곳으로 이해. 모집단을 잘 대표하는 특정 개체를 찾는 방식으로 접근함. 생물학적 접근법 다윈, 갈톤 개체의 이질성(heterogeneity)에 더 주목 모집단이란 현실 세계에 존재하는 고유한 특성을 가진 개체들의 합집합으로 이해 (Population science) Yu Xie (2013). Population heterogeneity and causal inference. PNAS, 110, 6262-6268. 4 / 50
  • 4. 서론 데이터로부터 정보를 얻어내는 과학적 방법에 관한 학문 = 통계학 지식 정보 데이터 추상화 재현성 5 / 50
  • 5. 서론 사회 과학에서의 자료 분석 우리는 데이터를 관측하지만 모집단에 관심이 있다. 데이터 = 모집단 데이터는 모집단을 대표한다는 것을 전제로 함 확률표본 추출은 모집단 대표성 확보를 위한 충분 조건 6 / 50
  • 7. 서론 표본 조사 (Survey Sampling) Survey: 측정 Sampling: 대표성 Table: 조사 방법론과 조사 통계 조사 방법론(Survey Methodology) 표본 추출론(Sampling Statistics) 사회학, 심리학 (인지과학) 에서 연구 통계학에서 연구 표본 오차보다는 비표본 오차에 초점 비표본 오차보다는 표본 오차에 초점 조사 오차(비표본 오차)를 줄이는 조사 오차를 측정하고 추정에 반영하는 것에 관심 것에 관심 설문지 설계 , 조사 방법 연구 표본 추출, 에디팅, 추정 및 분석방법 연구 8 / 50
  • 9. 서론 Sir Francis Galton (1822-1911) Galton was a polymath who made important contributions in many fields of science, including meteorology (the anti-cyclone and the first popular weather maps), statistics (regression and correlation), psychology (synesthesia), biology (the nature and mechanism of heredity), and criminology (fingerprints) He first introduced the use of questionnaires and surveys for collecting data on human communities. 10 / 50
  • 10. 서론 Karl Pearson (1857 - 1936) Student of Francis Galton He has been credited with establishing the discipline of mathematical statistics, and contributed significantly to the field of biometrics, meteorology, theories of social Darwinism and eugenics Founding chair of department of Applied Statistics in University of London (1911), the first stat department in the world! Founding editor of Biometrika 11 / 50
  • 11. 서론 표본 조사 데이터 증거 + 논리 + (전제) = 결론 증거 = 데이터 논리 = 통계 분석 방법 전제 = 모델 데이터가 좋아야 결론이 탄탄해진다. 어떻게 양질의 데이터를 얻어낼 것인가가 표본 조사론의 핵심 주제 12 / 50
  • 12. 서론 우리나라 최초의 여론 조사 세종 12년 (서기 1430년) 세금 제도에 대한 여론 조사 표본 크기: 172,648명 (전국 8도) 결과: 개혁안 찬성 57%, 반대 43% 13 / 50
  • 13. 빅데이터 빅데이터 시대 - 이론의 종말? 15 / 50
  • 14. 빅데이터 빅데이터 시대 - 공짜경제학 (Freeconomics) 16 / 50
  • 15. 빅데이터 표본조사 데이터 vs 빅데이터 Table: 두가지 데이터의 특징 표본조사 데이터 빅데이터 비용함수 표본수에 비례 표본수와 상관없음 측정 관심변수 Y 를 직접 측정 보조변수 X 를 측정 대표성 확보 미확보 17 / 50
  • 16. 빅데이터 표본조사 데이터 vs 빅데이터 Table: 두가지 데이터의 통계학적 특징 표본조사 데이터 빅데이터 편향 Bias = 0 Bias = 0 분산 Variance = K/n Variance ∼= 0 18 / 50
  • 17. 빅데이터 조사 데이터의 오차 크기 (X축 = 표본수, Y축 =오차한계) 0 2000 4000 6000 8000 10000 0.020.040.060.080.10 n Error 19 / 50
  • 18. 빅데이터 빅데이터의 편향(bias) 편향: 자료 자체의 체계적인 오차 (systematic error) 편향의 종류 1 선택 편향 (selection bias) 2 정보 편향 (information bias) 선택 편향: 자료가 random sampling 에 의해 얻어진 것이 아닌 참여자의 자발적 선택에 의해 얻어지는 경우 생기는 편향 정보 편향: 기억의 왜곡, 부정확한 측정 등으로 생기는 편향 20 / 50
  • 19. 빅데이터 선택편향 유한 모집단: U = {1, · · · , N}. 모수: 모평균 ¯YN = N−1 N i=1 yi 빅데이터 샘플: B ⊂ U. Ii = 1 if i ∈ B 0 otherwise. 추정량: 표본 평균 ¯yB = N−1 B N i=1 Iiyi, where NB = N i=1 Ii is the big data sample size (NB < N). 21 / 50
  • 20. 빅데이터 Fundamental theorem of estimation error Formula (Meng, 2016) Eζ(¯yB − ¯Y )2 = Eζ(ρ2 I,Y ) × σ2 × 1 − fB fB where ρI,Y is the correlation between I and Y ,fB = NB/N, ζ is the big data sampling mechanism, generally unknown. Three components: data quality, problem difficulty, and data quantity 유효 표본수 (Effective sample size): 동일한 모집단에서 얻어진 Big data 표본수와 같은 효과(MSE)를 갖는 가상의 simple random sample 의 표본수 22 / 50
  • 21. 빅데이터 유효표본수 neff = fB 1 − fB × 1 Eζ(ρ2 I,Y ) . If ρI,Y = 0.05 and fB = 1/2, then neff = 400. 예를 들어 서울시 인구가 1천만명이라고 하고 그중 50% 인 500만명을 조사하더라도 ρI,Y = 0.05 라면 실제로는 확률 표본 400명을 조사한 것과 동일한 효과를 가짐. 23 / 50
  • 22. 빅데이터 Paradox of Big data 빅데이터 자료를 그냥 램덤 표본으로 간주하고 신뢰구간을 작성하는 경우 CI = (¯yB − 1.96 (1 − fB)S2/NB, ¯yB + 1.96 (1 − fB)S2/NB) As NB → ∞, we have Pr( ¯YN ∈ CI) → 0. Paradox: 편향을 무시하고 그냥 통상적인 방법론을 적용할 경우, 자료의 크기가 커질수록 그 추론이 틀릴 확률이 높아진다. (If one ignores the bias and apply the standard method of estimation, the bigger the dataset, the more misleading it is for valid statistical inference.) 24 / 50
  • 24. Salvation 1. 선택 편향 보정: Data integration 두개의 데이터: 빅데이터와 서베이 데이터 빅데이터는 선택 편향이 존재 논의를 단순하게 하기 위하여 Y 가 지시변수라고 하자. I = 1 I = 0 Y = 1 NB1 Y = 0 NB0 NB N − NB where Ii = 1 if unit i belongs to the big data sample and Ii = 0 otherwise. 관심 모수: P = P(Y = 1). 27 / 50
  • 25. Salvation 서베이 데이터에서는 다음과 같은 결과를 얻을수 있다. (랜덤 샘플링을 가정하자) I = 1 I = 0 Y = 1 nB1 nC1 n1 Y = 0 nB0 nC0 n0 n 이 두자료를 어떻게 결합하여 P를 추정할 것인가? 28 / 50
  • 26. Salvation 제안된 방법론 Note that P(Y = 1) = P(Y = 1 | I = 1)P(I = 1) + P(Y = 1 | I = 0)P(I = 0). Three components 1 P(I = 1): Big data proportion (known) 2 P(Y = 1 | I = 1) = NB1/NB: obtained from the big data. 3 P(Y = 1 | I = 0): estimated by nC1/(nC0 + nC1) from the survey data. Final estimator ˆP = PBWB + ˆPC(1 − WB) (1) where WB = NB/N, PB = NB1/NB, and ˆPC = nC1/(nC0 + nC1). 29 / 50
  • 27. Salvation Remark Variance V ( ˆP) = (1 − WB)2 V ( ˆPC) . = (1 − WB) 1 n PC(1 − PC). If WB is close to one, then the above variance is very small. Instead of using ˆPC = nC1/(nC0 + nC1), we can construct a ratio estimator of PC to improve the efficiency. That is, use ˆPC,r = 1 1 + ˆθC where ˆθC = NB0/NB1 nB0/nB1 × (nC0/nC1). 30 / 50
  • 28. Salvation 2. 정보 편향 관심 변수: Y 보조 변수: X 관측 비용: CX << CY . 빅데이터: X만 관측됨. (선택 편향은 없다고 가정) 관심 모수: µy = E(Y ). 31 / 50
  • 29. Salvation 정보 편향 보정 - Calibration study Idea 만약 E(Yi | Xi) = β0 + β1Xi이 성립하고 모수 β0, β1를 안다면 ˆµy = N−1 B i∈B (β0 + β1xi) 를 이용하여 µy = E(Y )를 추정할수 있다. 실제로는 β0, β1 을 모르므로 빅데이터 샘플에서 일부 calibration study 를 실시하여 (xi, yi)를 관측한 후에 모수 추정치 ˆβ0, ˆβ1을 얻어낸후 ˆµy = N−1 B i∈B (ˆβ0 + ˆβ1xi) 을 사용한다. 32 / 50
  • 30. 사례 분석 사례 분석 - 외래관광객 실태조사 한국관광공사 의뢰 - 빅데이터를 활용한 ’외래관광객 실태조사’ 지역관광통계 개선 연구 지역관광 통계 작성을 위한 두가지 데이터 1 외래관광객 실태조사: 서베이 데이터 2 KT 핸드폰 로밍데이터: 위치 정보 빅데이터 조사 목적: 외국인 관광객의 국적별, 방문지별 통계를 매년 작성하여 관광 정책 수립의 기초 자료로 삼는다. 모집단: 2016년에 한국을 방문한 외국인 34 / 50
  • 31. 사례 분석 외래 관광객 실태조사의 활용 사례 35 / 50
  • 32. 사례 분석 기초 분석 - 중국인 관광객 (단위: 천명) 지역 서베이 값 KT 자료값 T-통계량 서울 5,953 4,945 5.91 부산 390 357 0.40 대구 35 87 -2.01 인천 354 1,335 -11.95 광주 18 30 -0.75 대전 33 32 0.03 울산 0 35 경기 624 1,216 -5.68 강원 228 128 1.54 충북 13 125 -6.67 충남 38 78 -1.54 전북 56 50 0.17 전남 44 111 -2.31 경북 61 83 -0.72 경남 44 83 -1.37 제주 2,818 2,009 4.39 36 / 50
  • 33. 사례 분석 지역 단위 모형 각 지역별로 두개의 통계값이 존재 : (Xi, ˆYi) Yi: 지역 i의 방문자수 참값 (Unobserved) ˆYi: Yi에 대한 서베이 추정값 (subject to sampling error) Xi: 빅데이터에서 얻어진 추청값 (subject to non-sampling errors) 분석의 단위는 지역 (시도) 37 / 50
  • 34. 사례 분석 Figure: 서베이 자료와 로밍 데이터 분석 자료 38 / 50
  • 35. 사례 분석 Area level model (Cont’d) The goal is to predict Yi(=참값) using the observation of ˆYi (=서베이값) and and Xi(=KT 자료). Area level model is a useful tool for combining information from different sources by making an area level matching. Area level model consists of two parts: 1 Sampling error model: relationship between ˆYi and Yi. 2 Structural error model: relationship between Yi and Xi. 39 / 50
  • 36. 사례 분석 Area level model: Fay-Herriot model approach Figure: A Directed Acyclic Graph (DAG) for classical area level models. ˆY Y X (2)(1) (1): Sampling error model (known), (2): Structural error model (known up to θ). 40 / 50
  • 37. 사례 분석 Combining two models Prediction model = sampling error model + structural error model Bayes formula for prediction model p(Yi | ˆYi, Xi) ∝ g( ˆYi | Yi)f(Yi | Xi), where g(·) is the sampling error model and f(·) is the structural error model. g(·): assumed to be known. f(·): known up to parameter θ. 여기에서는 Yi = βXi + ei, ei ∼ (0, σ2 X2 i ) 을 사용함 41 / 50
  • 38. 사례 분석 Parameter estimation Obtain the prediction model using Bayes formula EM algorithm: Update the parameters ˆθ(t+1) = argθ max i E{log f(Yi | Xi; θ) | ˆYi, Xi; ˆθ(t) } where the conditional expectation is with respect to the prediction model evaluated at the current parameter ˆθ(t) . 42 / 50
  • 39. 사례 분석 Prediction vs Parameter estimation Figure: EM algorithm ˆY Y X ˆθ M-step E-step 43 / 50
  • 40. 사례 분석 Prediction (frequentist approach) 최적 추정: Expectation from the prediction model at θ = ˆθ ˆY ∗ i = E{Yi | ˆYi, Xi; ˆθ} If f(Yi | Xi) is a normal distribution then ˆY ∗ i = αi ˆYi + (1 − αi)E(Yi | Xi; ˆθ) for some αi where αi = V (Yi | Xi; ˆθ) V ( ˆYi) + V (Yi | Xi; ˆθ) . 44 / 50
  • 41. 사례 분석 분석 결과 (단위: 천명 ) 지역 ˆYi Xi ˆβ αi 최적 추정값 상대 MSE (%) 서울 5,953 3,589 0.993 5,936 99.6 부산 390 259 0.755 358 87.4 대구 35 64 0.663 45 82.1 인천 354 969 0.978 367 99.0 광주 18 22 0.354 21 59.5 대전 33 23 0.222 26 47.1 울산 0 25 0.000 25 경기 624 883 0.958 635 97.9 강원 228 93 0.392 146 62.6 충북 13 91 0.904 21 95.1 충남 38 57 0.604 45 77.7 전북 56 36 0.286 42 53.5 전남 44 81 0.712 54 84.4 경북 60 61 0.524 60 72.4 경남 44 60 0.582 51 76.3 제주 2,818 1,458 0.953 2,754 97.7 상대 MSE: 직접 추정량의 MSE 대비 최적 추정값의 MSE 비율 45 / 50
  • 42. 결론 결론: 1. 빅데이터의 실존 빅데이터의 희망 (기회요인) 자료 수집 비용을 절약 풍부하고, 다양하고, 빠른 정보 세부 도메인에 대한 정보를 제공 (소지역 추정) 빅데이터의 절망 (위험요인) 편향 존재 (선택 편향, 정보 편향) 대수의 법칙이 성립하지 않음 47 / 50
  • 43. 결론 결론: 2. 빅데이터의 구원 빅데이터의 구원 - 통계학 (수학) 빅데이터의 선택 편향은 data integration 으로 보정 가능 빅데이터의 정보 편향은 calibration study 를 이용하여 보정 가능 빅데이터와 서베이 자료를 결합한 개선된 통계 방법론 개발이 향후 이 분야의 주요 연구 주제가 될 것으로 전망됨. 48 / 50
  • 44. 결론 Take-home message: 빅데이터는 자료 수집 비용을 절약하지만 자료 분석 비용의 증가를 초래한다. 49 / 50