SlideShare une entreprise Scribd logo
1  sur  28
Scala@S.Rulez
Machine Learning
A Probabilistic Perspective by Kevin P. Murphy
Ch.1 and Ch.2
10.Jul.2016(Fri)
S.Rulez
Scala
Scala@S.Rulez
Chapter 1. Introduction
1.1 기계 학습: 무엇을 그리고 왜?
1.1.1 기계 학습의 종류
1.2 감독 학습
1.2.1 분류
1.2.2 회귀
1.3 자연 학습
1.3.1 군집 발견
1.3.2 잠재 요인의 발견
1.3.3 그래프 구조 발견
1.3.4 매트릭스 완성
1.4 기계 학습의 기초 개념
1.4.1 모수적 모형과 비모수적 모형
1.4.2 단순한 비모수적 분류기(K 근접 이웃)
1.4.3 차원의 저주
1.4.4 분류와 회귀에 대한 모수적 모형
1.4.5 선형 회귀
1.4.6 로지스틱 회귀 분석
1.4.7 과대적합
1.4.8 모형 선택
1.4.9 공짜 점심은 없다는 이론
Scala@S.Rulez
1.1 기계 학습: 무엇을 그리고 왜?
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Scala@S.Rulez
1.1 기계 학습: 무엇을 그리고 왜?
• 데이터의 홍수
à머신 러닝machine learning 이 제공하는 데이터 분석의 자동화된 방식 요구
• 본 교재
à 확률 이론 도구로 문제를 해결하는 가장 효과적인 방법 채택
• 불확실성
à주어진 데이터로 할 수 있는 최상의 예상(결정)은 무엇인가?
à주어진 데이터로 할 수 있는 최상의 모형은 무엇인가?
Scala@S.Rulez
1.1.1 기계 학습의 종류
예측predictive과 지도 학습supervised learning 기술/서술descriptive과 비지도 학습unsupervised learning
목표: 주어진 입출력 쌍  = {(, )}

에서
입력 x로 부터 출력 y의 매핑을 배우는 것
ü 는 한정된 집합에서 범주categorical형 변수나 명목nominal 변수
ü 가 범주형일 때 문제는 분류classification 또는 패턴 인식pattern recognition
ü 가 실수 값일 때 문제는 회귀regression, 자연적 순서를 갖는 레이블
공간은 회귀 분석ordinal regression
목표: 주어진 입력 쌍  = {}

에서
‘흥미 있는 결과interesting patterns’를 찾는 것
ü 가 어떤 군집cluster에 속하는지 분류함
ü 전문가에 의한 사전 데이터 분류 작업이 필요하지 않음
Scala@S.Rulez
1.2.1 분류 학습
• 분류classification
- C개의  ∈ {1, … , }가 주어질 때 입력 x로부터 출력 y를 매핑하는 것
C = 2 à 이항 분류binary classification
C > 2 à 다항 분류multiclass classification
- yi와 yj가 상호 배타적exclusive 이지 않다면 다중 레이블 분류multi-label classification
- 정확한 매핑을( = ()) 알 수 없기 때문에 근사화function approximation
à  = ()
Scala@S.Rulez
1.2.1.1 예제
• 노란색 환의 분류는?
- 훈련 집합에 노란색이 존재하지 않음 à 확률적 추론 필요
- 입력 벡터 x와 훈련 집합 에서 가능한 레이블에 대한 확률 분포 추정 (|, , M)
 =   = arg    ( = |, )
C
C=1
Scala@S.Rulez
1.2.1.3 실생활의 응용
문서 분류와 스팸 필터링문서 분류와 스팸 필터링 꽃분류꽃분류
필기인식필기인식 얼굴인식얼굴인식
Scala@S.Rulez
1.2.2 회귀
• 회귀Regression
- 응답 변수(y)가 연속적, 이외는 분류와 동일
- 예시) 현재 주식 시장 상태와 부수 정보로 미래 주식 예측
유튜브 동영상 시청자 연령대 추측
Scala@S.Rulez
1.3 비지도학습unsupervised learning
• 비지도 학습
- 자율학습, 무감독 학습
- 입력에 따른 출력을 계산하는 것이 아닌 출력의 밀도 추정density estimation
- 라벨링된 학습데이터가 아닌 일반 데이터를 통해서 학습 진행
  ,  (x), (|) (O)
Scala@S.Rulez
1.3.1 군집 발견
• 군집화clustering
- 데이터의 문제를 그룹으로 고려하는 것
- Ex) 201명의 키와 몸무게 à K개의 그룹으로 분활
- 1번째 목표: K그룹의 확률 분포   
∗
= arg max

(|)
- 2번째 목표: 임의의 군집( ∈ {1, … , })의 속한 그룹 찾기 ∗ = arg max

( = | , )
Scala@S.Rulez
1.3.2 잠재 요인의 발견
• 차원 축소dimensionality reduction
- 고차원 데이터 à 저차원 데이터로 투영
- 고차원 중 일부 잠재 요인latent factor이 데이터 성격 규명
- 다차원 데이터(3차원 이상) 영상화가 어려움
- 주성분 분석법principal components analysis(PCA)이 대표적 방식 à Ch. 27
Scala@S.Rulez
1.3.3 그래프 구조 발견
• 그래프 구조 생성
- 서로 가장 관련이 있는 쌍을 발견하여 그래프 G 생성
- Ch 19. 무방향 그래프 모형
Scala@S.Rulez
1.3.4 매트릭스 완성
• 대치법imputation
- 손실된 엔트리에 대한 값을 추정
영상 인페인팅
Ch 19. 무방향 그래프 모형
협력적 필터링
Ch 27. 이산 데이터에 대한 잠재 변수 모형
Scala@S.Rulez
1.4 머신 러닝의 기초 개념
• 모수적 모형parametric model, 비모수적 모형non-parametric model
- 모수적 모형: 표본 집단이 알려진 특정 분포를 따르다 가정하고 함수 추정
- 비모수적 모형: 표본 집단이 특정 분포를 따른다고 가정하지 않고 함수 추정
Scala@S.Rulez
1.4.2 단순한 비모수적 분류기: K Nearest Neighbor
Scala@S.Rulez
1.4.3 차원의 저주
• 차원의 저주curse of dimensionality
- 차원이 증가함에 따라 필요한 데이터가 기하급수적으로 증가
- 각차원의 20%를 채우기 위해서는
- 1차원: 20%
- 2차원: 45%
- 3차원: 58%
- 적은 데이터로 공간을 설명하기 때문에 과적합이 발생
http://blog.naver.com/PostView.nhn?blogId=wjddudwo209&logNo=80212077742&category
No=0&parentCategoryNo=41&viewDate=&currentPage=1&postListTopCurrentPage=1
Scala@S.Rulez
1.4.5 선형 회귀
• 선형 회귀에서의 오차(잔차residual)
  = 
 +  =   + 


Scala@S.Rulez
1.4.5 선형 회귀
• 선형 회귀에서의 오차(잔차residual)
 ~  , 
,   ,  =  |  , 
()
Scala@S.Rulez
1.4.5 선형 회귀
• 선형 회귀에서의 오차(잔차residual)
 ~  , 
,   ,  =  |  , 
()
Scala@S.Rulez
1.4.5 선형 회귀
• 선형 회귀에서의 오차(잔차residual)
 ~  , 
,   ,  =  |  , 
()
Scala@S.Rulez
1.4.7 과대적합overfit
Scala@S.Rulez
1.4.7 과대적합overfit
Scala@S.Rulez
1.4.8 모형 선택
• 오분류 확률 계산
 ,  =
1

 (() ≠ )


• KNN if k = 1, 오분류가 0
- 모형 훈련시 모든 데이터를 사용해서는 안됨
Scala@S.Rulez
Question
Scala@S.Rulez
소감
Scala@S.Rulez
포부
Scala@S.Rulez

Contenu connexe

Tendances

2.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-12.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-1Haesun Park
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련Haesun Park
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Kiho Hong
 
Ch.5 machine learning basics
Ch.5  machine learning basicsCh.5  machine learning basics
Ch.5 machine learning basicsJinho Lee
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical modelsJong Wook Kim
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering featuresHaesun Park
 
Intriguing properties of contrastive losses
Intriguing properties of contrastive lossesIntriguing properties of contrastive losses
Intriguing properties of contrastive lossestaeseon ryu
 
4.representing data and engineering features(epoch#2)
4.representing data and engineering features(epoch#2)4.representing data and engineering features(epoch#2)
4.representing data and engineering features(epoch#2)Haesun Park
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류Haesun Park
 
6.algorithm chains and piplines(epoch#2)
6.algorithm chains and piplines(epoch#2)6.algorithm chains and piplines(epoch#2)
6.algorithm chains and piplines(epoch#2)Haesun Park
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3Haesun Park
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learningHaesun Park
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)Haesun Park
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명Woonghee Lee
 
Wiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hWiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hSeokhyun Yoon
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지Haesun Park
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”Jaimie Kwon (권재명)
 
Model interpretation
Model interpretationModel interpretation
Model interpretationsuman_lim
 

Tendances (20)

2.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-12.supervised learning(epoch#2)-1
2.supervised learning(epoch#2)-1
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 4장. 모델 훈련
 
Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)Variational inference intro. (korean ver.)
Variational inference intro. (korean ver.)
 
Ch.5 machine learning basics
Ch.5  machine learning basicsCh.5  machine learning basics
Ch.5 machine learning basics
 
Crash Course on Graphical models
Crash Course on Graphical modelsCrash Course on Graphical models
Crash Course on Graphical models
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering features
 
Intriguing properties of contrastive losses
Intriguing properties of contrastive lossesIntriguing properties of contrastive losses
Intriguing properties of contrastive losses
 
4.representing data and engineering features(epoch#2)
4.representing data and engineering features(epoch#2)4.representing data and engineering features(epoch#2)
4.representing data and engineering features(epoch#2)
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 3장. 분류
 
6.algorithm chains and piplines(epoch#2)
6.algorithm chains and piplines(epoch#2)6.algorithm chains and piplines(epoch#2)
6.algorithm chains and piplines(epoch#2)
 
2.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-32.supervised learning(epoch#2)-3
2.supervised learning(epoch#2)-3
 
2.supervised learning
2.supervised learning2.supervised learning
2.supervised learning
 
Xai week3
Xai week3Xai week3
Xai week3
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명
 
Wiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hWiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920h
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
Model interpretation
Model interpretationModel interpretation
Model interpretation
 

En vedette

데이터 과학 입문 5장
데이터 과학 입문 5장데이터 과학 입문 5장
데이터 과학 입문 5장HyeonSeok Choi
 
Doing data science chap4
Doing data science chap4Doing data science chap4
Doing data science chap4Keunhyun Oh
 
Naive Bayes by Seo
Naive Bayes by SeoNaive Bayes by Seo
Naive Bayes by SeoBestKwSeo
 
공입설 설계 II 14조
공입설 설계 II 14조공입설 설계 II 14조
공입설 설계 II 14조Yonggun Choi
 
홍익경영혁신2015 A895296
홍익경영혁신2015 A895296홍익경영혁신2015 A895296
홍익경영혁신2015 A895296승진 최
 
제안서2014.1
제안서2014.1제안서2014.1
제안서2014.1sym1244
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )Jeonghun Yoon
 
NEXT LIST, GE가 제안하는 기술의 미래
NEXT LIST, GE가 제안하는 기술의 미래NEXT LIST, GE가 제안하는 기술의 미래
NEXT LIST, GE가 제안하는 기술의 미래GE코리아
 
지하철 전광판 설계
지하철 전광판 설계지하철 전광판 설계
지하철 전광판 설계Taehoon Kim
 
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)Youha Hwang
 
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-1507024 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702topshock
 
졸전 리서치
졸전 리서치졸전 리서치
졸전 리서치4pril12th
 

En vedette (16)

데이터 과학 입문 5장
데이터 과학 입문 5장데이터 과학 입문 5장
데이터 과학 입문 5장
 
Doing data science chap4
Doing data science chap4Doing data science chap4
Doing data science chap4
 
Naive Bayes by Seo
Naive Bayes by SeoNaive Bayes by Seo
Naive Bayes by Seo
 
공입설 설계 II 14조
공입설 설계 II 14조공입설 설계 II 14조
공입설 설계 II 14조
 
3dprinter
3dprinter3dprinter
3dprinter
 
건설 안전
건설 안전건설 안전
건설 안전
 
홍익경영혁신2015 A895296
홍익경영혁신2015 A895296홍익경영혁신2015 A895296
홍익경영혁신2015 A895296
 
제안서2014.1
제안서2014.1제안서2014.1
제안서2014.1
 
04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )04. logistic regression ( 로지스틱 회귀 )
04. logistic regression ( 로지스틱 회귀 )
 
ODSC West
ODSC WestODSC West
ODSC West
 
NEXT LIST, GE가 제안하는 기술의 미래
NEXT LIST, GE가 제안하는 기술의 미래NEXT LIST, GE가 제안하는 기술의 미래
NEXT LIST, GE가 제안하는 기술의 미래
 
지하철 전광판 설계
지하철 전광판 설계지하철 전광판 설계
지하철 전광판 설계
 
차세대 기기
차세대 기기차세대 기기
차세대 기기
 
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)
호서대학교 디지털콘텐츠비즈니스 졸업프로젝트 (안경드랍쉽)
 
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-1507024 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702
4 (1교시) 15년 절삭가공 세미나(공정계획 방법)-150702
 
졸전 리서치
졸전 리서치졸전 리서치
졸전 리서치
 

Similaire à Machine learning ch.1

발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장Juhui Park
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogoodS.Good Kim
 
Paper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringPaper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringSean Park
 
알고리즘트레이딩 전략교육 커리큘럼 v4.0
알고리즘트레이딩 전략교육 커리큘럼 v4.0알고리즘트레이딩 전략교육 커리큘럼 v4.0
알고리즘트레이딩 전략교육 커리큘럼 v4.0Smith Kim
 
패턴인식과 기계학습 개요
패턴인식과 기계학습 개요패턴인식과 기계학습 개요
패턴인식과 기계학습 개요jdo
 
DeepWalk: Online Learning of Social Representations
DeepWalk: Online Learning of Social RepresentationsDeepWalk: Online Learning of Social Representations
DeepWalk: Online Learning of Social RepresentationsSOYEON KIM
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할r-kor
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
 

Similaire à Machine learning ch.1 (10)

발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
 
Paper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringPaper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answering
 
알고리즘트레이딩 전략교육 커리큘럼 v4.0
알고리즘트레이딩 전략교육 커리큘럼 v4.0알고리즘트레이딩 전략교육 커리큘럼 v4.0
알고리즘트레이딩 전략교육 커리큘럼 v4.0
 
Naive ML Overview
Naive ML OverviewNaive ML Overview
Naive ML Overview
 
패턴인식과 기계학습 개요
패턴인식과 기계학습 개요패턴인식과 기계학습 개요
패턴인식과 기계학습 개요
 
DeepWalk: Online Learning of Social Representations
DeepWalk: Online Learning of Social RepresentationsDeepWalk: Online Learning of Social Representations
DeepWalk: Online Learning of Social Representations
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 

Machine learning ch.1

  • 1. Scala@S.Rulez Machine Learning A Probabilistic Perspective by Kevin P. Murphy Ch.1 and Ch.2 10.Jul.2016(Fri) S.Rulez Scala
  • 2. Scala@S.Rulez Chapter 1. Introduction 1.1 기계 학습: 무엇을 그리고 왜? 1.1.1 기계 학습의 종류 1.2 감독 학습 1.2.1 분류 1.2.2 회귀 1.3 자연 학습 1.3.1 군집 발견 1.3.2 잠재 요인의 발견 1.3.3 그래프 구조 발견 1.3.4 매트릭스 완성 1.4 기계 학습의 기초 개념 1.4.1 모수적 모형과 비모수적 모형 1.4.2 단순한 비모수적 분류기(K 근접 이웃) 1.4.3 차원의 저주 1.4.4 분류와 회귀에 대한 모수적 모형 1.4.5 선형 회귀 1.4.6 로지스틱 회귀 분석 1.4.7 과대적합 1.4.8 모형 선택 1.4.9 공짜 점심은 없다는 이론
  • 3. Scala@S.Rulez 1.1 기계 학습: 무엇을 그리고 왜? http://www.ibmbigdatahub.com/infographic/four-vs-big-data
  • 4. Scala@S.Rulez 1.1 기계 학습: 무엇을 그리고 왜? • 데이터의 홍수 à머신 러닝machine learning 이 제공하는 데이터 분석의 자동화된 방식 요구 • 본 교재 à 확률 이론 도구로 문제를 해결하는 가장 효과적인 방법 채택 • 불확실성 à주어진 데이터로 할 수 있는 최상의 예상(결정)은 무엇인가? à주어진 데이터로 할 수 있는 최상의 모형은 무엇인가?
  • 5. Scala@S.Rulez 1.1.1 기계 학습의 종류 예측predictive과 지도 학습supervised learning 기술/서술descriptive과 비지도 학습unsupervised learning 목표: 주어진 입출력 쌍  = {(, )}  에서 입력 x로 부터 출력 y의 매핑을 배우는 것 ü 는 한정된 집합에서 범주categorical형 변수나 명목nominal 변수 ü 가 범주형일 때 문제는 분류classification 또는 패턴 인식pattern recognition ü 가 실수 값일 때 문제는 회귀regression, 자연적 순서를 갖는 레이블 공간은 회귀 분석ordinal regression 목표: 주어진 입력 쌍  = {}  에서 ‘흥미 있는 결과interesting patterns’를 찾는 것 ü 가 어떤 군집cluster에 속하는지 분류함 ü 전문가에 의한 사전 데이터 분류 작업이 필요하지 않음
  • 6. Scala@S.Rulez 1.2.1 분류 학습 • 분류classification - C개의  ∈ {1, … , }가 주어질 때 입력 x로부터 출력 y를 매핑하는 것 C = 2 à 이항 분류binary classification C > 2 à 다항 분류multiclass classification - yi와 yj가 상호 배타적exclusive 이지 않다면 다중 레이블 분류multi-label classification - 정확한 매핑을( = ()) 알 수 없기 때문에 근사화function approximation à  = ()
  • 7. Scala@S.Rulez 1.2.1.1 예제 • 노란색 환의 분류는? - 훈련 집합에 노란색이 존재하지 않음 à 확률적 추론 필요 - 입력 벡터 x와 훈련 집합 에서 가능한 레이블에 대한 확률 분포 추정 (|, , M)  =   = arg    ( = |, ) C C=1
  • 8. Scala@S.Rulez 1.2.1.3 실생활의 응용 문서 분류와 스팸 필터링문서 분류와 스팸 필터링 꽃분류꽃분류 필기인식필기인식 얼굴인식얼굴인식
  • 9. Scala@S.Rulez 1.2.2 회귀 • 회귀Regression - 응답 변수(y)가 연속적, 이외는 분류와 동일 - 예시) 현재 주식 시장 상태와 부수 정보로 미래 주식 예측 유튜브 동영상 시청자 연령대 추측
  • 10. Scala@S.Rulez 1.3 비지도학습unsupervised learning • 비지도 학습 - 자율학습, 무감독 학습 - 입력에 따른 출력을 계산하는 것이 아닌 출력의 밀도 추정density estimation - 라벨링된 학습데이터가 아닌 일반 데이터를 통해서 학습 진행   ,  (x), (|) (O)
  • 11. Scala@S.Rulez 1.3.1 군집 발견 • 군집화clustering - 데이터의 문제를 그룹으로 고려하는 것 - Ex) 201명의 키와 몸무게 à K개의 그룹으로 분활 - 1번째 목표: K그룹의 확률 분포    ∗ = arg max  (|) - 2번째 목표: 임의의 군집( ∈ {1, … , })의 속한 그룹 찾기 ∗ = arg max  ( = | , )
  • 12. Scala@S.Rulez 1.3.2 잠재 요인의 발견 • 차원 축소dimensionality reduction - 고차원 데이터 à 저차원 데이터로 투영 - 고차원 중 일부 잠재 요인latent factor이 데이터 성격 규명 - 다차원 데이터(3차원 이상) 영상화가 어려움 - 주성분 분석법principal components analysis(PCA)이 대표적 방식 à Ch. 27
  • 13. Scala@S.Rulez 1.3.3 그래프 구조 발견 • 그래프 구조 생성 - 서로 가장 관련이 있는 쌍을 발견하여 그래프 G 생성 - Ch 19. 무방향 그래프 모형
  • 14. Scala@S.Rulez 1.3.4 매트릭스 완성 • 대치법imputation - 손실된 엔트리에 대한 값을 추정 영상 인페인팅 Ch 19. 무방향 그래프 모형 협력적 필터링 Ch 27. 이산 데이터에 대한 잠재 변수 모형
  • 15. Scala@S.Rulez 1.4 머신 러닝의 기초 개념 • 모수적 모형parametric model, 비모수적 모형non-parametric model - 모수적 모형: 표본 집단이 알려진 특정 분포를 따르다 가정하고 함수 추정 - 비모수적 모형: 표본 집단이 특정 분포를 따른다고 가정하지 않고 함수 추정
  • 16. Scala@S.Rulez 1.4.2 단순한 비모수적 분류기: K Nearest Neighbor
  • 17. Scala@S.Rulez 1.4.3 차원의 저주 • 차원의 저주curse of dimensionality - 차원이 증가함에 따라 필요한 데이터가 기하급수적으로 증가 - 각차원의 20%를 채우기 위해서는 - 1차원: 20% - 2차원: 45% - 3차원: 58% - 적은 데이터로 공간을 설명하기 때문에 과적합이 발생 http://blog.naver.com/PostView.nhn?blogId=wjddudwo209&logNo=80212077742&category No=0&parentCategoryNo=41&viewDate=&currentPage=1&postListTopCurrentPage=1
  • 18. Scala@S.Rulez 1.4.5 선형 회귀 • 선형 회귀에서의 오차(잔차residual)   =   +  =   +   
  • 19. Scala@S.Rulez 1.4.5 선형 회귀 • 선형 회귀에서의 오차(잔차residual)  ~  ,  ,   ,  =  |  ,  ()
  • 20. Scala@S.Rulez 1.4.5 선형 회귀 • 선형 회귀에서의 오차(잔차residual)  ~  ,  ,   ,  =  |  ,  ()
  • 21. Scala@S.Rulez 1.4.5 선형 회귀 • 선형 회귀에서의 오차(잔차residual)  ~  ,  ,   ,  =  |  ,  ()
  • 24. Scala@S.Rulez 1.4.8 모형 선택 • 오분류 확률 계산  ,  = 1   (() ≠ )   • KNN if k = 1, 오분류가 0 - 모형 훈련시 모든 데이터를 사용해서는 안됨