5. 인공지능의 범위
1. 기계학습 개념
Artificial
Intelligence(AI)
Machine Learning
Natural Language
Processing (NLP)
Speech
Export Systems
Planning, Scheduling
& Optimization
Robotics
Vision
Deep Learning
Predictive Analytics
Translation
Classification & Clustering
Information Extraction
Text to Speech
Speech to Text
Image Recognition
Machine Vision
7. 기계학습 모델
1. 기계학습 개념
Data Collection Agent
Sensing Algorithm
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
8. 기계학습 모델
1. 기계학습 개념
특징 추출(Feature Extraction & Detection)
패턴탐색(Pattern Search & Mapping)
언어 검색(NLP Processing)
v Cluster analysis
v Dimensionality reduction
v Feature detection
v Feature selection
v Data mining
v Text mining
v Connected-component labeling
v Segmentation (image processing)
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
9. 기계학습 모델
1. 기계학습 개념
비감독학습(Unsupervised Learning)
감독학습(Supervised Learning)
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
10. 기계학습 모델
1. 기계학습 개념
• 비감독 학습
• 연역적 학습(Deductive Learning)이라고도 하며, 연역적 추론을 통해 학습
• 실시간 학습 이나 무 중단 학습 수행
• 잘못된 학습에 대한 평가와 수정 및 보완이 어려움
• 오류 피드백에 대한 정확도 개선 필요
• 결과 정보가 없는 데이터들에 대해 특정 패턴을 찾는 것
• 데이터에 잠재적 구조(Structure), 계층 구조(Hierarchy)를 찾아내는 것
• 숨겨진 사용자 집단을 찾아내는 것
• 문서들을 주제에 따라 구조화하는 것
• 로그 정보를 사용하여 사용 패턴을 찾아내는 것
• 학습 대상
• 군집화(Clustering)
• 밀도 추정(Density Estimation)
• 차원 축소(Dimensionality Reduction)
11. 기계학습 모델
1. 기계학습 개념
• 감독학습
• 귀납적 학습(Inductive Learning)이라고도 하며, 사례들
(Examples)을 일반화(Generalization)하여 패턴(Pattern)또는 모
델(Model)을 추출하는 것
• 일반적인 기계학습의 대상으로, 학습 데이터를 잘 설명할 수 있
는 패턴을 찾는 것
• 오류 피드백에 대한 정확한 반영과 조정 가능
• 주어진 (입력, 출력)에 대한 데이터 이용하며, 새로운 입력에 대한
결정이 필요한 경우 적용
• 분류(Classification)
• 출력이 정해진 부류(Class, Category) 중 하나로 결정
• 회귀분석(Regression)
• 출력이 연속인 영역(Continuous Domain)의 값 결정
12. 기계학습 모델
1. 기계학습 개념
유전자 알고리즘(Genetic Algorithm / Evolution Algorithm)
강화 알고리즘(Reinforcement Learning)
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
13. 기계학습 모델
1. 기계학습 개념
LoD
(Linked
Open Data)
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
14. 성능평가방법 - 목적함수
1. 기계학습 개념
Level 4
Level 3
Level 2
Level 1
특징표현학습
기계학습
탐색, 추론, 지식
제어단계
• Squared error
• Classification error
• Margin
• Accuracy
• Precision and recall
• Likelihood
• Posterior probability
• Cost, utility, value
• Risk
• Entropy
• Cross entropy
• Information gain
• Mutual information
• KL divergence
15. 특징표현학습 - Deeplearning
1. 기계학습 개념
방법 명칭 별칭 고안자 소속 연관알고리즘
DBN Deep Belief Network Stacked RBM Geoffrey Hinton Toronto Univ.
Hopfield Net., Boltzmann
Machine
SDA
Stacked Dencising
Autoencoder
- Yoshua Bergio Montreal Univ. Principal Component Analysis
LeNet LeCun Net. Convolutional Net. Yann LeCun New York Univ. Neocognitron
LSTM Long Short-Term Memory Recurrent Neural Net. Jurgen Schmidhuber Swiss AI Lab Recurrent Neural Net
홉필드네트워크와 유사한 대칭
형 연상 신경망 구조로, 현재 대
부분의 컨테스트에서 우승한 모
델이며, 훈련방법에 있어서 통
계 물리학에 이론적 근거를 두
고 있음
DBN
영상인식문제에특화된감독학습용
신경망으로,기본틀은후쿠시마교수
의네오코그니트론(NeoCognitron)의
연장성에있음
네오코그니트론은신경생리학자인 Hubel
과Wiesel의고양이시각피질에대한실험
적관찰을모방해만듦.
LeNet - CNN
미국 동부그룹과 독립적으로 슈
미트 후버 교수가 이끌어 온 이
론으로 매우 어려운 종류의 신
경망인 재귀적 망을 부분 주제
로 중용
LSTM-RNN
비감독 학습용 신경망으로, 자
체로는 쓰이지 않는 편이며, 주
로 RBM의 사전 훈련(Pre-
traning)으로 수행하고, 주성분
분석(PCA)에 착안한 신경망임.
(시그모이드변환함수를쓰는것이차이점)
SDA
16. 감독학습 - 분류(Classification)
2. 기술동향
• 데이터들을 정해진 몇 개의 부류(Class)로 대응시키는 문제
• 분류 문제의 학습
• 학습 데이터를 잘 분류할 수 있는 함수를 찾는 것
• 함수의 형태는 수학적 함수일 수도 있고, 규칙일 수도 있음
• 분류기(Classifier)
• 학습된 함수를 이용하여 데이터를 분류하는 프로그램
19. 비감독학습 - 군집화(Clustering)
2. 기술동향
• 일반 군집화(hard clustering)
• 데이터는 하나의 군집에만 포함
• 예) k-means 알고리즘
• 퍼지 군집화(fuzzy clustering)
• 데이터가 여러 군집에 부분적으로 포함
• 포함정도의 합은 1
• 예) 퍼지 k-means 알고리즘
• 용도
• 데이터에 내재된 구조(underlying structure) 추정
• 데이터의 전반적 구조 통찰
• 가설 설정, 이상치(anomaly, outlier) 감지
• 데이터압축 :동일 군집의 데이터를 같은 값으로 표현
• 데이터 전처리(preprocessing) 작업
• 성능
• 군집내의 분산과 군집간의 거리
20. 비감독학습 - 추정(Estimation)
2. 기술동향
• 밀도 추정(Density Estimation)
• 클래스별(Class) 데이터를 만들어 냈을 것으로 추정되는 확률분포를 찾는 것
• 용도
• 각 부류별로 주어진 데이터를 발생시키는 확률 계산
• 가장 확률이 높은 부류로 분류
21. 비감독학습 - 차원축소
2. 기술동향
• 차원축소(dimension reduction)
• 고차원의 데이터를 정보의 손실을 최소화하면서 저차원으로 변환하는 것
• 차원 축수의 목적
• 2, 3차원으로 변환해 시각화하면 직관적 데이터 분석 가능
• 차원의 저주(curse of dimensionality) 문제 완화
• 차원이 커질수록 거리분포가 일정해지는 경향 있음
• 원이 증가함에 따라 부분공간의 개수가 기하급수적으로 증가
• 주성분분석(Principle Component Analysis, PCA)
22. 비감독학습 - 이상치(Outlier) 탐지
2. 기술동향
• 이상치
• 이상치란?
• 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터
• 관심대상
• 잡음(Noise)
• 관측 오류, 시스템에서 발생하는 무작위적인 오차
• 관심이 없는 제거할 대상
• 신규성 탐지(Novelty Detection)와 관련
• 점 이상치(Point Outlier)
• 다른 데이터와 비교하여 차이가 큰 데이터
• 상황적 이상치(Contextual Outlier)
• 상황에 맞지 않는 데이터
• 예) 바다에 민물고기가 데이터가 존재하는 경우
• 집단적 이상치(Collective Outlier)
• 여러 데이터를 모아서 보면 비정상으로 보이는 데이터들의 집단
23. 비감독학습 - 이상치(Outlier) 탐지
2. 기술동향
• 부정사용감지 시스템(fraud detection system, FDS)
• 이상한거래승인요청시에카드소유자에게자동으로경고메시지전송
• 침입탐지 시스템(intrusion detection system, IDS)
• 네트워크 트래픽을 관찰하여 이상 접근 식별
• 시스템의 고장 진단
• 임상에서 질환 진단 및 모니터링
• 공공보건에서 유행병 의 탐지
• 스포츠 통계학에서 특이 사건 감지
• 관측 오류의 감지
24. 기계학습의 이슈
2. 기술동향
과다학습(Overfitting)
정규화 & SRMBias-Variance Tradeoff
ü 과다학습(Overfitting)
ü 모델복잡도
ü Occam’s Razor
ü 정규화
ü SRM(Structural Risk Minimization)
ü MAP(Maximum A Posteriori)
ü MDL(Minimum Description Length)
26. 딥러닝 도입 특징
2. 기술동향
Deep Belief Net
(DBN)
Convol. NN
(CNN)
Deep Hypernet
(DHN)
감독/무감독 감독/무감독 감독 감독/무감독
변별/생성 모델 생성 변별 생성
예측/모듈이해 예측++/모듈- 예측+++/모듈+ 예측+/모듈+++
추론가능성 추론++ 추론- 추론++++
연결성 Full/Compact Partial/Convolved Partial/Sparse
깊이 깊이+++ 깊이++++ 깊이++
배치/온라인 학습 배치 배치 온라인
27. 서비스 분야
2. 기술동향
분야 적용 사례
인터넷 정보검색 텍스트 마이닝, 웹로그 분석, 스팸필터, 문서 분류, 여과, 추출, 요약, 추천
컴퓨터 시각 문자 인식, 패턴 인식, 물체 인식, 얼굴 인식, 장면전환 검출, 화상 복구
음성인식/언어처리 음성 인식, 단어 모호성 제거, 번역 단어 선택, 문법 학습, 대화 패턴 분석
모바일 HCI 동작 인식, 제스쳐 인식, 휴대기기의 각종 센서 정보 인식, 떨림 방지
생물정보 유전자 인식, 단백질 분류, 유전자 조절망 분석, DNA 칩 분석, 질병 진단
바이오메트릭스 홍채 인식, 심장 박동수 측정, 혈압 측정, 당뇨치 측정, 지문 인식
컴퓨터 그래픽 데이터기반 애니메이션, 캐릭터 동작 제어, 역운동학, 행동 진화, 가상현실
로보틱스 장애물 인식, 물체 분류, 지도 작성, 무인자동차 운전, 경로 계획, 모터 제어
서비스업 고객 분석, 시장 클러스터 분석, 고객 관리(CRM), 마켓팅, 상품 추천
제조업 이상 탐지, 에너지 소모 예측, 공정 분석 계획, 오류 예측 및 분류
29. 서비스 동향 - 금융보안
2. 기술동향
• 신규 상품 및 서비스 개발
• 타겟 마케팅
• 상품 추천 시스템
• 고객 이탈 방지 시스템 등
마케팅
활용영역
리스크
관리
투자관리 및
트레이딩
• 온라인 상에서 투자 절차 수행
• 단기 투자 포트폴리오 최적화
• 알고리즘 트레이딩 등
• 신용평가 시스템
• 조기경보 시스템
• 분식적발 시스템
• 상시감사 시스템
• 영업점 감사 시스템
• 위험 징후 탐지 시스템
• 자금세탁 방지 시스템
• 외환거래 위험방지 시스템
• 카드 부정 사용 방지 시스템
• 보험 사기적발 시스템
• 기타
32. 서비스 동향 - 불량고객예측
2. 기술동향
• 신규 대출신청자에 대한 불량고객일 가능성 계산 - 한국외대 최대우 교수
33. 서비스 동향 - 신용평가모델
2. 기술동향
CSS(Credit Score Service) 신용평가 방법 분석
– 고객의 Financial History를 보고 고객의 상환능력을 예측하고, 이를
등급화하여 금융회사에 제공
– CB(Credit Bureau) 데이터 한계
• CB에 금융정보 데이터가 없으면, 상환 능력이 좋은 고객도 신용 저평가
및 불이익 발생
* 참고자료 : (핀테크) 빅데이터 신용평가모형, ALFIN 빅데이터 분석 연구소, 2016.04
대출신청서 정보
외부 CB정보와
내부거래정보를 조합한
CSS Modeling
(전통적 신용기록정보)
내부 거래 정보
외부 CB 정보
Financial History
CSS Modeling을 통한
개인신용평점 산출
신용기록 데이터가 부족한 Thin File고객은 평가항목에서
가점을 받을 수 없으므로 CSS 신용평가 에서 불이익
온라인 금융 및
물품 거래 평점 산출
(Thin File 고객 포함)
34. 서비스 동향 - 금융사례
2. 기술동향
구분 내용 비고
• 신용리스크 모델의 처리시간 단축
• 신용관리 및 손실예측 처리시간 단축
• 비정형분석과 시스템 가동성 증대 등을 주요 과제로 추진
ü 채무 불이행 확률을 계산하는 데 걸리는 시간이 기존 96시간에서 4시
간으로 감소
ü 대출계좌 40만건에 대한 신용 평가점수를 산출하는 데 걸리는 시간도
기존 3시간에서 10분으로 단축
신용
예측
부정
거래
• 고객 거래내역 등의 빅데이터를 자체 시스템인 ‘왓슨(Watson)’으로
분석
• 신용도가 낮거나 떨어질 가능성이 있는 고객들을 선별한 후 대출/
신용카드 발급 여부를 결정
ü 왓슨을 활용하여 미국 비영리 신용협동조합 회사들의 대출 상환 가능
여부를 판단하는데 정확도를 50% 이상 향상
부정
거래
고객
등급
35. 서비스 동향 - 금융사례
2. 기술동향
구분 내용 비고
• 지역별로 추출한 실제 투자자들이 인지하고 있는 SNS상에 노출된
부동산 관련 정보를 부동산 시가 산정 시 반영
ü 지역별 적정 부동산 담보가치를 산정하여 대출 시 적용하고 담보로 설
정한 부동산을 매각할 경우에도 기준시가로 활용
고객
예측
부정
거래
BB&T
금융지주
• 기존 데이터 분석을 토대로 25개 가량의 시나리오를 만들어 실행
하면서 분산 거래/ 송금/현금 거래 등 다양한 거래 내역을 추적하
는 방식을 활용
ü 수주일에서 수개월씩 걸리던 자금 세탁 추적 작업을 단 하루 만에 처리
부정
거래
Santam사
• 리스크의 경중에 따라 보험금 클레임을 자동 분류하고, 빅데이터
분석을 통해 보험사기를 효율적으로 적발
ü 특히 클레임 심사 기간이 단축되었고(저위험 청구는 기존 3일 이상 ->
즉시지급), 관련 시스템 운영 4개월만에 약 US $2.4M에 이르는 사기성
보험금 청구 적발
이상
징후
탐지
위험
거래
36. 기계학습 도입 고려사항
3. 발전방향
• 감독/무감독 학습
• 변별/생성 모델
• 예측/모듈이해
• 추론가능성
• 연결성
• 깊이
• 배치/온라인 학습