2. Bigdata Intelligence PlatformBICube 2
목차
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
3. Bigdata Intelligence PlatformBICube 3
목차
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
9. Bigdata Intelligence PlatformBICube 9
목차
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
10. Bigdata Intelligence PlatformBICube 10
II. Machine Learning
Data로 부터 출발....
• 기계(Machine) + Learning (학습)
• 기계(컴퓨터)에게 데이터를 이용하여 학습하는 방법을
가르치는 것.
Teach computer how to learn from data
따라서 Data가 교재이다.
12. Bigdata Intelligence PlatformBICube 12
II. Machine Learning
Machine Learning Model
• 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술
• 문제를 해결하기위한 일련의 컴퓨터 프로세스.
• 정확한 미래를 예측하기 위한 컴퓨터 알고리즘.
• 컴퓨터가 스스로 학습하는 예측모형
(Training Data)
Learning Algorithms Predictive Model
실데이터
(Actual Data)
Forecast
Prediction
Classification
Clustering
Proactive
• Optical character recognition
• Face detection
• Spam filtering
• Topic spotting
• Spoken language understanding
• Medical diagnosis
• Customer segmentation
• Fraud detection
• Weather prediction
Supervised
Unsupervised
Semi-supervised
Structured
Unstructured
Semi-structured
Example Data
13. Bigdata Intelligence PlatformBICube 13
II. Machine Learning
기계학습(Machine Learning)의 종류
• Supervised learning : 지도학습
• Data의 종류를 알고 있을 때(Category, Labeled)
• ex: spam mail
• Unsupervised : 비지도학습
• Data의 종류는 모르지만 패턴을 알고 싶을 때
• SNS, Twitter
• Semi-supervised learning : 지도학습 + 비지도학습
• Reinforcement learning : 강화학습
• 잘못된 것을 다시 피드백
• Evolutionary learning : 진화학습
• Meta Learning : Landmark of data for classifier
14. Bigdata Intelligence PlatformBICube 14
ML Modeling
ML Deploy
ML Optimizer
New Data
Decision Making
Alert
ML Lifecycle
Anomaly Store
Hadoop DFS/NoSQl/Hive
II. Machine Learning
15. Bigdata Intelligence PlatformBICube 15
Batch
Delploy Flow
Validate Deploy/Active
Back-line Near-line On-line
모델 개발
SVM
logistic
regression
FDS
Anomaly
Optimization
모델 검증
개발된 모델이 잘
적용되는지 검증
모델 적용
검증된 모델이 실환경에
적용하여 실행
New Data
II. Machine Learning
16. Bigdata Intelligence PlatformBICube 16
II. Machine Learning
Netwrok?
• Neural Network :
• 인간의 뇌 신경망에서 영감을 얻음
• ex: Deep Learning
• Bayesian Netwrok
• 노드들간의 확률적 의존성을 나타내는 그래프 모형
• 방향 비순환 그래프 (DAG: Directed Acyclic Graph)
• Markov Network
• 결합분포확률 모형
• 비방향그래프
19. Bigdata Intelligence PlatformBICube 19
목차
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
22. Bigdata Intelligence PlatformBICube 22
Complex Event ?
Complex:복잡한
Event :A piece fo data in software system or in real world
금융거래 예시 :
고객ID,IP주소,접속일자,접속시간,거래채널구분,거래종류,거래고유번호,출금은행명,출금계좌,출
금계좌예금주명,출금계좌예금주명,보내는통장표시내용,입금은행코드,입금계좌,입금계좌예금주
명,받는통장표시내용,거래금액,이체수수료,거래후잔액,거래일자,거래시간
Event Streaming Processing
CEPIII. Neural Stream
23. Bigdata Intelligence PlatformBICube 23
CEP System
복잡 다단한 연산을 수행하면서 많은 양의 데이터
를 처리한다는 것은 사실상 물리적으로 불가하다.
중앙집중형 폐쇄화된 CEP엔진으로 가능할까?
CEPIII. Neural Stream
24. Bigdata Intelligence PlatformBICube 24
Min, Max, Sum, Avg,Join 등으로 만족할 수 있을까?
주식이 10% 떨어지고 3회 이상 5% 오른다는 패턴만으로 예측할 수 있을까?
CEP
Need more Algorithoms
and more ML puzzle
III. Neural Stream
25. Bigdata Intelligence PlatformBICube 25
Near Real-time
Seconds 수준의 지연(latency) 시간 보장
Real-time
Real Real-time
Milliseconds 수준의 지연(latency) 시간 보장
Microseconds 수준의 지연(latency) 시간 보장 (16ms)
리얼타임 스트리밍의 종류
III. Neural Stream
30. Bigdata Intelligence PlatformBICube 30
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
목차
35. Bigdata Intelligence PlatformBICube 35
기업명 사업 내용
스트라이프
(Stripe.com)
자사의 앱 프로그래밍 인터페이스를 앱에 삽입
한 회원에게 글로벌 고객을 대상으로 한 지급결
제와 7일 안에 대금을 지급해 주는 서비스 제공
전 세계 139개국 통화와 비트코인, 알리페이 등으
로도 결제 가능
어펌
(Affirm.com)
회원이 온라인쇼핑몰에서 물건을 구매할 때, 신용
카드가 아닌 본인의 신용으로 할부 구매할 수 있도록 해
주는 결제 서비스 제공
회원의 공개된 데이터를 분석해 단 몇 초 만
에 신용도를 평가한 후, 회원의 적정 할부 수수료
를 산정하여 부과
빌가드
(Billguard.com)
자사가 개발한 예측 알고리즘을 활용하여 신용카드 청
구서 상 오청구 또는 수수료 과다 인출 등의 징후를 포착
하여 회원에게 알려주는 서비스 제공
모바일앱으로 회원의 신용카드와 은행 계좌를
통합 관리 가능
온덱
(OnDeck.com)
100% 온라인 기반으로 대출 신청서 제출에 10분,
신청 익일에 지정 계좌로 자금을 입금해주는 대출 서비
스 제공
자체 개발한 신용평가 알고리즘이 대출 신청자의 금
융기관 거래내용, 현금 흐름, SNS 상 평판 등을 고려
해 몇 분 만에 신용 평가 및 대출 여부 심사
자료: 우리금융경영연구소
IV. FinTech
41. Bigdata Intelligence PlatformBICube 41
FinTech의 주요 시장
• 해외 송금수수료 시장
• 신용카드 수수료 시장-약480억 달러
• 양면 시장(Two-side markets)
• 카드 소지자와 가맹점
• 구글 뱅크(Bank as a Platform-2007 영국)
• 알고리즘 뱅크
• M-Money
• E-Money -without banks
IV. FinTech
44. Bigdata Intelligence PlatformBICube 44
애플 페이(Apple Pay)
최초로 신용카드, 체크카드 등을 등록-불편
카드를 등록하면서 부여되는 '기기계정번호(Device Account
Number)'를 저장
근거리무선통신(NFC) 기능을 활성화한 상태에서 가맹점 내 단말기에 아
이폰을 갖다대고, 손가락의 지문을 통해 본인인증
결제가 이뤄지는 순간에만 생성되는 일회용 비밀번호인 '동적보안코드
(dynamic security code)'와 연동해 결제
아이튠즈 유료 사용자 2억명에 대한 카드결제정보를 보유
애플페이는 아이폰6, 아이폰6 플러스, 애플워치와 같은 최신 애플 기기
사용자들만 쓸 수 있는데다가 가맹점 수 또한 페이팔에 비해 턱없이 부족
IV. FinTech
45. Bigdata Intelligence PlatformBICube 45
IV. FinTech
The Kreditech Group uses big data, complex algorithms and automated
workflows to serve a simple mission: “Better banking for everyone”. Based
on 20,000 dynamic data points, the unique technology is capable of scoring
everyone worldwide, including the 4bn individuals without credit score.
Deploying the technology makes physical contact and paper exchange
redundant. Funds can be paid out within seconds to a credit card, bank
account or NFC wallet, 24/7.
46. Bigdata Intelligence PlatformBICube 46
아프리카 케냐의 이동통신사인 사파리콤(Safaricom)이 영국의 보다폰
(Vodafone)과 함께 2007년 도입
http://slownews.kr/32306
IV. FinTech
47. Bigdata Intelligence PlatformBICube 47
은행 계좌 없이 돈을 이체할 수 있는 서비스-엠 페사
페이스북 메신저, 왓츠앱, 카카오톡, 라인 등이 준비하고 있는 모바일 메신저
기반 지불 서비스(payment service)는 페이팔(PayPal)의 작동 원리와 유사
이 모든 서비스는 특정 은행 계좌 또는 신용카드 계좌와 연결
돈을 내고 ‘모바일 가상 화폐’를 받는다. 이를 ‘엠-머니(M-Money)’라 부른다.
엠-머니는 문자메시지와 PIN(Personal Identification number)을 동시에 이용해
타인의 휴대폰으로 이체 가능하며, 엠-머니로 위의 그림처럼 오프라인 매장에서
지불 수단으로 이용할 수 있다. 필요에 따라 사파리콤 대리점을 방문하여 엠-머
니를 실제 화폐로 쉽게 교환할 수 있다.
IV. FinTech
48. Bigdata Intelligence PlatformBICube 48
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
목차
55. Bigdata Intelligence PlatformBICube 55
모니터링단계/모드에 따른 기능
• 배치타임(bach/non-realtime) 모니터링 기능
- 저장된 로그 파일에 대한 매뉴얼 혹은 자동화된 모니터링 모드
- 저장된 트랜잭션을 사후에 세부적으로 검토 가능하나 즉각적인 탐지 대응은 어려움
• 리얼타임(real time) 모니터링기능
- 웹서버 필터를 사용하여 실시간으로 모든 트랜잭션을 모니터링 하는 모드
- 응용프로그램에 대한 수정을 필요로 하지 않음
• 어플리케이션 기능을 이용 하는 리얼타임 모니터링 기능
- 어플리케이션에 모니터링 기능을 통합 하여 웹 트랜잭션을 모니터링 하는 모드
- 어플리케이션 자체를 수정해야하는 요구사항을 가짐
• 외부 어플리 케이션 기반 리얼타임 모니터링 기능
- 외부 어플리케이션을 이용해 모든 웹 트랜잭션을 모니터링 하는 모드
- 이 방식은 웹 필터와 모니터링 모듈이 순차적으로 작동하기 때문에 어플리 케이션의 성능에
영향을 미칠 수 있음
• 다중채널 데이터 수집 모니터링 기능
- 다른 채널로부터의 트랜잭션데이터를 통합하여 부정행위를 모니터링하고 탐지하는 모드
V. Fraud Detection System
56. Bigdata Intelligence PlatformBICube 56
모니터링단계/대상에 따른 기능
•데이터베이스
- 특정 사용자와 관련된 데이터베이스 트랜잭션을 모니터링 하는 기능
•데이터/콘텐츠
- 데이터 패턴 규칙에 따라 부적절한 콘텐츠나 데이터의 사용을 모니터링하는 기능
•서비스
- 특정 서비스의 비즈니스 룰에 따라 해당 어플리케이션 서비스 및 접근 채널에서 의심되는 사용자 활동을 모니터링 기
능
•네트워크
- 특정 사용자와 연관된 어플리케이션들의 비정상적인 네트워크 트래픽을 모니터링하는 기능
- 네트워크 이외에 파일 시스템, 콘텐츠, 데이터베이스까지 포괄하여 모니터링하지 못함
•보안이벤트
- 다양한 보안 모니터링 장치에 의해 인프라에서 어플리케이션까지 광범위한 범위로부터의 보안 이벤트를 모니터링 하
는 기능
V. Fraud Detection System
57. Bigdata Intelligence PlatformBICube 57
탐지단계
•트랜잭션 캡처
- 사용자가 처음 액세스 한 이후에 각 사용자의 행위 프로파일을 자동적으로 생성하고 트랜잭션으로부터 이상행위 속
성을 추출하여 매핑하는 기능
•이상행위 패턴 갱신
- 네트워크로부터 이상 행위 데이터를 자동적으로 갱신하는 기능
- 이상 행위 데이터는 규칙에 벗어나는 트랜잭션 위치정보, 블랙리스트 단말 정보 등을 포함함
•사전 정의 규칙 지원
- 이상행위 탐지 시스템이 사전에 정의한 탐지 규칙에 기반하여 동작하는 기능
- 부가적으로 신규 규칙을 생성, 수정,삭제하는 기능을 포함하며, 다른 조직과 규칙을 공유 가능할 수 있음
•실시간 룰 처리 기능
- 사용자/세션의 위협 스코어와 세부적인 위협 통지를 실시간으로 생성할 수 있는 기능
- 사용자의 행위를 일정시간이상 프로파일하여 비정상적인 사용자 행위, 블랙/화이트 리스트, 이상 행위 데이터, 정
상 위치데이터 등을 이용하는 기능
- 본 기능을 통하여 특정 위협 수준 이상의 경우 대응 및 차단 행위로 연계할 수 있음
•관리 도구 지원
- 관리도구는 알려진 이상 징후 상태, 활동현황, 새로운 이상 징후에 대해 관리자 인터페이스를 제공하고 e메일과
웹서비스 통지를 포함하는 통지 메커니즘 설정을 지원
•사후 트랜잭션 분석
- 사후 이상징후 분석을 위해 관련 모든 데이터를 저장하고 수집하는 기능으로 일정기간 동안 모든 사용자의 거래
데이터를 포함
- 부정방지시스템은 각 사용자의 행위 프로파일을 사용하여 세션, 사용자,시간에 따라 각 트랜잭션의 사후 분석을
위하여 분류 및 수집 저장함
V. Fraud Detection System
58. Bigdata Intelligence PlatformBICube 58
•포렌식 분석 기능
- 패턴에 따라 트랜잭션 데이터의 세부 내용을 분석하고 추출 검색하는 기능으로 실시간 탐지 룰을 위한 신규 부정 패
턴을 식별하는 것을 지원
•사용자 행위 프로파일 및 학습 기능
- 행위 프로파일은 정상적인 사용자의 행위로부터 벗어나는 사용자 행위에 대하여 위협 여부를 결정하기 위한 근거로
활용
- 모든 개별 사용자에 대하여 처음 접속 시점부터 일정기간 동안 정상 행위 패턴의 프로파일을 생성하는 기능
•지능적인 이상행위 패턴 탐지
- 모든 부정거래가 개별적인 데이터 필드와 네트워크 응용 로그를 통해서만 탐지될 수 없음
- 데이터 간의 연관성 분석과 평가를 위하여 지능적인 탐지 알고리즘 및 기능이 필요
•특정 서비스의 이상행위 패턴 탐지 패턴
- 알려진 부정 패턴 및 서비스 의존적인 부정 패턴에 일치하는 트랜잭션의 패턴을 찾기 위한 규칙을 정의하는 기능
- 서비스의 비즈니스 로직에 따라 의심되는 트랜잭션의 특정 순서나 상태를 찾는 기능
•다중 채널 위협 평가
- 부정탐지시스템은 주어진 응용, 채널 이외에 전화, 웹, 대면 거래 등의 다중채널, 및 신용거래, 직불거래 등의 다중 서비
스 간에 부정행위를 탐지하는 기능
- 부정탐지 시스템은 응용뿐만 아니라 시스템, 네트워크로부터의 부정행위와 연계하여 평가하는 기능
•자동 위협 분석 및 수준 평가
- 보안 위협을 자동적으로 인식하고 평가하여 설정하는 기능
탐지단계
V. Fraud Detection System
59. Bigdata Intelligence PlatformBICube 59
•추가적인 사용자 인증 및 검증
- 고수준의 보안을 요구하는 응용 혹은 부정 징후가 탐지된 접근에서 사용자에게 추가적인 인증을 요구하는 기능
- 사용자에게 사전에 정의된 정보나 인증 정보를 요청하거나, 추가적인 인증을위해 별도의 채널 인증 등을 요청하는
기능
•부정행위 통지 및 경고
- 의심된 행위가 탐지되었을 때 자동적으로 혹은 매뉴얼 하게 경고를 관리자에게 통지하는 기능
- 경고는 트랜잭션의 속성 행위 내용이 세부적으로 포함 되며, e메일, 페이저 등을 통해 전달
•사용자 계정 차단
- 의심되는 행위가 탐지되었을 때 사용자 계정에 접속 차단을 적용하는 기능
차단단계
V. Fraud Detection System
60. Bigdata Intelligence PlatformBICube 60
6개월 동안 거래가 없다가 공인인증서를 재발급하고 3건 이상의 거래를 한다.
3회이상거래?
이체No
Alert
6개월간
이체거래?
공인인증서
재발급?거래시작
No
Yes
V. Fraud Detection System
69. Bigdata Intelligence PlatformBICube 69
목차
I. Paradigm Shift
II. Machine Learning
III. Neural Stream
IV. FinTech
V. Fraud Detection System
VI. Conclusions
70. Bigdata Intelligence PlatformBICube 70
한국 금융권의 이른바 신용 리스크(credit risk / creditworthiness) 점검 능력
은 바닥 수준이다. 이유는 ‘(제3자) 보증’ 또는 ‘담보’ 때문
공인인증서와 액티브엑스의 금융 쇄국정책
강정수
핀테크 한국의 현실
VI. Conclusions
71. Bigdata Intelligence PlatformBICube 71
Classical rule-based approach
• Always “too late”:
• New fraud pattern is “invented” by criminals
• Cardholders lose money and complain
• Banks investigate complains and try to understand the new pattern
• A new rule is implemented a few weeks later
• Expensive to build (knowledge intensive)
• Difficult to maintain:
• Many rules
• The situation is dynamically changing, so frequently
• rules have to be added, modified, or removed …
VI. Conclusions
72. Bigdata Intelligence PlatformBICube 72
A perfect fraud detection system:
• “Tuned” to every cardholder or bank account:each cardholder or
bank account treated individually
• Adaptive:evolve with slow/small changes in cardholder behavior
• Fast (real-time)
• High accuracy
A system based on profiles
• Every cardholder gets a vector of parameters that describe his/her
behavior: an “average-behavior” profile
• The system constantly compares this “long-term” profile with the
recent behavior of cardholder
• Transactions that do not fit into cardholder’s profile are flagged as
suspicious (or are blocked)
• Profiles are updated with every single transaction, so the system
constantly adopts to (slow and small) changes in cardholders’
behavior
VI. Conclusions
73. Bigdata Intelligence PlatformBICube 73
Challenge: real-time detection!
• Monitor in real time all POS/ATM transactions
• Detect unusual patterns and block compromised cards as quickly
as possible
• Ideally: block compromised cards before fraud is discovered!
• A big question: can we do it ???
• Some numbers:
• 3,000,000,000 transactions per year
• up to 15,000,000 transactions per day
• up to 400 transactions per second (peak hours)
• 100,000,000 cards
VI. Conclusions
74. Bigdata Intelligence PlatformBICube 74
Speed is the key !!!
• Maintain a sliding buffer of the last billion transactions in RAM
(fast memory)
• Organize the transactions in such a way that some queries could be
executed very fast
• Develop some clever algorithms that operate on this data structure
• Will it work??? Yes, it will !!! Yes, it does …
• many transactions - billions - algorithms must be efficient
• mixed variable types (generally not text, image)
• large number of variables
• incomprehensible variables, irrelevant variables
• different misclassification costs
• many ways of committing fraud
• unbalanced class sizes (c. 0.1% transactions fraudulent)
• delay in labelling
• mislabelled classes
• random transaction arrival times
• (reactive) population drift
VI. Conclusions