SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Data Quality management
4차 산업혁명의성공"데이터품질"
2016.11.4 이해곤 이사
Contents
1. AI시대 데이터 품질관리 동향
2. 정형/비정형 데이터 품질관리 방법
3. 관측데이터 품질관리 사례
4. 빅 데이터 품질관리 접근방안
5. 결언
2014 ⓒ B2EN Consulting All Rights Reserved
TheCDO’sTop10SurprisesofaSuccessfulEnterpriseDataOffice
1
James Tyo
Executive Vice President and
Enterprise Chief Data Officer
BB&T
>
1.AI시대데이터품질관리동향
’“Waston can t beat 007”
2
Machine
Learning with
Apache Spark
Rock,
Paper,
Scissors
1.AI시대데이터품질관리동향
“Machine Learning ”
[Apache Spark)] 빅데이터 분석을 위한 SW
- 빅데이터 분산처리시스템인 하둡
MapReduce의 한계점을 극복하기 위한 기술
3
< Guide to the Data Management Body of Knowledge, 2015 >< Guide to the Data Management Body of Knowledge, 2009 >
DCM
DQM
DAM
DD
DOM
DSM
MDM
DW/BI
META
DG
The DAMA-DMBOK Guide Knowledge Area Wheel
출처 : WWW.DAMA.ORG
The DAMA-DMBOK2 Guide Knowledge Area Wheel
DQ
DA
META
DC
DW/BI
ED/MD
DM/DD
DS/DO
DS
DI
DG
1.AI시대데이터품질관리동향
“Data Governance 영역 구분 (9개->10개)”
“Climbing the Data Quality Maturity Curve”
- Danette McGilvray
Ten Steps to Quality Data and Trusted Information
계획
인지
실행
1.AI시대데이터품질관리동향
“Data Quality Management”
4
1.AI시대데이터품질관리동향
“Data Quality Management-VALUE”
5
용서~90년대
~ 현재
재난
미래 ~
“The Age of the Quality”
6
1.AI시대데이터품질관리동향
100 -1 = ?0
“우리의 노력”
7
1.AI시대데이터품질관리동향
2.정형/비정형데이터품질관리방법
출처>한국데이터베이스진흥원 데이터품질진단 절차 및 기법(Ver1.0)
품질기준 정의
완전성(Completeness) 필수항목에 누락이 없어야 한다.
유일성(Uniqueness) 데이터 항목은 유일해야 하며 중복되어서는 안 된다.
유효성(Validity) 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.
일관성(Consistency) 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 한다.
정확성(Accuracy) 실세계에 존재하는 객체의 표현 값이 정확히 반영이 되어야 한다는 것을 의미한다.
진단대상 진단 방법 정의
값(Value) 프로파일
(Profiling)
필수항목에 누락이 없어야 한다.
정의된 표준(도메인)에 맞게 저장 되어야 한다.
- 칼럼분석, 패턴분석, 코드분석
업무규칙
(BR:Business Rule)
업무(규정)에 정의된 의미의 값(산출식)으로 저장되어 있어야 한다.
- 프로파일에 의한 도출, VOC/ BOC에 의한 도출, 순수규정 기반 도출
구조 표준/구조정규화 데이터표준 준수 진단, 논리/물리 모델 표준에 맞게 설계 되어야 한다.
ERD 관리 , 데이터베이스 구조 일관성 등
프로세스 품질관리체계 데이터의 품질관리를 위한 절차요소별 관리 정도를 진단 한다.
- 요구사항/표준/오너십/구조/DB/흐름/활용/뷰 관리, 진단 및 개선관리
“정형 데이터 품질관리”
8
데이터 품질 기준
데이터 품질 진단 대상 및 진단 방법
2.정형/비정형데이터품질관리방법
“비정형 데이터 품질관리”
출처>한국데이터베이스진흥원데이터품질진단 절차 및 기법(Ver1.0)
<표 2-4> 콘텐츠 유형 분류 사례
• 데이터의 중요도를 산정하여
측정기준 간의 가중치를 정의하는
방법 적용
- 사전정의(predefined) 방식
- 임의적(ad-hoc) 방식(AHP)
진단방법대상 자료 유형 내 용
메타데이터 콘텐츠에 대한 각종 정보를 가지고 있는 데이터로 구축되는 DB 형
텍
스
트
직접입력 방식 문자의 직접 입력 작업으로 구축되는 DB 형태
OCR변환 방식 문자의 OCR 변환 작업으로 구축되는 DB 형태
한자자료
고문서, 고도서 등과 같이 한자로만 쓰여진 자료를 입력 작업으로
구축되는 DB 형태
이미지 스캐닝 또는 카메라 촬영을 통하여 구축되는 DB 형태
사운드 녹음 또는 보유자료(tape)의 편집으로 구축되는 DB 형태
동영상
촬영 또는 보유자료(reel tape, 베타 tape, 비디오 tape)의 편집으
로구축되는 DB 형태
3D
디지털 촬영을 통하여 나온 이미지를 3차원 데이터로 구축하는 이
미지 기반 모델링 및 렌더링 방식과 3D 스캐닝을 통해 3차원 데이
터로 구축되는 DB 형태
GIS
기 제작된 지도의 스캐닝 및 속성 정보를 입력 등으로 구축되는
DB 형태
항공사진
필름 및 사진형태로 보관되어 있는 항공사진에 촬영정보 및 공간
정보를 수록하여 구축되는 DB 형태
기상위성사진
과거 위성원시자료 및 지구관측위성 이진자료를 표준 포맷으로 전
환하여 구축되는 DB 형태
지도제작위성사진
위성사진에 속성정보를 입력하고 수치정사영상 자료로 구축되는
DB 형태
※ SNS,센서 등 순수 빅 데이터로 DB에 저장되어지지 않은 데이터
기술진화
Machine learning, deep
learning, R ,SCORING
로직, 유사성 분석 등 적용
9
3.관측데이터품질관리사례
“OO 관측 데이터 품질 모니터링 체계”
1. 댐->취수장->정수장->가압장-
>배수지->수용가 제공 까지
단계별 관측센서 장비 설치를 통
해 측정
2. 측정값 : 수질,수위, 유량,압력 등
database
저장 공유,활용
품질 도움이
10
품질 도움이
3.관측데이터품질관리사례
“유효범위 설정 적용 로직 ”
 유효 범위 측정 방안
1분 데이터 일별 MIN,MAX
일MAX평균 산출
일MIN평균산출
유효범위 도출
헌팅 예상데이터 추출
1.원인 분석
2. 제거 또는 표준 값 보정
• 5분 이상 측정값이 유지되면 정상데이터로 간주하여 MAX
값으로 설정함
• (예외 조건) 5분 이상 이상데이터 발생경우
 기준치를 설정하여 제외하는 로직 필요
• 5분 미만 측정값이 유지되어 데이터가 튀는
경우(이상데이터)는 비정상데이터로 간주하여 제외함
(예외조건) 5분 미만인 경우에도 정상데이터 존재함
 5분 미만인 경우라도 일MAX 평균*2 보다 작으면
유효값으로 설정
 5분 유량의 경우 60000 이상을 상회 하는 경우 재검증
시간3분
유량
3분간 유지하는
경우 MAX
값에서 제외
5분 이상
유지하는 경우
MAX값에 포함
15분
적용기준
 이상 수치(오측, 결측) 확인 및 적용 절차
11
 데이터 품질 모니터링 시스템
 필요성
 데이터 취득 프로그램 가동여부 및 상태확인이 안되 적시 조치의 어려움
 오측(헌팅 등), 결측 현상이 자주 발생함
오·결측 보정현황
본사 프로그램 가동 경고 대시보드
데이터 취득 프로그램 가동상태
사례
3.관측데이터품질관리사례
“데이터 품질 모니터링 시스템 ”
12
CASE1 : 발생 후 바로 소멸되는 빅 데이터 정보 활용 활용 방법
HDFS
선별/통계
정보추출
DB 저장
• 별도의 정보로
저장하지 않고
추출과 동시에
조건에 의해 활용
CASE3 : 빅 데이터 + 정형데이터 정보 융합 활용
선별/통계
정보추출
HDFS
• 필요정보를 추출
하여 DB에 저장
하고 기존 정보와
융합하여 활용
기존
데이터
추출/
변환
CASE2 : 빅 데이터 단독 활용
HDFS
선별/통계
정보추출
저장
• 빅 데이터 정보 중
활용도가 있는
정보 DB로 저장하
여 활용
추출/
변환
“Big Data 수집 활용 유형(예시)”
4.빅데이터 품질관리접근방안
13
• 수집 기준의 타당성(근거,
통계적 유의성)이 확보되었
는가?
• 추출조건에 맞는 정보의
관련항목 모두 추출되었는가?
- 필수 정보항목 누락 여부
• 악의적 유포데이터(abuse)
제거방법
(ex, 알바 댓글, 고의적 업무
방해)
데이터 수집시
품질관리 요소
품질관리
영역
• 저장시 누락(중복)된 데이터
는
없는가?
• 저장을 위한 키 구성이 적절
한가?
• 품질검증 방법
- File 검증 방법
- 저장 layout에 따른 검증
데이터 저장시
품질관리 요소
품질관리
영역
• 적시에 제공 되었는가?
• 최신의 데이터인가?
• 충분한 정보가 제공
되고 있는가?
• 사용자가 원하는 정보가
제공 되었는가?
• 방법
- 내부 사용자 설문조사
- feedback
- 만족도 조사
- 사후 고객만족도 분석
데이터 제공시
품질관리 요소
품질관리
영역
• 발생(생성) 기준(표준)이 맞게
정의 되어 있는가?
• 발생(생성) 기준(표준)에 맞게
저장 되어 있는가?
- 누락 데이터가 있는가?
- 충분성(정보,량)이
확보되고 있는가?
• 품질검증 방법
- 샘플링, 프로파일링
- 추이분석(누락분 파악)
데이터 생성시
품질관리 요소
품질관리
영역
선별/통계
정보추출 HDFS 기존
데이터
“Big Data 활용 절차단계별 품질관리 요소”
4.빅데이터 품질관리접근방안
14
5.결언
>
4차 산업혁명의 도래는 IOT, 빅데이터를 이용 가능한 신 기술의 개발로 “광대한 데이터”의 분석이 가능함에
따라 급속도로 발전하고 있다.
여기서 간과해서 안될 사실 하나는 수집, 활용되어지는 데이터의 정확성과 유의미성이라고 볼 수 있으며, 기존의
정형데이터 위주의 품질관리의 영역에서 비정형/빅데이터로 확대하여 품질관리 기술도 개발되어야 한다.
2000년 초반 DW/CRM 초기에 저 품질 데이터로 인한 시행착오를 우리는 기억하고 있다.
2016년 현재 그 동안 버려졌던 관측센서데이터, SNS 데이터, 통신데이터 등을 기반으로 하는 AI(Artificial
Intelligence)가 가까운 미래에 우리에게 새로운 문명의 혜택으로 다가올지, 아니면 잘못된 데이터 수집이나
정확하지 않은 저장관리, 감시 소홀, 누군가(person, machine)의 왜곡으로 인해 사회 각분야(의료, 항공,
기업 경영 등)에 엄청난 정보의 재앙으로 닥쳐올지, 선택은 지금 준비하는 자의 책임이 될 것이다.
데이터품질 분야에 활동하는 있는 한 사람으로서 최근의 데이터 품질 관리 동향과 관측데이터 품질관리 사례를
공유하고 발전해 나갔으면 한다.
15
감사합니다!
B2EN becomes a main role player to make KOREA the best practice in Database as the first class Database Solution
provider and grows up with ensuring the realistic solutions for such problems of customers

Contenu connexe

Tendances

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
동학 노
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
Peter Woo
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Channy Yun
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
Steve Min
 

Tendances (20)

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
빅데이터 개요
빅데이터 개요빅데이터 개요
빅데이터 개요
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
 
빅데이터 처리기술의 이해
빅데이터 처리기술의 이해빅데이터 처리기술의 이해
빅데이터 처리기술의 이해
 
빅데이터
빅데이터빅데이터
빅데이터
 
Bigdata
BigdataBigdata
Bigdata
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 

Similaire à [2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질

빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
효근 윤
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
NAVER D2
 
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 201409302014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
eungjin cho
 

Similaire à [2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질 (20)

Wise 데이터관리 사업소개
Wise 데이터관리 사업소개Wise 데이터관리 사업소개
Wise 데이터관리 사업소개
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf
 
정보활용과 데이터보안
정보활용과 데이터보안정보활용과 데이터보안
정보활용과 데이터보안
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
제품소개 Wise dq
제품소개 Wise dq제품소개 Wise dq
제품소개 Wise dq
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
Data Management for Digital Marketing
Data Management for Digital MarketingData Management for Digital Marketing
Data Management for Digital Marketing
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 201409302014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
 
데이터품질진단솔루션
데이터품질진단솔루션데이터품질진단솔루션
데이터품질진단솔루션
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 

Plus de K data

Plus de K data (19)

[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
 
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
 
[2016 데이터 그랜드 컨퍼런스] 6 2(전략,솔루션). 큐브리드 오픈소스 dbms의 클라우드 구축 사례-발표자료
[2016 데이터 그랜드 컨퍼런스] 6 2(전략,솔루션). 큐브리드 오픈소스 dbms의 클라우드 구축 사례-발표자료[2016 데이터 그랜드 컨퍼런스] 6 2(전략,솔루션). 큐브리드 오픈소스 dbms의 클라우드 구축 사례-발표자료
[2016 데이터 그랜드 컨퍼런스] 6 2(전략,솔루션). 큐브리드 오픈소스 dbms의 클라우드 구축 사례-발표자료
 
[2016 데이터 그랜드 컨퍼런스] 5 3(보안,품질). nh은행 금융플랫폼을 통한 핀테크 생태계 변화
[2016 데이터 그랜드 컨퍼런스] 5 3(보안,품질). nh은행 금융플랫폼을 통한 핀테크 생태계 변화[2016 데이터 그랜드 컨퍼런스] 5 3(보안,품질). nh은행 금융플랫폼을 통한 핀테크 생태계 변화
[2016 데이터 그랜드 컨퍼런스] 5 3(보안,품질). nh은행 금융플랫폼을 통한 핀테크 생태계 변화
 
[2016 데이터 그랜드 컨퍼런스] 5 1(보안,품질). 웨어밸리 data security challenges and its solutio...
[2016 데이터 그랜드 컨퍼런스] 5 1(보안,품질). 웨어밸리 data security challenges and its solutio...[2016 데이터 그랜드 컨퍼런스] 5 1(보안,품질). 웨어밸리 data security challenges and its solutio...
[2016 데이터 그랜드 컨퍼런스] 5 1(보안,품질). 웨어밸리 data security challenges and its solutio...
 
[2016 데이터 그랜드 컨퍼런스] 4 5(인공지능). 머니브레인 앱의 시대는 가고 인공지능 봇의 시대가 온다
[2016 데이터 그랜드 컨퍼런스] 4 5(인공지능). 머니브레인 앱의 시대는 가고 인공지능 봇의 시대가 온다[2016 데이터 그랜드 컨퍼런스] 4 5(인공지능). 머니브레인 앱의 시대는 가고 인공지능 봇의 시대가 온다
[2016 데이터 그랜드 컨퍼런스] 4 5(인공지능). 머니브레인 앱의 시대는 가고 인공지능 봇의 시대가 온다
 
[2016 데이터 그랜드 컨퍼런스] 4 4(인공지능).마인즈랩 인공지능과 virtual assisstant-2016_datagrandcon...
[2016 데이터 그랜드 컨퍼런스] 4 4(인공지능).마인즈랩 인공지능과 virtual assisstant-2016_datagrandcon...[2016 데이터 그랜드 컨퍼런스] 4 4(인공지능).마인즈랩 인공지능과 virtual assisstant-2016_datagrandcon...
[2016 데이터 그랜드 컨퍼런스] 4 4(인공지능).마인즈랩 인공지능과 virtual assisstant-2016_datagrandcon...
 
[2016 데이터 그랜드 컨퍼런스] 4 3(인공지능). 마인드셋 intro to mindbot
[2016 데이터 그랜드 컨퍼런스] 4 3(인공지능). 마인드셋 intro to mindbot[2016 데이터 그랜드 컨퍼런스] 4 3(인공지능). 마인드셋 intro to mindbot
[2016 데이터 그랜드 컨퍼런스] 4 3(인공지능). 마인드셋 intro to mindbot
 
[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측
[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측
[2016 데이터 그랜드 컨퍼런스] 4 2(인공지능). 위세아이텍 머신러닝플랫폼기반의철도사고위험예측
 
[2016 데이터 그랜드 컨퍼런스] 4 1(인공지능). 경희대 이경전 교수 경험과 사례를 통한 인공지능 응용 및 사업 방법론
[2016 데이터 그랜드 컨퍼런스] 4 1(인공지능). 경희대 이경전 교수 경험과 사례를 통한 인공지능 응용 및 사업 방법론[2016 데이터 그랜드 컨퍼런스] 4 1(인공지능). 경희대 이경전 교수 경험과 사례를 통한 인공지능 응용 및 사업 방법론
[2016 데이터 그랜드 컨퍼런스] 4 1(인공지능). 경희대 이경전 교수 경험과 사례를 통한 인공지능 응용 및 사업 방법론
 
[2016 데이터 그랜드 컨퍼런스] 3 5(io t). 스마트박스-iot와 생활 속 사물함의 만남
[2016 데이터 그랜드 컨퍼런스] 3 5(io t). 스마트박스-iot와 생활 속 사물함의 만남[2016 데이터 그랜드 컨퍼런스] 3 5(io t). 스마트박스-iot와 생활 속 사물함의 만남
[2016 데이터 그랜드 컨퍼런스] 3 5(io t). 스마트박스-iot와 생활 속 사물함의 만남
 
[2016 데이터 그랜드 컨퍼런스] 3 3(io t). 메디플러스-phr 데이터를 활용한 환자건강관리서비스
[2016 데이터 그랜드 컨퍼런스] 3 3(io t). 메디플러스-phr 데이터를 활용한 환자건강관리서비스[2016 데이터 그랜드 컨퍼런스] 3 3(io t). 메디플러스-phr 데이터를 활용한 환자건강관리서비스
[2016 데이터 그랜드 컨퍼런스] 3 3(io t). 메디플러스-phr 데이터를 활용한 환자건강관리서비스
 
[2016 데이터 그랜드 컨퍼런스] 3 1(io t). 핸디소프트-finding benefits of iot_service by case ...
[2016 데이터 그랜드 컨퍼런스] 3 1(io t). 핸디소프트-finding benefits of iot_service by case ...[2016 데이터 그랜드 컨퍼런스] 3 1(io t). 핸디소프트-finding benefits of iot_service by case ...
[2016 데이터 그랜드 컨퍼런스] 3 1(io t). 핸디소프트-finding benefits of iot_service by case ...
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
 
[2016 데이터 그랜드 컨퍼런스] 2 3(빅데이터). 엑셈 빅데이터 적용 사례 및 플랫폼 구현
[2016 데이터 그랜드 컨퍼런스] 2 3(빅데이터). 엑셈 빅데이터 적용 사례 및 플랫폼 구현[2016 데이터 그랜드 컨퍼런스] 2 3(빅데이터). 엑셈 빅데이터 적용 사례 및 플랫폼 구현
[2016 데이터 그랜드 컨퍼런스] 2 3(빅데이터). 엑셈 빅데이터 적용 사례 및 플랫폼 구현
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
[2016 데이터 그랜드 컨퍼런스] 1 2. bk2(티맥스) 2016데이터그랜드컨퍼런스-티맥스소프트_클라우드 시대의 데이터베이스 시스템 변...
[2016 데이터 그랜드 컨퍼런스] 1 2. bk2(티맥스) 2016데이터그랜드컨퍼런스-티맥스소프트_클라우드 시대의 데이터베이스 시스템 변...[2016 데이터 그랜드 컨퍼런스] 1 2. bk2(티맥스) 2016데이터그랜드컨퍼런스-티맥스소프트_클라우드 시대의 데이터베이스 시스템 변...
[2016 데이터 그랜드 컨퍼런스] 1 2. bk2(티맥스) 2016데이터그랜드컨퍼런스-티맥스소프트_클라우드 시대의 데이터베이스 시스템 변...
 
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
 

Dernier

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
Wonjun Hwang
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
Wonjun Hwang
 

Dernier (6)

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 

[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질

  • 1. Data Quality management 4차 산업혁명의성공"데이터품질" 2016.11.4 이해곤 이사
  • 2. Contents 1. AI시대 데이터 품질관리 동향 2. 정형/비정형 데이터 품질관리 방법 3. 관측데이터 품질관리 사례 4. 빅 데이터 품질관리 접근방안 5. 결언 2014 ⓒ B2EN Consulting All Rights Reserved
  • 3. TheCDO’sTop10SurprisesofaSuccessfulEnterpriseDataOffice 1 James Tyo Executive Vice President and Enterprise Chief Data Officer BB&T > 1.AI시대데이터품질관리동향 ’“Waston can t beat 007”
  • 4. 2 Machine Learning with Apache Spark Rock, Paper, Scissors 1.AI시대데이터품질관리동향 “Machine Learning ” [Apache Spark)] 빅데이터 분석을 위한 SW - 빅데이터 분산처리시스템인 하둡 MapReduce의 한계점을 극복하기 위한 기술
  • 5. 3 < Guide to the Data Management Body of Knowledge, 2015 >< Guide to the Data Management Body of Knowledge, 2009 > DCM DQM DAM DD DOM DSM MDM DW/BI META DG The DAMA-DMBOK Guide Knowledge Area Wheel 출처 : WWW.DAMA.ORG The DAMA-DMBOK2 Guide Knowledge Area Wheel DQ DA META DC DW/BI ED/MD DM/DD DS/DO DS DI DG 1.AI시대데이터품질관리동향 “Data Governance 영역 구분 (9개->10개)”
  • 6. “Climbing the Data Quality Maturity Curve” - Danette McGilvray Ten Steps to Quality Data and Trusted Information 계획 인지 실행 1.AI시대데이터품질관리동향 “Data Quality Management” 4
  • 8. 용서~90년대 ~ 현재 재난 미래 ~ “The Age of the Quality” 6 1.AI시대데이터품질관리동향
  • 9. 100 -1 = ?0 “우리의 노력” 7 1.AI시대데이터품질관리동향
  • 10. 2.정형/비정형데이터품질관리방법 출처>한국데이터베이스진흥원 데이터품질진단 절차 및 기법(Ver1.0) 품질기준 정의 완전성(Completeness) 필수항목에 누락이 없어야 한다. 유일성(Uniqueness) 데이터 항목은 유일해야 하며 중복되어서는 안 된다. 유효성(Validity) 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다. 일관성(Consistency) 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 한다. 정확성(Accuracy) 실세계에 존재하는 객체의 표현 값이 정확히 반영이 되어야 한다는 것을 의미한다. 진단대상 진단 방법 정의 값(Value) 프로파일 (Profiling) 필수항목에 누락이 없어야 한다. 정의된 표준(도메인)에 맞게 저장 되어야 한다. - 칼럼분석, 패턴분석, 코드분석 업무규칙 (BR:Business Rule) 업무(규정)에 정의된 의미의 값(산출식)으로 저장되어 있어야 한다. - 프로파일에 의한 도출, VOC/ BOC에 의한 도출, 순수규정 기반 도출 구조 표준/구조정규화 데이터표준 준수 진단, 논리/물리 모델 표준에 맞게 설계 되어야 한다. ERD 관리 , 데이터베이스 구조 일관성 등 프로세스 품질관리체계 데이터의 품질관리를 위한 절차요소별 관리 정도를 진단 한다. - 요구사항/표준/오너십/구조/DB/흐름/활용/뷰 관리, 진단 및 개선관리 “정형 데이터 품질관리” 8 데이터 품질 기준 데이터 품질 진단 대상 및 진단 방법
  • 11. 2.정형/비정형데이터품질관리방법 “비정형 데이터 품질관리” 출처>한국데이터베이스진흥원데이터품질진단 절차 및 기법(Ver1.0) <표 2-4> 콘텐츠 유형 분류 사례 • 데이터의 중요도를 산정하여 측정기준 간의 가중치를 정의하는 방법 적용 - 사전정의(predefined) 방식 - 임의적(ad-hoc) 방식(AHP) 진단방법대상 자료 유형 내 용 메타데이터 콘텐츠에 대한 각종 정보를 가지고 있는 데이터로 구축되는 DB 형 텍 스 트 직접입력 방식 문자의 직접 입력 작업으로 구축되는 DB 형태 OCR변환 방식 문자의 OCR 변환 작업으로 구축되는 DB 형태 한자자료 고문서, 고도서 등과 같이 한자로만 쓰여진 자료를 입력 작업으로 구축되는 DB 형태 이미지 스캐닝 또는 카메라 촬영을 통하여 구축되는 DB 형태 사운드 녹음 또는 보유자료(tape)의 편집으로 구축되는 DB 형태 동영상 촬영 또는 보유자료(reel tape, 베타 tape, 비디오 tape)의 편집으 로구축되는 DB 형태 3D 디지털 촬영을 통하여 나온 이미지를 3차원 데이터로 구축하는 이 미지 기반 모델링 및 렌더링 방식과 3D 스캐닝을 통해 3차원 데이 터로 구축되는 DB 형태 GIS 기 제작된 지도의 스캐닝 및 속성 정보를 입력 등으로 구축되는 DB 형태 항공사진 필름 및 사진형태로 보관되어 있는 항공사진에 촬영정보 및 공간 정보를 수록하여 구축되는 DB 형태 기상위성사진 과거 위성원시자료 및 지구관측위성 이진자료를 표준 포맷으로 전 환하여 구축되는 DB 형태 지도제작위성사진 위성사진에 속성정보를 입력하고 수치정사영상 자료로 구축되는 DB 형태 ※ SNS,센서 등 순수 빅 데이터로 DB에 저장되어지지 않은 데이터 기술진화 Machine learning, deep learning, R ,SCORING 로직, 유사성 분석 등 적용 9
  • 12. 3.관측데이터품질관리사례 “OO 관측 데이터 품질 모니터링 체계” 1. 댐->취수장->정수장->가압장- >배수지->수용가 제공 까지 단계별 관측센서 장비 설치를 통 해 측정 2. 측정값 : 수질,수위, 유량,압력 등 database 저장 공유,활용 품질 도움이 10 품질 도움이
  • 13. 3.관측데이터품질관리사례 “유효범위 설정 적용 로직 ”  유효 범위 측정 방안 1분 데이터 일별 MIN,MAX 일MAX평균 산출 일MIN평균산출 유효범위 도출 헌팅 예상데이터 추출 1.원인 분석 2. 제거 또는 표준 값 보정 • 5분 이상 측정값이 유지되면 정상데이터로 간주하여 MAX 값으로 설정함 • (예외 조건) 5분 이상 이상데이터 발생경우  기준치를 설정하여 제외하는 로직 필요 • 5분 미만 측정값이 유지되어 데이터가 튀는 경우(이상데이터)는 비정상데이터로 간주하여 제외함 (예외조건) 5분 미만인 경우에도 정상데이터 존재함  5분 미만인 경우라도 일MAX 평균*2 보다 작으면 유효값으로 설정  5분 유량의 경우 60000 이상을 상회 하는 경우 재검증 시간3분 유량 3분간 유지하는 경우 MAX 값에서 제외 5분 이상 유지하는 경우 MAX값에 포함 15분 적용기준  이상 수치(오측, 결측) 확인 및 적용 절차 11
  • 14.  데이터 품질 모니터링 시스템  필요성  데이터 취득 프로그램 가동여부 및 상태확인이 안되 적시 조치의 어려움  오측(헌팅 등), 결측 현상이 자주 발생함 오·결측 보정현황 본사 프로그램 가동 경고 대시보드 데이터 취득 프로그램 가동상태 사례 3.관측데이터품질관리사례 “데이터 품질 모니터링 시스템 ” 12
  • 15. CASE1 : 발생 후 바로 소멸되는 빅 데이터 정보 활용 활용 방법 HDFS 선별/통계 정보추출 DB 저장 • 별도의 정보로 저장하지 않고 추출과 동시에 조건에 의해 활용 CASE3 : 빅 데이터 + 정형데이터 정보 융합 활용 선별/통계 정보추출 HDFS • 필요정보를 추출 하여 DB에 저장 하고 기존 정보와 융합하여 활용 기존 데이터 추출/ 변환 CASE2 : 빅 데이터 단독 활용 HDFS 선별/통계 정보추출 저장 • 빅 데이터 정보 중 활용도가 있는 정보 DB로 저장하 여 활용 추출/ 변환 “Big Data 수집 활용 유형(예시)” 4.빅데이터 품질관리접근방안 13
  • 16. • 수집 기준의 타당성(근거, 통계적 유의성)이 확보되었 는가? • 추출조건에 맞는 정보의 관련항목 모두 추출되었는가? - 필수 정보항목 누락 여부 • 악의적 유포데이터(abuse) 제거방법 (ex, 알바 댓글, 고의적 업무 방해) 데이터 수집시 품질관리 요소 품질관리 영역 • 저장시 누락(중복)된 데이터 는 없는가? • 저장을 위한 키 구성이 적절 한가? • 품질검증 방법 - File 검증 방법 - 저장 layout에 따른 검증 데이터 저장시 품질관리 요소 품질관리 영역 • 적시에 제공 되었는가? • 최신의 데이터인가? • 충분한 정보가 제공 되고 있는가? • 사용자가 원하는 정보가 제공 되었는가? • 방법 - 내부 사용자 설문조사 - feedback - 만족도 조사 - 사후 고객만족도 분석 데이터 제공시 품질관리 요소 품질관리 영역 • 발생(생성) 기준(표준)이 맞게 정의 되어 있는가? • 발생(생성) 기준(표준)에 맞게 저장 되어 있는가? - 누락 데이터가 있는가? - 충분성(정보,량)이 확보되고 있는가? • 품질검증 방법 - 샘플링, 프로파일링 - 추이분석(누락분 파악) 데이터 생성시 품질관리 요소 품질관리 영역 선별/통계 정보추출 HDFS 기존 데이터 “Big Data 활용 절차단계별 품질관리 요소” 4.빅데이터 품질관리접근방안 14
  • 17. 5.결언 > 4차 산업혁명의 도래는 IOT, 빅데이터를 이용 가능한 신 기술의 개발로 “광대한 데이터”의 분석이 가능함에 따라 급속도로 발전하고 있다. 여기서 간과해서 안될 사실 하나는 수집, 활용되어지는 데이터의 정확성과 유의미성이라고 볼 수 있으며, 기존의 정형데이터 위주의 품질관리의 영역에서 비정형/빅데이터로 확대하여 품질관리 기술도 개발되어야 한다. 2000년 초반 DW/CRM 초기에 저 품질 데이터로 인한 시행착오를 우리는 기억하고 있다. 2016년 현재 그 동안 버려졌던 관측센서데이터, SNS 데이터, 통신데이터 등을 기반으로 하는 AI(Artificial Intelligence)가 가까운 미래에 우리에게 새로운 문명의 혜택으로 다가올지, 아니면 잘못된 데이터 수집이나 정확하지 않은 저장관리, 감시 소홀, 누군가(person, machine)의 왜곡으로 인해 사회 각분야(의료, 항공, 기업 경영 등)에 엄청난 정보의 재앙으로 닥쳐올지, 선택은 지금 준비하는 자의 책임이 될 것이다. 데이터품질 분야에 활동하는 있는 한 사람으로서 최근의 데이터 품질 관리 동향과 관측데이터 품질관리 사례를 공유하고 발전해 나갔으면 한다. 15
  • 18. 감사합니다! B2EN becomes a main role player to make KOREA the best practice in Database as the first class Database Solution provider and grows up with ensuring the realistic solutions for such problems of customers