SlideShare a Scribd company logo
1 of 68
Download to read offline
AI 파이프라인과
실전 테스팅 전략
데이터 품질 및 성능 지표
ONYCOM l CPO 손영수
배경
01.
머신러닝 분류
출처 : 생활코딩 머신러닝
3
머신러닝 분류
지도 학습
Supervised learning
강화학습
reinforcement learning
비지도 학습
unsupervised learning
정답이 있는 문제를 해결하는 것
데이터의 관찰을 통해 새로운 의미나 관계를 밝히는 것
더 좋은 보상을 받기 위해 수련하는 것
4
회귀
출처 : 생활코딩 머신러닝
5
분류
6
분류 (종속변수, 독립변수)
출처 : 생활코딩 머신러닝
독립변수 종속변수 학습시킬 데이터를 만드는 방법
공부시간
합격 여부
(합격/불합격)
사람들의 공부시간을 입력받고, 최종 합격여부를 확인한다.
X-ray 사진과 영상 속
종양의 크기, 두께
악성종양 여부
(양성/음성)
의학적으로 양성과 음성이 확인된 사진과 영상 데이터를 모은다
품종, 산도, 당도, 지역, 연도 와인의 등급 소믈리에를 통해서 등급이 확인된 와인을 가지고 품종, 산도 등의 독립변수를 정하고 기록한다.
키, 몸무게, 시력, 지병 현역, 공익, 면제 키, 몸무게, 시력, 지병 등을 토대로 현역, 공익, 면제인지를 확인한다.
메일 발신인, 제목, 본문 내용
(사용된 단어, 이모티콘 등)
스팸 메일 여부 이제부터 받은 메일을 모으고, 이들을 스팸 메일과 일반 메일로 구분한다.
고기의 지방함량,
지방색, 성숙도, 육색
소고기 등급 소고기의 정보를 토대로 등급을 측정한다.
7
강화학습
게임
환경
(Environment)
게이머
에이전트
(Agent)
게임화면
상태
(Status)
게이머의 조작
행동
(Action)
상과 벌
보상
(rewar)
게이머의 판단
정책
(policy)
8
AI PIPELINE (파이프라인)
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
9
AI 테스팅,품질 관리 담당자/기업이 해야 할일
원하는 AI 모델
원천 데이터
비 가공된 데이터
현실성 판단 불가
축적
활용
데이터 품질 체크
데이터 추출
학습 데이터 품질 체크
AI 모델 품질
모델 성능 측정 도구
평가데이터 구축
빠른 성능 리포트 배포
우수한 모델 선정
선정 방법및 절차 모름
AI 도입기업 AI 테스팅 / 품질 기업 AI 모델 기업 다수
AI 모델 개발
데이터 가공
데이터 가공
이미지/영상/텍스트
데이터 정제
학습
축적
활용
10
AI 생애주기
11
구분 1. 데이터 수집 및 전처리 2. AI 모델 설계 및 개발 3. 시스템 구현 및 배포 4. 운영
내용
• 수집
• 이용/제공 (전처리,가명처리)
• 파기/보관
• 설계/개발
• 모델적용/초기학습
• 비즈니스적용/심화
• 테스트
• 출시
• 개선
• 조직, 유지 및 보수, 서비스 정책,
내부 교육 등 (상시)
기술적
이슈
• 개인정보 무단 수집 여부 체크
• 개인정보 비식별화
• 데이터 수집의 편향성(인종, 성,
특정 집단 등) 이슈
• 잘못된 의사결정(개발자의 데
이터 활용 여부)
• 데이터 관리 및 분석 인력 부족
• 데이터 변조 등 공격
• XAI 적용의 한계
• 개발자의 선입견
• 잘못된 의사결정(알고리즘)
• AI 모델의 편향성
• 개발인력의 다양성 부재(성비 문
제 등)
• 신뢰성 관련 전문인력의 부족
• AI 오작동
• 자동화된 AI의 공정성 이슈
• AI의 판단기준(블랙박스)
• 해킹 등 보안 문제
• 사용자의 악의적 사용
• 내부 모니터링 부재
• 고객 피드백 문제
• AI에 대한 대중의 기대치와 성능의
괴리감
정책적
이슈
• 데이터 수집 매뉴얼 부재 • 자체 공정성 시험 체계 부족
• 사후 편향성 스크리닝 체계성 부족
• 확증편향성 문제
• 추적/감사 정책 및 대응 매뉴얼 부
재
*음성인식(인식,정제) → 자연어 처리(독해,
분류, 생성) → 추천 (분석, 추천)
EDA (Exploratory Data Analysis)
SweetViz
https://github.com/fbdesignpro/sweetviz
두줄로 간단히 하는 EDA
https://bit.ly/3De2KBu
12
데이터의 품질 정합성 체크
13
데이터의 구문 정합성 (라벨링) 체크
14
데이터의 품질 정합성 체크
15
데이터의 편향성 체크가 핵심
정규분포
대부분의 데이터는 정규 분포 /이대
로 학습하면 편향성 발생
AI 스피커 인식시.
(소아, 장애인은 인식 못하는 경우)
균등분포
“그래서 데이터를 균등 분포를
만들어 학습 하는것이 좋다”
16
데이터 부족하면… (GAN)
GAN (Generative Adversarial Networking)
17
데이터 부족하면… (GAN)
GAN (Generative Adversarial Networking) 으로 생김새를…
18
AI PIPELINE (파이프라인) 설명
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
19
모델은 너무 많아요. (가져다 쓰시는게 편함)
안면 인식 모델 공개된 것만 16개 이상…
참고자료 https://github.com/seriousran/face-recognition
20
최고의 모델 + 최적의 매개변수 = 하이퍼 파라메터 최적화
신경망에서는 다수의 매개변수
(하이퍼 파라메터)가 존재
각 층의 뉴런 수
배치 크기
학습률
가중치 감소
21
성능 모니터링은 (Weight&Biases ->WandB.io)
22
AI PIPELINE (파이프라인) 설명
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
재학습
모델 평가
23
모델의 성능 평가지표 (혼동 행렬 = Confusion Matrix)
실제 정답
TRUE FALSE
분류 결과
TRUE
FALSE
True Positive(TP)
실제 True인 정답을 True라고
예측 (정답)
False Positive(FP)
실제 False인 정답을 True라고
예측 (오답)
False Negative(FN)
실제 True인 정답을 False라고
예측 (오답)
True Negative(TN)
실제 False인 정답을 False라고
예측 (정답)
24
모델의 성능 평가지표
Precision 정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
날씨 예측 모델이 맑다로 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표
Recall 재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
실제 날씨가 맑은 날 중에서 모델이 맑다고 예측한 비율을 나타낸 지표
Trade-off : 확실히 맑은 날을 예측할 수 있다면 해당하는 날에만 맑은 날이라고 예측하면 되겠다.
예를 들어 한달 30일 동안 맑은 날이 20일이었는데, 확실한 2일만 맑다고 예측한다면,
당연히 맑다고 한 날 중에 실제 맑은 날(Precision)은 100%가 나오게 됩니다.
이게 정상인가?
우리는 실제 맑은 20일중에 모델이 예측한 맑은 날의 수도 고려해야 한다.
25
모델의 성능 평가지표
실제 정답
TRUE FALSE
분류 결과
TRUE
FALSE
True Positive(TP) False Positive(FP)
False Negative(FN) True Negative(TN)
Accuracy 지금까지 True를 True라고 옳게 예측한 경우에 대해서만 다루었습니다.
하지만, False를 False라고 예측한 경우도 옳은 경우입니다
정확도
26
모델의 성능 평가지표
Accuracy
정확도
정확도 의 단점
데이터가 편향되어 있을 경우…
이 경우에는 해당 data의 domain이 불균형 하게 되므로
맑은 것을 예측하는 성능은 높지만,
비가 오는 것을 예측하는 성능은 매우 낮을 수 밖에 없음.
“비가 안 오는 아프리카 지역이라면….”
27
모델의 성능 평가지표
F1 Score 데이터가 편향되어 있을 경우… Precision, Recall 의 조화 평균
즉. 단순 평균보다 작은 쪽으로 치우치는 평균
28
모델의 성능 평가지표
Sensitivity
병에 걸린 사람이 검사결과 양성으로 나올 확률
TP / (TP + FN
민감도
Specificity
건강한 사람이 검사 결과 음성으로 나올 확률
TN/(TN+FP)
특이도
29
모델의 성능 평가지표
1) 적절한 평가 기준을 찾기
2) 모든 평가 기준에 최적의 해는?
ROC 수신자 조작 곡선 Receiving Operating Characteristic
평가하는 사람마다 기준이 다를 때.
30
모델의 성능 평가지표
ROC X,Y축
X = TPR(True Positive Rate = recall = sensitivity)은 실제 참(True)인데 참(Positive)이라 예측한 경우
Y = FPR(False Positive Rate)은 실제 거짓(False)인데 참(Positive)이라 잘못 예측한 경우
31
모델의 성능 평가지표
ROC-AUC (Area Under Curve) or AUROC (Area Under ROC)
하위 면적이 1(100)에 가까울수록 좋은 알고리즘
기준을 이렇게 해도, 저렇게 해도 잘 분류하는 알고리즘
32
그런데.. 알고리즘이 다들 너무 우수한 영역이라면
A 알고리즘 비정확도 = 0.0001%
A 알고리즘 정확도 = 99.9999%
B 알고리즘 비정확도 = 0.0009%
B 알고리즘 정확도 = 99.9991%
C 알고리즘 비정확도 = 0.0011%
C 알고리즘 정확도 = 99.9989%
33
모델의 성능 평가지표
ROC X,Y축을 못 맞추는 비율로 변경
X = FRR(False Rejection Rate = False Positive Rate)
정당한 주체가 잘못 거절되는 비율
(본인 거부율 = 생체인식에서 인식되어야 하는 사림인데 거부되는 비율)
(정상 오인율 = 정상 부품을 이상 부품이라고 인식하는 비율)
Y = FAR(False Acceptance Rate = False Negative Rate).
정당하지 않는 주체가 잘못 인정되는 비율
(타인 수락율 = 생체인식에서 인식되어서는 안될 사람을 인식하는 비율)
(잘못 허용율 = 이상 부품을 정상 부품이라고 인식하는 비율)
34
못 맞추는 비율의 면적 (AUROC)이 0 에 수렴하면 좋은 그래프
35
지표보다 더 중요한건.. 평가 데이터 (사견)
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
36
평가 데이터 구성
노트북이라고 인식할 비율
99.9999%
하지만 현실은..
37
평가 데이터 구성 (이렇게 주면…)
장애물로 가려도 측면에서도 인식을 할 수 있나 포장지로 쌓여 있을 때는
? ? ?
38
데이터 편향성 체크가 핵심
39
백인, 남성
특권 그룹 Privileged group
비특권 그룹 unprivileged group
흑인, 여성
지표보다 더 중요한건.. 평가 데이터 (사견)
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
40
?
그 외에도..
임베디드 환경에서도 돌아가나?
CPU, 메모리 , GPU 사용율…
?
얼마나 빠르게 결과를 도출하느냐?
(TPS = 초당 판독율)…
41
실전개요
02.
사업소개 – 안면 인식의 필요성 (인천공항 법무부)
43
안면인식 시험 해외 사례 - NIST 미국 국립 표준 기술연구소 - FRVT
• 이미지 위주의 평가 분석
• C/C++ 언어만 지원 (DLL로 제출, 언어의 제약이 심함)
• GPU가 없는 제한된 환경에서 테스트 (임베디드 환경)
• 1:1(Verification)의 특정 조건에 통과해야만,
1:N(Identification) 이후 테스트에 진입 가능
• 오랜 기간 수행하는 안정성 테스트 없음
• 이상행동 테스트 없음
• 영상 테스트는 존재하나 1분 내의 동영상을 다 읽고 판별
(실시간성 부족)
시사점
FERET의 이미지 데이터 샘플
• 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가
• 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가
• 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률),
타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등
• 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가
• 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에 따른 성능을 실험
• 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가
• 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭
비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번 비교 수행)
• 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행
• 전 시험 과정을 완전 자동화
FERET(FacE REcognition Technology) [1993년 ~ 1997년]
FRVT(Face Recognition Vendor Test) [2000년]
FRVT(Face Recognition Vendor Test) [2008년]
44
• 다양한 밴더들이 참가할 수 있게
표준화된 Restful API 인터페이스 제공
• 공항 상황에서 여권 인식을
잘 수행하기 위한 최적화된 모델
• 인식률도 중요하나,
평균 5초, 최대 20초 안에 결과 출력 필수 됨
• 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델
• 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내
• 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋)
• 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지)
• 인식하는데 걸리는 시간
• 만족도 (지원자가 Very Happy ~ Very Unhappy)
• 얼굴, 홍채 획득 실패와 시간
• 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교)
안면인식 시험 해외 사례 - 미국 국토안보부 MdTF (Maryland Test Facility)
시사점
배경
개발방법
평가지표
45
• 8채널 동시 테스트
• 실시간 이상행동 감지 테스트
• 공항에 최적화된 테스트 환경
다중 카메라에 의한 식별추적 예시
• 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출
• 낮은 해상도에서도 안면인식 알고리즘의 동작여부.
• 실시간으로 이상행동을 감지.
• 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함.
• 8개의 채널을 1대의 GPU서버에서 처리
Nvidia Geforce RTX 2080,CPU 10 Core, 512GB
• 이미지 테스트 : 1:1, 1:N
• 동영상 안면인식 테스트 : 1:1, 1:N
• 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식
BFRWD5
법무부의 요구사항
배경
개발방법
평가지표
시사점
46
[심사 대기 구역]
[유인 심사대 구역]
기반환경 구축
47
학습 데이터 구축
03.
머신러닝 파이프라인
5000개의 이상행동 데이터 5000개의 이상행동 검증 데이터
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
1천만명 외국인 데이터
1억1천만명 외국인 데이터
49
안면인식 이미지 구성 (19년도)
각도(D)
정면
상
하
좌
우
좌상
우상
좌하
우하
표정(F)
무표정
찡그림
웃음
눈감음
악세서리(A)
모자
목베개
사탕(막대사탕)
마스크(턱밑)
안경
귀걸이
안경 + 모자
모자 + 사탕
조명
밝음
좌
우
역광
어두움
배경(B)
단색
혼합
옷(C)
단색
혼합
헤어스타일(H)
올림
내림
푼머리
묶은머리
화장(M)
일반
기초
• 안면 인식 테스트를 위한 검증 데이터 구성
- 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진)
- 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성
성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세)
동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성
• 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성
[안면 데이터 변화 요인]
50
안면인식 평가 이미지 구성 (20년도)
나이, 성별등을 고려한 균등 분포로 평가 데이터 셋 구성
51
이상행동 데이터 학습 데이터 생성
• 동영상에서 1:1, 1:N 식별
• 이상행동 요구사항
- 총 4종류의 이상행동 감지 : 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지 (단, 2인 감지 행위는 자동출입국심사구역에서만 발생)
- 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등
- 이상 행동 시 4채널 카메라에서 사용자를 추적하여 식별 필요 등
이상행동 종류 이벤트 시작기준 이벤트 종료기준
2인 감지
• 두 사람의 두 발이 완전하게 평가 영역
바닥에 들어온 순간
• 최소 한 사람의 두 발이 완전하게 평가 영역에서
나가는 순간
돌진 • 객관적으로 뛰는 동작이 시작되는 순간 • 객관적으로 뛰는 동작이 종료되는 순간
역주행
• 몸이 바라보는 방향은 상관없이 이동 방향 성분에
서 반대 방향 성분이 있는 순간
• 역방향으로 이동 성분이 사라지는 순간
장시간 물건 방치 • 신체에서 물건이 떨어지고 5초 지난 순간 • 어느 누구든 신체 일부가 물체에 닿는 순간
[이상행동 정의]
돌진
장시간 물건 방치
52
평가 모델 및 환경 구축
04.
기존 표준 분석 반영
[ FRVT ]
평가 유형 설명
FRVT 1:1
얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서 FNMR (False
Non-Match Rate)로 측정 된 최고 1 : 1 성능의 알고리즘 평가
FRVT 1:N
FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만 심사 참여 가
능, 다수의 아이덴티티가 등록 된 갤러리를 검색하는 일 대 N 얼굴 인식 알
고리즘의 정확도와 속도 향상 측정
FRVT
MoRPH
얼굴 탐지 알고리즘의 지속적인 평가
프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공
1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하는 알고리즘 기
능
2. 모핑에 대한 얼굴 인식 알고리즘 저항
FRVT
Quality
Assesment
얼굴 이미지 품질 평가
단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가
Face In
Video
Evaluation
실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으로 주고 1분
동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러 사람, 사람이 없을 수도
있음)
DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해당하는 유사
도를 출력
평가 유형 설명
이미지
획득
시스템
평가
ㅇ RESTful API (HTTP) 로 통신
ㅇ 평가 항목
- Failure to Acquire Rate
- 이미지 획득 시간: 평균 10 초 이내 충족
- True Identification Rate:
보유한여러매칭알고리즘수행후95%이상식별해내는가?
- 획득한이미지가여러매칭알고리즘에서일관성있게동작하는가
- 사용자들이 평가 반영
매칭
알고리즘
평가
ㅇ RESTfulAPIHTTP서버기능이있는dockercontainer를제공
ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력
ㅇ 평가 항목
- True Identification Rate 와 False Matching Rate 비율
1:10,000, 1:100,000, 1:1,000,000
- 충족 조건: FMR 1:10,000에서 정확도 95% 이상
- 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사용하여 측정
- 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가
- 인식을성공하든,실패하든최대20초,평균5초이내수행
[ MdTF ]
54
평가 모델 – 안면인식 이미지
• 안면인식 시스템 성능평가 [이미지]
- 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단
- 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
거짓 부정 식별율 (FNIR)
(False Negative Identification
Rate)
실제로 등록된 사람 중,
알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율
거짓 긍정 식별율 (FPIR)
(False Positive Identification Rate)
실제로 등록되지 않은 사람 중,
알고리즘이 등록된 사람이라고 판단한 비율
55
평가 모델 – 안면인식 동영상
• 안면인식 시스템 성능평가 [동영상]
- 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단
- 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
재현율 (Recall)
영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중,
알고리즘이 누구인지 맞춘 시간대 비율
정밀도 (Precision)
알고리즘이 예측한 사람의 등장 시간대 범위 중,
영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율
※ loose, tight interval은 다음장에서 설명
56
평가 모델 고도화 – 이상행동
[ 수행 구간 정의 ]
1s 2s 4s 5s
3s 6s
알고리즘이 예측한 ‘돌진'
이상행동 구간
넓은 정의 구간 (loose interval)
대상 정의
loose interval
모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간
이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단
tight interval
모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간
이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단
재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66
[ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ]
좁은 정의 구간 (tight interval)
57
평가수행 및 결과
05.
평가 모델 시스템 구축
RTMP
• 테스트 베드의 평가 시스템 요구사항
- 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축
- 참여업체에서 개발된 프로그램 소스코드 보안 필요
- 환경을 고려한 시나리오 평가는 실시간으로 수행
• CCTV 사양
- Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도)
- 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각)
• 시스템 사양
- 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개
- 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니)
[ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ]
59
평가 수행 사전 준비
• 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지)
• 클라우드에서 접속 가능하도록 인터페이스 오픈
• 사전 테스트 기간 제공
[ 테스트 인터페이스 설명회 ] [ 사전 테스트 ]
[ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈]
60
평가 수행 후 결과 리포트 (이미지)
61
평가 수행 후 결과 리포트 (이미지)
62
평가 수행 후 결과 리포트 (이미지)
63
평가 수행 후 결과 리포트 (이미지)
64
AI 테스팅 전략
06.
AI 평가 모델 수행 전략
• 품질평가 기반 개선 포인트
컨설팅
- AI 품질 확보 방안 자문
- AI 성능 개선 자문
- AI 데이터 품질 자문
• 테스트 방법 컨설팅
- AI 테스트 가이드
• AI 모델 테스트(성능)
- AI 성능 지표 도출 방안 자문
- AI 성능 지표 기반 품질 확보방안을 도
출하는 방법 자문
• 데이터 테스트
- AI 데이터 품질‧양‧수준 확보방안 자
문
- 데이터 구성수준 자문
- AI 데이터 적합성 자문
• AI 시스템 테스트 & 기능 테스트 (인수
테스트)
테스트 베이시스
측정지표
• AI 성능지표
• 데이터 품질 지표
• 시스템 품질지표
• 모델 개발 산출물
- 학습/테스트 데이터 구성도
• AI프로파일
• 시스템 개발 산출물
◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행
◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함.
• AI 활용성 개선 컨설팅
66
AI 시스템 테스트 방안 – AI 모델 테스트
ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려
1) AI 프로파일
2) AI 테스트 데이터 세트
3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수)
4) 적절한 측정 횟수
AI 시스템 테스트 접근법
1) AI 모델 프로파일
4) 적절한 측정 횟수
3) AI 모델 측정지표
(AI 모델별 측정지표 or 손실함수)
2) AI 테스트 데이터 세트 측정 결과
AI 모델
67
ML Task 세분화 및 성능지표
◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는
모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함
비전 자연어 그 외
세분화
성능
지표
분류
F-Beat
Precision
Recall
ROC
PR-Curve
AUC
객체 인식
mAP
BBox
F-Beta
IoU
Confidence
객체 분할
BELU
F-Beta
MAP
MAE
Hit-Rate
생성
Inception
Score
FID
MS-SSIM
추정
PCP
PCK
PDJ
MPJPE
AUC
문장 분류
F-Beta
Precision
Recall
ROC
PR-Curve
AUC
문장 생성
F-Beta
BLEU
CIDR
METEOR
ROUGE-L
감정 분석
Accuracy
Recall
Precision
F-Beta
PR-Curve
ROC
AUC
추천 시스템
의료
음성
68

More Related Content

What's hot

Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 

What's hot (20)

SI 화면테스트(단위) 가이드
SI 화면테스트(단위) 가이드SI 화면테스트(단위) 가이드
SI 화면테스트(단위) 가이드
 
Airtest Mobile Game Automation
Airtest Mobile Game AutomationAirtest Mobile Game Automation
Airtest Mobile Game Automation
 
모바일 게임 테스트 자동화 (Appium 확장)
모바일 게임 테스트 자동화 (Appium 확장)모바일 게임 테스트 자동화 (Appium 확장)
모바일 게임 테스트 자동화 (Appium 확장)
 
50 Soruda Yazılım Testi
50 Soruda Yazılım Testi50 Soruda Yazılım Testi
50 Soruda Yazılım Testi
 
(편집-테스트카페 발표자료) 1인 QA 수행사례로 발표한 자료 (W프로젝트 사례)
(편집-테스트카페 발표자료) 1인 QA 수행사례로 발표한 자료 (W프로젝트 사례)(편집-테스트카페 발표자료) 1인 QA 수행사례로 발표한 자료 (W프로젝트 사례)
(편집-테스트카페 발표자료) 1인 QA 수행사례로 발표한 자료 (W프로젝트 사례)
 
量測儀器管理measurement instrument Q&A
量測儀器管理measurement instrument Q&A量測儀器管理measurement instrument Q&A
量測儀器管理measurement instrument Q&A
 
UTP(UML Testing Profile)概要紹介
UTP(UML Testing Profile)概要紹介UTP(UML Testing Profile)概要紹介
UTP(UML Testing Profile)概要紹介
 
Plano de teste
Plano de testePlano de teste
Plano de teste
 
VOC 활용사례_마인즈랩
VOC 활용사례_마인즈랩VOC 활용사례_마인즈랩
VOC 활용사례_마인즈랩
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
Test Automation Framework using Cucumber BDD overview (part 1)
Test Automation Framework using Cucumber BDD overview (part 1)Test Automation Framework using Cucumber BDD overview (part 1)
Test Automation Framework using Cucumber BDD overview (part 1)
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
SW 테스트 프로세스& 메뉴얼_V 모델
SW 테스트 프로세스& 메뉴얼_V 모델SW 테스트 프로세스& 메뉴얼_V 모델
SW 테스트 프로세스& 메뉴얼_V 모델
 
De a máxima cobertura nos seus testes de API
De a máxima cobertura nos seus testes de APIDe a máxima cobertura nos seus testes de API
De a máxima cobertura nos seus testes de API
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
 
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
 
[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.[NDC18] 나는 테스트 정책대로 살기로 했다.
[NDC18] 나는 테스트 정책대로 살기로 했다.
 
Visual Object Tracking: review
Visual Object Tracking: reviewVisual Object Tracking: review
Visual Object Tracking: review
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
 

Similar to AI 파이프라인과 실전 테스팅 전략

韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
fgf201213
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
효근 윤
 
Sua 정보보호관리체계 cissp_보안관리_강의교안
Sua 정보보호관리체계 cissp_보안관리_강의교안Sua 정보보호관리체계 cissp_보안관리_강의교안
Sua 정보보호관리체계 cissp_보안관리_강의교안
Lee Chanwoo
 

Similar to AI 파이프라인과 실전 테스팅 전략 (20)

인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례 인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례
 
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
 
NIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVTNIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVT
 
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
 
빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1
빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1
빅데이터 처리에 있어서 이미지/비디오 데이터의 분석 ver.1.1
 
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
빅데이터 처리에 있어서 이미지 비디오 데이터의 분석
 
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
Sua 정보보호관리체계 cissp_보안관리_강의교안
Sua 정보보호관리체계 cissp_보안관리_강의교안Sua 정보보호관리체계 cissp_보안관리_강의교안
Sua 정보보호관리체계 cissp_보안관리_강의교안
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
 

More from IMQA

모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
IMQA
 
[IMQA] performance consulting
[IMQA] performance consulting[IMQA] performance consulting
[IMQA] performance consulting
IMQA
 

More from IMQA (10)

[IMQA] 빠른 웹페이지 만들기 - 당신의 웹페이지는 몇 점인가요?
[IMQA] 빠른 웹페이지 만들기 - 당신의 웹페이지는 몇 점인가요?[IMQA] 빠른 웹페이지 만들기 - 당신의 웹페이지는 몇 점인가요?
[IMQA] 빠른 웹페이지 만들기 - 당신의 웹페이지는 몇 점인가요?
 
실 사례로 보는 고객 디지털 경험 지키기
실 사례로 보는 고객 디지털 경험 지키기실 사례로 보는 고객 디지털 경험 지키기
실 사례로 보는 고객 디지털 경험 지키기
 
Fault Tolerance 소프트웨어 패턴
Fault Tolerance 소프트웨어 패턴Fault Tolerance 소프트웨어 패턴
Fault Tolerance 소프트웨어 패턴
 
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)모니터링 영역의 변천사_클라우드, 디지털 경험까지)
모니터링 영역의 변천사_클라우드, 디지털 경험까지)
 
DHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology RallyDHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology Rally
 
[IMQA] performance consulting
[IMQA] performance consulting[IMQA] performance consulting
[IMQA] performance consulting
 
Performance consulting
Performance consultingPerformance consulting
Performance consulting
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우
 
Introduction of IMQA MPM Solution
Introduction of IMQA MPM SolutionIntroduction of IMQA MPM Solution
Introduction of IMQA MPM Solution
 
확장가능한 웹 아키텍쳐 구축 방안
확장가능한 웹 아키텍쳐 구축 방안 확장가능한 웹 아키텍쳐 구축 방안
확장가능한 웹 아키텍쳐 구축 방안
 

AI 파이프라인과 실전 테스팅 전략

  • 1. AI 파이프라인과 실전 테스팅 전략 데이터 품질 및 성능 지표 ONYCOM l CPO 손영수
  • 3. 머신러닝 분류 출처 : 생활코딩 머신러닝 3
  • 4. 머신러닝 분류 지도 학습 Supervised learning 강화학습 reinforcement learning 비지도 학습 unsupervised learning 정답이 있는 문제를 해결하는 것 데이터의 관찰을 통해 새로운 의미나 관계를 밝히는 것 더 좋은 보상을 받기 위해 수련하는 것 4
  • 7. 분류 (종속변수, 독립변수) 출처 : 생활코딩 머신러닝 독립변수 종속변수 학습시킬 데이터를 만드는 방법 공부시간 합격 여부 (합격/불합격) 사람들의 공부시간을 입력받고, 최종 합격여부를 확인한다. X-ray 사진과 영상 속 종양의 크기, 두께 악성종양 여부 (양성/음성) 의학적으로 양성과 음성이 확인된 사진과 영상 데이터를 모은다 품종, 산도, 당도, 지역, 연도 와인의 등급 소믈리에를 통해서 등급이 확인된 와인을 가지고 품종, 산도 등의 독립변수를 정하고 기록한다. 키, 몸무게, 시력, 지병 현역, 공익, 면제 키, 몸무게, 시력, 지병 등을 토대로 현역, 공익, 면제인지를 확인한다. 메일 발신인, 제목, 본문 내용 (사용된 단어, 이모티콘 등) 스팸 메일 여부 이제부터 받은 메일을 모으고, 이들을 스팸 메일과 일반 메일로 구분한다. 고기의 지방함량, 지방색, 성숙도, 육색 소고기 등급 소고기의 정보를 토대로 등급을 측정한다. 7
  • 9. AI PIPELINE (파이프라인) 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 모델 평가 재학습 9
  • 10. AI 테스팅,품질 관리 담당자/기업이 해야 할일 원하는 AI 모델 원천 데이터 비 가공된 데이터 현실성 판단 불가 축적 활용 데이터 품질 체크 데이터 추출 학습 데이터 품질 체크 AI 모델 품질 모델 성능 측정 도구 평가데이터 구축 빠른 성능 리포트 배포 우수한 모델 선정 선정 방법및 절차 모름 AI 도입기업 AI 테스팅 / 품질 기업 AI 모델 기업 다수 AI 모델 개발 데이터 가공 데이터 가공 이미지/영상/텍스트 데이터 정제 학습 축적 활용 10
  • 11. AI 생애주기 11 구분 1. 데이터 수집 및 전처리 2. AI 모델 설계 및 개발 3. 시스템 구현 및 배포 4. 운영 내용 • 수집 • 이용/제공 (전처리,가명처리) • 파기/보관 • 설계/개발 • 모델적용/초기학습 • 비즈니스적용/심화 • 테스트 • 출시 • 개선 • 조직, 유지 및 보수, 서비스 정책, 내부 교육 등 (상시) 기술적 이슈 • 개인정보 무단 수집 여부 체크 • 개인정보 비식별화 • 데이터 수집의 편향성(인종, 성, 특정 집단 등) 이슈 • 잘못된 의사결정(개발자의 데 이터 활용 여부) • 데이터 관리 및 분석 인력 부족 • 데이터 변조 등 공격 • XAI 적용의 한계 • 개발자의 선입견 • 잘못된 의사결정(알고리즘) • AI 모델의 편향성 • 개발인력의 다양성 부재(성비 문 제 등) • 신뢰성 관련 전문인력의 부족 • AI 오작동 • 자동화된 AI의 공정성 이슈 • AI의 판단기준(블랙박스) • 해킹 등 보안 문제 • 사용자의 악의적 사용 • 내부 모니터링 부재 • 고객 피드백 문제 • AI에 대한 대중의 기대치와 성능의 괴리감 정책적 이슈 • 데이터 수집 매뉴얼 부재 • 자체 공정성 시험 체계 부족 • 사후 편향성 스크리닝 체계성 부족 • 확증편향성 문제 • 추적/감사 정책 및 대응 매뉴얼 부 재 *음성인식(인식,정제) → 자연어 처리(독해, 분류, 생성) → 추천 (분석, 추천)
  • 12. EDA (Exploratory Data Analysis) SweetViz https://github.com/fbdesignpro/sweetviz 두줄로 간단히 하는 EDA https://bit.ly/3De2KBu 12
  • 14. 데이터의 구문 정합성 (라벨링) 체크 14
  • 16. 데이터의 편향성 체크가 핵심 정규분포 대부분의 데이터는 정규 분포 /이대 로 학습하면 편향성 발생 AI 스피커 인식시. (소아, 장애인은 인식 못하는 경우) 균등분포 “그래서 데이터를 균등 분포를 만들어 학습 하는것이 좋다” 16
  • 17. 데이터 부족하면… (GAN) GAN (Generative Adversarial Networking) 17
  • 18. 데이터 부족하면… (GAN) GAN (Generative Adversarial Networking) 으로 생김새를… 18
  • 19. AI PIPELINE (파이프라인) 설명 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 모델 평가 재학습 19
  • 20. 모델은 너무 많아요. (가져다 쓰시는게 편함) 안면 인식 모델 공개된 것만 16개 이상… 참고자료 https://github.com/seriousran/face-recognition 20
  • 21. 최고의 모델 + 최적의 매개변수 = 하이퍼 파라메터 최적화 신경망에서는 다수의 매개변수 (하이퍼 파라메터)가 존재 각 층의 뉴런 수 배치 크기 학습률 가중치 감소 21
  • 23. AI PIPELINE (파이프라인) 설명 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 재학습 모델 평가 23
  • 24. 모델의 성능 평가지표 (혼동 행렬 = Confusion Matrix) 실제 정답 TRUE FALSE 분류 결과 TRUE FALSE True Positive(TP) 실제 True인 정답을 True라고 예측 (정답) False Positive(FP) 실제 False인 정답을 True라고 예측 (오답) False Negative(FN) 실제 True인 정답을 False라고 예측 (오답) True Negative(TN) 실제 False인 정답을 False라고 예측 (정답) 24
  • 25. 모델의 성능 평가지표 Precision 정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율 날씨 예측 모델이 맑다로 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표 Recall 재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율 실제 날씨가 맑은 날 중에서 모델이 맑다고 예측한 비율을 나타낸 지표 Trade-off : 확실히 맑은 날을 예측할 수 있다면 해당하는 날에만 맑은 날이라고 예측하면 되겠다. 예를 들어 한달 30일 동안 맑은 날이 20일이었는데, 확실한 2일만 맑다고 예측한다면, 당연히 맑다고 한 날 중에 실제 맑은 날(Precision)은 100%가 나오게 됩니다. 이게 정상인가? 우리는 실제 맑은 20일중에 모델이 예측한 맑은 날의 수도 고려해야 한다. 25
  • 26. 모델의 성능 평가지표 실제 정답 TRUE FALSE 분류 결과 TRUE FALSE True Positive(TP) False Positive(FP) False Negative(FN) True Negative(TN) Accuracy 지금까지 True를 True라고 옳게 예측한 경우에 대해서만 다루었습니다. 하지만, False를 False라고 예측한 경우도 옳은 경우입니다 정확도 26
  • 27. 모델의 성능 평가지표 Accuracy 정확도 정확도 의 단점 데이터가 편향되어 있을 경우… 이 경우에는 해당 data의 domain이 불균형 하게 되므로 맑은 것을 예측하는 성능은 높지만, 비가 오는 것을 예측하는 성능은 매우 낮을 수 밖에 없음. “비가 안 오는 아프리카 지역이라면….” 27
  • 28. 모델의 성능 평가지표 F1 Score 데이터가 편향되어 있을 경우… Precision, Recall 의 조화 평균 즉. 단순 평균보다 작은 쪽으로 치우치는 평균 28
  • 29. 모델의 성능 평가지표 Sensitivity 병에 걸린 사람이 검사결과 양성으로 나올 확률 TP / (TP + FN 민감도 Specificity 건강한 사람이 검사 결과 음성으로 나올 확률 TN/(TN+FP) 특이도 29
  • 30. 모델의 성능 평가지표 1) 적절한 평가 기준을 찾기 2) 모든 평가 기준에 최적의 해는? ROC 수신자 조작 곡선 Receiving Operating Characteristic 평가하는 사람마다 기준이 다를 때. 30
  • 31. 모델의 성능 평가지표 ROC X,Y축 X = TPR(True Positive Rate = recall = sensitivity)은 실제 참(True)인데 참(Positive)이라 예측한 경우 Y = FPR(False Positive Rate)은 실제 거짓(False)인데 참(Positive)이라 잘못 예측한 경우 31
  • 32. 모델의 성능 평가지표 ROC-AUC (Area Under Curve) or AUROC (Area Under ROC) 하위 면적이 1(100)에 가까울수록 좋은 알고리즘 기준을 이렇게 해도, 저렇게 해도 잘 분류하는 알고리즘 32
  • 33. 그런데.. 알고리즘이 다들 너무 우수한 영역이라면 A 알고리즘 비정확도 = 0.0001% A 알고리즘 정확도 = 99.9999% B 알고리즘 비정확도 = 0.0009% B 알고리즘 정확도 = 99.9991% C 알고리즘 비정확도 = 0.0011% C 알고리즘 정확도 = 99.9989% 33
  • 34. 모델의 성능 평가지표 ROC X,Y축을 못 맞추는 비율로 변경 X = FRR(False Rejection Rate = False Positive Rate) 정당한 주체가 잘못 거절되는 비율 (본인 거부율 = 생체인식에서 인식되어야 하는 사림인데 거부되는 비율) (정상 오인율 = 정상 부품을 이상 부품이라고 인식하는 비율) Y = FAR(False Acceptance Rate = False Negative Rate). 정당하지 않는 주체가 잘못 인정되는 비율 (타인 수락율 = 생체인식에서 인식되어서는 안될 사람을 인식하는 비율) (잘못 허용율 = 이상 부품을 정상 부품이라고 인식하는 비율) 34
  • 35. 못 맞추는 비율의 면적 (AUROC)이 0 에 수렴하면 좋은 그래프 35
  • 36. 지표보다 더 중요한건.. 평가 데이터 (사견) 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 모델 평가 재학습 36
  • 37. 평가 데이터 구성 노트북이라고 인식할 비율 99.9999% 하지만 현실은.. 37
  • 38. 평가 데이터 구성 (이렇게 주면…) 장애물로 가려도 측면에서도 인식을 할 수 있나 포장지로 쌓여 있을 때는 ? ? ? 38
  • 39. 데이터 편향성 체크가 핵심 39 백인, 남성 특권 그룹 Privileged group 비특권 그룹 unprivileged group 흑인, 여성
  • 40. 지표보다 더 중요한건.. 평가 데이터 (사견) 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 모델 평가 재학습 40
  • 41. ? 그 외에도.. 임베디드 환경에서도 돌아가나? CPU, 메모리 , GPU 사용율… ? 얼마나 빠르게 결과를 도출하느냐? (TPS = 초당 판독율)… 41
  • 43. 사업소개 – 안면 인식의 필요성 (인천공항 법무부) 43
  • 44. 안면인식 시험 해외 사례 - NIST 미국 국립 표준 기술연구소 - FRVT • 이미지 위주의 평가 분석 • C/C++ 언어만 지원 (DLL로 제출, 언어의 제약이 심함) • GPU가 없는 제한된 환경에서 테스트 (임베디드 환경) • 1:1(Verification)의 특정 조건에 통과해야만, 1:N(Identification) 이후 테스트에 진입 가능 • 오랜 기간 수행하는 안정성 테스트 없음 • 이상행동 테스트 없음 • 영상 테스트는 존재하나 1분 내의 동영상을 다 읽고 판별 (실시간성 부족) 시사점 FERET의 이미지 데이터 샘플 • 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가 • 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가 • 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률), 타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등 • 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가 • 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에 따른 성능을 실험 • 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가 • 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭 비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번 비교 수행) • 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행 • 전 시험 과정을 완전 자동화 FERET(FacE REcognition Technology) [1993년 ~ 1997년] FRVT(Face Recognition Vendor Test) [2000년] FRVT(Face Recognition Vendor Test) [2008년] 44
  • 45. • 다양한 밴더들이 참가할 수 있게 표준화된 Restful API 인터페이스 제공 • 공항 상황에서 여권 인식을 잘 수행하기 위한 최적화된 모델 • 인식률도 중요하나, 평균 5초, 최대 20초 안에 결과 출력 필수 됨 • 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델 • 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내 • 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋) • 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지) • 인식하는데 걸리는 시간 • 만족도 (지원자가 Very Happy ~ Very Unhappy) • 얼굴, 홍채 획득 실패와 시간 • 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교) 안면인식 시험 해외 사례 - 미국 국토안보부 MdTF (Maryland Test Facility) 시사점 배경 개발방법 평가지표 45
  • 46. • 8채널 동시 테스트 • 실시간 이상행동 감지 테스트 • 공항에 최적화된 테스트 환경 다중 카메라에 의한 식별추적 예시 • 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출 • 낮은 해상도에서도 안면인식 알고리즘의 동작여부. • 실시간으로 이상행동을 감지. • 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함. • 8개의 채널을 1대의 GPU서버에서 처리 Nvidia Geforce RTX 2080,CPU 10 Core, 512GB • 이미지 테스트 : 1:1, 1:N • 동영상 안면인식 테스트 : 1:1, 1:N • 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식 BFRWD5 법무부의 요구사항 배경 개발방법 평가지표 시사점 46
  • 47. [심사 대기 구역] [유인 심사대 구역] 기반환경 구축 47
  • 49. 머신러닝 파이프라인 5000개의 이상행동 데이터 5000개의 이상행동 검증 데이터 튜닝 모델 선정 학습 데이터 준비 데이터 조사 ML Model Training 경량화 & 배포 모델 평가 재학습 1천만명 외국인 데이터 1억1천만명 외국인 데이터 49
  • 50. 안면인식 이미지 구성 (19년도) 각도(D) 정면 상 하 좌 우 좌상 우상 좌하 우하 표정(F) 무표정 찡그림 웃음 눈감음 악세서리(A) 모자 목베개 사탕(막대사탕) 마스크(턱밑) 안경 귀걸이 안경 + 모자 모자 + 사탕 조명 밝음 좌 우 역광 어두움 배경(B) 단색 혼합 옷(C) 단색 혼합 헤어스타일(H) 올림 내림 푼머리 묶은머리 화장(M) 일반 기초 • 안면 인식 테스트를 위한 검증 데이터 구성 - 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진) - 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성 성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세) 동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성 • 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성 [안면 데이터 변화 요인] 50
  • 51. 안면인식 평가 이미지 구성 (20년도) 나이, 성별등을 고려한 균등 분포로 평가 데이터 셋 구성 51
  • 52. 이상행동 데이터 학습 데이터 생성 • 동영상에서 1:1, 1:N 식별 • 이상행동 요구사항 - 총 4종류의 이상행동 감지 : 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지 (단, 2인 감지 행위는 자동출입국심사구역에서만 발생) - 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등 - 이상 행동 시 4채널 카메라에서 사용자를 추적하여 식별 필요 등 이상행동 종류 이벤트 시작기준 이벤트 종료기준 2인 감지 • 두 사람의 두 발이 완전하게 평가 영역 바닥에 들어온 순간 • 최소 한 사람의 두 발이 완전하게 평가 영역에서 나가는 순간 돌진 • 객관적으로 뛰는 동작이 시작되는 순간 • 객관적으로 뛰는 동작이 종료되는 순간 역주행 • 몸이 바라보는 방향은 상관없이 이동 방향 성분에 서 반대 방향 성분이 있는 순간 • 역방향으로 이동 성분이 사라지는 순간 장시간 물건 방치 • 신체에서 물건이 떨어지고 5초 지난 순간 • 어느 누구든 신체 일부가 물체에 닿는 순간 [이상행동 정의] 돌진 장시간 물건 방치 52
  • 53. 평가 모델 및 환경 구축 04.
  • 54. 기존 표준 분석 반영 [ FRVT ] 평가 유형 설명 FRVT 1:1 얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서 FNMR (False Non-Match Rate)로 측정 된 최고 1 : 1 성능의 알고리즘 평가 FRVT 1:N FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만 심사 참여 가 능, 다수의 아이덴티티가 등록 된 갤러리를 검색하는 일 대 N 얼굴 인식 알 고리즘의 정확도와 속도 향상 측정 FRVT MoRPH 얼굴 탐지 알고리즘의 지속적인 평가 프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공 1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하는 알고리즘 기 능 2. 모핑에 대한 얼굴 인식 알고리즘 저항 FRVT Quality Assesment 얼굴 이미지 품질 평가 단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가 Face In Video Evaluation 실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으로 주고 1분 동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러 사람, 사람이 없을 수도 있음) DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해당하는 유사 도를 출력 평가 유형 설명 이미지 획득 시스템 평가 ㅇ RESTful API (HTTP) 로 통신 ㅇ 평가 항목 - Failure to Acquire Rate - 이미지 획득 시간: 평균 10 초 이내 충족 - True Identification Rate: 보유한여러매칭알고리즘수행후95%이상식별해내는가? - 획득한이미지가여러매칭알고리즘에서일관성있게동작하는가 - 사용자들이 평가 반영 매칭 알고리즘 평가 ㅇ RESTfulAPIHTTP서버기능이있는dockercontainer를제공 ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력 ㅇ 평가 항목 - True Identification Rate 와 False Matching Rate 비율 1:10,000, 1:100,000, 1:1,000,000 - 충족 조건: FMR 1:10,000에서 정확도 95% 이상 - 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사용하여 측정 - 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가 - 인식을성공하든,실패하든최대20초,평균5초이내수행 [ MdTF ] 54
  • 55. 평가 모델 – 안면인식 이미지 • 안면인식 시스템 성능평가 [이미지] - 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단 - 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단 대상 평가지표 평가척도 평가방법 1-1 매칭 정확성 거짓 거부율 (FRR) (False Rejection Rate) 실제로 같은 사람인 경우 중, 알고리즘이 다른 사람이라고 판단한 비율 거짓 수락율 (FAR) (False Acceptance Rate) 실제로 다른 사람인 경우 중, 알고리즘이 같은 사람이라고 판단한 비율 1-N 매칭 정확성 거짓 부정 식별율 (FNIR) (False Negative Identification Rate) 실제로 등록된 사람 중, 알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율 거짓 긍정 식별율 (FPIR) (False Positive Identification Rate) 실제로 등록되지 않은 사람 중, 알고리즘이 등록된 사람이라고 판단한 비율 55
  • 56. 평가 모델 – 안면인식 동영상 • 안면인식 시스템 성능평가 [동영상] - 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단 - 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단 대상 평가지표 평가척도 평가방법 1-1 매칭 정확성 거짓 거부율 (FRR) (False Rejection Rate) 실제로 같은 사람인 경우 중, 알고리즘이 다른 사람이라고 판단한 비율 거짓 수락율 (FAR) (False Acceptance Rate) 실제로 다른 사람인 경우 중, 알고리즘이 같은 사람이라고 판단한 비율 1-N 매칭 정확성 재현율 (Recall) 영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중, 알고리즘이 누구인지 맞춘 시간대 비율 정밀도 (Precision) 알고리즘이 예측한 사람의 등장 시간대 범위 중, 영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율 ※ loose, tight interval은 다음장에서 설명 56
  • 57. 평가 모델 고도화 – 이상행동 [ 수행 구간 정의 ] 1s 2s 4s 5s 3s 6s 알고리즘이 예측한 ‘돌진' 이상행동 구간 넓은 정의 구간 (loose interval) 대상 정의 loose interval 모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간 이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단 tight interval 모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간 이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단 재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66 [ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ] 좁은 정의 구간 (tight interval) 57
  • 59. 평가 모델 시스템 구축 RTMP • 테스트 베드의 평가 시스템 요구사항 - 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축 - 참여업체에서 개발된 프로그램 소스코드 보안 필요 - 환경을 고려한 시나리오 평가는 실시간으로 수행 • CCTV 사양 - Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도) - 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각) • 시스템 사양 - 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개 - 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니) [ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ] 59
  • 60. 평가 수행 사전 준비 • 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지) • 클라우드에서 접속 가능하도록 인터페이스 오픈 • 사전 테스트 기간 제공 [ 테스트 인터페이스 설명회 ] [ 사전 테스트 ] [ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈] 60
  • 61. 평가 수행 후 결과 리포트 (이미지) 61
  • 62. 평가 수행 후 결과 리포트 (이미지) 62
  • 63. 평가 수행 후 결과 리포트 (이미지) 63
  • 64. 평가 수행 후 결과 리포트 (이미지) 64
  • 66. AI 평가 모델 수행 전략 • 품질평가 기반 개선 포인트 컨설팅 - AI 품질 확보 방안 자문 - AI 성능 개선 자문 - AI 데이터 품질 자문 • 테스트 방법 컨설팅 - AI 테스트 가이드 • AI 모델 테스트(성능) - AI 성능 지표 도출 방안 자문 - AI 성능 지표 기반 품질 확보방안을 도 출하는 방법 자문 • 데이터 테스트 - AI 데이터 품질‧양‧수준 확보방안 자 문 - 데이터 구성수준 자문 - AI 데이터 적합성 자문 • AI 시스템 테스트 & 기능 테스트 (인수 테스트) 테스트 베이시스 측정지표 • AI 성능지표 • 데이터 품질 지표 • 시스템 품질지표 • 모델 개발 산출물 - 학습/테스트 데이터 구성도 • AI프로파일 • 시스템 개발 산출물 ◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행 ◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함. • AI 활용성 개선 컨설팅 66
  • 67. AI 시스템 테스트 방안 – AI 모델 테스트 ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려 1) AI 프로파일 2) AI 테스트 데이터 세트 3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수) 4) 적절한 측정 횟수 AI 시스템 테스트 접근법 1) AI 모델 프로파일 4) 적절한 측정 횟수 3) AI 모델 측정지표 (AI 모델별 측정지표 or 손실함수) 2) AI 테스트 데이터 세트 측정 결과 AI 모델 67
  • 68. ML Task 세분화 및 성능지표 ◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는 모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함 비전 자연어 그 외 세분화 성능 지표 분류 F-Beat Precision Recall ROC PR-Curve AUC 객체 인식 mAP BBox F-Beta IoU Confidence 객체 분할 BELU F-Beta MAP MAE Hit-Rate 생성 Inception Score FID MS-SSIM 추정 PCP PCK PDJ MPJPE AUC 문장 분류 F-Beta Precision Recall ROC PR-Curve AUC 문장 생성 F-Beta BLEU CIDR METEOR ROUGE-L 감정 분석 Accuracy Recall Precision F-Beta PR-Curve ROC AUC 추천 시스템 의료 음성 68